視頻模型原生支持動作一致，只是你不會用！揭開「首幀」的秘密

2025-11-28 00:08:22　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導(dǎo)讀】最新方法FFGo改變了我們對視頻生成模型中第一幀的理解。第一幀并非簡單起點，而是模型的「概念記憶體」，存儲了后續(xù)畫面的視覺元素。FFGo通過少量樣本和特殊訓(xùn)練，激活模型的這種能力，實現(xiàn)高質(zhì)量的視頻定制，無需修改模型結(jié)構(gòu)或大量數(shù)據(jù)，為視頻生成開辟了新方向。

在Text-to-Video / Image-to-Video 技術(shù)突飛猛進的今天，我們已經(jīng)習慣了這樣一個常識：

視頻生成的第一幀（First Frame）只是時間軸的起點，是后續(xù)動畫的起始畫面。

但馬里蘭大學、南加利福尼亞大學、麻省理工學院的最新研究發(fā)現(xiàn)：第一幀的真正角色完全不是「起點」，它其實是視頻模型的「概念記憶體」（conceptual memory buffer）, 所有后續(xù)畫面引用的視覺實體，都被它默默儲存在這一幀里。

論文鏈接：https://arxiv.org/abs/2511.15700

項目主頁：http://firstframego.github.io

該研究的出發(fā)點，源于對視頻生成模型中一個廣泛存在但尚未被系統(tǒng)研究的現(xiàn)象的深入思考。

論文的核心洞察非常大膽：視頻生成模型會自動把首幀中的角色、物體、紋理、布局等視覺實體，全部「記住」，并在后續(xù)幀中不斷復(fù)用。

換句話說，不論你給多少參考物體，模型都會在第一幀悄悄把它們打包成一個「概念藍圖（blueprint）」。

研究者用Veo3、Sora2、Wan2.2等視頻模型測試發(fā)現(xiàn)：

若首幀出現(xiàn)多對象組合, 在很少的情況下，通過使用特殊的轉(zhuǎn)場提示詞，模型在后續(xù)幀里能自然融合它們, 甚至能支持跨場景轉(zhuǎn)場、保持角色屬性一致；

但是這個神奇的轉(zhuǎn)場提示詞對于每個模型，每個要生成的視頻都是不一樣的，而且模型在轉(zhuǎn)場融合多物體后常常會產(chǎn)生物體，場景一致性損失，或者物體丟失的問題。

這說明：

? 第一幀是模型「記憶」外來參考的地方

? 但默認情況下，這種能力「不穩(wěn)定、不可控」

FFGo方法

不改結(jié)構(gòu)、不大規(guī)模微調(diào)，只用20–50個例子就能讓任何預(yù)訓(xùn)練的視頻模型變身強大的「參考圖驅(qū)動視頻定制系統(tǒng)」。

研究者基于這個洞見提出了一套極其輕量的做法 :FFGo。

關(guān)鍵優(yōu)勢震撼整個行業(yè)：

? 不修改任何模型結(jié)構(gòu)? 不需要百萬級訓(xùn)練數(shù)據(jù)? 只需 20–50 個 carefully curated 的視頻例子? 幾個小時的 LoRA 訓(xùn)練? 就能實現(xiàn)SOTA級別的視頻內(nèi)容定制

這在現(xiàn)有方法中幾乎是不可想象的。

研究人員列出了6大應(yīng)用場景：

機器人操作（Robot Manipulation）
自動駕駛模擬（Driving Simulation）
航拍/水下/無人機模擬（Aerial / Underwater）
多產(chǎn)品展示
影視制作
任意多角色組合視頻生成

用戶只需要給模型一張包含多個物體/角色的首幀，再配一個文本prompt，F(xiàn)FGo就能讓模型自動「記住」所有元素并生成交互視頻, 且畫面一致性、物體身份保持、動作連貫都非常強，甚至支持「多達5個參考實體同時融合」, 而 VACE/SkyReels-A2限制在3個以內(nèi)，會直接漏物體。

技術(shù)亮點

用VLM自動構(gòu)建20–50條高質(zhì)量訓(xùn)練集

用Gemini-2.5 Pro自動識別前景物體, 用SAM2提取RGBA mask, 自動生成視頻文本描述,構(gòu)建適配視頻模型輸入的訓(xùn)練樣本, 這大大降低了手工工作量。

使用Few-shot LoRA激活模型「記憶機制」

研究發(fā)現(xiàn)：

模型天然具備融合多參考物體的能力, 但默認難以「觸發(fā)」
一段特殊prompt（如「ad23r2 the camera view suddenly changes」）能起到「轉(zhuǎn)場信號」的作用
LoRA學到的不是新能力，而是「如何觸發(fā)這些能力」，推理時只需丟掉前4幀（Wan2.2的壓縮幀）

視頻真正的混合內(nèi)容在第5幀之后開始。前4幀是壓縮幀，直接舍棄即可。

FFGo為什么這么強？

研究人員做了大量對比實驗：? FFGo 能保持物體身份一致性（Identity Preservation）? 能處理更多參考對象（5個 vs 3個）? 能避免大模型微調(diào)帶來的「災(zāi)難性遺忘」? 輸出畫面更自然、更連貫

特別是在多物體場景和通用的多物體互動場景下 FFGo的生成效果顯著優(yōu)于VACE和SkyReels-A2。

基礎(chǔ)模型偶爾「成功」，代表了什么？

在研究FFGo的過程中，有一個特別關(guān)鍵的實驗圖示值得單獨拿出來說：在偶爾的、極罕見的情況下，Wan2.2原始I2V模型也能完成一次「完美」的任務(wù)：

多個參考物體沒有消失
場景轉(zhuǎn)場保持穩(wěn)定
動作連貫、身份一致
與文本提示（例如 wingsuit 飛行者與 Cybertruck 貼合運動）高度匹配

如果只看這一組結(jié)果，你甚至會以為原始模型本身就具備穩(wěn)定的多對象融合能力。

但事實恰恰相反，成功的意義并不在于「基礎(chǔ)模型表現(xiàn)很好」，而是在于：基礎(chǔ)模型本來就「擁有」這種能力，只是大多數(shù)時候無法被穩(wěn)定激活。

研究團隊的洞察在這里被證實：

? 視頻生成模型確實會把多個參考實體存進第一幀的內(nèi)部記憶結(jié)構(gòu)中? 視頻模型本身能執(zhí)行「多對象+動作一致」的生成? 但這種行為默認幾乎不可控、不穩(wěn)定、難復(fù)現(xiàn)

這就像模型體內(nèi)藏著一塊「隱藏 GPU」，偶爾會亮一下，但你完全不能指望它全天候工作。

FFGo不是教會模型新能力，而是讓它「穩(wěn)定發(fā)揮」

在上述對比中，F(xiàn)FGo的結(jié)果與原始模型的「偶爾成功結(jié)果」幾乎一致，這說明：FFGo的LoRA不是在重寫模型，而是在激活已有的潛在能力。

換句話說：原始模型=有潛力，但無法持續(xù)發(fā)揮，而FFGo=讓潛力變成穩(wěn)定能力（且不破壞預(yù)訓(xùn)練知識）

論文中提到，F(xiàn)FGo能保留原模型的生成質(zhì)量，而不是像傳統(tǒng)大規(guī)模微調(diào)那樣犧牲泛化能力, 沒有任何微調(diào)可以媲美預(yù)訓(xùn)練的數(shù)據(jù)質(zhì)量和學習效果。

這個實驗也證明了一件極具革命性的事：首幀本身就具備「概念記憶體」的角色、視頻模型天生可以做多對象融合、關(guān)鍵只是缺乏一個「觸發(fā)機制」。

FFGo做的就是：用幾十條樣本、一個精心設(shè)計的轉(zhuǎn)場標記（transition phrase）、Few-shot LoRA，把這種能力重新「開機」，并且讓它可控、穩(wěn)定、可靠。

這也是為什么：FFGo能用20–50個樣例，把SOTA模型甩在身后。

這個實驗所傳達的，本質(zhì)上就是一句話：視頻模型已經(jīng)足夠強，只是我們過去一直沒有找到正確的用法。

而FFGo正是在教我們一件事：如何「正確使用」視頻生成模型。

總結(jié)

用一句話概括這篇論文的研究意義：它不是讓模型學會新能力，而是教我們?nèi)绾问褂媚Ｐ鸵呀?jīng)擁有但從未被正確利用的能力。

研究人員提出了一個極具啟發(fā)性的未來方向：

更聰明地使用模型，而不是更暴力地訓(xùn)練模型用更少的數(shù)據(jù)、更輕的微調(diào)，獲得更強的定制能力把「首幀作為概念記憶體」變成視頻生成的新范式

總之，在視頻模型中：

第一幀不是起點，而是模型的「記憶庫」，視頻模型天然具備多對象融合能力
FFGo用極低成本把這種能力「喚醒」，不改結(jié)構(gòu)、不用大數(shù)據(jù)，僅20–50個例子即可實現(xiàn)SOTA視頻定制
實驗覆蓋機器人、駕駛、影視等多場景，用戶研究中以81.2%票數(shù)大幅領(lǐng)先

這篇論文不只是一個技術(shù)突破，更像是打開了視頻生成模型的「隱藏技能樹」。

參考資料：

https://arxiv.org/abs/2511.15700

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

UniV

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.