![]()
新智元報道
編輯:LRST
【新智元導(dǎo)讀】最新方法FFGo改變了我們對視頻生成模型中第一幀的理解。第一幀并非簡單起點,而是模型的「概念記憶體」,存儲了后續(xù)畫面的視覺元素。FFGo通過少量樣本和特殊訓(xùn)練,激活模型的這種能力,實現(xiàn)高質(zhì)量的視頻定制,無需修改模型結(jié)構(gòu)或大量數(shù)據(jù),為視頻生成開辟了新方向。
在Text-to-Video / Image-to-Video 技術(shù)突飛猛進的今天,我們已經(jīng)習慣了這樣一個常識:
視頻生成的第一幀(First Frame)只是時間軸的起點,是后續(xù)動畫的起始畫面。
但馬里蘭大學、南加利福尼亞大學、麻省理工學院的最新研究發(fā)現(xiàn):第一幀的真正角色完全不是「起點」,它其實是視頻模型的「概念記憶體」(conceptual memory buffer), 所有后續(xù)畫面引用的視覺實體,都被它默默儲存在這一幀里。
![]()
論文鏈接:https://arxiv.org/abs/2511.15700
項目主頁:http://firstframego.github.io
該研究的出發(fā)點,源于對視頻生成模型中一個廣泛存在但尚未被系統(tǒng)研究的現(xiàn)象的深入思考。
![]()
論文的核心洞察非常大膽:視頻生成模型會自動把首幀中的角色、物體、紋理、布局等視覺實體,全部「記住」,并在后續(xù)幀中不斷復(fù)用。
換句話說,不論你給多少參考物體,模型都會在第一幀悄悄把它們打包成一個「概念藍圖(blueprint)」。
研究者用Veo3、Sora2、Wan2.2等視頻模型測試發(fā)現(xiàn):
若首幀出現(xiàn)多對象組合, 在很少的情況下,通過使用特殊的轉(zhuǎn)場提示詞 ,模型在后續(xù)幀里能自然融合它們, 甚至能支持跨場景轉(zhuǎn)場、保持角色屬性一致;
但是這個神奇的轉(zhuǎn)場提示詞 對于每個模型,每個要生成的視頻都是不一樣的,而且模型在轉(zhuǎn)場融合多物體后常常會產(chǎn)生物體,場景一致性損失,或者物體丟失的問題。
![]()
這說明:
? 第一幀是模型「記憶」外來參考的地方
? 但默認情況下,這種能力「不穩(wěn)定、不可控」
FFGo方法
不改結(jié)構(gòu)、不大規(guī)模微調(diào),只用20–50個例子就能讓任何預(yù)訓(xùn)練的視頻模型變身強大的「參考圖驅(qū)動視頻定制系統(tǒng)」。
研究者基于這個洞見提出了一套極其輕量的做法 :FFGo。
關(guān)鍵優(yōu)勢震撼整個行業(yè):
? 不修改任何模型結(jié)構(gòu)? 不需要百萬級訓(xùn)練數(shù)據(jù)? 只需 20–50 個 carefully curated 的視頻例子? 幾個小時的 LoRA 訓(xùn)練? 就能實現(xiàn)SOTA級別的視頻內(nèi)容定制
這在現(xiàn)有方法中幾乎是不可想象的。
![]()
研究人員列出了6大應(yīng)用場景:
![]()
機器人操作(Robot Manipulation)
自動駕駛模擬(Driving Simulation)
航拍/水下/無人機模擬(Aerial / Underwater)
多產(chǎn)品展示
影視制作
任意多角色組合視頻生成
用戶只需要給模型一張包含多個物體/角色的首幀,再配一個文本prompt,F(xiàn)FGo就能讓模型自動「記住」所有元素并生成交互視頻, 且畫面一致性、物體身份保持、動作連貫都非常強,甚至支持「多達5個參考實體同時融合」, 而 VACE/SkyReels-A2限制在3個以內(nèi),會直接漏物體。
![]()
技術(shù)亮點
![]()
用VLM自動構(gòu)建20–50條高質(zhì)量訓(xùn)練集
用Gemini-2.5 Pro自動識別前景物體, 用SAM2提取RGBA mask, 自動生成視頻文本描述,構(gòu)建適配視頻模型輸入的訓(xùn)練樣本, 這大大降低了手工工作量。
使用Few-shot LoRA激活模型「記憶機制」
研究發(fā)現(xiàn):
模型天然具備融合多參考物體的能力, 但默認難以「觸發(fā)」
一段特殊prompt(如「ad23r2 the camera view suddenly changes」)能起到「轉(zhuǎn)場信號」的作用
LoRA學到的不是新能力,而是「如何觸發(fā)這些能力」,推理時只需丟掉前4幀(Wan2.2的壓縮幀)
視頻真正的混合內(nèi)容在第5幀之后開始。前4幀是壓縮幀,直接舍棄即可。
FFGo為什么這么強?
研究人員做了大量對比實驗:? FFGo 能保持物體身份一致性(Identity Preservation)? 能處理更多參考對象(5個 vs 3個)? 能避免大模型微調(diào)帶來的「災(zāi)難性遺忘」? 輸出畫面更自然、更連貫
特別是在多物體場景和通用的多物體互動場景下 FFGo的生成效果顯著優(yōu)于VACE和SkyReels-A2。
![]()
![]()
基礎(chǔ)模型偶爾「成功」,代表了什么?
![]()
在研究FFGo的過程中,有一個特別關(guān)鍵的實驗圖示值得單獨拿出來說:在偶爾的、極罕見的情況下,Wan2.2原始I2V模型也能完成一次「完美」的任務(wù):
多個參考物體沒有消失
場景轉(zhuǎn)場保持穩(wěn)定
動作連貫、身份一致
與文本提示(例如 wingsuit 飛行者與 Cybertruck 貼合運動)高度匹配
如果只看這一組結(jié)果,你甚至會以為原始模型本身就具備穩(wěn)定的多對象融合能力。
但事實恰恰相反,成功的意義并不在于「基礎(chǔ)模型表現(xiàn)很好」,而是在于:基礎(chǔ)模型本來就「擁有」這種能力,只是大多數(shù)時候無法被穩(wěn)定激活。
研究團隊的洞察在這里被證實:
? 視頻生成模型確實會把多個參考實體存進第一幀的內(nèi)部記憶結(jié)構(gòu)中? 視頻模型本身能執(zhí)行「多對象+動作一致」的生成? 但這種行為默認幾乎不可控、不穩(wěn)定、難復(fù)現(xiàn)
這就像模型體內(nèi)藏著一塊「隱藏 GPU」,偶爾會亮一下,但你完全不能指望它全天候工作。
FFGo不是教會模型新能力,而是讓它「穩(wěn)定發(fā)揮」
在上述對比中,F(xiàn)FGo的結(jié)果與原始模型的「偶爾成功結(jié)果」幾乎一致,這說明:FFGo的LoRA不是在重寫模型,而是在激活已有的潛在能力。
換句話說:原始模型=有潛力,但無法持續(xù)發(fā)揮,而FFGo=讓潛力變成穩(wěn)定能力(且不破壞預(yù)訓(xùn)練知識)
論文中提到,F(xiàn)FGo能保留原模型的生成質(zhì)量,而不是像傳統(tǒng)大規(guī)模微調(diào)那樣犧牲泛化能力, 沒有任何微調(diào)可以媲美預(yù)訓(xùn)練的數(shù)據(jù)質(zhì)量和學習效果。
這個實驗也證明了一件極具革命性的事:首幀本身就具備「概念記憶體」的角色、視頻模型天生可以做多對象融合、關(guān)鍵只是缺乏一個「觸發(fā)機制」。
FFGo做的就是:用幾十條樣本、一個精心設(shè)計的轉(zhuǎn)場標記(transition phrase)、Few-shot LoRA,把這種能力重新「開機」,并且讓它可控、穩(wěn)定、可靠。
這也是為什么:FFGo能用20–50個樣例,把SOTA模型甩在身后。
這個實驗所傳達的,本質(zhì)上就是一句話:視頻模型已經(jīng)足夠強,只是我們過去一直沒有找到正確的用法。
而FFGo正是在教我們一件事:如何「正確使用」視頻生成模型。
總結(jié)
用一句話概括這篇論文的研究意義:它不是讓模型學會新能力,而是教我們?nèi)绾问褂媚P鸵呀?jīng)擁有但從未被正確利用的能力。
研究人員提出了一個極具啟發(fā)性的未來方向:
更聰明地使用模型,而不是更暴力地訓(xùn)練模型 用更少的數(shù)據(jù)、更輕的微調(diào),獲得更強的定制能力 把「首幀作為概念記憶體」變成視頻生成的新范式
總之,在視頻模型中:
第一幀不是起點,而是模型的「記憶庫」, 視頻模型天然具備多對象融合能力
FFGo用極低成本把這種能力「喚醒」, 不改結(jié)構(gòu)、不用大數(shù)據(jù), 僅20–50個例子即可實現(xiàn)SOTA視頻定制
實驗覆蓋機器人、駕駛、影視等多場景, 用戶研究中以81.2%票數(shù)大幅領(lǐng)先
這篇論文不只是一個技術(shù)突破,更像是打開了視頻生成模型的「隱藏技能樹」。
參考資料:
https://arxiv.org/abs/2511.15700
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
UniV
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.