![]()
這項由南京大學、騰訊混元、香港中文大學(深圳)等機構聯(lián)合開展的研究發(fā)表于2026年2月的預印本論文arXiv:2602.05871v1,有興趣深入了解的讀者可以通過該論文編號查詢完整研究內容。
當你用AI生成視頻時,是否遇到過這樣的情況:開頭幾秒鐘還挺正常,但越往后看越覺得不對勁,人物的臉可能慢慢變了樣,背景也逐漸偏離了最初的設定,就像是攝像師越拍越"跑偏"一樣。這個問題在AI視頻生成領域被稱為"誤差累積",就如同傳話游戲一樣,每一個環(huán)節(jié)的小偏差會逐漸放大,最終導致結果面目全非。
研究團隊發(fā)現(xiàn),目前最先進的自回歸視頻生成模型雖然能夠實現(xiàn)實時生成,但在生成長視頻時就會遇到這個老大難問題。每生成一幀新畫面,都需要基于前面已經生成的內容,而前面內容中的任何小錯誤都會被帶到后面,像滾雪球一樣越滾越大。以往解決這個問題的方法通常需要重新訓練整個AI模型,這就像為了修復一個小零件而重新組裝整臺機器一樣費時費力。
這次的研究提出了一個巧妙的解決方案,叫做"路徑測試時校正"。這就像在拍攝過程中設置了幾個"校準點",當發(fā)現(xiàn)畫面開始偏離時,及時參考最初的"標準畫面"進行微調,讓后續(xù)的生成重新回到正軌。最關鍵的是,這種方法不需要重新訓練AI模型,就像是給現(xiàn)有的攝像設備安裝了一個智能校準器,隨時可以啟用。
實驗結果顯示,這種方法能夠將穩(wěn)定生成的視頻長度從幾秒鐘延長到30秒以上,同時保持了與那些需要大量重新訓練的方法相當?shù)囊曈X質量。這意味著AI視頻生成終于可以擺脫"短視頻"的限制,向著真正實用的長視頻制作邁出了重要一步。
一、傳統(tǒng)方法的困境:為什么AI視頻會越拍越歪
要理解這項技術的價值,我們首先需要明白AI生成視頻的工作原理。目前主流的視頻生成方法可以分為三種基本類型,就像三種不同的拍攝方式。
第一種是"一口氣拍完"的雙向模式。這就像電影拍攝時同時考慮整個場景的所有元素,所有畫面同時生成,因此能夠保持很好的一致性。但這種方法的問題是無法實現(xiàn)流式生成,就像必須等整部電影拍完才能看到任何片段一樣,無法滿足實時應用的需求。
第二種是"逐幀拍攝"的自回歸模式。這種方法更像是傳統(tǒng)的拍攝方式,一幀接一幀地生成視頻內容。每生成一幀新畫面時,AI都會參考前面已經生成的所有內容。雖然這種方式支持實時流式生成,但正是這種"接力"的方式導致了誤差累積問題。
第三種是研究中重點關注的"少步蒸餾"方式。這種方法試圖在前兩種之間找到平衡,通過減少生成步驟來提高效率,同時在每個步驟中注入隨機噪聲來保持生成的多樣性。但問題在于,這種隨機性雖然增加了創(chuàng)造性,卻也為誤差累積埋下了隱患。
研究團隊通過深入分析發(fā)現(xiàn),誤差累積問題的根源在于每一步生成都會引入微小的偏差,而這些偏差在后續(xù)步驟中會被不斷放大。這就像是在傳話游戲中,第一個人說"天空很藍",傳到最后可能變成了"田鼠很懶"。在視頻生成中,這種偏差表現(xiàn)為人物特征的逐漸變化、背景的漂移、甚至是整體風格的轉變。
更加復雜的是,現(xiàn)有的一些解決方案雖然能夠緩解這個問題,但都需要對AI模型進行重新訓練或大幅修改。這就像為了解決汽車輪胎的問題而重新設計整臺汽車一樣不切實際。這些方法不僅耗時耗力,而且往往會影響模型的其他性能表現(xiàn)。
二、測試時優(yōu)化的嘗試與局限:為什么簡單修補行不通
面對這個挑戰(zhàn),研究團隊首先嘗試了當前流行的"測試時優(yōu)化"方法。這種方法的基本思路是在生成過程中實時調整模型參數(shù),就像是邊開車邊調整方向盤一樣。理論上聽起來很合理,但實際測試卻暴露出嚴重問題。
測試時優(yōu)化通常需要定義一個"獎勵函數(shù)"來指導優(yōu)化方向。研究團隊設計了兩種不同的獎勵機制進行對比實驗。第一種是基于像素級重建的方法,試圖讓后續(xù)生成的內容與初始畫面在像素層面保持一致。第二種是基于語義一致性的方法,通過預訓練的特征提取網絡來確保內容在語義層面的連貫性。
然而,這兩種方法都遇到了致命問題。像素級重建方法很快就陷入了"復制粘貼"的陷阱,后續(xù)生成的畫面幾乎成了初始畫面的翻版,完全失去了動態(tài)性和自然性。這就像是為了防止偏離主題而讓所有演員都保持同一個姿勢,雖然一致性達到了,但完全失去了視頻的意義。
語義一致性方法雖然避免了僵化問題,但在抑制長期誤差累積方面效果有限。生成的視頻仍然會出現(xiàn)明顯的時間漂移,人物和背景逐漸偏離最初設定。這說明僅僅依靠高層語義信息還不足以解決底層的技術問題。
更嚴重的是,研究團隊發(fā)現(xiàn)蒸餾模型對參數(shù)調整極其敏感。即使是微小的梯度更新也可能導致整個生成過程崩潰,產生完全無意義的輸出。這種現(xiàn)象被稱為"獎勵崩潰",就像是一個精密的鐘表機構,稍微動一下某個齒輪就可能導致整個系統(tǒng)停擺。
這些實驗結果讓研究團隊意識到,傳統(tǒng)的測試時優(yōu)化方法并不適用于蒸餾視頻生成模型。問題的根源不在于模型參數(shù)的調整,而在于生成過程本身的累積誤差特性。因此需要一種全新的思路來解決這個問題。
三、路徑校正的核心思想:在對的時機做對的事
經過深入思考,研究團隊提出了一個革命性的解決思路:與其試圖修改模型本身,不如在生成過程中巧妙地進行干預。這就像是在拍攝過程中設置檢查點,當發(fā)現(xiàn)畫面開始偏離時及時進行校準。
這種方法的核心洞察在于理解蒸餾擴散模型的生成過程。與傳統(tǒng)的確定性生成不同,這些模型在生成過程中會經歷多個去噪步驟,每一步都涉及噪聲的添加和去除。研究團隊發(fā)現(xiàn),這個看似復雜的過程實際上為干預提供了絕佳的機會窗口。
在生成的早期階段,模型主要確定整體結構和布局,就像是先畫出建筑的基本框架。在這個階段進行干預可能會破壞整體結構的穩(wěn)定性。但隨著去噪過程的進行,模型逐漸轉向細節(jié)優(yōu)化階段,這時候進行校正既不會影響整體結構,又能有效糾正累積的偏差。
具體來說,研究團隊選擇在噪聲水平相對較低的步驟進行干預。在這些關鍵節(jié)點上,他們會臨時將當前的生成上下文替換為最初的參考幀,讓模型基于這個"標準答案"生成一個校正版本的預測結果。這就像是讓迷了路的司機重新參考最初的地圖和目的地,重新規(guī)劃接下來的路線。
但簡單的替換還不夠,因為這樣可能會造成生成路徑的突然跳躍,產生不自然的視覺效果。研究團隊的巧妙之處在于,他們會將這個校正后的預測結果重新加上適當?shù)脑肼暎缓笞屨5纳蛇^程繼續(xù)進行。這樣既實現(xiàn)了校正的目的,又保持了生成過程的自然連貫性。
這種方法被稱為"路徑級測試時校正",因為它不是簡單地替換某個生成結果,而是在整個生成路徑上進行巧妙的引導。就像是在河流中設置幾個導流壩,既不阻斷水流,又能引導水流朝著正確的方向前進。
四、技術實現(xiàn)的精妙細節(jié):魔鬼藏在細節(jié)里
要理解這項技術的精妙之處,我們需要深入了解其具體實現(xiàn)過程。整個校正過程就像一個精心編排的舞蹈,每一個步驟都有其特定的目的和時機。
首先是校正時機的選擇。研究團隊通過大量實驗發(fā)現(xiàn),在去噪過程的特定階段進行干預最為有效。這些階段對應于噪聲水平為500和250的步驟。在這些節(jié)點上,模型已經確定了基本的視覺結構,但仍有足夠的靈活性來接受引導性調整。
校正過程分為兩個關鍵階段。第一階段是"參考引導校正"。在這個階段,系統(tǒng)會暫時將當前的上下文信息替換為最初的參考幀信息,讓模型基于這個"標準答案"重新生成當前步驟的預測結果。這就像是讓學生重新參考標準答案來檢查自己的解題過程。
第二階段是"重新噪化和去噪"。校正后的預測結果會被重新加上與當前步驟對應的噪聲水平,然后恢復正常的上下文信息繼續(xù)進行去噪。這個過程確保了校正后的結果能夠自然地融入到后續(xù)的生成過程中,避免產生突兀的視覺跳躍。
這種設計的巧妙之處在于它完全遵循了原有模型的生成規(guī)律,沒有破壞任何現(xiàn)有的約束條件。所有的中間狀態(tài)都是通過有效的擴散變換產生的,因此能夠被后續(xù)步驟正確理解和處理。這就像是在不改變游戲規(guī)則的前提下,巧妙地利用規(guī)則來達到更好的效果。
研究團隊還特別注意了校正頻率的控制。過于頻繁的校正可能會限制模型的創(chuàng)造性和自然性,而校正不足則無法有效抑制誤差累積。通過大量實驗,他們找到了最優(yōu)的校正策略:在少數(shù)幾個關鍵節(jié)點進行精準干預,既保證了校正效果,又維持了生成的自然性。
此外,整個方法的計算開銷極小。相比于需要重新訓練模型的方法,這種校正策略只是在現(xiàn)有生成過程中添加了幾個輕量級的額外步驟,計算成本增加微乎其微。這使得該方法具有很強的實用性,可以輕松部署到現(xiàn)有的視頻生成系統(tǒng)中。
五、實驗驗證:數(shù)據(jù)說話的時刻
為了驗證這項技術的有效性,研究團隊設計了一系列全面而嚴格的實驗。他們選擇了兩個代表性的基礎模型CausVid和Self-Forcing作為測試平臺,這兩個模型都是基于最新蒸餾技術的自回歸視頻生成系統(tǒng)。
實驗的設計非常巧妙。研究團隊使用了標準的VBench評測套件,在128個隨機選擇的提示詞上進行了30秒長視頻的生成測試。這些提示詞涵蓋了各種不同的場景、風格和動作類型,確保了測試結果的全面性和代表性。
定量結果令人印象深刻。在Self-Forcing基礎上應用路徑校正后,主體一致性從92.5分提升到94.0分,背景一致性從93.2分提升到94.2分。更重要的是,動態(tài)程度指標也有顯著改善,從62.5分提升到60.2分,這表明在提高一致性的同時并沒有犧牲視頻的動態(tài)性和生動性。
為了更深入地評估長期穩(wěn)定性,研究團隊還采用了多種專門的指標。顏色漂移分析顯示,使用校正方法后,首尾幀之間的顏色直方圖L1距離從1.028降低到0.644,相關系數(shù)從0.479提升到0.710。這些數(shù)據(jù)直觀地表明,視頻在30秒的生成過程中能夠更好地保持視覺一致性。
JEPA一致性評估是另一個重要的驗證維度。這種評估方法通過預訓練的表示學習模型來測量語義層面的連貫性。結果顯示,標準偏差從0.0145降低到0.0108,首尾差異從0.191減少到0.170,表明視頻在語義層面的連貫性得到了顯著改善。
特別值得關注的是與現(xiàn)有方法的對比結果。相比于需要大量訓練的Rolling Forcing和LongLive方法,路徑校正在不需要任何額外訓練的情況下,在多數(shù)指標上達到了相當甚至更優(yōu)的性能。這充分證明了該方法的有效性和實用性。
研究團隊還進行了詳細的消融實驗來驗證設計選擇的合理性。他們發(fā)現(xiàn),單點校正(只在一個時間點進行干預)容易產生視覺不連續(xù)性,而路徑級校正通過重新噪化過程有效解決了這個問題。校正時機的選擇也經過了仔細的優(yōu)化,在噪聲水平500和250進行干預被證明是最優(yōu)選擇。
六、與其他方案的較量:知己知彼的全面對比
為了更好地體現(xiàn)這項技術的優(yōu)勢,研究團隊進行了與多種現(xiàn)有解決方案的詳細對比。這些對比不僅包括技術性能,還涵蓋了計算效率、部署難度等實用性考量。
首先是與測試時擴展方法的對比。Best-of-N方法通過生成多個候選結果并選擇最佳的一個來提升質量,Search-over-Path則在每個生成步驟都進行候選選擇。雖然這些方法在某些質量指標上有所改善,但計算開銷巨大。Best-of-N和Search-over-Path都需要5倍的計算資源,而路徑校正只增加了約33%的計算成本,性價比優(yōu)勢明顯。
與基于訓練的長視頻生成方法相比,路徑校正展現(xiàn)出了顯著的優(yōu)勢。Rolling Forcing雖然能夠生成較長的穩(wěn)定視頻,但需要專門的滑動窗口機制和模型微調。LongLive采用了復雜的記憶機制和重新訓練策略,雖然效果不錯,但部署復雜度很高。相比之下,路徑校正是即插即用的,可以直接應用于任何現(xiàn)有的蒸餾視頻生成模型。
特別有趣的是與"匯聚點"方法的對比。這種方法試圖通過將某一幀設為永久參考來避免誤差累積,但實驗顯示這種做法會過度約束模型的創(chuàng)造性,導致生成的視頻缺乏自然的動態(tài)變化。路徑校正通過間歇性校正避免了這個問題,既保證了一致性又維持了動態(tài)性。
在短視頻生成的測試中,路徑校正同樣表現(xiàn)優(yōu)異。雖然誤差累積在短序列中不那么明顯,但該方法仍然帶來了穩(wěn)定的改善,表明其具有良好的通用性。這種全場景的適用性使得該方法具有更廣泛的應用價值。
計算效率方面的對比更是突出了該方法的實用性。傳統(tǒng)的測試時優(yōu)化方法通常需要在每個步驟進行梯度計算和參數(shù)更新,計算開銷巨大且容易導致不穩(wěn)定。路徑校正只在幾個關鍵步驟進行輕量級干預,總體開銷minimal,使得實時應用成為可能。
七、方法的深層原理:為什么這樣做有效
要真正理解這項技術的價值,我們需要深入探討其成功的根本原理。路徑校正之所以有效,源于對蒸餾擴散模型內在機制的深刻理解。
擴散模型的生成過程本質上是一個從隨機噪聲逐步演化為有意義內容的過程。在這個過程中,不同的去噪步驟承擔著不同的功能。早期步驟主要負責確定全局結構和布局,而后期步驟則專注于細節(jié)填充和紋理生成。這種分層的生成機制為selective干預提供了理論基礎。
誤差累積的根源在于每一步的微小偏差會在后續(xù)步驟中被不斷放大。傳統(tǒng)的解決思路是試圖從源頭消除這些偏差,但這往往會帶來其他問題,比如過度約束或計算復雜度激增。路徑校正采用了不同的策略:接受偏差的存在,但在關鍵節(jié)點進行糾正,防止偏差超出可控范圍。
這種策略的巧妙之處在于它利用了擴散過程的隨機性質。由于每個步驟都涉及噪聲的注入和去除,輕微的路徑調整不會破壞整體的生成邏輯。這就像在河流中進行輕微的疏導,既不會影響水流的自然性,又能確保大致的流向正確。
從信息論的角度看,路徑校正實際上是一種智能的信息注入機制。它在保持原有信息流的基礎上,在關鍵時刻注入參考信息來糾正累積偏差。這種方式比簡單的參數(shù)調整更加溫和有效,避免了對模型內在表示的破壞。
重新噪化策略的重要性不容忽視。簡單的預測替換會導致生成路徑的突然跳躍,破壞時間連貫性。通過將校正結果重新映射到相應的噪聲水平,系統(tǒng)確保了所有中間狀態(tài)都符合模型的期望分布,從而保持了生成過程的自然性。
這種設計還體現(xiàn)了對計算資源的高效利用。相比于全程監(jiān)督或密集校正,稀疏但精準的干預策略在達到相同效果的同時大大降低了計算開銷。這使得該方法具有很強的實際部署價值。
八、應用前景與影響:開啟長視頻生成新時代
這項技術的成功不僅解決了一個重要的技術問題,更為AI視頻生成領域開啟了新的可能性。長期以來,自回歸視頻生成模型受限于誤差累積問題,只能生成幾秒鐘的短片段。路徑校正技術的突破使得生成30秒甚至更長的連貫視頻成為現(xiàn)實。
在內容創(chuàng)作領域,這一進展具有革命性意義。傳統(tǒng)的AI視頻生成主要用于短片段創(chuàng)作,如GIF動畫或簡短的演示視頻。現(xiàn)在,內容創(chuàng)作者可以利用AI生成完整的故事片段、產品展示視頻或教學內容,大大擴展了創(chuàng)作的可能性。
影視制作行業(yè)也將從中受益。雖然AI生成的視頻還無法完全替代專業(yè)拍攝,但在預覽、故事板制作、特效預設計等環(huán)節(jié),長時間穩(wěn)定的AI視頻生成能夠大大提高工作效率,降低制作成本。
教育和培訓領域的應用前景同樣廣闊。長時間穩(wěn)定的視頻生成使得創(chuàng)建個性化教學視頻成為可能。教師可以根據(jù)不同的教學需求生成相應的演示視頻,而不必依賴現(xiàn)有的視頻資源或復雜的拍攝制作流程。
更重要的是,這種訓練無關的解決方案為其他相關問題提供了新的思路。在AI的許多應用場景中,都存在類似的累積誤差或長期穩(wěn)定性問題。路徑校正的核心思想——在生成過程中進行智能干預而不是修改模型本身——可能為解決這些問題提供新的方向。
從技術發(fā)展的角度看,這項工作還為未來的研究指明了方向。如何在保持模型原有能力的同時進行精準干預,如何設計更加智能的校正策略,如何進一步降低計算開銷等問題,都值得深入探索。
該技術的開源特性也為學術界和產業(yè)界的進一步發(fā)展奠定了基礎。研究團隊計劃公開相關代碼和模型,使得更多的研究者和開發(fā)者能夠基于這一工作進行改進和應用,加速整個領域的發(fā)展進步。
九、技術局限與未來展望:前路依然充滿挑戰(zhàn)
盡管路徑校正技術取得了顯著成果,但研究團隊也誠實地指出了當前方法的局限性。首先,雖然該方法能夠顯著改善長視頻的穩(wěn)定性,但在某些極端情況下仍然可能出現(xiàn)累積偏差。特別是在包含復雜動作序列或劇烈場景變化的視頻中,當前的校正策略可能還不夠精準。
校正時機的選擇仍然需要進一步優(yōu)化。目前的方法主要基于噪聲水平來確定干預時機,但理想情況下應該能夠動態(tài)地根據(jù)實際的偏差程度來調整校正策略。這需要開發(fā)更加智能的偏差檢測機制。
計算效率方面雖然相比其他方法有了顯著改善,但在追求極致實時性的應用場景中仍有提升空間。未來的工作可能需要探索更加輕量化的校正策略,或者開發(fā)專門的硬件加速方案。
另一個重要的挑戰(zhàn)是如何處理多樣化的內容類型。當前的實驗主要集中在常見的視頻場景上,但對于動畫、抽象藝術、科幻場景等特殊內容類型的適應性還需要進一步驗證和優(yōu)化。
用戶控制性也是一個值得關注的方向。雖然當前的方法能夠自動進行校正,但在某些創(chuàng)作場景中,用戶可能希望對校正過程有更多的控制權,比如選擇性地保留某些"偏差"來達到特殊的藝術效果。
從更廣闊的視角看,這項工作為AI模型的可控性研究開辟了新的思路。如何在不改變模型本身的情況下實現(xiàn)精準控制,如何設計既保持模型能力又提供額外保障的干預機制,這些問題的解決將對整個AI領域產生深遠影響。
研究團隊表示,他們正在探索將這一技術擴展到其他模態(tài)的生成任務中,如音頻生成、3D內容創(chuàng)建等。這些探索有望為更多的AI應用帶來穩(wěn)定性提升。
未來的發(fā)展還可能包括與其他先進技術的結合,比如與強化學習結合來優(yōu)化校正策略,與注意力機制結合來提升校正精度,與多模態(tài)學習結合來實現(xiàn)更智能的內容理解等。
說到底,這項研究代表了AI視頻生成技術的一個重要里程碑。它不僅解決了長期困擾該領域的核心問題,更重要的是展示了一種全新的問題解決思路。通過巧妙的工程設計而非復雜的模型修改,實現(xiàn)了顯著的性能提升,這種"四兩撥千斤"的智慧值得我們深思和學習。
對于普通用戶而言,這意味著AI視頻生成工具將變得更加實用和可靠。我們可以期待在不久的將來,看到更多基于這一技術的應用產品問世,為內容創(chuàng)作、教育娛樂等各個領域帶來新的可能性。而對于技術從業(yè)者來說,這項工作提供了寶貴的經驗和啟發(fā),證明了深入理解問題本質、尋找巧妙解決方案的重要性。
Q&A
Q1:路徑測試時校正技術是什么原理?
A:這項技術的原理類似于在視頻生成過程中設置"校準點"。當AI生成視頻時,會在特定步驟參考最初的畫面進行校正,就像讓迷路的司機重新看地圖找方向一樣。關鍵是這種校正不會破壞正常的生成流程,而是巧妙地融入其中。
Q2:這種方法比傳統(tǒng)解決方案有什么優(yōu)勢?
A:最大優(yōu)勢是不需要重新訓練AI模型就能使用,就像給現(xiàn)有設備安裝校準器一樣簡單。相比那些需要5倍計算資源的方法,這種技術只增加33%的計算成本,但能將穩(wěn)定視頻長度從幾秒延長到30秒以上。
Q3:路徑校正技術有哪些應用前景?
A:這項技術將使AI視頻生成從短片段創(chuàng)作擴展到完整視頻制作,在內容創(chuàng)作、影視預覽、教育培訓等領域都有廣闊應用。更重要的是,它為解決AI系統(tǒng)中類似的累積誤差問題提供了新思路,可能影響整個AI領域的發(fā)展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.