網易首頁 > 網易號 > 正文申請入駐

西湖大學張馳團隊：不重訓，也能讓視頻生成更長更穩丨CVPR 2026

2026-04-22 16:41:12　來源: 雷峰網

北京舉報

分享至

過去一段時間，AI 視頻最讓人驚艷的，往往都是前幾秒。人物狀態自然，光影氛圍到位，動作也足夠流暢，很容易讓人產生一種感覺，視頻生成已經離真正可用不遠了。

但行業越往前走，問題也越清楚，真正難的從來不是做出一小段漂亮畫面，而是能不能把這種質量穩定地延續下去。一旦視頻時長被拉長，很多模型就會開始慢慢失穩，人物、場景和動作表面上還在延續，內部卻已經出現細節漂移和時序松動。

這也是為什么，今天 AI 視頻行業真正卡住的地方，已經不只是能不能生成片段，而是能不能生成連續、穩定、可以承載完整情境的內容。

比如一段廚房視頻里，鏡頭從備菜推進到下鍋，再切到擺盤，觀眾期待看到的是同一個空間、同一套器具和同一份食材被自然地串聯起來。再比如一段城市通勤視頻里，人物從地鐵口走到街邊店鋪，鏡頭可以變化，但人物狀態、環境關系和動作邏輯不能越走越散。

只有解決這種長時間穩定性問題，AI 視頻才真正有機會從展示走向創作和生產。也正是在這樣的背景下，西湖大學的張馳團隊提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。

這項研究關注的，不是怎樣把某一幀做得更亮眼，而是為什么模型在短視頻里表現很好，一旦進入長視頻生成，質量就會越來越難維持。也正因為它抓住了這個行業里越來越核心的問題，所以這項研究不只是一次常規優化，而更像是在回答，AI 視頻從短片段走向長內容時，究竟卡在了哪里。

論文地址：https://arxiv.org/pdf/2603.25209

更長的視頻，更明顯的優勢

在 Wan2.1-T2V-1.3B 上，研究人員把視頻長度擴展到 2 倍和 4 倍之后，發現 FreeLOC 的優勢非常穩定，而且視頻越長，這種優勢越明顯。

先看 2 倍長度，也就是 161 幀的結果。主體一致性達到 98.06，背景一致性達到 97.49，運動平滑達到 98.98，說明在人物、場景和動作連續性上，它都已經處在最好或接近最好的水平。

更突出的部分在畫質相關指標上。圖像質量達到 68.31，明顯高于 Direct 的 60.34，也高于 Sliding Window 的 64.64 和 FreeNoise 的 67.19。美學質量達到 62.33，而其他方法大多只在 52 到 56 之間，所以這一項的領先尤其明顯。

動態程度也達到 39.41，已經接近最佳。換句話說，在 2 倍長度下，FreeLOC 不是只在某一個指標上占優，而是在穩定性、清晰度和整體觀感上都表現更強。

到了 4 倍長度，也就是 321 幀，長視頻生成的難度會明顯上升，因為模型更容易出現內容漂移、畫面變糊或者動作失真。但研究結果表明，FreeLOC 在這種更苛刻的設定下仍然能保持很強的表現。

主體一致性達到 98.44，仍然幾乎是最高水平。圖像質量達到 67.44，而 Direct 已經掉到 59.21，差距達到 8.2。美學質量達到 61.21，Direct 只有 49.43，差距進一步擴大到 11.8。動態程度達到 36.27，而 Direct 只有 4.32，差不多已經是數量級上的差別。

這個結果說明，隨著視頻長度繼續增加，很多方法會越來越難維持質量，但 FreeLOC 仍然能把畫面質量和動態表現保持在較高水平，所以它的優勢不是偶然，而是在高難度長視頻場景里依然成立。

這種提升并不只出現在一個模型上。研究團隊又在 HunyuanVideo 上做了同樣的測試，結果趨勢依然一致。2 倍長度，也就是 253 幀時，圖像質量達到 68.92，美學質量達到 62.38，都是最高，主體一致性也有 97.92，優于大多數方法。

到了 4 倍長度，也就是 509 幀，圖像質量仍有 67.92，美學質量仍有 61.09，動態程度達到 39.28，也接近最佳。也就是說，FreeLOC 的效果并不是只在 Wan2.1-T2V-1.3B 上成立，而是在另一套視頻生成模型上也能復現出相同趨勢，這就說明研究提出的方法具有比較明顯的跨模型通用性。雷峰網

為了進一步說明這種提升到底來自哪里，研究團隊還做了消融實驗，把方法拆開來看。只使用 TSA 時，圖像質量是 65.87，美學質量是 57.05，說明單獨處理長上下文問題已經能帶來可見提升。

只使用 VRPR 時，圖像質量是 61.88，美學質量是 54.13，說明單獨修正位置問題也有效，但作用還不夠強。假如把 TSA 和 VRPR 一起加上去，卻對所有層統一處理，圖像質量是 65.19，美學質量是 56.34，雖然比只用一個模塊更好，但仍然不是最佳結果。

更關鍵的是，研究人員還測試了隨機分配到不同層的做法，結果圖像質量反而掉到 63.90，這說明模塊本身并不是隨便放在哪里都行，真正重要的是放在哪些層上。按層選擇之后，也就是 FreeLOC 的做法，圖像質量達到 67.44，美學質量達到 61.21，都是最高。

這一部分實驗最想說明的是，性能提升不只是因為多加了兩個模塊，而是因為研究人員發現不同層對不同問題的敏感程度并不一樣，所以必須做分層處理，而這正是 FreeLOC 最核心的創新點之一。

研究人員還進一步比較了不同的位置處理方式和不同的注意力機制。在位置處理上，他們比較了 Clipping、Grouping 和 VRPR，最后發現 VRPR 的效果最好，圖像質量達到 68.84，美學質量達到 61.21，都明顯領先。這說明多粒度的位置重編碼確實比簡單截斷或者簡單分組更有效。

在注意力機制上，研究又比較了 Sliding Window、Selected Frame Attention 和 TSA，結果 TSA 依然最好，圖像質量達到 68.84，美學質量達到 61.21。這意味著，單純用滑動窗口雖然能縮小注意力范圍，但會損失一部分長程信息，而 TSA 能在控制上下文長度的同時，盡量保留長距離時序關聯，所以整體表現更強。

把這些實驗合在一起看，研究團隊實際上是在證明一件事，FreeLOC 的優勢不是只體現在某一個局部技巧上，而是來自一整套更合理的設計，包括位置重編碼、注意力控制，以及最關鍵的分層使用策略。

整體來看，這組實驗傳遞出的結論非常清楚。無論是在 Wan2.1-T2V-1.3B 還是 HunyuanVideo 上，無論是在 2 倍長度還是 4 倍長度設置下，FreeLOC 都能同時提升視頻的穩定性、清晰度、美感和動態表現，而且越到更長、更難的生成場景，這種優勢越明顯。

從設置到機制，一步步驗證

在實驗設置上，研究團隊選用了兩個公開可用的視頻生成模型，分別是 Wan2.1-T2V-1.3B 和 HunyuanVideo，用來驗證 FreeLOC 是否具有跨模型的適用性。

視頻生成時，研究人員把輸出分辨率統一設為 480p，也就是 832 × 480，并且重點測試了把視頻長度擴展到 2 倍和 4 倍之后的生成效果。這樣做的目的很明確，就是看模型在視頻明顯變長之后，是否還能維持原本的畫面質量和時序穩定性。雷峰網

為了證明 FreeLOC 的效果不是偶然，研究還設置了多組對比方法，包括 Direct Sampling，也就是直接生成，Sliding Window，也就是滑動窗口，以及 FreeNoise、FreeLong、RIFLEx 和 FreeLOC。

這樣的對比覆蓋了目前比較常見的長視頻生成思路，有的是最直接的基線方法，有的是通過局部窗口維持連續性，也有的是已有的訓練免費方法，所以能夠比較全面地看出 FreeLOC 相比其他方案到底強在哪里。

在評價方式上，研究人員采用的是 VBench 標準，并且把指標分成了一致性和質量兩大類。一致性方面主要看 Subject Consistency，也就是人物在長視頻里會不會變形或漂移，Background Consistency，也就是背景是否穩定，以及 Motion Smoothness，也就是動作和運動過程是否連續自然。

質量方面主要看 Imaging Quality，也就是畫面清晰度，Aesthetic Quality，也就是整體視覺美感，以及 Dynamic Degree，也就是視頻的動態表現強不強。這樣一來，研究考察的就不只是單純的清晰度，而是把人物穩定、背景穩定、動作連續、畫面質量和觀感都納入了評估范圍。

除了常規的對比實驗，研究團隊還做了一個很關鍵的探測實驗，也就是逐層分析 Transformer。具體來說，研究人員會對每一層施加擾動，然后觀察兩個結果，一是視覺質量到底下降了多少，二是 attention 的變化到底有多大。

通過這種方法，他們發現不同層對問題的敏感性并不一樣，有的層更容易受到位置變化的影響，有的層更容易受到長上下文擴展的影響。這個發現非常重要，因為它直接支持了 FreeLOC 后面的分層處理思路，也就是不是所有層都一視同仁，而是要針對不同層采用不同修正方式。

研究還專門驗證了兩類核心的 O.O.D 問題。第一類是位置 O.O.D，做法是改變幀之間的相對位置關系，然后觀察生成質量會不會下降。第二類是長度 O.O.D，做法是直接增加視頻長度，再計算 attention entropy，也就是注意力分散程度。

實驗結果表明，視頻長度一旦增加，attention 就會變得更分散，而注意力越分散，生成質量往往越差。也正是基于這兩類問題的驗證，研究團隊才進一步提出了后面的 VRPR、TSA 和分層適配策略。整體來看，這一部分實驗經過的意義就在于，研究并不是只做結果對比，而是先把問題來源拆清楚，再針對性地設計解決辦法。

從「能生成」走向「能使用」

這項研究的意義，不只是把長視頻生成的結果做得更好，而是把問題背后的原因說清楚了。研究團隊指出，長視頻之所以容易出現畫面變糊、動作不連貫、人物不穩定這些問題，核心來自兩類 O.O.D，也就是位置 O.O.D 和上下文 O.O.D。

這個判斷很重要，因為它說明過去很多方法更像是在不斷試技巧、調參數，而這項研究開始把問題推進到機制解釋的層面。也就是說，研究人員不僅提出了一個更有效的方案，還解釋了為什么以前的方法容易失效，為什么視頻一變長，模型就會更容易出問題。

這項研究還有一個很實際的意義，就是證明了訓練并不是唯一辦法。以前一說到長視頻生成，很多人會默認要重新訓練模型，或者至少做一次很重的額外訓練，因為短視頻模型通常很難直接應對更長的時序范圍。

研究團隊這次證明，只在推理階段做更精細的修正，也能明顯改善生成效果。這一點很關鍵，因為它意味著算力成本會更低，現有模型也更容易直接使用，對技術落地和實際部署都更有幫助。

另外，研究人員還重新揭示了 Transformer 不同層的作用差異。他們發現，不同層并不是在做同一件事，有些層更容易受到位置問題影響，有些層更容易受到長上下文問題影響。

所以真正有效的方法，不是一刀切地改所有層，而是先找出問題主要集中在哪些層，再做針對性修復。這個認識很有價值，因為它不只適用于視頻生成，對長上下文的 LLM、圖像生成模型的推理優化，其實也都有啟發。

換句話說，這項研究提出的不只是一個技巧，更是一種更通用的思路，也就是先識別問題，再定位到層，最后做局部修復。

如果從普通人的角度來看，這項研究的影響其實也很直接。未來大家用 AI 生成稍微長一點的視頻時，人物突然變臉、衣服亂變、背景亂跳、動作接不上的情況，有望明顯減少。

對普通用戶來說，這意味著做故事短片、教學視頻、產品展示視頻時，成片會更穩定，也更接近真正能用的內容。對內容創作者來說，這意味著返工會更少，制作成本會更低，小團隊和個人創作者也更有機會用現成模型做出更長、更連貫的視頻內容。

所以這項研究真正推動的，不只是技術指標的提升，而是讓 AI 長視頻生成離日常可用、商業可用又近了一步。

FreeLOC 的創建者

論文一作田佳豪，目前是西湖大學 AGI Lab 的科研助理，師從張馳教授。主要從事計算機視覺方面的研究。他當前的研究重點集中在擴散生成模型，視頻生成，世界模型等方向。

就學術成果來看，他已發表或參與多項工作，包括以第一作者發表在 CVPR 2026 的FreeLOC，以及投遞于 ECCV 2026 的 HeadForcing，此外還發表了 DCCM，Loss-Guided Diffusion For General Controllable Generation 等工作，整體研究路徑體現出從圖像級擴散模型理論、視頻時序建模到自回歸長視頻生成與交互式視頻合成的持續推進。

通訊作者張馳，西湖大學助理教授、獨立PI，同時擔任 AGI Lab負責人，在生成式人工智能和多模態智能方向開展研究工作。在

此之前，他曾在騰訊擔任研究科學家，并于新加坡南洋理工大學獲得博士學位，師從林國盛教授，同時與沈春華等學者保持長期合作關系。在學術影響力方面，他連續入選斯坦福大學發布的全球前 2% 科學家榜單，并擔任多個頂級會議和期刊的重要學術服務角色，包括 ICML、ICLR、CVPR 等會議的 Area Chair，以及 IEEE T-CSVT 的副編輯。

在學術成果與研究產出方面，他長期深耕生成式人工智能領域，研究方向涵蓋擴散模型、多模態生成建模以及智能體系統，近年來帶領團隊在 CVPR、ICCV、ICLR、NeurIPS 等頂級會議上持續發表成果，例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

這些研究從圖像生成、視頻生成延伸到 3D/4D 場景建模以及多模態智能體，形成了一條從視覺理解到世界建模的系統性研究路線。

從整體研究特點來看，張馳的工作強調生成模型的可控性、多模態融合能力以及向真實世界建模能力的拓展，既關注模型基礎理論，也注重實際系統構建與應用落地。例如在視頻生成與3D建模方向，他推動從單純生成內容向可控相機運動和空間理解發展，在智能體方向，他探索多模態大模型在真實交互環境中的應用。

這種研究路徑體現出從傳統計算機視覺向通用人工智能過渡的趨勢，也使其工作處于當前人工智能領域較為前沿的位置。

參考鏈接：https://icoz69.github.io/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.