<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      西湖大學張馳團隊:不重訓,也能讓視頻生成更長更穩丨CVPR 2026

      0
      分享至

      過去一段時間,AI 視頻最讓人驚艷的,往往都是前幾秒。人物狀態自然,光影氛圍到位,動作也足夠流暢,很容易讓人產生一種感覺,視頻生成已經離真正可用不遠了。

      但行業越往前走,問題也越清楚,真正難的從來不是做出一小段漂亮畫面,而是能不能把這種質量穩定地延續下去。一旦視頻時長被拉長,很多模型就會開始慢慢失穩,人物、場景和動作表面上還在延續,內部卻已經出現細節漂移和時序松動。

      這也是為什么,今天 AI 視頻行業真正卡住的地方,已經不只是能不能生成片段,而是能不能生成連續、穩定、可以承載完整情境的內容。

      比如一段廚房視頻里,鏡頭從備菜推進到下鍋,再切到擺盤,觀眾期待看到的是同一個空間、同一套器具和同一份食材被自然地串聯起來。再比如一段城市通勤視頻里,人物從地鐵口走到街邊店鋪,鏡頭可以變化,但人物狀態、環境關系和動作邏輯不能越走越散。

      只有解決這種長時間穩定性問題,AI 視頻才真正有機會從展示走向創作和生產。也正是在這樣的背景下,西湖大學的張馳團隊提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。

      這項研究關注的,不是怎樣把某一幀做得更亮眼,而是為什么模型在短視頻里表現很好,一旦進入長視頻生成,質量就會越來越難維持。也正因為它抓住了這個行業里越來越核心的問題,所以這項研究不只是一次常規優化,而更像是在回答,AI 視頻從短片段走向長內容時,究竟卡在了哪里。


      論文地址:https://arxiv.org/pdf/2603.25209

      更長的視頻,更明顯的優勢

      在 Wan2.1-T2V-1.3B 上,研究人員把視頻長度擴展到 2 倍和 4 倍之后,發現 FreeLOC 的優勢非常穩定,而且視頻越長,這種優勢越明顯。

      先看 2 倍長度,也就是 161 幀的結果。主體一致性達到 98.06,背景一致性達到 97.49,運動平滑達到 98.98,說明在人物、場景和動作連續性上,它都已經處在最好或接近最好的水平。

      更突出的部分在畫質相關指標上。圖像質量達到 68.31,明顯高于 Direct 的 60.34,也高于 Sliding Window 的 64.64 和 FreeNoise 的 67.19。美學質量達到 62.33,而其他方法大多只在 52 到 56 之間,所以這一項的領先尤其明顯。

      動態程度也達到 39.41,已經接近最佳。換句話說,在 2 倍長度下,FreeLOC 不是只在某一個指標上占優,而是在穩定性、清晰度和整體觀感上都表現更強。

      到了 4 倍長度,也就是 321 幀,長視頻生成的難度會明顯上升,因為模型更容易出現內容漂移、畫面變糊或者動作失真。但研究結果表明,FreeLOC 在這種更苛刻的設定下仍然能保持很強的表現。

      主體一致性達到 98.44,仍然幾乎是最高水平。圖像質量達到 67.44,而 Direct 已經掉到 59.21,差距達到 8.2。美學質量達到 61.21,Direct 只有 49.43,差距進一步擴大到 11.8。動態程度達到 36.27,而 Direct 只有 4.32,差不多已經是數量級上的差別。

      這個結果說明,隨著視頻長度繼續增加,很多方法會越來越難維持質量,但 FreeLOC 仍然能把畫面質量和動態表現保持在較高水平,所以它的優勢不是偶然,而是在高難度長視頻場景里依然成立。


      這種提升并不只出現在一個模型上。研究團隊又在 HunyuanVideo 上做了同樣的測試,結果趨勢依然一致。2 倍長度,也就是 253 幀時,圖像質量達到 68.92,美學質量達到 62.38,都是最高,主體一致性也有 97.92,優于大多數方法。

      到了 4 倍長度,也就是 509 幀,圖像質量仍有 67.92,美學質量仍有 61.09,動態程度達到 39.28,也接近最佳。也就是說,FreeLOC 的效果并不是只在 Wan2.1-T2V-1.3B 上成立,而是在另一套視頻生成模型上也能復現出相同趨勢,這就說明研究提出的方法具有比較明顯的跨模型通用性。雷峰網

      為了進一步說明這種提升到底來自哪里,研究團隊還做了消融實驗,把方法拆開來看。只使用 TSA 時,圖像質量是 65.87,美學質量是 57.05,說明單獨處理長上下文問題已經能帶來可見提升。

      只使用 VRPR 時,圖像質量是 61.88,美學質量是 54.13,說明單獨修正位置問題也有效,但作用還不夠強。假如把 TSA 和 VRPR 一起加上去,卻對所有層統一處理,圖像質量是 65.19,美學質量是 56.34,雖然比只用一個模塊更好,但仍然不是最佳結果。

      更關鍵的是,研究人員還測試了隨機分配到不同層的做法,結果圖像質量反而掉到 63.90,這說明模塊本身并不是隨便放在哪里都行,真正重要的是放在哪些層上。按層選擇之后,也就是 FreeLOC 的做法,圖像質量達到 67.44,美學質量達到 61.21,都是最高。

      這一部分實驗最想說明的是,性能提升不只是因為多加了兩個模塊,而是因為研究人員發現不同層對不同問題的敏感程度并不一樣,所以必須做分層處理,而這正是 FreeLOC 最核心的創新點之一。


      研究人員還進一步比較了不同的位置處理方式和不同的注意力機制。在位置處理上,他們比較了 Clipping、Grouping 和 VRPR,最后發現 VRPR 的效果最好,圖像質量達到 68.84,美學質量達到 61.21,都明顯領先。這說明多粒度的位置重編碼確實比簡單截斷或者簡單分組更有效。

      在注意力機制上,研究又比較了 Sliding Window、Selected Frame Attention 和 TSA,結果 TSA 依然最好,圖像質量達到 68.84,美學質量達到 61.21。這意味著,單純用滑動窗口雖然能縮小注意力范圍,但會損失一部分長程信息,而 TSA 能在控制上下文長度的同時,盡量保留長距離時序關聯,所以整體表現更強。


      把這些實驗合在一起看,研究團隊實際上是在證明一件事,FreeLOC 的優勢不是只體現在某一個局部技巧上,而是來自一整套更合理的設計,包括位置重編碼、注意力控制,以及最關鍵的分層使用策略。

      整體來看,這組實驗傳遞出的結論非常清楚。無論是在 Wan2.1-T2V-1.3B 還是 HunyuanVideo 上,無論是在 2 倍長度還是 4 倍長度設置下,FreeLOC 都能同時提升視頻的穩定性、清晰度、美感和動態表現,而且越到更長、更難的生成場景,這種優勢越明顯。


      從設置到機制,一步步驗證

      在實驗設置上,研究團隊選用了兩個公開可用的視頻生成模型,分別是 Wan2.1-T2V-1.3B 和 HunyuanVideo,用來驗證 FreeLOC 是否具有跨模型的適用性。

      視頻生成時,研究人員把輸出分辨率統一設為 480p,也就是 832 × 480,并且重點測試了把視頻長度擴展到 2 倍和 4 倍之后的生成效果。這樣做的目的很明確,就是看模型在視頻明顯變長之后,是否還能維持原本的畫面質量和時序穩定性。雷峰網

      為了證明 FreeLOC 的效果不是偶然,研究還設置了多組對比方法,包括 Direct Sampling,也就是直接生成,Sliding Window,也就是滑動窗口,以及 FreeNoise、FreeLong、RIFLEx 和 FreeLOC。

      這樣的對比覆蓋了目前比較常見的長視頻生成思路,有的是最直接的基線方法,有的是通過局部窗口維持連續性,也有的是已有的訓練免費方法,所以能夠比較全面地看出 FreeLOC 相比其他方案到底強在哪里。


      在評價方式上,研究人員采用的是 VBench 標準,并且把指標分成了一致性和質量兩大類。一致性方面主要看 Subject Consistency,也就是人物在長視頻里會不會變形或漂移,Background Consistency,也就是背景是否穩定,以及 Motion Smoothness,也就是動作和運動過程是否連續自然。

      質量方面主要看 Imaging Quality,也就是畫面清晰度,Aesthetic Quality,也就是整體視覺美感,以及 Dynamic Degree,也就是視頻的動態表現強不強。這樣一來,研究考察的就不只是單純的清晰度,而是把人物穩定、背景穩定、動作連續、畫面質量和觀感都納入了評估范圍。


      除了常規的對比實驗,研究團隊還做了一個很關鍵的探測實驗,也就是逐層分析 Transformer。具體來說,研究人員會對每一層施加擾動,然后觀察兩個結果,一是視覺質量到底下降了多少,二是 attention 的變化到底有多大。

      通過這種方法,他們發現不同層對問題的敏感性并不一樣,有的層更容易受到位置變化的影響,有的層更容易受到長上下文擴展的影響。這個發現非常重要,因為它直接支持了 FreeLOC 后面的分層處理思路,也就是不是所有層都一視同仁,而是要針對不同層采用不同修正方式。

      研究還專門驗證了兩類核心的 O.O.D 問題。第一類是位置 O.O.D,做法是改變幀之間的相對位置關系,然后觀察生成質量會不會下降。第二類是長度 O.O.D,做法是直接增加視頻長度,再計算 attention entropy,也就是注意力分散程度。

      實驗結果表明,視頻長度一旦增加,attention 就會變得更分散,而注意力越分散,生成質量往往越差。也正是基于這兩類問題的驗證,研究團隊才進一步提出了后面的 VRPR、TSA 和分層適配策略。整體來看,這一部分實驗經過的意義就在于,研究并不是只做結果對比,而是先把問題來源拆清楚,再針對性地設計解決辦法。


      從「能生成」走向「能使用」

      這項研究的意義,不只是把長視頻生成的結果做得更好,而是把問題背后的原因說清楚了。研究團隊指出,長視頻之所以容易出現畫面變糊、動作不連貫、人物不穩定這些問題,核心來自兩類 O.O.D,也就是位置 O.O.D 和上下文 O.O.D。

      這個判斷很重要,因為它說明過去很多方法更像是在不斷試技巧、調參數,而這項研究開始把問題推進到機制解釋的層面。也就是說,研究人員不僅提出了一個更有效的方案,還解釋了為什么以前的方法容易失效,為什么視頻一變長,模型就會更容易出問題。

      這項研究還有一個很實際的意義,就是證明了訓練并不是唯一辦法。以前一說到長視頻生成,很多人會默認要重新訓練模型,或者至少做一次很重的額外訓練,因為短視頻模型通常很難直接應對更長的時序范圍。

      研究團隊這次證明,只在推理階段做更精細的修正,也能明顯改善生成效果。這一點很關鍵,因為它意味著算力成本會更低,現有模型也更容易直接使用,對技術落地和實際部署都更有幫助。

      另外,研究人員還重新揭示了 Transformer 不同層的作用差異。他們發現,不同層并不是在做同一件事,有些層更容易受到位置問題影響,有些層更容易受到長上下文問題影響。

      所以真正有效的方法,不是一刀切地改所有層,而是先找出問題主要集中在哪些層,再做針對性修復。這個認識很有價值,因為它不只適用于視頻生成,對長上下文的 LLM、圖像生成模型的推理優化,其實也都有啟發。

      換句話說,這項研究提出的不只是一個技巧,更是一種更通用的思路,也就是先識別問題,再定位到層,最后做局部修復。

      如果從普通人的角度來看,這項研究的影響其實也很直接。未來大家用 AI 生成稍微長一點的視頻時,人物突然變臉、衣服亂變、背景亂跳、動作接不上的情況,有望明顯減少。

      對普通用戶來說,這意味著做故事短片、教學視頻、產品展示視頻時,成片會更穩定,也更接近真正能用的內容。對內容創作者來說,這意味著返工會更少,制作成本會更低,小團隊和個人創作者也更有機會用現成模型做出更長、更連貫的視頻內容。

      所以這項研究真正推動的,不只是技術指標的提升,而是讓 AI 長視頻生成離日常可用、商業可用又近了一步。

      FreeLOC 的創建者

      論文一作田佳豪,目前是西湖大學 AGI Lab 的科研助理,師從張馳教授。主要從事計算機視覺方面的研究。他當前的研究重點集中在擴散生成模型,視頻生成,世界模型等方向。

      就學術成果來看,他已發表或參與多項工作,包括以第一作者發表在 CVPR 2026 的FreeLOC,以及投遞于 ECCV 2026 的 HeadForcing,此外還發表了 DCCM,Loss-Guided Diffusion For General Controllable Generation 等工作,整體研究路徑體現出從圖像級擴散模型理論、視頻時序建模到自回歸長視頻生成與交互式視頻合成的持續推進。


      通訊作者張馳,西湖大學助理教授、獨立PI,同時擔任 AGI Lab負責人,在生成式人工智能和多模態智能方向開展研究工作。在

      此之前,他曾在騰訊擔任研究科學家,并于新加坡南洋理工大學獲得博士學位,師從林國盛教授,同時與沈春華等學者保持長期合作關系。在學術影響力方面,他連續入選斯坦福大學發布的全球前 2% 科學家榜單,并擔任多個頂級會議和期刊的重要學術服務角色,包括 ICML、ICLR、CVPR 等會議的 Area Chair,以及 IEEE T-CSVT 的副編輯。

      在學術成果與研究產出方面,他長期深耕生成式人工智能領域,研究方向涵蓋擴散模型、多模態生成建模以及智能體系統,近年來帶領團隊在 CVPR、ICCV、ICLR、NeurIPS 等頂級會議上持續發表成果,例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

      這些研究從圖像生成、視頻生成延伸到 3D/4D 場景建模以及多模態智能體,形成了一條從視覺理解到世界建模的系統性研究路線。

      從整體研究特點來看,張馳的工作強調生成模型的可控性、多模態融合能力以及向真實世界建模能力的拓展,既關注模型基礎理論,也注重實際系統構建與應用落地。例如在視頻生成與3D建模方向,他推動從單純生成內容向可控相機運動和空間理解發展,在智能體方向,他探索多模態大模型在真實交互環境中的應用。

      這種研究路徑體現出從傳統計算機視覺向通用人工智能過渡的趨勢,也使其工作處于當前人工智能領域較為前沿的位置。


      參考鏈接:https://icoz69.github.io/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      扎心!劉曉宇下半場三分4中4爆砍18分最佳一戰斷送北控季后賽希望

      扎心!劉曉宇下半場三分4中4爆砍18分最佳一戰斷送北控季后賽希望

      狼叔評論
      2026-04-24 22:12:27
      美國前財長突然警告:如果沒人買美債,后果可能比2008年更嚴重

      美國前財長突然警告:如果沒人買美債,后果可能比2008年更嚴重

      墨印齋
      2026-04-25 10:39:26
      形式主義?溫州家長直呼太忙了!

      形式主義?溫州家長直呼太忙了!

      大永強
      2026-04-25 14:03:13
      湖北一地宣布:下調停車費!

      湖北一地宣布:下調停車費!

      新浪財經
      2026-04-24 20:40:19
      76歲的萬科創始人王石,最近徹底成了全網焦點。

      76歲的萬科創始人王石,最近徹底成了全網焦點。

      夢錄的西方史話
      2026-04-23 14:36:39
      韓國第一夫人在越南驚艷了!穿傳統奧黛好溫柔,和越南夫人大比美

      韓國第一夫人在越南驚艷了!穿傳統奧黛好溫柔,和越南夫人大比美

      小濤叨叨
      2026-04-25 13:44:11
      笑不活了!當你覺得在工作中捅了很大的簍子的時候,不妨看看他

      笑不活了!當你覺得在工作中捅了很大的簍子的時候,不妨看看他

      蘭妮搞笑分享
      2026-04-24 12:59:31
      5月1日物業新規正式執行!六大行為全面禁止,業主終于熬出頭了!

      5月1日物業新規正式執行!六大行為全面禁止,業主終于熬出頭了!

      復轉這些年
      2026-04-24 19:45:38
      丁寶楨為何敢殺安德海?除了手握重兵,他還擁有這2項大權

      丁寶楨為何敢殺安德海?除了手握重兵,他還擁有這2項大權

      雍親王府
      2026-04-22 19:20:03
      你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

      你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

      夜深愛雜談
      2026-03-16 22:21:03
      我倆真沒談!王濛罕見首次澄清和周洋的真實關系:她是我唯一好友

      我倆真沒談!王濛罕見首次澄清和周洋的真實關系:她是我唯一好友

      安寧007
      2026-04-24 19:02:36
      妻子去世后,遲重瑞近況曝光,他走上了陳麗華“安排的后路”

      妻子去世后,遲重瑞近況曝光,他走上了陳麗華“安排的后路”

      可樂談情感
      2026-04-25 12:16:10
      行程開始,空客CEO抵達北京,中國已告知歐盟,必須刪掉反華條款

      行程開始,空客CEO抵達北京,中國已告知歐盟,必須刪掉反華條款

      芳芳歷史燴
      2026-04-25 15:03:34
      身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

      身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

      時間巡查
      2026-04-25 12:17:22
      莫氏雞煲分店即將開業,網友:老板其實很會做生意!

      莫氏雞煲分店即將開業,網友:老板其實很會做生意!

      映射生活的身影
      2026-04-25 12:48:21
      “少女胯”和“媽媽胯”有啥區別?看鐘麗緹和謝娜產后身材,秒懂

      “少女胯”和“媽媽胯”有啥區別?看鐘麗緹和謝娜產后身材,秒懂

      菁媽育兒
      2026-04-25 11:04:17
      廣東省副省長馬正勇,已調任四川

      廣東省副省長馬正勇,已調任四川

      政知新媒體
      2026-04-25 07:02:40
      嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

      嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

      一家說
      2026-04-25 14:07:13
      離婚后只字不提李琳!輸給了經超后才發現,原來他們不是同類人

      離婚后只字不提李琳!輸給了經超后才發現,原來他們不是同類人

      小蘭聊歷史
      2026-04-25 08:23:05
      1799元!蘋果又一款新品上架,續航50小時

      1799元!蘋果又一款新品上架,續航50小時

      科技堡壘
      2026-04-25 00:18:04
      2026-04-25 15:47:00
      雷峰網 incentive-icons
      雷峰網
      關注智能與未來!
      69148文章數 656119關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      哈啰變速車1.5小時收費高達45元 游客直呼:騎不起

      頭條要聞

      哈啰變速車1.5小時收費高達45元 游客直呼:騎不起

      體育要聞

      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      健康
      教育
      數碼
      游戲
      時尚

      干細胞如何讓燒燙傷皮膚"再生"?

      教育要聞

      中考易錯題型:胡不歸問題

      數碼要聞

      首款驍龍8 Gen5小平板!OPPO Pad Mini圖賞

      免費工具《IndieUp》Beta版發布 匹配游戲與直播UP主

      上新|| 入夏第一件短袖,買它!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国内精品久久久久精免费| 娇妻系列交换27部多p在线观看| 亚洲www啪成人一区二区| 亚洲天堂va| 天堂无码AV| 蜜臀av久久国产午夜福利软件| 在线欧美日韩| 亚洲熟妇久久国产精品| 灵石县| 乱码午夜-极国产极内射| 亚洲国产精品成人av网| 日本熟妇人妻ⅹxxxx国产| 国模小黎自慰gogo人体| 国产精品老熟女免费视频| 日韩69永久免费视频| 国产I熟女l国产.熟女视频| 男女动态无遮挡动态图| 狠狠v日韩v欧美v| 亚洲av影片一区二区三区| 一起草av| 噜噜噜综合亚洲| 亚洲中文无码av在线| 69精品视频| 国产成人精品无码免费看夜聊软件| 在线啊V中文字幕| 天天色欲网| 九九在线精品| 国产欧美在线一区二区三区| 亚洲黄色性视频| 久久国产亚洲一区二区三区| 内射合集对白在线| 游戏| 国产真人性做爰久久网站| 欧美劲爆第一页| 欧美人与禽交zozo| www夜插内射视频网站| 在线免费观看毛片av| 午夜被窝网| 天天爽夜夜爽人人爽曰| 久久久久无码精品国产AV| 久久久久无码国产精品一区|