![]()
近年來,視頻生成(Video Generation)與世界模型(World Models)已躍升為人工智能領域最炙手可熱的焦點。從 Sora 到可靈(Kling),視頻生成模型在運動連續性、物體交互與部分物理先驗上逐漸表現出更強的「世界一致性」,讓人們開始認真討論:能否把視頻生成從「逼真短片」推進到可用于推理、規劃與控制的「通用世界模擬器」。
與此同時,這一研究方向正快速與具身智能(Embodied AI)、自動駕駛(Autonomous Driving)等前沿場景深度交織,被視為通往通用人工智能(AGI)的重要路徑。
然而,在研究熱潮之下,「何為真正的世界模型」以及「如何評判視頻模型的世界模擬能力」等核心議題卻陷入了多維爭論。當前,世界模型的定義與分類層出不窮,理論維度的交叉重疊往往令研究者感到困惑,也限制了技術的標準化發展。
為建立更系統、清晰的審視視角,快手可靈團隊與香港科技大學(廣州)陳穎聰教授團隊(共同一作:博士生王羅州、博士生陳知非)聯合發表了從全新視角深度剖析視頻世界模型的系統綜述。
本文旨在彌合當代「無狀態」視頻架構與經典「以狀態為中心」的世界模型理論之間的鴻溝,首次提出以「狀態構建(State Construction)」與「動態建模(Dynamics Modeling)」為雙支柱的全新分類體系。
此外,本文力倡將評估標準從單純的「視覺保真度」轉向「功能性基準」,并前瞻性地指出了兩個關鍵技術前沿,為視頻生成演進至魯棒的通用世界模擬器提供了清晰的路線圖。
![]()
- 論文標題:A Mechanistic View on Video Generation as World Models: State and Dynamics
- 論文鏈接:https://arxiv.org/pdf/2601.17067
- github 鏈接:https://github.com/hit-perfect/Awesome-Video-World-Models
綜述結構概要
![]()
核心亮點:這篇綜述的關鍵貢獻是什么?
相比于過往側重于視覺效果的視頻生成研究,本篇綜述在多個維度具有代際優勢:
- 全鏈路視角(Full-Stack Perspective):徹底打破單一的「渲染」視角,涵蓋了從底層理論定義、中層架構設計(狀態構建與動態建模)到上層功能性評估的全生命周期分析,確保對視頻世界模型全方位的理解。
- 彌合理論鴻溝(Bridging the Gap):首次將當代「無狀態」(state-less)的視頻擴散架構與經典的基于模型強化學習(MBRL)、控制理論進行深度映射,為世界模型找到了堅實的理論根基。
- 前瞻性指南(Forward-Looking Guide):明確了「持久性」與「因果性」 是邁向通用世界模擬器的兩大核心關隘。本研究為業界從被動的「像素預測」轉向具備閉環交互與因果干預能力的模擬器提供了清晰的路徑參考。
- 最新研究覆蓋:深度梳理了 2024 至 2025 年間涌現的視頻生成的最新工作,反映了當前技術從視覺保真度向物理一致性轉化的前沿趨勢。
核心理論
世界模型的三大基石
本文首先回歸經典,將世界模型的運作提煉為三個耦合的核心組件,構建了從感知到推理的完整鏈路:
![]()
世界模型的核心操作
基于前文提出的「三大基石」,本文將世界模型的運行機制歸納為兩項核心操作:
![]()
![]()
世界模型的學習方式
鑒于世界模型主要服務于下游決策,本文將其獲取(訓練)范式按與策略模型(Policy Model)的耦合程度歸納為兩類:
- 閉環學習(Closed-loop Learning / Coupled Training):世界模型與策略模型聯合訓練,世界模型的參數更新直接受策略目標影響(共享梯度 / 端到端優化),該范式可進一步分為兩種結構:
- 順序組合(Sequential Architecture):世界模型和策略模型是分開的模塊,但訓練時會端到端聯動:策略目標產生的誤差信號會通過梯度反向傳回世界模型,從而讓生成結果更符合可執行性與物理一致性。
- 統一架構(Unified Architecture):將世界模型與策略整合為單一端到端系統,在同一框架內共同優化感知、預測與動作生成。
- 開環學習(Open-loop Learning / Decoupled Training):將世界模型視為通過大規模被動數據預訓練得到的獨立模擬器;策略模型可在自身優化中調用世界模型進行「想象 / 規劃」,但世界模型不接收來自策略獎勵信號或損失函數的梯度更新(模型凍結)。
![]()
視頻模型的演進:邁向魯棒世界模擬器
現代視頻生成模型雖已具備很強的視覺保真度并被視為潛在的世界模型載體,但與上面分析的經典世界模型相比仍存在兩大關鍵差距:
![]()
在動態(Dynamics)層面,標準模型常以雙向注意力「一次性渲染」固定時長片段,缺少顯式時間因果推進,近期工作則通過因果架構重構(自回歸、因果掩碼、滾動預測等)或因果知識集成(借助 LMM 做規劃約束或統一耦合優化)來注入因果性(causality)。
核心支柱
為了刻畫視頻生成模型邁向穩健世界模型的演進路徑,本文首先從其內部表示入手,重點審視狀態(state)的構建:將「狀態」視為對環境當前配置的充分統計量,并以此為核心把歷史信息有機融入統一表示中。通過將長期背景提煉并沉淀到這種狀態表示里,模型才能在更長時程下維持一致的記憶與連貫的模擬。
隨后,本文進一步分析視頻生成模型中動態(dynamics)行為的來源,強調模型需要內化潛在的因果規律,使得隨時間推進的演化既符合物理可行性,也在邏輯層面保持自洽與一致。
支柱一:狀態構建(State Construction)
視頻模型如何「記住」過去?如何處理歷史信息?本文將現有的狀態處理機制劃分為隱式(Implicit State)與顯式(Explicit State)兩大范式,并對其優劣進行了深度解構:
隱式狀態(記憶機制管理)
![]()
![]()
![]()
![]()
![]()
顯式狀態(內核表示)
這一范式將狀態構建內化為模型自身的壓縮過程:它不再維護不斷增長的歷史幀緩沖區,而是把歷史上下文持續蒸餾進一個全局更新的潛在變量(State)中,使其成為對視頻演化過程的固定維度、可遞推的數學摘要。
- 耦合狀態(Coupled States):狀態轉移與生成骨干深度融合,模型在同一網絡內實現「邊生成、邊更新」。狀態通常體現為網絡內部的隱藏記憶(如 SSM/RNN/LSTM 隱狀態或注意力緩沖區),也可通過在線優化 / 可塑性把歷史信息編碼進參數,使狀態融入生成器的內部動力學,代表工作如 TTT [5] 、SANA-Video [6] 等。
- 解耦狀態(Decoupled States):狀態與生成器內部激活分離,作為獨立顯式表征被單獨維護與更新,生成器每步讀取該狀態進行渲染。常見路徑包括:語義導向(用 LLM 等維護世界描述 / 敘事邏輯)與幾何導向(用點云或 3D Gaussian splatting 等 3D 記憶,通過融合 / 反投影迭代更新以保持空間一致性)。
![]()
隱式狀態 vs. 顯式狀態的系統性對比
![]()
![]()
![]()
總體取舍是:隱式狀態目前更穩妥地支持高保真視頻生成,而顯式狀態更像通往高效、可長期推理的自主智能體與世界模擬的前沿方向。
![]()
支柱二:動態建模(Dynamics Modeling)
如何讓生成的視頻不只是「看起來像」,而是真正符合物理規律與時間邏輯?本文歸納了兩條增強因果推理能力的主要路徑:
- 因果架構重構(Causal Architecture Reformulation):從模型結構與訓練目標入手,把生成過程從「一次性渲染」改造成「按時間順序預測」,通過因果遮罩等機制避免未來信息泄漏,并結合不同的訓練 / 噪聲調度策略強化嚴格的時間依賴;同時通過 forcing 等方式模擬推理階段的誤差累積與曝光偏差,縮小訓練與推理的差距,使長時程 rollout 更穩定、更符合物理一致性與邏輯連貫性,代表工作如 Self-Forcing [7] 等。
- 因果知識集成(Causal Knowledge Integration):引入具備更強推理與常識能力的多模態大模(LMM/VLM/LLM)作為「規劃者 / 導演」,先在高層完成時序、動作與場景邏輯的規劃,再由視頻生成模型負責高保真「渲染」;更進一步的統一框架會將理解與生成更緊密地耦合,讓推理信號直接約束生成過程,從而提升動態演化的因果可信度,代表工作如 Owl-1 [8] 等。
支柱三:評估體系(Evaluation)
如果說視頻生成更關心「好不好看」,那么世界模擬還需要更關心「好不好用」。傳統的 IS/FVD 等指標主要衡量短片段的視覺真實感,已難以回答模型是否具備可持續推演、可交互、可用于決策的「世界模型」能力。因此,本文主張將評估從 「視覺美感」進一步推進到「功能基準」,并提出三條核心評價軸:
- 質量(Quality):關注基礎視覺保真度、短程時序相干性以及文本 / 條件對齊能力,代表性工具如 VBench [9] / VBench++ [10] 等,用更細粒度的維度拆解「畫面是否穩定、主體是否一致、語義是否對齊」。
- 持久性(Persistence):關注長時程 rollout 的穩定性與一致性,既看生成長度拉長后是否出現漂移 / 崩壞,也通過「場景重訪(re-visitation)」等記憶任務檢驗模型能否在回到舊地點時恢復正確狀態,而不是憑空補細節;相關評測包括 WCS [11] 以及基于 rFID [12] 的重建一致性測試等。
- 因果性(Causality):作為世界模擬的核心能力,重點檢驗模型是否真正內化物理與邏輯規律,既包括時間順序與物理有效性(如 ChronoMagic-Bench [13] 、Physics-IQ [14] ),也包括反事實干預下的響應是否合理(例如改變動作 / 初始條件后,世界是否按因果產生不同且自洽的結果),并進一步延伸到 agent-in-the-loop 的任務成功率與規劃表現(如 World-in-World [15] 等)。
未來研究方向
視頻生成邁向世界模擬的關鍵,在于補齊兩項核心能力:持久性(persistence)與因果性(causality)。
前者要求模型在長時程生成中保持穩定一致的狀態:隱式狀態需要從固定窗口等啟發式記憶升級為可學習、可動態篩選的信息管理機制;顯式狀態則要在壓縮效率與細節保真之間找到更好的平衡。
后者要求模型從統計相關走向因果機制:一條路線是通過架構與數據設計提升因果推斷能力(更好地解耦潛在因果因素),另一條路線是引入理解模型的推理先驗來約束生成,但如何有效對齊生成與理解仍是核心挑戰。
結語
綜上所述,隨著視頻生成技術在各領域的爆發式增長,如何使其具備真實世界的模擬能力已成為不可回避的挑戰。通過全鏈路的技術剖析,本綜述不僅彌合了視頻架構與經典理論之間的裂痕,還揭示了從「隱 / 顯式狀態構建」到「因果動態建模」的關鍵路徑。
這篇綜述為學術界和工業界提供了一個重要的參考框架,幫助研究者在通往通用世界模擬器的征途中精準定位。
團隊相信,通過應對綜述中列出的挑戰,該領域可以從生成視覺上逼真的視頻發展到構建穩健的通用世界模擬器,為自動駕駛、具身智能等領域的長足發展奠定堅實基石。
參考文獻
[1] L. Zhang and M. Agrawala. Packing input frame context in next-frame prediction models for video generation. arXiv preprint arXiv:2504.12626, 2025.
[2] Z. Xiao et al. Worldmem: Long-term consistent world simulation with memory. arXiv preprint arXiv:2504.12369, 2025.
[3] X. Wu et al. Corgi: Cached memory guided video generation. arXiv preprint arXiv:2508.16078, 2025.
[4] R. Henschel et al. Streamingt2v: Consistent, dynamic, and extendable long video generation from text. In Proceedings of the Computer Vision and Pattern Recognition Conference, pp. 2568–2577, 2025.
[5] K. Dalal et al. One-minute video generation with test-time training. In Proceedings of the Computer Vision and Pattern Recognition Conference, pp. 17702–17711, 2025.
[6] J. Chen et al. Sana-video: Efficient video generation with block linear diffusion transformer. arXiv preprint arXiv:2509.24695, 2025.
[7] X. Huang et al. Self forcing: Bridging the train-test gap in autoregressive video diffusion. arXiv preprint arXiv:2506.08009, 2025.
[8] Y. Huang et al. Owl-1: Omni world model for consistent long video generation. arXiv preprint arXiv:2412.09600, 2024.
[9] Z. Huang et al. Vbench: Comprehensive benchmark suite for video generative models, 2023.
[10] Z. Huang et al. Vbench++: Comprehensive and versatile benchmark suite for video generative models, 2024.
[11] A. Rakheja et al. World consistency score: A unified metric for video generation quality, 2025.
[12] M. Heusel et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium, 2018.
[13] S. Yuan et al. Chronomagic-bench: A benchmark for metamor-phic evaluation of text-to-time-lapse video generation, 2024.
[14] S. Motamed et al. Do generative video models understand physical principles?, 2025.
[15] J. Zhang et al. World-in-world: World models in a closed-loop world, 2025.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.