![]()
想讓人工智能真正理解、預測甚至重構真實世界,我們需要一個核心引擎。
整理丨齊鋮湧
![]()
注:「世界模型」(World Model)的熱度,從年初開始持續至今。這個概念也已經橫跨具身智能、自動駕駛、游戲、視頻生成等領域,逐漸成為了 AI 領域下一個競爭焦點。
有人說它是通往 AGI 的最短路徑,有人說它是實現自動駕駛的終極答案,那么世界模型究竟是什么樣的存在?
本文來自于知乎作者 xintao ,AI 科技評論經授權后,編輯發布。
我們先從兩句名言出發,了解這個超級詞匯的起源。
![]()
一句話是來自心理學家 Kenneth Craik 1943在《解釋的本質》中說的話:The main function of the mind is to be a model of the world or a part of it —— 心智的主要功能,是成為世界或其一部分的模型。這句話是“心智模型(Mental Model)”理論的基石,也可以說是當前AI中討論“世界模型”的思想源頭。
另一句話是來自物理學家 Richard Feynman ,據說是在他1988年去世后,人們在他黑板上發現的:What I cannot create, I do not understand. —— 我若無法創造,便不能理解。這句話被生成式模型廣泛地引用。
選擇它們,是因為它們,分別代表了后面要介紹的兩大類世界模型——表征世界模型(Representation World Model)和生成世界模型(Generative World Model)。
01
給世界模型下一個“寬泛”的定義
首先,需要回答什么是世界模型?
雖然當前大家討論得比較多,相關工作最近也如雨后春筍般地出來,但直到現在仍舊沒有一個清晰且被大家廣為接受的定義。之前大家討論比較多的是 Yann LeCun 24年在推特上的帖子。(https://x.com/ylecun/status/1759933365241921817)
![]()
簡單地理解,可以如下圖所示。當給定現在的狀態 S(t) 和動作 A(t) ,預測下一個狀態 S’(t+1) 。通常來說我們也會從外部世界接受輸入或者觀察 O(t) ,來更新內部狀態。
![]()
預測的狀態可以是抽象的表征,類比我們的大腦想象未來。或者是具象的表征,比如像素 pixels ,就像視頻模型預測未來合理的新的視頻幀一樣。
除了這個寬泛的定義,我們還要給世界模型做個分類。
從最終的目的出發(也可以是狀態的不同表征方式),我們可以把世界模型劃分為兩大類:
一大類是:表征世界模型(Representation World Model)
一大類是:生成世界模型(Generative World Model)
![]()
02
表征世界模型:AI 如何理解和預測這個世界?
先說表征世界模型,它的目的是理解并預測世界的抽象原則,并不需要去生成逼真的像素。它的關鍵詞是理解和預測,以及抽象原則。
表征世界模型中一個典型代表,就是我們腦海中的心智模型 Mental Model ,它是我們大腦中對于外部現實的內在表達,能夠從外部世界中理解并總結出概念和關系,抽象出原則,而并不會對每一處細節進行模擬。(更多的關于我們大腦如何模擬和心智化這個世界的,推薦閱讀《智能簡史》)
![]()
其次簡單介紹下生成世界模型,它的目的是生成并模擬世界的具體表現。
正如費曼這句話說的,What I cannot create, I do not understand. 當我們能夠生成和模擬世界的具體表現的時候,也蘊含著我們對于世界的理解。
生成世界模型的一個典型代表是視頻世界模型。
Sora 24年推出,它能夠生成我們世界的一個片段,在那個時間點,雪景街頭的三維一致性,行人來往的合理性,鏡頭在空間的穿梭,無一不讓人遐想其宣傳的 World Simulator,世界模擬器。25年 Genie 3 更新,視頻生成模型繼續往前發展,不僅有了交互,還有了記憶,讓人們更加覺得視頻視覺模型的可實現性。你可以在生成的視頻中控制方向,并且記住你曾經訪問過的地方,猶如在世界中游走。
說明:這里的“生成式”(generative)指的是模型創造世界具體表現(例如像素、音頻)的能力。這有別于更廣泛的術語“生成式 AI ”(Generative AI),后者也包括像 LLMs 和 JEPA 這樣的模型,而在這里它們被歸類為表征模型。
03
表征世界模型的三大細分類型
表征世界模型包含三類:
1)生物大腦中的預測,比如我們人類和動物的心智模型(Mental Model);
2)視覺為中心的潛在空間預測,比如 V-JEPA/DINO-World ;
3)語言為中心的潛在空間預測,比如 LLM 。(當然 LLM 是否是世界模型,最近也有很多爭論,后文會簡要說明。
(特別要說明的是,這個分類是修改自 Xun Huang 的 blog :https://www.xunhuang.me/blogs/world_model.html。推薦大家去讀這篇 blog ,有很好的內容。)
![]()
A1 生物大腦中的預測
第一類是生物大腦中的預測,典型代表就是我們腦海中的心智模型(Mental Model),它是我們對于外部現實的內在表達。在我們大腦中進行的模擬是抽象的,更關心概念上的結果(比如下圖中的人“我會不會摔倒?”),而不是摔倒本身的具體細節,物理過程是如何的。
如圖所示,當我們騎自行車的時候,在我們腦海中會生成一個騎自行車的抽象場景,這是我們根據觀察 O(t) ,得到當前的狀態 S(t) 。當我們“想象”前方有一塊石頭時,我們的大腦會模擬不同的動作 A(t) ,帶來新的狀態 S'(t+1) 。例如,我們可以假想選擇“快速騎過去”這個動作,大腦會預測“摔倒”這個可能的未來。我們也可以選擇“推車走過去”,大腦則會預測“安全通過”的未來。
這些預測并沒有真實發生,它們完全是在大腦中進行的模擬。
![]()
另外一個有趣的論文工作是介紹我們大腦中的直覺物理引擎(Intuitive Physics Engine, IPE)。它是一個心智模型,或者說心智模型的一部分,它允許人們模擬物理場景隨時間的演變 。這篇論文有以下幾個有趣的發現,IPE具有以下幾個顯著的特點:
概率性 (Probabilistic):它不會像游戲引擎那樣產生一個唯一確定的結果,而是對未來可能發生的多種結果產生一個信念分布
有限采樣 (Limited Sampling):我們的決策通常只基于少數幾次(約2-4次)的心智模擬,而不是進行詳盡的推演
概念近似: 為了節省計算資源,IPE 會采用一些原則性的“捷徑” 。比如,在判斷碰撞時,使用物體簡化的“身體”(如凸包)而非其復雜的視覺“形狀”;或者將物體分類為“靜態”(如地面)和“動態”,以避免不必要的計算
右圖形象地展示了這一過程:人們通過多種感官(左側的“Perception”)來感知場景,并形成一個世界的內部表征(中間的“Internal Representation”),這個表征是以物體為中心,并包含了關于物體位置、范圍和屬性的概率信息。直覺物理引擎利用這個表征來隨機模擬世界未來的多種可能狀態(右側的“Simulation”),這些模擬的結果最終被用于認知系統進行預測和決策 。
![]()
A2 視覺為中心的潛在空間預測
當前的這類方法遵循一個相似的范式:首先,通過自監督學習(Self-Supervised Learning)將高維的視覺數據(如視頻幀)壓縮到一個抽象的、低維的潛在空間中;再學習基于過去的潛在特征和動作來預測未來的潛在特征。這么做的好處是,模型可以在一個更簡潔、更具語義的抽象空間里進行預測和推理,而不是在復雜的像素空間里直接操作。
各種不同方法最核心的區別在于:這個潛在空間是如何構建的。
如下圖所示,不同的模型采用了不同的自監督學習方法來構建這個潛在空間。例如,V-JEPA 2采用了JEPA 的思路,DINO-World則基于DINO,而經典的“World Models”論文則使用了 VAE 。在獲得潛在空間后,模型就可以在這個抽象空間中更高效地進行預測,從而理解和預判視覺世界的動態變化。
![]()
經典的“World Models”論文
以經典的“World Models”這篇論文為例,它為在世界模型中訓練強化學習智能體提供了一個重要的框架。這篇論文的核心思想,是它在 Introduction 中所引用的這段話:我們腦海中對世界的印象,僅僅是一個模型。沒有人會在腦海中想象出整個世界、政府或者國家。他擁有的只是“一些被選擇的概念,以及它們之間的關系”,并用這些來表征真實的系統。
這正點明了這類世界模型的核心——它并非對真實世界像素級復刻,而是一種抽象和壓縮的表征。
![]()
“World Models” 使用一個大的無監督模型(V+M)來解決困難的“世界理解”問題,然后在一個由該模型生成的“夢境”中,用一個非常小的控制器(C)來學習如何行動,從而解決 credit assignment 難題。 它巧妙地將復雜的任務進行了分解:
把從原始像素中理解世界動態這一困難任務,交給了不需要獎勵信號(non-RL)的無監督世界模型(V+M)來完成,而后者有 dense 且很強的監督學習信號
控制器 C 的任務變得簡單,它只需要在一個參數量少、特征質量高的抽象潛在空間中進行學習,極大地提升了訓練效率
![]()
LeCun 的自主智能
Yann LeCun 提出了一個受生物學啟發的自主智能(Autonomous Intelligence)框架,其核心在于通過一種名為 JEPA 的無監督學習方法來構建世界模型。
它有六個主要模塊,這里不深入展開。
![]()
有趣的是,這六個模塊都有生物學的對應,當我在讀《智能簡史》的時候,很容易將它們對應起來。下面就是我整理的一個簡單對應。
我覺得挺有道理的,在這一點上,我感覺 LeCun,Sutton 是類似的,都是受到生物學的強烈啟發。
![]()
V-JEPA 2
V-JEPA 2 的核心思想是在特征空間中進行掩碼預測,而不是在像素空間中進行。這樣做的好處是,模型學習到的特征會更加抽象和魯棒。
主要分為兩個階段:
第一階段: 模型在視頻數據上使用“掩碼-預測”的方法進行預訓練。它會學習如何填補視頻中被遮蓋掉的部分,從而訓練出一個強大的視覺 encoder。
第二階段: 第一階段訓練好的 encoder 被凍結。然后,模型會訓練一個基于動作條件的預測器(predictor)。這個預測器會根據過去的視頻幀和特定的動作,來預測未來的視頻幀。
![]()
DINO-World
DINO-World 的核心思想是復用一個已預訓練好的視覺模型 DINOv2 ,從而讓模型可以將學習的重點完全放在理解視頻中的動態變化上。
主要分為三個階段:
第一階段: 直接采用一個通過自監督學習(SSL)預訓練好的 DINOv2 編碼器
第二階段: 凍結 DINOv2 編碼器,然后在大量無標簽的視頻數據上,通過自監督的方式訓練一個預測器。這個預測器學習根據過去的視頻特征來預測未來的視頻特征
第三階段: 在帶有動作條件的數據上進行訓練,使模型最終能夠理解動作是如何影響未來的視頻幀
總結:可以看到以視覺為中心的潛在空間預測,以上幾個主要的工作都是一個相同的范式,不同的是采用不同的 SSL 方法學到了不同的表征空間。
![]()
A3 語言為中心的潛在空間預測
最后,我們來探討表征世界模型的第三類:以語言為中心的潛在空間預測。這里的一個核心問題是:LLM 是世界模型嗎?
從形式上來說,LLM 是符合世界模型定義的。
它的獨特之處在于,其對世界的理解和表征完全建立在海量的文本知識之上。在其自回歸(auto-regressive)的生成過程中,它可以接收上下文作為外部觀察(Observation),并把用戶的提示(prompt)視為一個動作(Action)或新的觀察。這個輸入會促使模型轉變其內部狀態,從而對未來做出預測,輸出新的內容。這個過程與世界模型從當前狀態 S(t) 和動作 A(t) 出發,預測下一個狀態 S'(t+1) 的基本范式是一致的。
![]()
下面是一個前面提到過的自行車的例子,
當我們通過文本給他兩種不同的 action 時:
如果你不減速,繼續騎過去會發生什么?
如果你下車,推著自行車過去會發生什么?
LLM 會詳細輸出這兩種選擇會導致的截然不同的后果,甚至會詳細到牽引力、動量和重心的變化。這和上面我們在 mental model 提到的人腦中的假想和推演未來相比,不是很接近嗎?
![]()
但是,Richard Sutton 最近的訪談對“LLM 是否是世界模型”這一問題提出了一些批判性的觀點。
Sutton 的核心論點是:LLMs 學習的是對話的上下文,而非現實世界的法則。
他認為,一個真正的世界模型應該具備以下能力:
預測在真實世界中“將會發生什么”
理解事件的動態變化、后果以及因果關系
能從直接的經驗中學習,并根據結果來更新自己的理解
而目前的大語言模型實際上做的是:
在給定的上下文中預測“一個人會說什么”
通過模仿人類生成的文本中的模式來進行學習
它們缺乏與外部世界的直接互動,也沒有內在的目標來衡量自身行為的正確性
根據 Sutton 的觀點,盡管 LLM 在語言回答上表現出色,但它們并不符合一個真正“世界模型”的標準,它們模擬的是語言的表象,而非世界運作的內在機理。
![]()
Sutton 說的很有道理。但從某個角度看,這正是 LLM 作為這一類世界模型的本質。
LLM 是擁有一個零碎且不完整的 (fragmented and incomplete)的世界模型。但這個世界模型是局部的 (local)、稀疏的 (sparse)、和不連貫的 (incoherent)。以及它需要借助外部的提示 (external prompts)才能夠將其碎片化的知識連接和組織起來。
那為什么會這樣呢? 這可能是因為語言本身就是對世界的一種局部、稀疏且不連貫的描述。因為 LLM 完全依賴于語言數據進行學習,它自然就繼承了語言本身的這些局限性,導致其構建的世界模型也是碎片化的。
![]()
04
生成世界模型的兩大細分類型
生成世界模型包含兩類:
1)基于規則的模擬,比如游戲引擎,CG 學科以及顯式 3D 中更多研究的是這類;
2)數據驅動的生成,比如視頻生成模型。其他可能還有細分類,但大家主要關心的就是這兩大類。
![]()
![]()
B1 基于規則的模擬
第一類是基于規則的模擬。
這是一種經過時間考驗并取得了巨大成功的方法。這種方法長遠來看依舊不可替代,有很多地方依舊會需要他們,而且他們會繼續發展。可能有點類似手機出來后,單反相機依舊有它的作用,而且將繼續發展。
它在許多領域都有著廣泛的應用,下面的例子是摘自 GAMES101 的 PPT。
視頻游戲 (Video Games): 游戲世界中的物理交互、角色行為等都由預設的規則和引擎驅動。
動畫 (Animations):動畫電影(如《瘋狂動物城》)中的角色動作和場景變化,也依賴于復雜的渲染和模擬規則。
設計 (Design): 在室內設計、建筑設計等領域,通過模擬光照、材質等來預演最終效果。
可視化 (Visualization):在科學、工程、醫學等領域,用于將復雜數據轉化為直觀的視覺圖像。
![]()
以游戲引擎(Game Engine)為例,可以說明基于規則的模擬(Rule-based Simulation) 的幾個核心特點:
自上而下 (Top-down): 它的規則是由人類自上而下、預先定義好的。
明確且固定 (Explicit and fixed): 這些規則是人類設計的、明確且固定的,例如游戲中明確定義的重力規則和碰撞規則。
確定性 (Deterministic): 系統的行為是確定且可預測的,在相同的輸入下總會產生相同的結果。
顯著簡化 (Significant simplification): 它對現實世界進行了極大的簡化和抽象,只捕捉系統的核心邏輯,而忽略大量不相關的細節。例如,游戲引擎通常不會去追蹤場景中每一片葉子或每一根草的狀態和運動。
![]()
有一個概念——數字孿生非常有關聯,數字孿生的例子有英偉達的 Omniverse 。
這是基于規則的模擬在工業領域中的一個重要應用。數字孿生技術可以為現實世界中的實體工廠創建一個精確的數字副本。如下圖的 youtube 視頻展示的,富士康利用 Omniverse 來構建其機器人工廠的數字孿生。
通過這項技術,他們可以在這個虛擬的工廠中優化布局,以及加速機器人訓練。這使得在實際部署之前,就能夠在高度逼真的模擬環境中對整個生產流程進行測試、驗證和優化。
![]()
B2數據驅動的生成
與基于規則的模擬相反,數據驅動的生成方法具有以下特點:
自下而上 (Bottom-up):它是從數據中自下而上地學習并涌現出模式
無預設規則 (No predefined rules):它不依賴任何預設的規則,而是通過學習海量數據來掌握世界的規律 。例如,它并不懂牛頓運動定律,但在看了一百萬個蘋果下落的視頻后,它就“知道”了蘋果是會往下掉的
概率性與涌現性 (Probabilistic and emergent):它的行為是概率性的,并且會涌現出復雜的、未被明確編程的行為
正如 OpenAI 關于 Sora 的描述中所說,視頻生成模型正在成為“世界模擬器”(world simulators)。
![]()
視頻生成,特別是可交互的生成式視頻,正在解鎖視頻世界模型的無限可能性。
從 Genie 2 到 Genie 3 ,從交互到記憶,我們可以看到模型不僅能生成高質量的視頻,更在逐步實現與生成世界的交互。用戶不再僅僅是旁觀者,而是可以成為虛擬世界中的參與者。
![]()
可交互生成式視頻(Interactive Generative Video, IGV)
我們的 Survey 工作 A Survey of Interactive Generative Video 也較早思考了可交互生成式視頻的五大構成部分,可交互生成式視頻是一大類主要的視頻世界模型。而 IGV 所展示的模塊也正是視頻世界模型的必要模塊。
生成(Generation):能夠以流式、實時和多模態的方式處理輸入,并輸出多模態
控制 (Control):包括對世界中的導航控制和交互控制
動態 (Dynamics):模擬物理規律并支持對物理規律的調整
記憶 (Memory):擁有靜態記憶和動態記憶
智能 (Intelligence):具備推理和自我演化的能力,是系統更高階的特性
![]()
05
做個總結
最后,對世界模型的分類做一個總結。本文主要介紹了下面這張圖。
![]()
還有兩個重要的補充:上面內容是為了分類,但實際上很多內容是融合與交叉的。
生成世界模型是需要表征世界模型作為基礎,無論是顯式地包含或者隱式的包含。所以 Video World Model 和 V-JEPA/DINO-World ,以及 LLM 作為世界模型并不是爭鋒相對的,他們可以是相輔相成的
在生成世界模型內部的分類中,基于規則和數據驅動這兩種方法也不是水火不容的,它們在短期內有結合的方案,這一類并沒有列在這里。
【參考】
https://www.xunhuang.me/blogs/world_model.html
Ha, David, and Jürgen Schmidhuber. "World models."
Intuitive physics as probabilistic inference: https://cicl.stanford.edu/papers/smith2023probabilistic.pdf
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
Back to the Features: DINO as a Foundation for Video World Models
A path towards autonomous machine intelligence
A Survey of Interactive Generative Video
https://openai.com/index/sora/
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.