2026 年 2 月 12 日,普林斯頓大學機械與航空航天工程系副教授 Anirudha Majumdar 在 X 上發(fā)表了一篇長博文,直面一個正在機器人學界升溫的核心爭論:為具身智能構建世界模型,到底應不應該去“預測像素”?
Majumdar 是普林斯頓機器人研究倡議(Princeton Robotics Initiative)的聯(lián)合主任,同時在 Google DeepMind 擔任兼職訪問研究科學家。他的研究聚焦于讓機器人在以人為中心的環(huán)境中安全、可靠地泛化到新場景,曾獲斯隆研究獎(Sloan Fellowship)、兩次 Google 教授研究獎,以及《國際機器人研究期刊》(IJRR)年度最佳論文等榮譽。
![]()
圖丨Anirudha Majumdar(來源:Princeton MAE)
他本人也是去年 12 月 Google DeepMind 那篇引發(fā)廣泛關注的 Veo 機器人策略評估工作的合作者之一,該研究展示了如何用前沿視頻生成模型 Veo 作為機器人策略的“世界仿真器”,通過 1,600 多次真實世界評估驗證了其有效性。
在文章中,Majumdar 表示當前機器人領域的世界模型幾乎等同于視頻生成模型,這條路線在概念簡潔性、評估便利性、商業(yè)推動力等方面擁有不容低估的短期優(yōu)勢;但 Yann LeCun 倡導多年的潛在世界模型(以 JEPA 架構為代表)在長時域規(guī)劃上更具前景,可能在五年左右的時間尺度上成為關鍵組件。兩者并非你死我活的替代關系,更可能走向協(xié)同。
以下是這篇博文的全文編譯。
機器人的世界模型
在機器人學界,一個大致的共識似乎正彌漫在空氣中:未來的通用策略將建立在“世界建模”的配方之上,而非迄今為止占主導地位的 VLM(Vision-Language Model,視覺語言模型)骨架方案。
論點如下:VLM 沒有被顯式地訓練來預測未來,因此在幾何、空間和物理推理能力上,也就是預測動作精細后果所需的那類能力并不可靠。相比之下,世界模型允許機器人“想象”未來以進行規(guī)劃,例如:(1)生成一段想象中成功執(zhí)行的視頻,再用逆動力學模型推斷所需動作;或者(2)直接使用一個以動作為條件的世界模型來優(yōu)化規(guī)劃。
2026 年初的機器人學:世界模型=視頻模型
在 2026 年初,機器人領域的世界建模由視頻世界模型主導,即那些被訓練來預測未來視頻幀(以文本以及潛在的動作為條件)的生成式模型。這些模型建立在視頻建模領域巨大進步的基礎之上:在互聯(lián)網規(guī)模數(shù)據(jù)上訓練的基于擴散的架構,能夠生成驚人逼真的視頻,包含復雜的物理交互,例如來自 Veo、Cosmos 和 Wan 的視頻。
僅在過去一年中,我們就已經看到經過機器人數(shù)據(jù)微調的視頻模型能夠執(zhí)行策略評估、數(shù)據(jù)生成和推理時規(guī)劃生成;相關綜述可參閱文獻[1]。就我個人而言,參與 Veo 的策略評估工作提供了一次巨大的認知更新,看到如下所示的視頻模型“仿真”,讓我確信視頻模型終于到了可以在機器人領域大展身手的時刻。
視頻模型的挑戰(zhàn)
盡管結果令人振奮,當前所有用于機器人的視頻模型都受到同一組幻覺問題的困擾:物體憑空復制、無中生有、憑空消失,或者在自發(fā)地或在被遮擋后重新出現(xiàn)時發(fā)生形變。
此外,長時域生成是一個重大挑戰(zhàn):當前機器人領域的視頻模型很難在超過 20-30 秒之后仍能產出高質量的生成結果。
潛在世界模型:不要預測像素
從直覺上看,視頻建模對于世界模型而言似乎是一個不必要地困難的任務。預測背景中樹葉運動的像素級細節(jié),或者預測即將出現(xiàn)在我辦公室門口的人的精確面部特征,顯然是沒有必要的。
我們可以轉而構建一個潛在世界模型(latent world model),只預測環(huán)境的某些特征。具體來說,通過預測可預測之物,我們可以將表征能力集中在真正重要的事情上,而不是那些細枝末節(jié),比如在特定光照條件下物體的精確外觀。
Yann LeCun 多年來已經非常有力地闡述了這一論點(參見他在普林斯頓機器人研討會上的演講)。他在 Meta 和 NYU 的團隊開發(fā)了多種形式的 JEPA(Joint-Embedding Predictive Architecture,聯(lián)合嵌入預測架構),這種架構學習觀測的潛在表征,以預測其他(例如未來)觀測的表征。
V-JEPA 2 展示了這種自監(jiān)督學習如何涌現(xiàn)出有用的視頻特征。此外,該工作還展示了模型的動作條件版本如何通過在推理時優(yōu)化動作序列來實現(xiàn)機器人規(guī)劃。
潛在世界模型的論點在長時域任務上尤其有說服力。預測世界在未來 10-20 秒內如何在像素層面演化似乎還說得過去,但將這一尺度擴展到分鐘或小時級別,既極其困難,又完全沒有必要。
為什么視頻模型將在短期內勝出
在接觸視頻模型之前,我曾被上述潛在世界模型的論點所說服;只預測世界顯著特征的極簡主義方法確實很有吸引力。然而,我想要論證的是,視頻建模在技術和實踐上有一些不應被低估的顯著優(yōu)勢。這些優(yōu)勢在一年前對我來說并不顯而易見,我希望在這里把它們明確寫出來能對其他人有所幫助。
概念上的簡潔性。視頻建模的任務是明確無歧義的:預測未來幀。類似于 LLM(Large Language Model,大語言模型)的下一個 token 預測,一個清晰的監(jiān)督信號可以為下游任務帶來良好的特征,以及諸如物體分割、視頻編輯和視覺推理等涌現(xiàn)能力。
這與 JEPA 形成鮮明對比:預測可預測之物這一任務并非完全指定的(not fully specified),如果實現(xiàn)不當會導致表征坍縮——構建一個可預測嵌入的最簡單方式就是讓它成為常數(shù)。
清晰的評估指標。對視頻模型進行爬坡優(yōu)化(hill-climbing)是直截了當?shù)摹S袠藴手笜耍ㄈ?LPIPS 或 FID)可以用來評估視頻生成的質量。JEPA 則不然,它優(yōu)化的損失函數(shù)并不一定與下游性能相關(不過最近的 LeJepa 論文在這方面展現(xiàn)了一些積極跡象)。
推理時縮放與驗證器。視頻模型允許 VLM 被直接用作驗證器。通過生成多段視頻并用 VLM 打分,我們可以過濾掉不真實或低質量的生成結果。這提供了一個簡潔的推理時縮放配方。
視頻模型賦能策略評估。視頻模型可以充當機器人策略的完整仿真器。為了執(zhí)行閉環(huán) rollout,仿真器的輸出必須與策略的輸入匹配。對于視覺運動控制(visuomotor control),這就要求生成完整的圖像(除非策略被迫在潛在世界模型的潛在空間中接收輸入)。
視頻模型與圖像編輯器的天然組合。視頻模型可以接受編輯后的幀作為輸入。正如我們在 Veo 工作中所展示的,這提供了一個簡潔的配方,用于在分布外(out-of-distribution)場景中進行策略評估。
真實世界的觀測可以被編輯(例如引入新物體或背景),然后用于條件化策略 rollout。可以想象,類似的策略也能用于視頻模型在分布外場景中的數(shù)據(jù)生成(類似于 DreamGen)。
巨大的商業(yè)激勵。支持視頻模型的主要論點實際上是一個非技術性的。開發(fā)好的視頻生成模型面臨著巨大的商業(yè)壓力。從社交媒體應用到電影制作,視頻模型將以獨立于機器人領域的速度快速發(fā)展。
我們已經反復看到這部電影的劇情,從用于游戲的深度相機,到用于智能手機的 IMU(Inertial Measurement Unit,慣性測量單元),再到用于 NLP(Natural Language Processing,自然語言處理)的 LLM——因獨立商業(yè)原因開發(fā)的技術,最終革新了機器人學。同樣的事情很可能也會發(fā)生在視頻模型身上。
在近期(2-3 年),我預計視頻模型將繼續(xù)作為機器人世界建模的主導力量。尤其是對于短時域操作任務,這仍然是當今機器人學大部分研究的北極星,我預計上述優(yōu)勢將超過潛在世界模型的潛在收益。
JEPA 會在長期勝出嗎?
JEPA 用于機器人的核心未解技術問題是:JEPA 學到的"可預測特征"是否等同于對機器人有用的特征?可預測的特征本身并不一定有用——我們總是可以預測那個將任何圖像映射為常數(shù)的特征。然而,DINO 的存在提供了一個強有力的證據(jù),它可以說是 JEPA 風格自監(jiān)督學習最大的成功案例。
DINO 特征在廣泛的下游視覺任務中取得了最先進的結果,如分割、深度預測和物體檢測。類似的收益能否在機器人世界建模中實現(xiàn),仍然是一個開放問題。
為了超越視頻模型,JEPA 還需要克服我上面強調的一些商業(yè)壓力。然而,LeCun 的 AMI 初創(chuàng)公司似乎有可能積聚足夠的資源來跨越這一障礙,并展示 JEPA 在世界建模方面的威力。
如果讓我在大約 5 年的時間線上下注,我會押注 JEPA 成為機器人世界模型的關鍵組成部分。我懷疑,一旦我們在基礎操作技能上取得進展,超過幾秒的時間跨度將真正開始在機器人學中變得重要,屆時 JEPA 在規(guī)劃方面的優(yōu)勢應該會顯現(xiàn)出來。
然而,基于上一節(jié)強調的原因,我不認為 JEPA 會一對一地替代視頻模型。首先,JEPA 和視頻模型可以協(xié)同工作。事實上,我們已經看到了將兩者結合的工作,例如用潛在世界模型在推理時改進視頻模型。此外,JEPA 的表征學習目標也可以與視頻重建目標同時應用。最后,對于策略評估等用例,視頻生成有非常明確的優(yōu)勢(例如使用圖像編輯來生成場景變體)。
無論事情最終如何發(fā)展,這都是一個非常激動人心的時刻,不同的實體正在下注不同的路線,還有一些根本性的開放問題等待解決。
參考資料:
1.https://x.com/Majumdar_Ani/status/2021242532517040560
2.Mei et al., 2026, "Video Generation Models in Robotics -- Applications, Research Challenges, Future Directions".
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.