網易首頁 > 網易號 > 正文申請入駐

視頻模型能解決機器人“預測未來”的問題嗎？短期能，長期不行

2026-02-12 14:58:00　來源: DeepTech深科技

河南舉報

分享至

2026 年 2 月 12 日，普林斯頓大學機械與航空航天工程系副教授 Anirudha Majumdar 在 X 上發(fā)表了一篇長博文，直面一個正在機器人學界升溫的核心爭論：為具身智能構建世界模型，到底應不應該去“預測像素”？

Majumdar 是普林斯頓機器人研究倡議（Princeton Robotics Initiative）的聯(lián)合主任，同時在 Google DeepMind 擔任兼職訪問研究科學家。他的研究聚焦于讓機器人在以人為中心的環(huán)境中安全、可靠地泛化到新場景，曾獲斯隆研究獎（Sloan Fellowship）、兩次 Google 教授研究獎，以及《國際機器人研究期刊》（IJRR）年度最佳論文等榮譽。

圖丨Anirudha Majumdar（來源：Princeton MAE）

他本人也是去年 12 月 Google DeepMind 那篇引發(fā)廣泛關注的 Veo 機器人策略評估工作的合作者之一，該研究展示了如何用前沿視頻生成模型 Veo 作為機器人策略的“世界仿真器”，通過 1,600 多次真實世界評估驗證了其有效性。

在文章中，Majumdar 表示當前機器人領域的世界模型幾乎等同于視頻生成模型，這條路線在概念簡潔性、評估便利性、商業(yè)推動力等方面擁有不容低估的短期優(yōu)勢；但 Yann LeCun 倡導多年的潛在世界模型（以 JEPA 架構為代表）在長時域規(guī)劃上更具前景，可能在五年左右的時間尺度上成為關鍵組件。兩者并非你死我活的替代關系，更可能走向協(xié)同。

以下是這篇博文的全文編譯。

機器人的世界模型

在機器人學界，一個大致的共識似乎正彌漫在空氣中：未來的通用策略將建立在“世界建模”的配方之上，而非迄今為止占主導地位的 VLM（Vision-Language Model，視覺語言模型）骨架方案。

論點如下：VLM 沒有被顯式地訓練來預測未來，因此在幾何、空間和物理推理能力上，也就是預測動作精細后果所需的那類能力并不可靠。相比之下，世界模型允許機器人“想象”未來以進行規(guī)劃，例如：（1）生成一段想象中成功執(zhí)行的視頻，再用逆動力學模型推斷所需動作；或者（2）直接使用一個以動作為條件的世界模型來優(yōu)化規(guī)劃。

2026 年初的機器人學：世界模型＝視頻模型

在 2026 年初，機器人領域的世界建模由視頻世界模型主導，即那些被訓練來預測未來視頻幀（以文本以及潛在的動作為條件）的生成式模型。這些模型建立在視頻建模領域巨大進步的基礎之上：在互聯(lián)網規(guī)模數(shù)據(jù)上訓練的基于擴散的架構，能夠生成驚人逼真的視頻，包含復雜的物理交互，例如來自 Veo、Cosmos 和 Wan 的視頻。

僅在過去一年中，我們就已經看到經過機器人數(shù)據(jù)微調的視頻模型能夠執(zhí)行策略評估、數(shù)據(jù)生成和推理時規(guī)劃生成；相關綜述可參閱文獻［1］。就我個人而言，參與 Veo 的策略評估工作提供了一次巨大的認知更新，看到如下所示的視頻模型“仿真”，讓我確信視頻模型終于到了可以在機器人領域大展身手的時刻。

視頻模型的挑戰(zhàn)

盡管結果令人振奮，當前所有用于機器人的視頻模型都受到同一組幻覺問題的困擾：物體憑空復制、無中生有、憑空消失，或者在自發(fā)地或在被遮擋后重新出現(xiàn)時發(fā)生形變。

此外，長時域生成是一個重大挑戰(zhàn)：當前機器人領域的視頻模型很難在超過 20-30 秒之后仍能產出高質量的生成結果。

潛在世界模型：不要預測像素

從直覺上看，視頻建模對于世界模型而言似乎是一個不必要地困難的任務。預測背景中樹葉運動的像素級細節(jié)，或者預測即將出現(xiàn)在我辦公室門口的人的精確面部特征，顯然是沒有必要的。

我們可以轉而構建一個潛在世界模型（latent world model），只預測環(huán)境的某些特征。具體來說，通過預測可預測之物，我們可以將表征能力集中在真正重要的事情上，而不是那些細枝末節(jié)，比如在特定光照條件下物體的精確外觀。

Yann LeCun 多年來已經非常有力地闡述了這一論點（參見他在普林斯頓機器人研討會上的演講）。他在 Meta 和 NYU 的團隊開發(fā)了多種形式的 JEPA（Joint-Embedding Predictive Architecture，聯(lián)合嵌入預測架構），這種架構學習觀測的潛在表征，以預測其他（例如未來）觀測的表征。

V-JEPA 2 展示了這種自監(jiān)督學習如何涌現(xiàn)出有用的視頻特征。此外，該工作還展示了模型的動作條件版本如何通過在推理時優(yōu)化動作序列來實現(xiàn)機器人規(guī)劃。

潛在世界模型的論點在長時域任務上尤其有說服力。預測世界在未來 10-20 秒內如何在像素層面演化似乎還說得過去，但將這一尺度擴展到分鐘或小時級別，既極其困難，又完全沒有必要。

為什么視頻模型將在短期內勝出

在接觸視頻模型之前，我曾被上述潛在世界模型的論點所說服；只預測世界顯著特征的極簡主義方法確實很有吸引力。然而，我想要論證的是，視頻建模在技術和實踐上有一些不應被低估的顯著優(yōu)勢。這些優(yōu)勢在一年前對我來說并不顯而易見，我希望在這里把它們明確寫出來能對其他人有所幫助。

概念上的簡潔性。視頻建模的任務是明確無歧義的：預測未來幀。類似于 LLM（Large Language Model，大語言模型）的下一個 token 預測，一個清晰的監(jiān)督信號可以為下游任務帶來良好的特征，以及諸如物體分割、視頻編輯和視覺推理等涌現(xiàn)能力。

這與 JEPA 形成鮮明對比：預測可預測之物這一任務并非完全指定的（not fully specified），如果實現(xiàn)不當會導致表征坍縮——構建一個可預測嵌入的最簡單方式就是讓它成為常數(shù)。

清晰的評估指標。對視頻模型進行爬坡優(yōu)化（hill-climbing）是直截了當?shù)摹Ｓ袠藴手笜耍ㄈ?LPIPS 或 FID）可以用來評估視頻生成的質量。JEPA 則不然，它優(yōu)化的損失函數(shù)并不一定與下游性能相關（不過最近的 LeJepa 論文在這方面展現(xiàn)了一些積極跡象）。

推理時縮放與驗證器。視頻模型允許 VLM 被直接用作驗證器。通過生成多段視頻并用 VLM 打分，我們可以過濾掉不真實或低質量的生成結果。這提供了一個簡潔的推理時縮放配方。

視頻模型賦能策略評估。視頻模型可以充當機器人策略的完整仿真器。為了執(zhí)行閉環(huán) rollout，仿真器的輸出必須與策略的輸入匹配。對于視覺運動控制（visuomotor control），這就要求生成完整的圖像（除非策略被迫在潛在世界模型的潛在空間中接收輸入）。

視頻模型與圖像編輯器的天然組合。視頻模型可以接受編輯后的幀作為輸入。正如我們在 Veo 工作中所展示的，這提供了一個簡潔的配方，用于在分布外（out-of-distribution）場景中進行策略評估。

真實世界的觀測可以被編輯（例如引入新物體或背景），然后用于條件化策略 rollout。可以想象，類似的策略也能用于視頻模型在分布外場景中的數(shù)據(jù)生成（類似于 DreamGen）。

巨大的商業(yè)激勵。支持視頻模型的主要論點實際上是一個非技術性的。開發(fā)好的視頻生成模型面臨著巨大的商業(yè)壓力。從社交媒體應用到電影制作，視頻模型將以獨立于機器人領域的速度快速發(fā)展。

我們已經反復看到這部電影的劇情，從用于游戲的深度相機，到用于智能手機的 IMU（Inertial Measurement Unit，慣性測量單元），再到用于 NLP（Natural Language Processing，自然語言處理）的 LLM——因獨立商業(yè)原因開發(fā)的技術，最終革新了機器人學。同樣的事情很可能也會發(fā)生在視頻模型身上。

在近期（2-3 年），我預計視頻模型將繼續(xù)作為機器人世界建模的主導力量。尤其是對于短時域操作任務，這仍然是當今機器人學大部分研究的北極星，我預計上述優(yōu)勢將超過潛在世界模型的潛在收益。

JEPA 會在長期勝出嗎？

JEPA 用于機器人的核心未解技術問題是：JEPA 學到的＂可預測特征＂是否等同于對機器人有用的特征？可預測的特征本身并不一定有用——我們總是可以預測那個將任何圖像映射為常數(shù)的特征。然而，DINO 的存在提供了一個強有力的證據(jù)，它可以說是 JEPA 風格自監(jiān)督學習最大的成功案例。

DINO 特征在廣泛的下游視覺任務中取得了最先進的結果，如分割、深度預測和物體檢測。類似的收益能否在機器人世界建模中實現(xiàn)，仍然是一個開放問題。

為了超越視頻模型，JEPA 還需要克服我上面強調的一些商業(yè)壓力。然而，LeCun 的 AMI 初創(chuàng)公司似乎有可能積聚足夠的資源來跨越這一障礙，并展示 JEPA 在世界建模方面的威力。

如果讓我在大約 5 年的時間線上下注，我會押注 JEPA 成為機器人世界模型的關鍵組成部分。我懷疑，一旦我們在基礎操作技能上取得進展，超過幾秒的時間跨度將真正開始在機器人學中變得重要，屆時 JEPA 在規(guī)劃方面的優(yōu)勢應該會顯現(xiàn)出來。

然而，基于上一節(jié)強調的原因，我不認為 JEPA 會一對一地替代視頻模型。首先，JEPA 和視頻模型可以協(xié)同工作。事實上，我們已經看到了將兩者結合的工作，例如用潛在世界模型在推理時改進視頻模型。此外，JEPA 的表征學習目標也可以與視頻重建目標同時應用。最后，對于策略評估等用例，視頻生成有非常明確的優(yōu)勢（例如使用圖像編輯來生成場景變體）。

無論事情最終如何發(fā)展，這都是一個非常激動人心的時刻，不同的實體正在下注不同的路線，還有一些根本性的開放問題等待解決。

參考資料：

1.https://x.com/Majumdar_Ani/status/2021242532517040560

2.Mei et al., 2026, "Video Generation Models in Robotics -- Applications, Research Challenges, Future Directions".

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.