<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      視頻模型能解決機器人“預測未來”的問題嗎?短期能,長期不行

      0
      分享至

      2026 年 2 月 12 日,普林斯頓大學機械與航空航天工程系副教授 Anirudha Majumdar 在 X 上發(fā)表了一篇長博文,直面一個正在機器人學界升溫的核心爭論:為具身智能構建世界模型,到底應不應該去“預測像素”?

      Majumdar 是普林斯頓機器人研究倡議(Princeton Robotics Initiative)的聯(lián)合主任,同時在 Google DeepMind 擔任兼職訪問研究科學家。他的研究聚焦于讓機器人在以人為中心的環(huán)境中安全、可靠地泛化到新場景,曾獲斯隆研究獎(Sloan Fellowship)、兩次 Google 教授研究獎,以及《國際機器人研究期刊》(IJRR)年度最佳論文等榮譽。


      圖丨Anirudha Majumdar(來源:Princeton MAE)

      他本人也是去年 12 月 Google DeepMind 那篇引發(fā)廣泛關注的 Veo 機器人策略評估工作的合作者之一,該研究展示了如何用前沿視頻生成模型 Veo 作為機器人策略的“世界仿真器”,通過 1,600 多次真實世界評估驗證了其有效性。

      在文章中,Majumdar 表示當前機器人領域的世界模型幾乎等同于視頻生成模型,這條路線在概念簡潔性、評估便利性、商業(yè)推動力等方面擁有不容低估的短期優(yōu)勢;但 Yann LeCun 倡導多年的潛在世界模型(以 JEPA 架構為代表)在長時域規(guī)劃上更具前景,可能在五年左右的時間尺度上成為關鍵組件。兩者并非你死我活的替代關系,更可能走向協(xié)同。

      以下是這篇博文的全文編譯。

      機器人的世界模型

      在機器人學界,一個大致的共識似乎正彌漫在空氣中:未來的通用策略將建立在“世界建模”的配方之上,而非迄今為止占主導地位的 VLM(Vision-Language Model,視覺語言模型)骨架方案。

      論點如下:VLM 沒有被顯式地訓練來預測未來,因此在幾何、空間和物理推理能力上,也就是預測動作精細后果所需的那類能力并不可靠。相比之下,世界模型允許機器人“想象”未來以進行規(guī)劃,例如:(1)生成一段想象中成功執(zhí)行的視頻,再用逆動力學模型推斷所需動作;或者(2)直接使用一個以動作為條件的世界模型來優(yōu)化規(guī)劃。

      2026 年初的機器人學:世界模型=視頻模型

      在 2026 年初,機器人領域的世界建模由視頻世界模型主導,即那些被訓練來預測未來視頻幀(以文本以及潛在的動作為條件)的生成式模型。這些模型建立在視頻建模領域巨大進步的基礎之上:在互聯(lián)網規(guī)模數(shù)據(jù)上訓練的基于擴散的架構,能夠生成驚人逼真的視頻,包含復雜的物理交互,例如來自 Veo、Cosmos 和 Wan 的視頻。

      僅在過去一年中,我們就已經看到經過機器人數(shù)據(jù)微調的視頻模型能夠執(zhí)行策略評估、數(shù)據(jù)生成和推理時規(guī)劃生成;相關綜述可參閱文獻[1]。就我個人而言,參與 Veo 的策略評估工作提供了一次巨大的認知更新,看到如下所示的視頻模型“仿真”,讓我確信視頻模型終于到了可以在機器人領域大展身手的時刻。

      視頻模型的挑戰(zhàn)

      盡管結果令人振奮,當前所有用于機器人的視頻模型都受到同一組幻覺問題的困擾:物體憑空復制、無中生有、憑空消失,或者在自發(fā)地或在被遮擋后重新出現(xiàn)時發(fā)生形變。

      此外,長時域生成是一個重大挑戰(zhàn):當前機器人領域的視頻模型很難在超過 20-30 秒之后仍能產出高質量的生成結果。

      潛在世界模型:不要預測像素

      從直覺上看,視頻建模對于世界模型而言似乎是一個不必要地困難的任務。預測背景中樹葉運動的像素級細節(jié),或者預測即將出現(xiàn)在我辦公室門口的人的精確面部特征,顯然是沒有必要的。

      我們可以轉而構建一個潛在世界模型(latent world model),只預測環(huán)境的某些特征。具體來說,通過預測可預測之物,我們可以將表征能力集中在真正重要的事情上,而不是那些細枝末節(jié),比如在特定光照條件下物體的精確外觀。

      Yann LeCun 多年來已經非常有力地闡述了這一論點(參見他在普林斯頓機器人研討會上的演講)。他在 Meta 和 NYU 的團隊開發(fā)了多種形式的 JEPA(Joint-Embedding Predictive Architecture,聯(lián)合嵌入預測架構),這種架構學習觀測的潛在表征,以預測其他(例如未來)觀測的表征。

      V-JEPA 2 展示了這種自監(jiān)督學習如何涌現(xiàn)出有用的視頻特征。此外,該工作還展示了模型的動作條件版本如何通過在推理時優(yōu)化動作序列來實現(xiàn)機器人規(guī)劃。

      潛在世界模型的論點在長時域任務上尤其有說服力。預測世界在未來 10-20 秒內如何在像素層面演化似乎還說得過去,但將這一尺度擴展到分鐘或小時級別,既極其困難,又完全沒有必要。

      為什么視頻模型將在短期內勝出

      在接觸視頻模型之前,我曾被上述潛在世界模型的論點所說服;只預測世界顯著特征的極簡主義方法確實很有吸引力。然而,我想要論證的是,視頻建模在技術和實踐上有一些不應被低估的顯著優(yōu)勢。這些優(yōu)勢在一年前對我來說并不顯而易見,我希望在這里把它們明確寫出來能對其他人有所幫助。

      概念上的簡潔性。視頻建模的任務是明確無歧義的:預測未來幀。類似于 LLM(Large Language Model,大語言模型)的下一個 token 預測,一個清晰的監(jiān)督信號可以為下游任務帶來良好的特征,以及諸如物體分割、視頻編輯和視覺推理等涌現(xiàn)能力。

      這與 JEPA 形成鮮明對比:預測可預測之物這一任務并非完全指定的(not fully specified),如果實現(xiàn)不當會導致表征坍縮——構建一個可預測嵌入的最簡單方式就是讓它成為常數(shù)。

      清晰的評估指標。對視頻模型進行爬坡優(yōu)化(hill-climbing)是直截了當?shù)摹S袠藴手笜耍ㄈ?LPIPS 或 FID)可以用來評估視頻生成的質量。JEPA 則不然,它優(yōu)化的損失函數(shù)并不一定與下游性能相關(不過最近的 LeJepa 論文在這方面展現(xiàn)了一些積極跡象)。

      推理時縮放與驗證器。視頻模型允許 VLM 被直接用作驗證器。通過生成多段視頻并用 VLM 打分,我們可以過濾掉不真實或低質量的生成結果。這提供了一個簡潔的推理時縮放配方。

      視頻模型賦能策略評估。視頻模型可以充當機器人策略的完整仿真器。為了執(zhí)行閉環(huán) rollout,仿真器的輸出必須與策略的輸入匹配。對于視覺運動控制(visuomotor control),這就要求生成完整的圖像(除非策略被迫在潛在世界模型的潛在空間中接收輸入)。

      視頻模型與圖像編輯器的天然組合。視頻模型可以接受編輯后的幀作為輸入。正如我們在 Veo 工作中所展示的,這提供了一個簡潔的配方,用于在分布外(out-of-distribution)場景中進行策略評估。

      真實世界的觀測可以被編輯(例如引入新物體或背景),然后用于條件化策略 rollout。可以想象,類似的策略也能用于視頻模型在分布外場景中的數(shù)據(jù)生成(類似于 DreamGen)。

      巨大的商業(yè)激勵。支持視頻模型的主要論點實際上是一個非技術性的。開發(fā)好的視頻生成模型面臨著巨大的商業(yè)壓力。從社交媒體應用到電影制作,視頻模型將以獨立于機器人領域的速度快速發(fā)展。

      我們已經反復看到這部電影的劇情,從用于游戲的深度相機,到用于智能手機的 IMU(Inertial Measurement Unit,慣性測量單元),再到用于 NLP(Natural Language Processing,自然語言處理)的 LLM——因獨立商業(yè)原因開發(fā)的技術,最終革新了機器人學。同樣的事情很可能也會發(fā)生在視頻模型身上。

      在近期(2-3 年),我預計視頻模型將繼續(xù)作為機器人世界建模的主導力量。尤其是對于短時域操作任務,這仍然是當今機器人學大部分研究的北極星,我預計上述優(yōu)勢將超過潛在世界模型的潛在收益。

      JEPA 會在長期勝出嗎?

      JEPA 用于機器人的核心未解技術問題是:JEPA 學到的"可預測特征"是否等同于對機器人有用的特征?可預測的特征本身并不一定有用——我們總是可以預測那個將任何圖像映射為常數(shù)的特征。然而,DINO 的存在提供了一個強有力的證據(jù),它可以說是 JEPA 風格自監(jiān)督學習最大的成功案例。

      DINO 特征在廣泛的下游視覺任務中取得了最先進的結果,如分割、深度預測和物體檢測。類似的收益能否在機器人世界建模中實現(xiàn),仍然是一個開放問題。

      為了超越視頻模型,JEPA 還需要克服我上面強調的一些商業(yè)壓力。然而,LeCun 的 AMI 初創(chuàng)公司似乎有可能積聚足夠的資源來跨越這一障礙,并展示 JEPA 在世界建模方面的威力。

      如果讓我在大約 5 年的時間線上下注,我會押注 JEPA 成為機器人世界模型的關鍵組成部分。我懷疑,一旦我們在基礎操作技能上取得進展,超過幾秒的時間跨度將真正開始在機器人學中變得重要,屆時 JEPA 在規(guī)劃方面的優(yōu)勢應該會顯現(xiàn)出來。

      然而,基于上一節(jié)強調的原因,我不認為 JEPA 會一對一地替代視頻模型。首先,JEPA 和視頻模型可以協(xié)同工作。事實上,我們已經看到了將兩者結合的工作,例如用潛在世界模型在推理時改進視頻模型。此外,JEPA 的表征學習目標也可以與視頻重建目標同時應用。最后,對于策略評估等用例,視頻生成有非常明確的優(yōu)勢(例如使用圖像編輯來生成場景變體)。

      無論事情最終如何發(fā)展,這都是一個非常激動人心的時刻,不同的實體正在下注不同的路線,還有一些根本性的開放問題等待解決。

      參考資料:

      1.https://x.com/Majumdar_Ani/status/2021242532517040560

      2.Mei et al., 2026, "Video Generation Models in Robotics -- Applications, Research Challenges, Future Directions".

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      陶琳回應特斯拉中國銷量下滑真相!還預告了FSD入華進展

      陶琳回應特斯拉中國銷量下滑真相!還預告了FSD入華進展

      車東西
      2026-02-09 18:43:34
      《生命樹》:馮克青原型是青海省隱形首富,上位史曝光其后臺多硬

      《生命樹》:馮克青原型是青海省隱形首富,上位史曝光其后臺多硬

      喜歡歷史的阿繁
      2026-02-12 15:58:55
      一根掛面的逆襲:年輕人為什么放棄了外賣,回到了最廉價的真實

      一根掛面的逆襲:年輕人為什么放棄了外賣,回到了最廉價的真實

      富貴說
      2026-01-31 19:59:45
      哥哥是皇帝,大伯是光緒,奶奶是慈禧,他卻非常低調地活到2015年

      哥哥是皇帝,大伯是光緒,奶奶是慈禧,他卻非常低調地活到2015年

      法老不說教
      2026-02-10 12:39:27
      火箭不敵快船 烏度卡成為輸球的罪魁禍首 被火箭解雇的時間線浮現(xiàn)

      火箭不敵快船 烏度卡成為輸球的罪魁禍首 被火箭解雇的時間線浮現(xiàn)

      大話火箭隊
      2026-02-12 15:32:25
      同樣是泄精,手淫為何比房事更傷身?中醫(yī)講透根源,舌象一看便知

      同樣是泄精,手淫為何比房事更傷身?中醫(yī)講透根源,舌象一看便知

      劉哥談體育
      2026-02-12 11:04:30
      快訊!荷蘭企業(yè)法庭做出裁決!

      快訊!荷蘭企業(yè)法庭做出裁決!

      達文西看世界
      2026-02-12 09:34:27
      日本共同社厚著臉皮說:昨天,日本外交官終于和王毅握手了

      日本共同社厚著臉皮說:昨天,日本外交官終于和王毅握手了

      南權先生
      2026-02-12 15:43:25
      三鹿前董事長田文華,或將2027年出獄,那些大頭娃娃如今怎樣了?

      三鹿前董事長田文華,或將2027年出獄,那些大頭娃娃如今怎樣了?

      談史論天地
      2026-02-11 12:50:12
      德媒:德國太天真了,我們最大的幻想,就是信了中國是個現(xiàn)代強國

      德媒:德國太天真了,我們最大的幻想,就是信了中國是個現(xiàn)代強國

      墨印齋
      2025-12-19 17:42:42
      董宇輝也沒想到,心中這口窩囊氣竟讓官媒給出了,俞敏洪沒說錯

      董宇輝也沒想到,心中這口窩囊氣竟讓官媒給出了,俞敏洪沒說錯

      妙知
      2026-02-12 17:34:40
      復出后首敗 鄭欽文遭逆轉1-2惜敗新科澳網冠軍 無緣多哈1000賽8強

      復出后首敗 鄭欽文遭逆轉1-2惜敗新科澳網冠軍 無緣多哈1000賽8強

      我愛英超
      2026-02-12 03:49:07
      固態(tài)電池吹牛無底線,美國電車4680干電池刺穿遮羞布

      固態(tài)電池吹牛無底線,美國電車4680干電池刺穿遮羞布

      柏銘銳談
      2026-02-11 19:03:33
      萬科遭百億私募清倉

      萬科遭百億私募清倉

      地產微資訊
      2026-02-12 12:02:31
      第一個面臨消失的職業(yè),不是幼師,不是快遞員,而是這四種工作?

      第一個面臨消失的職業(yè),不是幼師,不是快遞員,而是這四種工作?

      侃故事的阿慶
      2026-02-10 19:35:46
      決勝盤0-3到5-7!鄭欽文險些創(chuàng)奇跡 下一站賽程敲定 重返前十有戲

      決勝盤0-3到5-7!鄭欽文險些創(chuàng)奇跡 下一站賽程敲定 重返前十有戲

      侃球熊弟
      2026-02-12 03:55:57
      東部第二!綠軍大勝送公牛6連敗 布朗24分武切戰(zhàn)舊主19+11

      東部第二!綠軍大勝送公牛6連敗 布朗24分武切戰(zhàn)舊主19+11

      醉臥浮生
      2026-02-12 10:41:56
      官方:紐倫堡與球隊主帥克洛澤續(xù)約

      官方:紐倫堡與球隊主帥克洛澤續(xù)約

      懂球帝
      2026-02-12 18:10:51
      南海爆炸聲,菲軍攔截中方戰(zhàn)機,B-52投下一串實彈

      南海爆炸聲,菲軍攔截中方戰(zhàn)機,B-52投下一串實彈

      破鏡難圓
      2026-02-11 20:54:08
      猛沖又暴跌!冷空氣準備抵達浙江!會影響春節(jié)假期!

      猛沖又暴跌!冷空氣準備抵達浙江!會影響春節(jié)假期!

      浙江天氣
      2026-02-12 17:26:26
      2026-02-12 18:36:50
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16258文章數(shù) 514604關注度
      往期回顧 全部

      科技要聞

      10倍速的一夜:三大模型春節(jié)前的暗戰(zhàn)

      頭條要聞

      母親派出所遭警察責罵 男子插話后被拖進女廁群毆

      頭條要聞

      母親派出所遭警察責罵 男子插話后被拖進女廁群毆

      體育要聞

      31歲首次參加冬奧,10年前她是個水管工

      娛樂要聞

      體操運動員墜樓涉事教練被立案調查

      財經要聞

      “影子萬科”如何掘金萬科?

      汽車要聞

      開212 T01柴油版去穿越 連牧馬人都跟不上

      態(tài)度原創(chuàng)

      家居
      教育
      親子
      數(shù)碼
      軍事航空

      家居要聞

      本真棲居 愛暖伴流年

      教育要聞

      雅思6.5分到底啥水平?一篇講明白

      親子要聞

      健敏思攜手多方共啟無常見過敏原營養(yǎng)食品領域新標準,科學守護敏寶健康

      數(shù)碼要聞

      明基發(fā)布MA270S、MA320UG顯示器,專為Mac影像創(chuàng)作者打造

      軍事要聞

      特朗普:若美伊談判失敗 或再派一支航母打擊群

      無障礙瀏覽 進入關懷版