在走向通用人工智能的道路上,機器人領域長期面臨著“莫拉維克悖論”的限制:許多對人類來說很困難的事,AI 卻很擅長;而許多對人類來說輕而易舉的事,AI 反而做不到。
例如,讓計算機在智力測試或棋類游戲中擊敗人類或許相對容易,但要讓機器人像一歲孩子那樣具備對物理世界的感知和運動本能,卻難如登天。
近年來,大語言模型展現(xiàn)了對人類知識的壓縮與生成能力,但在物理交互層面,如何讓智能體理解“動作”與“環(huán)境”之間復雜的因果關系,始終是具身智能尚未攻克的難題。
近日,英偉達(NVIDIA)與其通用具身智能研究團隊(GEAR)共 30 個作者聯(lián)合發(fā)布了一項代號為 DreamDojo 的最新研究成果,試圖從根本上影響機器人學習物理世界的方式。
![]()
(來源:GitHub)
這項工作并沒有依賴傳統(tǒng)的、昂貴的機器人遙操作數(shù)據(jù)堆疊,而是另辟蹊徑,構(gòu)建了一個包含 44,000 小時、第一人稱視角人類視頻的龐大數(shù)據(jù)庫,并以此訓練出了一個能夠通用化的機器人世界模型。
這一模型不僅能夠逼真地生成物理交互視頻,更關鍵的是,它讓機器人首次具備了可控的“想象力”。即在執(zhí)行動作之前,在潛意識中預演人類世界物理后果的能力。
![]()
(來源:論文)
世界模型的概念已經(jīng)并不新鮮。從早期的游戲環(huán)境模擬到自動駕駛中的軌跡預測,預測未來狀態(tài)一直是智能決策的核心。然而,在開放世界的機器人操作任務中,世界模型的構(gòu)建面臨著獨特的挑戰(zhàn)。與有著清晰規(guī)則的電子游戲或結(jié)構(gòu)化道路不同,家庭、工廠或辦公室等非結(jié)構(gòu)化環(huán)境充滿了不確定性。
例如一個看似簡單的“抓取水杯”動作,涉及物體材質(zhì)、摩擦力、液體晃動以及機械臂動力學等無數(shù)變量。此前的視頻生成模型,如 OpenAI 的 Sora 或 Google 的 Genie,雖然在畫面生成質(zhì)量上取得了突破,但它們大多缺乏精確的動作控制接口,難以直接服務于機器人的決策回路。
而此次 DreamDojo 的核心突破就在于此,它證明了通過大規(guī)模的人類視頻預訓練,結(jié)合創(chuàng)新的“潛在動作”(Latent Actions)表征,可以有效地彌合人類與機器人之間的“具身差異”(Embodiment Gap),從而讓機器人獲得對物理規(guī)律的通用理解。
借力人類視頻突破數(shù)據(jù)缺口
長期以來,制約機器人基礎模型發(fā)展的最大瓶頸在于數(shù)據(jù)。盡管互聯(lián)網(wǎng)上充斥著萬億級別的文本和圖像數(shù)據(jù),但高質(zhì)量的“機器人操作數(shù)據(jù)”。即包含精確動作指令(Action Labels)和環(huán)境反饋的序列數(shù)據(jù)卻極度稀缺。目前主流的機器人數(shù)據(jù)集,如 Open X-Embodiment,雖然匯集了多個實驗室的數(shù)據(jù),但在場景多樣性和物理交互的豐富度上,仍遠不足以覆蓋真實世界的復雜性。
英偉達團隊意識到,單純依靠擴大機器人實體數(shù)據(jù)的采集規(guī)模是不現(xiàn)實的。采集成本高昂、硬件損耗大、場景布置繁瑣,這些因素限制了數(shù)據(jù)的增長速度。相比之下,人類在日常生活中每時每刻都在與物理世界交互,而這些交互過程如果被記錄下來,本身就是蘊含著豐富物理知識的寶庫。
為了挖掘這一寶庫,研究團隊構(gòu)建了名為 DreamDojo-HV(Human Videos)的數(shù)據(jù)集。這是一個規(guī)模驚人的數(shù)據(jù)集合,包含了約 44,711 小時的第一人稱視角視頻。
這些視頻并非來自于受控的實驗室環(huán)境,而是廣泛采集自真實世界,涵蓋了家庭烹飪、工業(yè)維修、手工制作、日常清潔等超過 6,000 種獨特的技能和 1,000 多種不同的場景。為了保證數(shù)據(jù)的多樣性,團隊還特別整合了 EgoDex 等現(xiàn)有的高質(zhì)量數(shù)據(jù)集,使得 DreamDojo-HV 在規(guī)模上比此前機器人學習中使用的最大視頻數(shù)據(jù)集還要大出幾個數(shù)量級。
![]()
(來源:論文)
然而,直接使用人類視頻訓練機器人模型也面臨著一定困難。最直觀的問題是:人類的手臂結(jié)構(gòu)與機器人的機械臂完全不同,且人類視頻中并不包含機器人的關節(jié)角度、力矩等控制信號。這種缺失導致模型難以直接學習“動作”與“結(jié)果”之間的映射關系。
逐幀推理下一個動作
為了解決無標簽人類視頻的利用問題,DreamDojo 引入了一項關鍵技術:連續(xù)潛在動作(Continuous Latent Actions)。
在傳統(tǒng)的機器人學習中,模型通常直接預測離散的關節(jié)動作或末端執(zhí)行器位姿。但在處理海量無標注的人類視頻時,這種方法行不通了。因此,研究人員設計了一個基于時空 Transformer 的變分自編碼器(VAE)作為“潛在動作模型”。
這個模型的作用類似于一個能夠理解動作本質(zhì)的“翻譯官”。它不關注具體的關節(jié)如何旋轉(zhuǎn),而是通過觀察視頻中連續(xù)幀的變化,提取出一個低維的、連續(xù)的潛在向量。這個向量代表了導致環(huán)境發(fā)生變化的“意圖”或“力學特征”。
![]()
圖 | 潛在動作模型(來源:論文)
通過這種設計,潛在動作成為了連接人類視頻與機器人控制的通用橋梁。在預訓練階段,模型通過自我監(jiān)督的方式,學習如何從像素變化中推斷出潛在動作,并利用這些潛在動作預測下一幀畫面。
這使得 DreamDojo 能夠在沒有顯式動作標簽的情況下,從 44,000 小時的視頻中汲取物理世界的因果邏輯。例如,它通過觀察無數(shù)次“手推開門”的視頻,學會了“施加推力”這一潛在動作會導致“門打開”這一視覺結(jié)果的物理規(guī)律,而這種規(guī)律對于機器人來說同樣適用。
在具體的模型架構(gòu)上,DreamDojo 建立在英偉達此前發(fā)布的 Cosmos-Predict2.5 基礎之上。這是一個強大的潛在視頻擴散模型(Latent Video Diffusion Model),原本用于通用的視頻生成。為了適應機器人的實時控制需求,研究團隊對其進行了深度的改造。
為了提高動作的可控性,團隊放棄了絕對關節(jié)位置的輸入方式,轉(zhuǎn)而采用“相對動作”(Relative Actions)作為條件。實驗表明,相對動作能夠更好地聚焦于物體與手部的交互變化,減少了背景環(huán)境對模型注意力的分散。
同時,針對視頻生成中常見的“因果混淆”問題,即模型難以區(qū)分動作是原因還是結(jié)果。研究團隊提出了一種“分塊注入”(Chunked Injection)策略。
他們將未來的動作序列打包成塊,一次性輸入到模型的每一幀生成過程中。這種強先驗信息強制模型關注長時程的動作影響,從而顯著提升了生成視頻的邏輯連貫性。
此外,為了確保生成的物理過程符合現(xiàn)實世界的連續(xù)性,研究團隊還引入了專門的時間一致性損失函數(shù)(Temporal Consistency Loss)。這一函數(shù)約束了物體在時間軸上的運動軌跡,防止了視頻生成中常見的物體閃爍、憑空消失或形狀突變等偽影現(xiàn)象,確保了物理模擬的高保真度。
從慢速擴散到超快實時“想象”
擁有一個懂物理的模型只是第一步,對于機器人應用來說,推理速度至關重要。傳統(tǒng)的視頻擴散模型生成一幀高質(zhì)量畫面往往需要數(shù)十次迭代,耗時數(shù)秒,這對于需要毫秒級響應的機器人控制回路來說是不可接受的。
為了解決這一難題,DreamDojo 采用了一種名為“自強迫”(Self Forcing)的蒸餾技術,成功將原本笨重的雙向注意力擴散模型轉(zhuǎn)化為高效的自回歸模型。
這一過程通過“教師-學生”訓練模式實現(xiàn):首先利用高精度的教師模型生成大量的軌跡數(shù)據(jù),然后訓練學生模型去模仿這些軌跡。但在蒸餾過程中,學生模型不僅要學習單幀的生成,還要學習如何在僅有極短歷史上下文的情況下,預測未來的長期演變。
這一蒸餾過程將模型的推理步數(shù)從原本的 35 步大幅壓縮至 4 步。最終,DreamDojo 在單張 NVIDIA H100 GPU 上實現(xiàn)了 10.81 FPS(幀/秒)的實時推理速度。這意味著機器人可以在不到 0.1 秒的時間內(nèi),在“腦海”中生成未來的視覺反饋。
這不僅滿足了實時控制的要求,更讓長時程的交互模擬成為可能。實驗顯示,經(jīng)過蒸餾后的模型能夠連續(xù)生成長達 1 分鐘(約 600 幀)的穩(wěn)定視頻,且在長時間跨度下依然保持對物體及其物理屬性的記憶,沒有出現(xiàn)常見的畫面崩壞。
打通“虛實”邊界的實際應用
DreamDojo 的價值遠不止于生成逼真的視頻,其實質(zhì)是為機器人提供了一個低成本、高保真的“試錯空間”。基于這一世界模型,英偉達團隊展示了三項核心應用,充分證明了其在機器人研發(fā)與部署流程中的潛力。
首先是策略評估(Policy Evaluation)。在機器人開發(fā)中,驗證一個新的控制策略通常需要實機測試,這不僅效率低下,還伴隨著硬件損壞的風險。DreamDojo 提供了一個替代方案:將策略部署在世界模型中,讓機器人在虛擬的視頻流中執(zhí)行任務。
研究人員在 AgiBot 機器人的水果包裝任務中進行了驗證,結(jié)果令人振奮:DreamDojo 模擬出的任務成功率與真實世界的成功率呈現(xiàn)出極高的線性相關性(Pearson 相關系數(shù)高達 0.995)。這意味著開發(fā)者可以放心地在模擬環(huán)境中篩選最優(yōu)策略,而無需在現(xiàn)實世界中進行成百上千次的物理實驗。
其次是基于模型的規(guī)劃(Model-based Planning)。利用 DreamDojo 的預測能力,機器人可以在執(zhí)行動作之前,在“思維”中并行推演多種動作方案的結(jié)果。
例如,在抓取一個被遮擋的蘋果時,機器人可以預演直接抓取和先移開遮擋物兩種方案,DreamDojo 會即時生成相應的未來視頻。通過評估視頻中的任務完成度,機器人可以選擇最優(yōu)路徑。實驗表明,在引入這種在線規(guī)劃機制后,機器人在復雜長程任務中的成功率相比直接執(zhí)行策略提升了近兩倍。
最后是實時遙操作(Live Teleoperation)。借助蒸餾后的高推理速度,操作員可以通過 VR 手柄實時驅(qū)動虛擬環(huán)境中的機器人。DreamDojo 能夠即時響應操作員的動作,并生成相應的視覺反饋。這種“所見即所得”的零延遲體驗,不僅為遠程控制提供了新的界面,也為人類向機器人演示復雜技能提供了更直觀的數(shù)據(jù)收集方式。
![]()
(來源:論文)
當然,DreamDojo 并非完美無缺。英偉達團隊在報告中坦誠地指出了當前模型的局限性。盡管在大部分日常場景中表現(xiàn)優(yōu)異,但在面對一些極端動態(tài)(如快速揮手、物體高速碰撞)或涉及復雜流體動力學(如倒水時的水流湍流)的場景時,生成的視頻仍會出現(xiàn)物理失真或模糊。
此外,雖然模型在未見過的物體上展現(xiàn)了良好的泛化性,但對于完全陌生的物理機制(例如具有特殊彈性的軟體材料),其預測能力依然有限。
此外,目前的 DreamDojo 主要側(cè)重于視覺層面的物理模擬,尚未整合觸覺、聽覺等多模態(tài)信息。對于像“盲插鑰匙”或“判斷物體重量”這樣極度依賴觸覺反饋的精細操作任務,單純依靠視覺預測的世界模型仍顯得力不從心。未來的研究方向可能需要探索如何將觸覺信號引入潛在動作空間,構(gòu)建更加全能的多模態(tài)世界模型。
https://arxiv.org/abs/2602.06949
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.