![]()
編輯|冷貓
驅動具身智能進入通用領域最大的問題在哪里?
我們認為,核心問題在于「跨具身(cross-embodiment)遷移」
當然,具身智能執行通用復雜任務的核心是一個完善的世界模型。但是,大多世界模型其實并沒有我們想象的那樣具備極強的泛化性和遷移能力。
簡單來說,這些用在機器人或是智能汽車上的世界模型,基本都是在某個固定的硬件平臺上設計訓練的,大多不具備很強的泛化能力,跨具身遷移幾乎靠運氣。
說白了,大多數機器人今天學到的不是 「世界是如何運作的」,而是 「在這臺機器該怎么動」。我們需要能學到一個真正理解物理與因果的世界模型 —— 知道世界會怎么變、動作會帶來什么后果,才能在不同身體、不同環境中遷移與泛化。
在這個問題上,作為算力的王者,深耕各類世界模型的英偉達再一次發力,構建了一個全新是世界模型,一切都是 Zero-Shot 的。
最近,英偉達 GEAR 實驗室提出 DreamZero,一種基于預訓練視頻擴散骨干網絡構建的世界動作模型(WAM)。
這是一個擁有 140 億參數的模型,能夠讓機器人僅通過簡單的文本提示就完成此前從未見過的任務。
![]()
實驗室負責人 Jim Fan 將其稱為機器人領域的「GPT-2 時刻」:研究團隊只需輸入想法,機器人就能執行相應動作。目前,該模型的代碼已在 GitHub 上開源。
![]()
![]()
- 論文標題:World Action Models are Zero-shot Policies
- 論文鏈接:https://dreamzero0.github.io/DreamZero.pdf
- Github 鏈接:https://github.com/dreamzero0/dreamzero
不同于傳統的 VLA 模型,WAM 通過聯合預測未來世界狀態與動作來學習物理動力學,并以視頻作為世界演化的稠密表示。通過對視頻與動作的聯合建模,DreamZero 能夠從異構機器人數據中高效學習多樣化技能,而不依賴重復示范。在真實機器人實驗中,相比最先進的 VLA,DreamZero 在新任務與新環境的泛化上實現了超過 2× 的提升
至關重要的是,通過模型與系統層面的優化,研究團隊讓一個 140 億參數的自回歸視頻擴散模型實現了 7Hz 的實時閉環控制。此外,研究團隊展示了兩種跨具身遷移能力:僅使用 10–20 分鐘的人類或其他機器人純視頻示范,即可在未見任務上帶來 超過 42% 的性能提升。更令人驚訝的是,DreamZero 只需 30 分鐘的 「玩耍數據」,就能適配到全新的機器人,同時仍保持零樣本泛化能力
![]()
DreamZero 整體概覽。
圖中展示了 DreamZero 通過聯合預測視頻與動作,世界動作模型繼承了關于世界物理規律的先驗,從而實現了:
1)從多樣、非重復的數據中高效學習;
2)在開放世界場景中的強泛化能力;
3)僅依賴純視頻數據即可完成跨具身學習;
4)對新機器人的少樣本快速適配。
![]()
DreamZero 的模型架構。
大多的預訓練的視頻擴散模型憑借來自網頁規模數據的豐富時空先驗,成為構建機器人策略的理想骨干網絡。然而,將這類模型轉化為高效的世界動作模型仍面臨關鍵挑戰:
1)視頻–動作對齊:聯合預測視頻與動作要求對視覺未來與電機指令進行緊密耦合,但如果只是簡單地將獨立的視頻頭與動作拼接,往往會導致二者對齊失效;
2)架構設計:尚不清楚雙向架構還是自回歸架構更適合 WAM,這關系到多模態對齊、誤差累積以及推理效率等關鍵問題;
3)實時推理:視頻擴散模型需要在高維潛空間中進行多步迭代去噪,使其在閉環控制場景下速度過慢、難以實用。
為此,DreamZero 通過模型設計選擇有效應對了上述挑戰。
模型接收三類輸入:視覺上下文(通過 VAE 編碼)、語言指令(通過文本編碼器)、以及本體感知狀態(通過狀態編碼器)。這些輸入隨后被送入一個基于 Flow Matching 的自回歸 DiT 主干網絡,由其聯合預測未來的視頻幀與動作,并通過各自獨立的解碼器輸出結果。
在訓練階段,模型以分塊(chunk)的方式工作:在給定干凈視頻上下文作為條件的情況下,對加噪的視頻與動作潛變量進行去噪。在推理階段,模型的預測會以異步方式在真實世界中執行,同時將真實觀測結果回灌到 KV cache 中,以防止誤差隨時間累積。
實驗結果
研究團隊在 六種設置下展示了 DreamZero 的能力 —— 其中 五種用于測試泛化,一種用于實時部署。
相關的訓練數據以及實驗結果的演示可以參考以下鏈接:
https://dreamzero0.github.io/evals_gallery/
AgiBot 預訓練:已見 & 未見任務
研究團隊對預訓練模型進行開箱即用評測:任務來自預訓練分布,但在未見對象的新環境中進行零樣本測試。DreamZero(也包含從零訓練版本)取得 62.2% 的平均任務進度,相比最佳預訓練 VLA 基線(27.4%)提升 超過 2×。從零訓練的 VLA 幾乎為零;預訓練 VLA 有一定進展,但幅度有限。
![]()
對于訓練中完全未出現的任務(如解鞋帶、握手),DreamZero 仍達到 39.5% 的任務進度,而 VLA 再次表現吃力。值得注意的是,預訓練 VLA 在未見任務上的有限進展,主要源于其無論指令如何都傾向于執行 「抓取 - 放置」 的默認動作,顯示其過擬合于主導訓練行為,而非真正理解新任務語義。研究團隊在 4 臺機器人、不同環境與物體上,對每個檢查點進行了 80 次 rollouts。
![]()
DROID:已見任務 & 未見動作
為驗證在公開數據上的效果,研究團隊在 DROID(最異構的開源機器人數據集之一)上訓練 DreamZero,并評測 20 個已見任務與 20 個未見動詞任務(DROID 中未出現的動作)。DreamZero 顯著優于預訓練基線,在未見動詞上取得 49% 的任務進度,而最先進的 VLA 僅為 25–32%。
![]()
后訓練:分布外泛化
本部分研究 WAM 在任務特定微調后是否仍保留泛化能力。研究團隊在 三項下游任務上進行后訓練:疊襯衫、裝水果、清理餐桌。DreamZero 在三項任務上均表現更強,表明后訓練后仍保持環境泛化能力。
![]()
跨具身遷移
僅用 30 分鐘的玩耍數據(55 條軌跡),DreamZero 即可適配 YAM 機器人,并對南瓜、泰迪熊、紙袋等新物體實現零樣本泛化,同時展現出強大的語言指令遵循能力。來自 AgiBot 預訓練的知識可直接遷移,無需大規模重訓。這是目前效率最高的具身遷移:以往需要數百小時示范的工作,能夠在 30 分鐘內完成(未使用任何其他 YAM 數據)。
![]()
交互式提示
機器人基礎模型的 「提示時代」 已經到來。研究團隊展示了交互式提示的實戰:帶著機器人走到不同地方,讓人們直接用語言提出新任務。機器人能夠完成多種令人驚喜的操作。
![]()
實時推理
通過模型、系統與實現層面的優化,DreamZero 實現了 每個動作塊 150ms 的實時推理,支持 7Hz 閉環控制。結合異步推理與動作塊平滑,執行過程更加流暢、響應迅速。研究團隊對比了 16 / 4 / 1 個擴散步數的效果:步數越少延遲越低,而 DreamZero-Flash 即便在單步推理下也能保持性能。研究團隊還展示了動作塊平滑與異步推理對執行質量的影響。
![]()
DreamZero (16 diffusion step) + async & action chunk smoothing
零樣本泛化能走多遠? 研究團隊持續對 DreamZero 進行壓力測試:在從未訓練過的任務、從未見過的環境中探索能力。從扇漢堡、按電梯按鈕,到敲木琴、搖鈴鼓,不斷涌現出令人驚訝的新能力。
DreamZero 只是開始 —— 它代表了基于視頻世界模型的新一代機器人基礎模型浪潮。
更多信息,請參閱原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.