機器之心發布
近期,利用視頻生成模型為機器人構建 “世界模型”,已成為具身智能領域的熱門技術路線。給定當前觀測和自然語言指令,這類模型能夠先 “想象” 出未來的視覺軌跡,再由逆動力學模型(IDM)將生成畫面解碼為機器人動作,從而形成 “先預測、后執行” 的解耦式規劃范式。由于兼具較強的可解釋性與開放場景泛化潛力,這一路線正在受到學術界和工業界的廣泛關注。
然而,這一看似理想的范式背后,卻隱藏著一個關鍵瓶頸:生成的視頻未必對應真實可執行的動作序列,即所謂的 “可執行性鴻溝”(Executability Gap)
針對這一問題,香港中文大學(深圳)與跨維智能的研究團隊提出了一種全新的強化學習后訓練框架 ——Executable Video Alignment (EVA)。該框架創新性地將逆動力學模型轉化為獎勵模型,通過強化學習直接優化視頻生成過程,使生成結果不僅 “看起來真實”,更 “動起來可行”
這也表明,真正服務于機器人的世界模型不能只停留在二維視覺預測層面,而應進一步融入對世界物理的建模;本工作正是跨維智能此前提出的GS-World及其開源工具EmbodiChain所提出的核心思想的一個具體算法創新
![]()
- 論文標題:EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards
- 論文鏈接:https://arxiv.org/abs/2603.17808
- 項目頁: https://eva-project-page.github.io/
- 代碼鏈接:https://github.com/RobbinW/EVA
痛點:中看不中用的 “可執行性鴻溝”
近年來,視頻生成模型在機器人任務規劃中展現出很強的潛力。相比直接從圖像和語言映射到動作序列,這類方法先生成未來視覺過程,再從中恢復動作,天然具備更強的中間表征能力,也讓 “規劃” 變得更加直觀。
然而,現有視頻模型主要優化的是像素分布或感知一致性,它們擅長生成 “視覺上真實” 的內容,卻并不真正理解機器人本體結構、關節約束和運動學規律
![]()
由此帶來一種典型現象:生成的視頻在細節上卻可能存在機械臂局部形變、關節連接模糊、運動突然跳變等不符合運動學規律的問題。經過逆動力學模型翻譯成動作信號之后,這些偏差會被迅速放大,最終演化為抖動、越界甚至完全不可執行的控制指令。
![]()
破局之道:EVA 框架
圍繞這個問題,研究團隊提出了Executable Video Alignment(EVA)
EVA 的核心思想很直接:既然機器人最終需要的是可執行的動作序列,那么視頻生成模型的訓練目標就不應只由視覺質量決定,而應該進一步引入來自動作空間的約束
具體而言,EVA 首先訓練一個逆動力學模型(Inverse Dynamics Model, IDM),讓它能夠根據視頻中的局部時序變化恢復出機器人動作;隨后,再將這個 IDM 擴展作為 “獎勵模型”,用于評估視頻生成結果對應的動作序列是否平滑、合理、符合機器人本體約束。
換句話說,EVA 讓視頻世界模型在監督微調階段首先回答:
- 這段視頻看起來真實嗎?
- 是否符合任務語義?
而在強化學習階段進一步回答:
- 這段視頻如果被翻譯成動作,機器人到底能不能執行?
- 它對應的動作軌跡是否平滑?
- 是否違反速度、加速度等本體約束?
- 是否會產生突兀跳變或不穩定控制?
基于這一思路,研究團隊在獎勵設計中顯式引入了多種機器人執行層面的約束,包括動作速度變化、加速度平滑性以及更高階的jerk正則項,同時對超過機器人本體限制的異常動作進行懲罰。通過強化學習后訓練,模型會逐漸傾向于生成那些不僅視覺自然,而且對應動作更穩定、更符合物理規律的未來軌跡。從本質上看,EVA 并不是簡單地 “修補視頻中的瑕疵”,而是在將視頻生成分布主動拉回到機器人可行運動流形之上。
![]()
實驗表現:從仿真到真實的提升
為了驗證 EVA 的有效性,研究團隊在仿真和真實機器人平臺上進行了系統實驗。
- 視覺規劃質量飛躍:在視覺質量評估中,經過 RL 對齊的 EVA 模型在 “運動學合理性”(Kinematic plausibility)上相比未對齊的基線模型大幅提升了 20.9%。在更嚴格的整體標準下,模型的 Perfect Execution 達到了 83.8%。這說明 EVA 優化的不只是 “畫面是否自然”,而是在減少機械臂形變、關節歧義和時序跳變等對執行極其重要的結構性偽影。
![]()
- 仿真任務成功率提高:研究團隊在當前具身操作領域具有代表性的 RoboTwin 2.0 基準上進行了仿真實驗評測。之所以選擇 RoboTwin,一方面是因為它面向雙臂操作任務,任務類型豐富、場景隨機性強,能夠更真實地反映機器人在復雜環境中的操作能力;另一方面,RoboTwin 已逐漸成為檢驗 VLA 方法 與 具身世界模型方法 泛化能力和真實執行潛力的重要公開基準,因此在這一平臺上的結果具有較強的說服力。
在實驗中,研究團隊對21 個雙臂任務進行了系統評測。評測方式并不是只比較生成視頻 “看起來好不好”,而是將生成視頻進一步交給逆動力學模型(IDM)解碼為動作序列,再真正送入控制系統執行,并統計每個任務 20 次試驗中的成功次數。換句話說,這一指標考察的是:視頻世界模型生成的未來,究竟能不能被機器人真正做出來。從結果來看,EVA(with RL)將平均成功率進一步提升到 52.6%,不僅明顯超過未對齊版本,也整體優于多種代表性 VLA 方法和機器人基礎模型基線。例如,在 ClickBell 任務上,EVA(with RL)達到 20/20;在 PressStapler 上達到 20/20;在 TurnSwitch 上達到 13/20,相比未對齊版本的 8/20 有明顯提升。
![]()
- 真實世界部署更穩定:為了進一步驗證方法在真實場景中的落地價值,研究團隊還在真實雙臂機器人平臺上進行了部署測試。結果表明,EVA 的優勢并不只停留在仿真環境中,而是穩定延伸到了真實機器人部署階段。對于 Seen tasks,經過可執行性對齊后的 EVA(with RL)達到 64.0%,明顯高于 ACT、π?、Vidar 和 GE-Act 等代表性基線方法。尤其在 StackBowl、Place2Basket 和 Place2Tray 等任務上,EVA(with RL)都取得了更優表現。更值得關注的是,在5 個全新的 OOD 任務上,EVA 的優勢更加明顯。相比于基線方法,EVA(with RL) 將平均成功率提升至60.0%,顯示出更強的新任務適應能力和跨場景泛化能力。
![]()
如果把這三組結果放在一起解讀,EVA 的貢獻就會更清晰:
它并不是單純把視頻 “變好看” 了,也不是只在某個局部指標上做了優化;它展示的是一條更完整的提升鏈條 ——
從視覺規劃質量改善,到仿真執行成功率提升,再到真實機器人部署更穩定。
這條鏈條背后對應的,其實正是 EVA 的核心判斷:對于具身世界模型來說,真正決定落地價值的,不只是 “能不能生成未來”,而是 “生成出來的未來,能不能被機器人可靠地執行”。而 EVA 通過逆動力學獎勵,把這一點第一次系統性地變成了訓練目標。
拓展潛力:零樣本生成賦能數據合成
除了提升視頻世界模型的執行可靠性,EVA 還展現出一個極具潛力的延伸方向:面向具身智能的數據合成與增強
眾所周知,具身智能系統的發展長期受制于高質量機器人數據的稀缺。真實機器人采集不僅成本高、周期長,而且對人力示教和平臺條件高度依賴。EVA 所彌合的 “可執行性鴻溝”,則為構建全合成具身數據流水線打開了新的可能。
研究團隊展示了一種零樣本(Zero-Shot)的數據生成方案:首先利用先進的文本到圖像基礎模型生成多樣化的初始場景觀測,再將這些圖像輸入經過對齊后的 EVA 視頻世界模型,從而自動生成具備合理物理約束的動態視頻軌跡。相比以往僅追求視覺多樣性的合成方式,這一流程更進一步保證了生成結果在動作層面的可用性。
這意味著,未來或許可以在不依賴人工遙操作的前提下,持續合成更豐富、更可信、更接近真實執行分布的具身數據,為機器人學習提供新的規模化路徑。
![]()
結語:從 “會生成” 到 “會執行”,EVA 補上關鍵一步
這項工作的一個重要意義在于,它提醒整個領域重新思考視頻世界模型的評價標準。
過去,許多研究更關注生成結果是否清晰、連貫、符合語義,但對于機器人而言,這些指標遠遠不夠。因為機器人并不是在 “觀看” 世界模型生成的畫面,而是在 “執行” 這些畫面背后所對應的動作與交互過程。
從這個意義上看,EVA 提供了一條重要的技術路徑:它讓視頻世界模型不再只是生成未來畫面,而是開始面向真實機器人執行去優化未來軌跡。EVA 所補上的,正是視覺合理性與動作可執行性之間長期存在的關鍵缺口,推動世界模型從 “看起來合理” 邁向 “真正能夠執行”。
EVA 主要聚焦于運動學層面的對齊,其拓展可進一步引入更豐富的動力學約束,例如接觸力、摩擦、扭矩等真實物理因素。更進一步說,要讓世界模型真正服務于具身智能,僅僅具備二維視覺生成能力仍然不夠。更 “好用” 的世界模型,需要進一步走向對三維空間結構、真實物理規律和連續交互過程的統一理解。沿著這條路徑,世界模型才有可能真正成為支撐具身智能決策、執行與泛化的基礎能力。這個方向,也正與跨維智能圍繞 GS-World(Generative Simulation World Model) 和其開源平臺 EmbodiChain 所推進的研究主線一脈相承:前者致力于以生成式仿真建模 3D 資產、環境和物理交互規則,后者則作為面向具身智能的 Real2Sim2Real 引擎,連接場景生成、數據合成、模型訓練和 Sim2Real 部署。
通過 EVA,跨維智能已經給出了一個清晰的信號:
機器人需要的,不只是會 “想象未來” 的世界模型,更是能夠在真實三維物理世界中 “做得出來” 的世界模型
而這,或許正是世界模型邁向具身智能落地過程中,最關鍵的一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.