網易首頁 > 網易號 > 正文申請入駐

港中深-跨維智能提出EVA框架，強化學習讓視頻世界模型“動”起來

2026-03-26 16:08:37　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

近期，利用視頻生成模型為機器人構建 “世界模型”，已成為具身智能領域的熱門技術路線。給定當前觀測和自然語言指令，這類模型能夠先 “想象” 出未來的視覺軌跡，再由逆動力學模型（IDM）將生成畫面解碼為機器人動作，從而形成 “先預測、后執行” 的解耦式規劃范式。由于兼具較強的可解釋性與開放場景泛化潛力，這一路線正在受到學術界和工業界的廣泛關注。

然而，這一看似理想的范式背后，卻隱藏著一個關鍵瓶頸：生成的視頻未必對應真實可執行的動作序列，即所謂的 “可執行性鴻溝”（Executability Gap）

針對這一問題，香港中文大學（深圳）與跨維智能的研究團隊提出了一種全新的強化學習后訓練框架 ——Executable Video Alignment (EVA)。該框架創新性地將逆動力學模型轉化為獎勵模型，通過強化學習直接優化視頻生成過程，使生成結果不僅 “看起來真實”，更 “動起來可行”

這也表明，真正服務于機器人的世界模型不能只停留在二維視覺預測層面，而應進一步融入對世界物理的建模；本工作正是跨維智能此前提出的GS-World及其開源工具EmbodiChain所提出的核心思想的一個具體算法創新

論文標題：EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards
論文鏈接：https://arxiv.org/abs/2603.17808
項目頁: https://eva-project-page.github.io/
代碼鏈接：https://github.com/RobbinW/EVA

痛點：中看不中用的 “可執行性鴻溝”

近年來，視頻生成模型在機器人任務規劃中展現出很強的潛力。相比直接從圖像和語言映射到動作序列，這類方法先生成未來視覺過程，再從中恢復動作，天然具備更強的中間表征能力，也讓 “規劃” 變得更加直觀。

然而，現有視頻模型主要優化的是像素分布或感知一致性，它們擅長生成 “視覺上真實” 的內容，卻并不真正理解機器人本體結構、關節約束和運動學規律

由此帶來一種典型現象：生成的視頻在細節上卻可能存在機械臂局部形變、關節連接模糊、運動突然跳變等不符合運動學規律的問題。經過逆動力學模型翻譯成動作信號之后，這些偏差會被迅速放大，最終演化為抖動、越界甚至完全不可執行的控制指令。

破局之道：EVA 框架

圍繞這個問題，研究團隊提出了Executable Video Alignment（EVA）

EVA 的核心思想很直接：既然機器人最終需要的是可執行的動作序列，那么視頻生成模型的訓練目標就不應只由視覺質量決定，而應該進一步引入來自動作空間的約束

具體而言，EVA 首先訓練一個逆動力學模型（Inverse Dynamics Model, IDM），讓它能夠根據視頻中的局部時序變化恢復出機器人動作；隨后，再將這個 IDM 擴展作為 “獎勵模型”，用于評估視頻生成結果對應的動作序列是否平滑、合理、符合機器人本體約束。

換句話說，EVA 讓視頻世界模型在監督微調階段首先回答：

這段視頻看起來真實嗎？
是否符合任務語義？

而在強化學習階段進一步回答：

這段視頻如果被翻譯成動作，機器人到底能不能執行？
它對應的動作軌跡是否平滑？
是否違反速度、加速度等本體約束？
是否會產生突兀跳變或不穩定控制？

基于這一思路，研究團隊在獎勵設計中顯式引入了多種機器人執行層面的約束，包括動作速度變化、加速度平滑性以及更高階的jerk正則項，同時對超過機器人本體限制的異常動作進行懲罰。通過強化學習后訓練，模型會逐漸傾向于生成那些不僅視覺自然，而且對應動作更穩定、更符合物理規律的未來軌跡。從本質上看，EVA 并不是簡單地 “修補視頻中的瑕疵”，而是在將視頻生成分布主動拉回到機器人可行運動流形之上。

實驗表現：從仿真到真實的提升

為了驗證 EVA 的有效性，研究團隊在仿真和真實機器人平臺上進行了系統實驗。

視覺規劃質量飛躍：在視覺質量評估中，經過 RL 對齊的 EVA 模型在 “運動學合理性”（Kinematic plausibility）上相比未對齊的基線模型大幅提升了 20.9%。在更嚴格的整體標準下，模型的 Perfect Execution 達到了 83.8%。這說明 EVA 優化的不只是 “畫面是否自然”，而是在減少機械臂形變、關節歧義和時序跳變等對執行極其重要的結構性偽影。

仿真任務成功率提高：研究團隊在當前具身操作領域具有代表性的 RoboTwin 2.0 基準上進行了仿真實驗評測。之所以選擇 RoboTwin，一方面是因為它面向雙臂操作任務，任務類型豐富、場景隨機性強，能夠更真實地反映機器人在復雜環境中的操作能力；另一方面，RoboTwin 已逐漸成為檢驗 VLA 方法與具身世界模型方法泛化能力和真實執行潛力的重要公開基準，因此在這一平臺上的結果具有較強的說服力。

在實驗中，研究團隊對21 個雙臂任務進行了系統評測。評測方式并不是只比較生成視頻 “看起來好不好”，而是將生成視頻進一步交給逆動力學模型（IDM）解碼為動作序列，再真正送入控制系統執行，并統計每個任務 20 次試驗中的成功次數。換句話說，這一指標考察的是：視頻世界模型生成的未來，究竟能不能被機器人真正做出來。從結果來看，EVA（with RL）將平均成功率進一步提升到 52.6%，不僅明顯超過未對齊版本，也整體優于多種代表性 VLA 方法和機器人基礎模型基線。例如，在 ClickBell 任務上，EVA（with RL）達到 20/20；在 PressStapler 上達到 20/20；在 TurnSwitch 上達到 13/20，相比未對齊版本的 8/20 有明顯提升。

真實世界部署更穩定：為了進一步驗證方法在真實場景中的落地價值，研究團隊還在真實雙臂機器人平臺上進行了部署測試。結果表明，EVA 的優勢并不只停留在仿真環境中，而是穩定延伸到了真實機器人部署階段。對于 Seen tasks，經過可執行性對齊后的 EVA（with RL）達到 64.0%，明顯高于 ACT、π?、Vidar 和 GE-Act 等代表性基線方法。尤其在 StackBowl、Place2Basket 和 Place2Tray 等任務上，EVA（with RL）都取得了更優表現。更值得關注的是，在5 個全新的 OOD 任務上，EVA 的優勢更加明顯。相比于基線方法，EVA（with RL）將平均成功率提升至60.0%，顯示出更強的新任務適應能力和跨場景泛化能力。

如果把這三組結果放在一起解讀，EVA 的貢獻就會更清晰：

它并不是單純把視頻 “變好看” 了，也不是只在某個局部指標上做了優化；它展示的是一條更完整的提升鏈條 ——

從視覺規劃質量改善，到仿真執行成功率提升，再到真實機器人部署更穩定。

這條鏈條背后對應的，其實正是 EVA 的核心判斷：對于具身世界模型來說，真正決定落地價值的，不只是 “能不能生成未來”，而是 “生成出來的未來，能不能被機器人可靠地執行”。而 EVA 通過逆動力學獎勵，把這一點第一次系統性地變成了訓練目標。

拓展潛力：零樣本生成賦能數據合成

除了提升視頻世界模型的執行可靠性，EVA 還展現出一個極具潛力的延伸方向：面向具身智能的數據合成與增強

眾所周知，具身智能系統的發展長期受制于高質量機器人數據的稀缺。真實機器人采集不僅成本高、周期長，而且對人力示教和平臺條件高度依賴。EVA 所彌合的 “可執行性鴻溝”，則為構建全合成具身數據流水線打開了新的可能。

研究團隊展示了一種零樣本（Zero-Shot）的數據生成方案：首先利用先進的文本到圖像基礎模型生成多樣化的初始場景觀測，再將這些圖像輸入經過對齊后的 EVA 視頻世界模型，從而自動生成具備合理物理約束的動態視頻軌跡。相比以往僅追求視覺多樣性的合成方式，這一流程更進一步保證了生成結果在動作層面的可用性。

這意味著，未來或許可以在不依賴人工遙操作的前提下，持續合成更豐富、更可信、更接近真實執行分布的具身數據，為機器人學習提供新的規模化路徑。

結語：從 “會生成” 到 “會執行”，EVA 補上關鍵一步

這項工作的一個重要意義在于，它提醒整個領域重新思考視頻世界模型的評價標準。

過去，許多研究更關注生成結果是否清晰、連貫、符合語義，但對于機器人而言，這些指標遠遠不夠。因為機器人并不是在 “觀看” 世界模型生成的畫面，而是在 “執行” 這些畫面背后所對應的動作與交互過程。

從這個意義上看，EVA 提供了一條重要的技術路徑：它讓視頻世界模型不再只是生成未來畫面，而是開始面向真實機器人執行去優化未來軌跡。EVA 所補上的，正是視覺合理性與動作可執行性之間長期存在的關鍵缺口，推動世界模型從 “看起來合理” 邁向 “真正能夠執行”。

EVA 主要聚焦于運動學層面的對齊，其拓展可進一步引入更豐富的動力學約束，例如接觸力、摩擦、扭矩等真實物理因素。更進一步說，要讓世界模型真正服務于具身智能，僅僅具備二維視覺生成能力仍然不夠。更 “好用” 的世界模型，需要進一步走向對三維空間結構、真實物理規律和連續交互過程的統一理解。沿著這條路徑，世界模型才有可能真正成為支撐具身智能決策、執行與泛化的基礎能力。這個方向，也正與跨維智能圍繞 GS-World（Generative Simulation World Model）和其開源平臺 EmbodiChain 所推進的研究主線一脈相承：前者致力于以生成式仿真建模 3D 資產、環境和物理交互規則，后者則作為面向具身智能的 Real2Sim2Real 引擎，連接場景生成、數據合成、模型訓練和 Sim2Real 部署。

通過 EVA，跨維智能已經給出了一個清晰的信號：

機器人需要的，不只是會 “想象未來” 的世界模型，更是能夠在真實三維物理世界中 “做得出來” 的世界模型

而這，或許正是世界模型邁向具身智能落地過程中，最關鍵的一步。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.