<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      港中深-跨維智能提出EVA框架,強化學習讓視頻世界模型“動”起來

      0
      分享至

      機器之心發布

      近期,利用視頻生成模型為機器人構建 “世界模型”,已成為具身智能領域的熱門技術路線。給定當前觀測和自然語言指令,這類模型能夠先 “想象” 出未來的視覺軌跡,再由逆動力學模型(IDM)將生成畫面解碼為機器人動作,從而形成 “先預測、后執行” 的解耦式規劃范式。由于兼具較強的可解釋性與開放場景泛化潛力,這一路線正在受到學術界和工業界的廣泛關注。

      然而,這一看似理想的范式背后,卻隱藏著一個關鍵瓶頸:生成的視頻未必對應真實可執行的動作序列,即所謂的 “可執行性鴻溝”(Executability Gap)

      針對這一問題,香港中文大學(深圳)與跨維智能的研究團隊提出了一種全新的強化學習后訓練框架 ——Executable Video Alignment (EVA)。該框架創新性地將逆動力學模型轉化為獎勵模型,通過強化學習直接優化視頻生成過程,使生成結果不僅 “看起來真實”,更 “動起來可行”

      這也表明,真正服務于機器人的世界模型不能只停留在二維視覺預測層面,而應進一步融入對世界物理的建模;本工作正是跨維智能此前提出的GS-World及其開源工具EmbodiChain所提出的核心思想的一個具體算法創新



      • 論文標題:EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards
      • 論文鏈接:https://arxiv.org/abs/2603.17808
      • 項目頁: https://eva-project-page.github.io/
      • 代碼鏈接:https://github.com/RobbinW/EVA

      痛點:中看不中用的 “可執行性鴻溝”

      近年來,視頻生成模型在機器人任務規劃中展現出很強的潛力。相比直接從圖像和語言映射到動作序列,這類方法先生成未來視覺過程,再從中恢復動作,天然具備更強的中間表征能力,也讓 “規劃” 變得更加直觀。

      然而,現有視頻模型主要優化的是像素分布或感知一致性,它們擅長生成 “視覺上真實” 的內容,卻并不真正理解機器人本體結構、關節約束和運動學規律



      由此帶來一種典型現象:生成的視頻在細節上卻可能存在機械臂局部形變、關節連接模糊、運動突然跳變等不符合運動學規律的問題。經過逆動力學模型翻譯成動作信號之后,這些偏差會被迅速放大,最終演化為抖動、越界甚至完全不可執行的控制指令。



      破局之道:EVA 框架

      圍繞這個問題,研究團隊提出了Executable Video Alignment(EVA)

      EVA 的核心思想很直接:既然機器人最終需要的是可執行的動作序列,那么視頻生成模型的訓練目標就不應只由視覺質量決定,而應該進一步引入來自動作空間的約束

      具體而言,EVA 首先訓練一個逆動力學模型(Inverse Dynamics Model, IDM),讓它能夠根據視頻中的局部時序變化恢復出機器人動作;隨后,再將這個 IDM 擴展作為 “獎勵模型”,用于評估視頻生成結果對應的動作序列是否平滑、合理、符合機器人本體約束。

      換句話說,EVA 讓視頻世界模型在監督微調階段首先回答:

      • 這段視頻看起來真實嗎?
      • 是否符合任務語義?

      而在強化學習階段進一步回答:

      • 這段視頻如果被翻譯成動作,機器人到底能不能執行?
      • 它對應的動作軌跡是否平滑?
      • 是否違反速度、加速度等本體約束?
      • 是否會產生突兀跳變或不穩定控制?

      基于這一思路,研究團隊在獎勵設計中顯式引入了多種機器人執行層面的約束,包括動作速度變化、加速度平滑性以及更高階的jerk正則項,同時對超過機器人本體限制的異常動作進行懲罰。通過強化學習后訓練,模型會逐漸傾向于生成那些不僅視覺自然,而且對應動作更穩定、更符合物理規律的未來軌跡。從本質上看,EVA 并不是簡單地 “修補視頻中的瑕疵”,而是在將視頻生成分布主動拉回到機器人可行運動流形之上。



      實驗表現:從仿真到真實的提升

      為了驗證 EVA 的有效性,研究團隊在仿真和真實機器人平臺上進行了系統實驗。

      • 視覺規劃質量飛躍:在視覺質量評估中,經過 RL 對齊的 EVA 模型在 “運動學合理性”(Kinematic plausibility)上相比未對齊的基線模型大幅提升了 20.9%。在更嚴格的整體標準下,模型的 Perfect Execution 達到了 83.8%。這說明 EVA 優化的不只是 “畫面是否自然”,而是在減少機械臂形變、關節歧義和時序跳變等對執行極其重要的結構性偽影。



      • 仿真任務成功率提高:研究團隊在當前具身操作領域具有代表性的 RoboTwin 2.0 基準上進行了仿真實驗評測。之所以選擇 RoboTwin,一方面是因為它面向雙臂操作任務,任務類型豐富、場景隨機性強,能夠更真實地反映機器人在復雜環境中的操作能力;另一方面,RoboTwin 已逐漸成為檢驗 VLA 方法 與 具身世界模型方法 泛化能力和真實執行潛力的重要公開基準,因此在這一平臺上的結果具有較強的說服力。

      在實驗中,研究團隊對21 個雙臂任務進行了系統評測。評測方式并不是只比較生成視頻 “看起來好不好”,而是將生成視頻進一步交給逆動力學模型(IDM)解碼為動作序列,再真正送入控制系統執行,并統計每個任務 20 次試驗中的成功次數。換句話說,這一指標考察的是:視頻世界模型生成的未來,究竟能不能被機器人真正做出來。從結果來看,EVA(with RL)將平均成功率進一步提升到 52.6%,不僅明顯超過未對齊版本,也整體優于多種代表性 VLA 方法和機器人基礎模型基線。例如,在 ClickBell 任務上,EVA(with RL)達到 20/20;在 PressStapler 上達到 20/20;在 TurnSwitch 上達到 13/20,相比未對齊版本的 8/20 有明顯提升。



      • 真實世界部署更穩定:為了進一步驗證方法在真實場景中的落地價值,研究團隊還在真實雙臂機器人平臺上進行了部署測試。結果表明,EVA 的優勢并不只停留在仿真環境中,而是穩定延伸到了真實機器人部署階段。對于 Seen tasks,經過可執行性對齊后的 EVA(with RL)達到 64.0%,明顯高于 ACT、π?、Vidar 和 GE-Act 等代表性基線方法。尤其在 StackBowl、Place2Basket 和 Place2Tray 等任務上,EVA(with RL)都取得了更優表現。更值得關注的是,在5 個全新的 OOD 任務上,EVA 的優勢更加明顯。相比于基線方法,EVA(with RL) 將平均成功率提升至60.0%,顯示出更強的新任務適應能力和跨場景泛化能力。



      如果把這三組結果放在一起解讀,EVA 的貢獻就會更清晰:

      它并不是單純把視頻 “變好看” 了,也不是只在某個局部指標上做了優化;它展示的是一條更完整的提升鏈條 ——

      從視覺規劃質量改善,到仿真執行成功率提升,再到真實機器人部署更穩定。

      這條鏈條背后對應的,其實正是 EVA 的核心判斷:對于具身世界模型來說,真正決定落地價值的,不只是 “能不能生成未來”,而是 “生成出來的未來,能不能被機器人可靠地執行”。而 EVA 通過逆動力學獎勵,把這一點第一次系統性地變成了訓練目標。

      拓展潛力:零樣本生成賦能數據合成

      除了提升視頻世界模型的執行可靠性,EVA 還展現出一個極具潛力的延伸方向:面向具身智能的數據合成與增強

      眾所周知,具身智能系統的發展長期受制于高質量機器人數據的稀缺。真實機器人采集不僅成本高、周期長,而且對人力示教和平臺條件高度依賴。EVA 所彌合的 “可執行性鴻溝”,則為構建全合成具身數據流水線打開了新的可能。

      研究團隊展示了一種零樣本(Zero-Shot)的數據生成方案:首先利用先進的文本到圖像基礎模型生成多樣化的初始場景觀測,再將這些圖像輸入經過對齊后的 EVA 視頻世界模型,從而自動生成具備合理物理約束的動態視頻軌跡。相比以往僅追求視覺多樣性的合成方式,這一流程更進一步保證了生成結果在動作層面的可用性。

      這意味著,未來或許可以在不依賴人工遙操作的前提下,持續合成更豐富、更可信、更接近真實執行分布的具身數據,為機器人學習提供新的規模化路徑。



      結語:從 “會生成” 到 “會執行”,EVA 補上關鍵一步

      這項工作的一個重要意義在于,它提醒整個領域重新思考視頻世界模型的評價標準。

      過去,許多研究更關注生成結果是否清晰、連貫、符合語義,但對于機器人而言,這些指標遠遠不夠。因為機器人并不是在 “觀看” 世界模型生成的畫面,而是在 “執行” 這些畫面背后所對應的動作與交互過程。

      從這個意義上看,EVA 提供了一條重要的技術路徑:它讓視頻世界模型不再只是生成未來畫面,而是開始面向真實機器人執行去優化未來軌跡。EVA 所補上的,正是視覺合理性與動作可執行性之間長期存在的關鍵缺口,推動世界模型從 “看起來合理” 邁向 “真正能夠執行”。

      EVA 主要聚焦于運動學層面的對齊,其拓展可進一步引入更豐富的動力學約束,例如接觸力、摩擦、扭矩等真實物理因素。更進一步說,要讓世界模型真正服務于具身智能,僅僅具備二維視覺生成能力仍然不夠。更 “好用” 的世界模型,需要進一步走向對三維空間結構、真實物理規律和連續交互過程的統一理解。沿著這條路徑,世界模型才有可能真正成為支撐具身智能決策、執行與泛化的基礎能力。這個方向,也正與跨維智能圍繞 GS-World(Generative Simulation World Model) 和其開源平臺 EmbodiChain 所推進的研究主線一脈相承:前者致力于以生成式仿真建模 3D 資產、環境和物理交互規則,后者則作為面向具身智能的 Real2Sim2Real 引擎,連接場景生成、數據合成、模型訓練和 Sim2Real 部署。

      通過 EVA,跨維智能已經給出了一個清晰的信號:

      機器人需要的,不只是會 “想象未來” 的世界模型,更是能夠在真實三維物理世界中 “做得出來” 的世界模型

      而這,或許正是世界模型邁向具身智能落地過程中,最關鍵的一步。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      現貨黃金跌幅擴大至2.5%

      現貨黃金跌幅擴大至2.5%

      財聯社
      2026-03-27 00:24:12
      伊朗稱已組織超百萬人為地面戰斗做準備

      伊朗稱已組織超百萬人為地面戰斗做準備

      閃電新聞
      2026-03-27 00:18:15
      羅技中國致歉

      羅技中國致歉

      第一財經資訊
      2026-03-27 00:17:22
      烏克蘭打出400:1恐怖戰績,俄羅斯列寧格勒港口基本被打癱瘓

      烏克蘭打出400:1恐怖戰績,俄羅斯列寧格勒港口基本被打癱瘓

      史政先鋒
      2026-03-26 16:17:12
      為何越來越多有錢人,寧愿買兩套房和父母住對門,也要搬離別墅?

      為何越來越多有錢人,寧愿買兩套房和父母住對門,也要搬離別墅?

      裝修秀
      2026-03-26 14:05:47
      上海一女子“閃婚”拿到價值近千萬房產99%份額,“閃離”后起訴分割房產,法院判了!

      上海一女子“閃婚”拿到價值近千萬房產99%份額,“閃離”后起訴分割房產,法院判了!

      環球網資訊
      2026-03-26 08:13:14
      含劇毒,無解藥!高溫120℃煮不爛、殺不死每家都有,一定別亂吃

      含劇毒,無解藥!高溫120℃煮不爛、殺不死每家都有,一定別亂吃

      江江食研社
      2026-03-25 21:55:01
      美軍發布戰果,摧毀中國產戰機,伊朗空軍損失殆盡

      美軍發布戰果,摧毀中國產戰機,伊朗空軍損失殆盡

      愛吃醋的貓咪
      2026-03-22 22:29:08
      穎兒素顏做熱瑪吉,疼到表情失控,這為了上鏡也是真拼?

      穎兒素顏做熱瑪吉,疼到表情失控,這為了上鏡也是真拼?

      娛樂領航家
      2026-03-27 00:00:03
      為什么閑魚很多賣家只支持自提?網友:等你碰上到手刀的就老實了

      為什么閑魚很多賣家只支持自提?網友:等你碰上到手刀的就老實了

      另子維愛讀史
      2026-03-22 22:34:48
      雖然毛主席享年83歲,保健醫生卻說:其實毛主席不具備長壽條件

      雖然毛主席享年83歲,保健醫生卻說:其實毛主席不具備長壽條件

      芳芳歷史燴
      2026-03-26 23:31:52
      伊朗再獲重大勝利!美國,又被打慘了!

      伊朗再獲重大勝利!美國,又被打慘了!

      大嘴說天下
      2026-03-26 19:32:16
      放棄阿隆索!利物浦新帥目標敲定,他是下一個克洛普

      放棄阿隆索!利物浦新帥目標敲定,他是下一個克洛普

      奶蓋熊本熊
      2026-03-26 04:28:59
      伊朗愿意與“主和派”萬斯談!特朗普一邊宣稱勝利一邊增兵中東:我和魯比奧也要參與

      伊朗愿意與“主和派”萬斯談!特朗普一邊宣稱勝利一邊增兵中東:我和魯比奧也要參與

      紅星新聞
      2026-03-25 17:17:14
      1979年越南戰敗后,黎筍要求中國邊線北移100公里,楊得志:打!

      1979年越南戰敗后,黎筍要求中國邊線北移100公里,楊得志:打!

      兵卒史
      2026-03-26 10:26:03
      真不能怪祖院長,就曾醫生這顏值、這才華和魅力,誰遭的住?

      真不能怪祖院長,就曾醫生這顏值、這才華和魅力,誰遭的住?

      吃瓜局
      2025-11-11 16:23:49
      語文課不會教的:念奴嬌、如夢令,千奇百怪的詞牌名是怎么來的?

      語文課不會教的:念奴嬌、如夢令,千奇百怪的詞牌名是怎么來的?

      長風文史
      2026-03-24 17:09:58
      雷軍曬成績:小米SU7、YU7雙雙第一!

      雷軍曬成績:小米SU7、YU7雙雙第一!

      快科技
      2026-03-26 13:09:04
      字母哥的哥哥:我也想不通為什么尼克斯選我,我都不抱希望

      字母哥的哥哥:我也想不通為什么尼克斯選我,我都不抱希望

      林子說事
      2026-03-26 14:42:15
      諾利托:盡管我曾效力于巴薩,但為了生活我也愿意效力于皇馬

      諾利托:盡管我曾效力于巴薩,但為了生活我也愿意效力于皇馬

      懂球帝
      2026-03-26 22:42:03
      2026-03-27 00:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12608文章數 142594關注度
      往期回顧 全部

      科技要聞

      美團發布外賣大戰后成績單:虧損超200億

      頭條要聞

      張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

      頭條要聞

      張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

      體育要聞

      申京努力了,然而杜蘭特啊

      娛樂要聞

      劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

      財經要聞

      油價"馴服"特朗普?一到100美元就TACO

      汽車要聞

      一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

      態度原創

      游戲
      教育
      時尚
      藝術
      公開課

      PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

      教育要聞

      精準研判,提質增效丨我校召開2026屆畢業生就業工作研判會

      400萬人愛過的女孩,被黃謠網暴180天后

      藝術要聞

      都說烏克蘭美女多,看完攝影師貝格瑪 的作品我信了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版