<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      碾壓π0.5,復旦團隊:「世界模型+具身訓練+強化學習」閉環(huán)框架

      0
      分享至



      張家輝,復旦大學大數(shù)據(jù)學院博士三年級學生,研究方向為具身智能、視覺 - 語言 - 動作模型預訓練與強化學習后訓練,4D-VLA (NeurIPS 25) 第一作者。黃澤,復旦大學大數(shù)據(jù)學院博士三年級學生,主要從事機器人世界模型與三維重建、生成等方向研究。兩人共同擔任本文第一作者。

      張力,復旦大學大數(shù)據(jù)學院教授,上海創(chuàng)智學院全時導師,擔任本論文的通訊作者。主頁:https://lzrobots.github.io

      Vision–Language–Action(VLA)策略正逐漸成為機器人邁向通用操作智能的重要技術路徑:這類策略能夠在統(tǒng)一模型內(nèi)同時處理視覺感知、語言指令并生成連續(xù)控制信號。

      然而,當前大多數(shù) VLA 仍主要依賴模仿學習,實質(zhì)上是按示范軌跡復刻,在分布發(fā)生偏移、任務形式變化或操作時域拉長時,極易出現(xiàn)誤差累積并導致任務失敗。強化學習(RL)從回報信號出發(fā)直接優(yōu)化任務成功率,按理應當能夠緩解這一目標錯配問題,但在真實機器人上開展在線 RL 成本高昂,并行執(zhí)行受限,還伴隨大量重置與標注開銷;以 π*0.6 為代表的多輪離線 RL 范式在每一輪中仍高度依賴真實系統(tǒng)部署和人工干預,訓練成本與迭代效率都存在明顯瓶頸(需要一直有人類介入,一旦出現(xiàn)錯誤軌跡就人類接管操作,記錄相應的數(shù)據(jù));另一方面,基于傳統(tǒng)物理引擎(MuJoCo、Isaac sim)的強化學習又難以同時兼顧逼真度、場景多樣性與工程可用性。

      針對上述問題,研究團隊提出ProphRL 框架采用大規(guī)模預訓練的世界模型 Prophet 作為「面向真實環(huán)境」的視頻級模擬器,并配合專為流式動作頭設計的在線 RL 算法 Flow-Action-GRPO 與 FlowScale,在虛擬但物理一致的環(huán)境中直接對 VLA 策略進行強化學習優(yōu)化,再將優(yōu)化后的策略部署到真實機器人上。如此,策略改進的主要探索過程可以在世界模型中完成,在兼顧物理可信度的同時顯著降低真實交互成本,為大模型 VLA 的實際落地提供了更可行的技術路徑。如圖所示:



      實驗結果顯示,ProphRL在多個公開基準上為各類 VLA 模型(VLA-adapter-0.5B, Pi0.5-3B, OpenVLA-OFT-7B)帶來 5–17% 的成功率提升,在真實機器人實驗中進一步取得 24–30% 的大幅度成功率提升



      • 論文地址:https://arxiv.org/pdf/2511.20633
      • 項目主頁:https://logosroboticsgroup.github.io/ProphRL

      研究背景

      模仿學習的長期回報錯配

      近年的工作表明,VLA 在自然語言指令和視覺觀測的驅(qū)動下,已經(jīng)可以完成臺面整理、物體抓取、工具操作等多步任務。但絕大多數(shù)方法仍依賴行為克隆式監(jiān)督訓練,只關心軌跡像不像示范,并未真正對齊任務最終是否成功。因此,模型在訓練分布附近表現(xiàn)良好,一旦場景略有變化或操作鏈條變長,就容易因誤差累積而導致失敗。

      真實機器人上做在線 RL 很難規(guī)模化

      從原理上看,為 VLA 疊加一個 RL 模塊,讓策略通過在線交互從成功或失敗中學習,是緩解上述錯配的自然途徑。但在真實機器人上實踐 RL 成本極高:每次試驗都消耗時間和硬件壽命,需要嚴格的安全防護和人工監(jiān)控,多機器人并行基礎設施投入也非常大,許多精細任務還依賴人工重置與干預。綜合來看,直接在真機上大規(guī)模跑 RL 并不現(xiàn)實。

      傳統(tǒng)物理仿真器的局限

      另一條路線是依托 MuJoCo、Isaac sim 等物理引擎,在仿真環(huán)境中完成 RL,再做 sim-to-real 遷移。然而,對以 RGB 圖像為輸入的 VLA 而言,要搭建一個同時兼顧視覺逼真度、接觸動力學精度和物體多樣性的仿真場景,工程成本極高,且仍難以準確覆蓋如布料折疊、紙巾拉取等復雜任務。這使得基于傳統(tǒng)仿真器的大規(guī)模 VLA 后訓練在實際中難以落地。

      數(shù)據(jù)驅(qū)動世界模型的機會與不足

      近年來,數(shù)據(jù)驅(qū)動世界模型開始在機器人領域興起:給定初始圖像和底層機械臂動作指令,模型可以預測未來機械臂操作視頻,從而在「想象空間」里讓策略反復練習。這類方法天然與 VLA 的視覺接口兼容,有望成為連接 RL 與真實世界的新橋梁。但現(xiàn)有世界模型通常局限于單場景或單任務,跨數(shù)據(jù)集、跨機器人形態(tài)的泛化能力有限;與 VLA 結合時,世界模型也多被當作簡單的數(shù)據(jù)增強來支撐 SFT,而尚未形成一個可遷移、可適配、能夠真正支撐 RL 的通用模擬器

      ProphRL :基于世界模型的在線強化學習



      Prophet:大規(guī)模預訓練的動作到視頻世界模型

      研究團隊構建的世界模型 Prophet,目標是在統(tǒng)一接口下學習從動作序列到未來操作視頻的映射。其核心結構是視頻擴散模型,在推理時輸入歷史幀、當前參考幀,以及未來一段時間的動作序列,輸出與真實機器人執(zhí)行過程對齊的長時操作視頻。為更好地對齊動作與幾何信息,研究團隊采用雙重動作條件:一方面將共 7 維的末端執(zhí)行器位姿增量和夾爪開合編碼為全局標量嵌入;另一方面將末端執(zhí)行器動作投影到相機平面,并渲染為動作幀,為模型提供顯式位姿與運動方向線索。此外,研究團隊引入 FramePack 式的歷史記憶機制,在控制計算成本的同時,持續(xù)追蹤接觸過程中的幾何一致性和物體狀態(tài)演化。

      大規(guī)模異構數(shù)據(jù)上的預訓練與少樣本微調(diào)

      為了讓 Prophet 具備通用機器人直覺,研究團隊在 AgiBot、DROID、LIBERO 以及篩選后的 Open-X 等多源數(shù)據(jù)上進行統(tǒng)一預訓練,覆蓋多種機械臂、視角、場景和操作風格。訓練時,對坐標系、夾爪語義和動作參數(shù)化進行統(tǒng)一建模,避免不同數(shù)據(jù)源之間的結構沖突。在此基礎上,面對新場景、新物體或新任務時,只需百級別真實軌跡,通過 快速且輕量的微調(diào),即可讓 Prophet 快速適配,同時保持對符合真實世界物理結果生成能力的延續(xù)。



      以下兩個視頻為 Prophet 的交互 demo,通過選擇具體動作,生成對應動作的視頻:





      光流引導的控制一致性評估協(xié)議

      傳統(tǒng)視頻生成評估指標(PSNR、SSIM 等)主要衡量畫面清晰度和逼真度,卻難以判斷機器人有沒有按預期動作。為此,研究團隊提出光流引導的評估協(xié)議:在真實視頻與 Prophet 生成視頻之間計算像素級光流,并對比兩組光流之間的一致性,以外觀無關的方式評估末端軌跡和接觸行為是否對齊。該指標與感知質(zhì)量互為補充,為在世界模型中開展 RL 提供了更貼近控制需求的反饋信號。

      FA-GRPO 與 FlowScale:為流式動作頭量身打造的 RL 算法

      在策略層面,研究團隊面向帶 flow-based 動作頭的 VLA,這類策略通過多步去噪生成連續(xù)動作,內(nèi)部包含大量中間流步。現(xiàn)有 Flow-GRPO 將每個流步都當作獨立動作,既放大了梯度方差,也削弱了與環(huán)境反饋之間的對應關系,訓練容易不穩(wěn)定。為此,研究團隊做了兩點改進:

      • Flow-action-GRPO(FA-GRPO):在動作而不是流步層面構造 PPO 比例,將所有內(nèi)部流步的對數(shù)似然先聚合成單一環(huán)境動作的概率,再與優(yōu)勢函數(shù)結合。這樣不改動策略結構,只重新組織梯度信號,使長時序控制下的信用分配更貼近真實環(huán)境反饋。
      • FlowScale:利用噪聲調(diào)度,為每個流步乘上與噪聲尺度相關的權重系數(shù):適度放大高噪聲的早期步驟,抑制低噪聲但梯度極大的后期步驟,在不改變目標函數(shù)的前提下平衡各流步對整體梯度的貢獻,顯著提升訓練穩(wěn)定性。





      結合 Prophet 提供的長視野視頻模擬器,VLA 策略在其中用 FA-GRPO 和 FlowScale 反復訓練,再遷移到真實機器人上執(zhí)行,形成「在想象中學,在現(xiàn)實中用」的完整閉環(huán)。

      Reward model:基于視頻 - 語言的任務成功評估

      在 ProphRL 中,獎勵不再依賴手工設計的幾何距離,而是由 視覺–語言獎勵模型(Reward model) 直接根據(jù)「整條軌跡是否完成任務」給分。具體來說,reward model 以任務文本和整段執(zhí)行視頻為輸入,輸出一個標量得分,并在一個 batch 內(nèi)做歸一化后,作為整條軌跡上各步的 advantage,送入 FA-GRPO 和 FlowScale。

      • LIBERO 任務:在物理仿真環(huán)境中可以直接得到成功 / 失敗標簽及完成步數(shù)。研究團隊將每條軌跡渲染成視頻,用這些帶標簽的視頻微調(diào) Qwen2.5-VL-7B,得到一個二分類 RM,用于判斷任務是否完成,并估計完成時刻,從而做時間掩碼。
      • BRIDGE 與真實機器人任務:真實和離線數(shù)據(jù)上手動標注代價很高,因此研究團隊采用 Qwen2.5-VL-72B 作為零樣本 reward model。給定任務說明和精心設計的提示詞,研究團隊從每條軌跡中均勻采樣若干幀,請模型做逐步推理并給出「成功 / 失敗」判斷,多次評估后取多數(shù)票作為最終標簽,用于驅(qū)動在世界模型和真機上的強化學習。

      最終,世界模型、VLA 基座模型、獎勵模型,通過在線強化學習(FA-GRPO & FlowScale)構成數(shù)據(jù)閉環(huán),為具身場景落地提供切實可行的解決方案。如下圖所示:



      實驗驗證:從基準任務到真實機器人

      在實驗部分,研究團隊圍繞三個維度系統(tǒng)評估 ProphRL:

      世界模型能力:在 AgiBot、DROID、LIBERO 和 BRIDGE 等多數(shù)據(jù)集上,預訓練的 Prophet 就能在視覺效果和動作一致性上同時取得領先表現(xiàn),其中 BRIDGE 在預訓練階段是完全未參與的數(shù)據(jù)集。在 BRIDGE 少樣本場景中,經(jīng)過少量示范的微調(diào)后,Prophet 依然可以執(zhí)行視覺上未出現(xiàn)過的新物體、新組合動作,體現(xiàn)出良好的跨場景、跨物體泛化能力。

      生成質(zhì)量超越 Nvidia 的 Cosmos 與上海智元的 Genie-envisioner:









      在世界模型中的 RL 效果:研究團隊選取多種 VLA 模型(如 VLA-Adapter-0.5B、Pi 0.5-3b、OpenVLA-OFT-7B ),在 Prophet 中對每個任務分別進行強化學習訓練。對比僅做監(jiān)督微調(diào),加入 FA-GRPO + FlowScale 后,在多項 benchmark 與真實任務中成功率都有顯著提升。





      真實機器人上的驗證:基于 UR30e 機械臂,研究團隊設計了 GraspBottle、PlaceCube、PulloutTissue、PlaceBowl 四個桌面操作任務,覆蓋剛體抓取、容器放置和柔性物體拉取等難以精確仿真的場景。將 Prophet 中訓練得到的策略遷移到真機后,ProphRL 相比純監(jiān)督微調(diào)在所有任務的平均成功率上都帶來約 24–30% 的成功率提升。



      VLA 或者 VLA + SFT 后訓練 在做的其實是 imitate 訓練數(shù)據(jù)集,而 世界模型 + RL 能夠?qū)W習并加強到訓練數(shù)據(jù)中不存在或者弱存在的成功軌跡,如下視頻所示:





      總的來看,目前機器人策略仍以基于示范的監(jiān)督微調(diào)(SFT)為主,在分布偏移和長時序任務下往往難以保持穩(wěn)定表現(xiàn),而強化學習則是提升魯棒性和適應能力的關鍵手段。

      不過,以 Pi*0.6 為代表的多輪離線 RL 范式在每一輪中仍高度依賴真實系統(tǒng)部署和人工干預,訓練成本與迭代效率都存在明顯瓶頸。

      ProphRL 以世界模型 Prophet 為核心,先在大規(guī)模真實軌跡上學習從動作到未來觀測的動力學,再在這一數(shù)據(jù)驅(qū)動的模擬環(huán)境中對 VLA 策略執(zhí)行 RL 優(yōu)化,最后將策略遷移到真實機器人上進行驗證。

      這樣的設計使得策略改進的主要探索過程可以在世界模型中完成,在兼顧物理一致性的同時減少對真機交互的依賴,并在實驗中對多類 VLA 模型中帶來了穩(wěn)定且顯著的性能提升,表明「世界模型 + RL」讓具身智能在真實場景中落地可期!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      老戲骨的“動臉后遺癥”,在央視《大生意人》現(xiàn)出了原形,可惜了

      老戲骨的“動臉后遺癥”,在央視《大生意人》現(xiàn)出了原形,可惜了

      陳述影視
      2025-12-06 23:59:24
      谷愛凌性感泳裝照來襲,你絕對想不到的驚艷瞬間!

      谷愛凌性感泳裝照來襲,你絕對想不到的驚艷瞬間!

      國際藝術大觀
      2025-12-07 21:38:38
      太陽報:薩拉赫今天駕駛勞斯萊斯離開訓練基地,面無表情

      太陽報:薩拉赫今天駕駛勞斯萊斯離開訓練基地,面無表情

      懂球帝
      2025-12-08 00:06:23
      姚洋呼吁中央政府發(fā)力:拿出真金白銀拍在桌上,穩(wěn)住房地產(chǎn)、撐住地方財政

      姚洋呼吁中央政府發(fā)力:拿出真金白銀拍在桌上,穩(wěn)住房地產(chǎn)、撐住地方財政

      新浪財經(jīng)
      2025-12-07 17:21:30
      中國最安全的省份:兩千年來沒打過大仗,抗日戰(zhàn)爭時期都非常太平

      中國最安全的省份:兩千年來沒打過大仗,抗日戰(zhàn)爭時期都非常太平

      芊芊子吟
      2025-12-07 21:00:06
      張雪峰被查處,全網(wǎng)破防了

      張雪峰被查處,全網(wǎng)破防了

      大佬灼見
      2025-12-07 12:22:16
      10輪僅2勝!英超冠軍內(nèi)訌,頭牌采訪開炮+逼宮主帥下課:有他沒我

      10輪僅2勝!英超冠軍內(nèi)訌,頭牌采訪開炮+逼宮主帥下課:有他沒我

      我愛英超
      2025-12-07 07:44:46
      部長王祥喜立即部署,應急管理部已派工作組趕赴新疆

      部長王祥喜立即部署,應急管理部已派工作組趕赴新疆

      新京報政事兒
      2025-12-07 17:28:07
      1-0大冷門,23歲國米舊將發(fā)威:率意甲第15掀翻意甲第4,終結9輪不勝

      1-0大冷門,23歲國米舊將發(fā)威:率意甲第15掀翻意甲第4,終結9輪不勝

      凌空倒鉤
      2025-12-07 23:55:36
      開國中將周希漢長子,紅衛(wèi)兵總指揮血淚詮釋與女明星的生死情緣

      開國中將周希漢長子,紅衛(wèi)兵總指揮血淚詮釋與女明星的生死情緣

      33年老蟬
      2025-08-06 00:02:09
      網(wǎng)紅“甲亢哥”直播暴力損毀人形機器人“Rizzbot”,遭起訴索賠

      網(wǎng)紅“甲亢哥”直播暴力損毀人形機器人“Rizzbot”,遭起訴索賠

      IT之家
      2025-12-07 09:51:07
      諾里斯首奪F1車手總冠軍

      諾里斯首奪F1車手總冠軍

      界面新聞
      2025-12-07 22:37:35
      中組部:公職人員退休后未經(jīng)批準經(jīng)商(包括當律師)的,不再保留黨政機關退休金等待遇

      中組部:公職人員退休后未經(jīng)批準經(jīng)商(包括當律師)的,不再保留黨政機關退休金等待遇

      新浪財經(jīng)
      2025-11-18 12:46:38
      汪涵陪兒子比賽 全程手插兜嚼檳榔和楊樂樂交替帶娃 兒子身高驚人

      汪涵陪兒子比賽 全程手插兜嚼檳榔和楊樂樂交替帶娃 兒子身高驚人

      樂悠悠娛樂
      2025-12-06 09:52:51
      上海二手房成交量有點超乎想象了

      上海二手房成交量有點超乎想象了

      魔都財觀
      2025-12-06 08:30:38
      “浙江投行一哥”被帶走

      “浙江投行一哥”被帶走

      財通社
      2025-12-07 11:55:49
      1000年前的古畫,竟然看到一個小孩在用“吸管杯”,網(wǎng)友:不稀奇,唐代就有!

      1000年前的古畫,竟然看到一個小孩在用“吸管杯”,網(wǎng)友:不稀奇,唐代就有!

      坦腹齋
      2025-12-06 18:11:00
      上海一31歲女教師因病去世,重病時仍在安慰他人,學生:她會給我們分吃的,親自把賀卡送到家里

      上海一31歲女教師因病去世,重病時仍在安慰他人,學生:她會給我們分吃的,親自把賀卡送到家里

      極目新聞
      2025-12-07 17:55:32
      人民日報專訪,揭開32歲周深的真實處境,那英確實一個字都沒說錯

      人民日報專訪,揭開32歲周深的真實處境,那英確實一個字都沒說錯

      八斗小先生
      2025-11-01 08:46:54
      杭州“地鐵”事件,還有更深的諷刺!

      杭州“地鐵”事件,還有更深的諷刺!

      槽三刀
      2025-12-07 16:23:55
      2025-12-08 06:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11862文章數(shù) 142509關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創(chuàng)業(yè),炮轟大模型,再戰(zhàn)AI

      頭條要聞

      馬斯克一句話說到梅德韋杰夫心里 卻引發(fā)歐洲政治風暴

      頭條要聞

      馬斯克一句話說到梅德韋杰夫心里 卻引發(fā)歐洲政治風暴

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經(jīng)要聞

      五糧液降價?回應來了

      汽車要聞

      傳奇超跑電動形態(tài)重生 雷克薩斯LFA純電概念車

      態(tài)度原創(chuàng)

      旅游
      游戲
      教育
      親子
      手機

      旅游要聞

      從小眾到爆火!連云港楓樹灣用一片紅葉,點亮江蘇秋冬旅游

      重生之年我在倩女端游做地府主君,主導生死!這波操作太上頭

      教育要聞

      明明上了補習班,數(shù)學卻躺得更平了

      親子要聞

      最近一次開懷大笑是因為什么? 網(wǎng)友分享: 必須給姑娘撐場子

      手機要聞

      華為Mate80系列:已推送新系統(tǒng)版本!花粉:還沒搶到呢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天天爽夜夜爽人人爽一区二区| 亚洲成人在线| 国产九九| 亚洲人成网站999久久久综合| 香蕉av福利精品导航| 亚洲精品欧美综合二区| 99精品人妻| 武安市| 国产乱子伦精品免费女| 亚洲精品无码专区| 成人国产精品日本在线观看| 91视频www| 欧美日韩一卡二卡| 狠狠躁夜夜躁人人爽天天| 亚洲精中文字幕二区三区| 亚洲AV无一区二区三区久久| 小婕子伦流澡到高潮h| 加勒比无码一区二区三区| 亚洲日韩中文字幕在线播放| 韩日一级| 久久久久国精品产熟女久色 | 91在线观看| 久久久久中文字幕| 中文字幕人妻丰满| 欧美大屁股xxxx高跟欧美黑人| 国产精品激情av在线播放| 91精品人人妻人人澡人人爽人人精东影业 | 国产亚洲天堂另类综合| 亚洲无码丝袜| 国产人妻人伦精品久久| 免费观看全黄做爰的视频| 女人与牲口性恔配视频免费| 精久视频| 国产v亚洲v天堂无码久久久| 77777亚洲午夜久久多人| 蜜桃精品噜噜噜成人AV| 亚洲国产成人精品av区按摩| 毛片天堂| 中文字幕精品无码一区二区| 免费又黄又裸乳的视频| 国精产品乱码一区一区三区四区|