![]()
張家輝,復旦大學大數(shù)據(jù)學院博士三年級學生,研究方向為具身智能、視覺 - 語言 - 動作模型預訓練與強化學習后訓練,4D-VLA (NeurIPS 25) 第一作者。黃澤,復旦大學大數(shù)據(jù)學院博士三年級學生,主要從事機器人世界模型與三維重建、生成等方向研究。兩人共同擔任本文第一作者。
張力,復旦大學大數(shù)據(jù)學院教授,上海創(chuàng)智學院全時導師,擔任本論文的通訊作者。主頁:https://lzrobots.github.io
Vision–Language–Action(VLA)策略正逐漸成為機器人邁向通用操作智能的重要技術路徑:這類策略能夠在統(tǒng)一模型內(nèi)同時處理視覺感知、語言指令并生成連續(xù)控制信號。
然而,當前大多數(shù) VLA 仍主要依賴模仿學習,實質(zhì)上是按示范軌跡復刻,在分布發(fā)生偏移、任務形式變化或操作時域拉長時,極易出現(xiàn)誤差累積并導致任務失敗。強化學習(RL)從回報信號出發(fā)直接優(yōu)化任務成功率,按理應當能夠緩解這一目標錯配問題,但在真實機器人上開展在線 RL 成本高昂,并行執(zhí)行受限,還伴隨大量重置與標注開銷;以 π*0.6 為代表的多輪離線 RL 范式在每一輪中仍高度依賴真實系統(tǒng)部署和人工干預,訓練成本與迭代效率都存在明顯瓶頸(需要一直有人類介入,一旦出現(xiàn)錯誤軌跡就人類接管操作,記錄相應的數(shù)據(jù));另一方面,基于傳統(tǒng)物理引擎(MuJoCo、Isaac sim)的強化學習又難以同時兼顧逼真度、場景多樣性與工程可用性。
針對上述問題,研究團隊提出ProphRL 框架采用大規(guī)模預訓練的世界模型 Prophet 作為「面向真實環(huán)境」的視頻級模擬器,并配合專為流式動作頭設計的在線 RL 算法 Flow-Action-GRPO 與 FlowScale,在虛擬但物理一致的環(huán)境中直接對 VLA 策略進行強化學習優(yōu)化,再將優(yōu)化后的策略部署到真實機器人上。如此,策略改進的主要探索過程可以在世界模型中完成,在兼顧物理可信度的同時顯著降低真實交互成本,為大模型 VLA 的實際落地提供了更可行的技術路徑。如圖所示:
![]()
實驗結果顯示,ProphRL在多個公開基準上為各類 VLA 模型(VLA-adapter-0.5B, Pi0.5-3B, OpenVLA-OFT-7B)帶來 5–17% 的成功率提升,在真實機器人實驗中進一步取得 24–30% 的大幅度成功率提升
![]()
- 論文地址:https://arxiv.org/pdf/2511.20633
- 項目主頁:https://logosroboticsgroup.github.io/ProphRL
研究背景
模仿學習的長期回報錯配
近年的工作表明,VLA 在自然語言指令和視覺觀測的驅(qū)動下,已經(jīng)可以完成臺面整理、物體抓取、工具操作等多步任務。但絕大多數(shù)方法仍依賴行為克隆式監(jiān)督訓練,只關心軌跡像不像示范,并未真正對齊任務最終是否成功。因此,模型在訓練分布附近表現(xiàn)良好,一旦場景略有變化或操作鏈條變長,就容易因誤差累積而導致失敗。
真實機器人上做在線 RL 很難規(guī)模化
從原理上看,為 VLA 疊加一個 RL 模塊,讓策略通過在線交互從成功或失敗中學習,是緩解上述錯配的自然途徑。但在真實機器人上實踐 RL 成本極高:每次試驗都消耗時間和硬件壽命,需要嚴格的安全防護和人工監(jiān)控,多機器人并行基礎設施投入也非常大,許多精細任務還依賴人工重置與干預。綜合來看,直接在真機上大規(guī)模跑 RL 并不現(xiàn)實。
傳統(tǒng)物理仿真器的局限
另一條路線是依托 MuJoCo、Isaac sim 等物理引擎,在仿真環(huán)境中完成 RL,再做 sim-to-real 遷移。然而,對以 RGB 圖像為輸入的 VLA 而言,要搭建一個同時兼顧視覺逼真度、接觸動力學精度和物體多樣性的仿真場景,工程成本極高,且仍難以準確覆蓋如布料折疊、紙巾拉取等復雜任務。這使得基于傳統(tǒng)仿真器的大規(guī)模 VLA 后訓練在實際中難以落地。
數(shù)據(jù)驅(qū)動世界模型的機會與不足
近年來,數(shù)據(jù)驅(qū)動世界模型開始在機器人領域興起:給定初始圖像和底層機械臂動作指令,模型可以預測未來機械臂操作視頻,從而在「想象空間」里讓策略反復練習。這類方法天然與 VLA 的視覺接口兼容,有望成為連接 RL 與真實世界的新橋梁。但現(xiàn)有世界模型通常局限于單場景或單任務,跨數(shù)據(jù)集、跨機器人形態(tài)的泛化能力有限;與 VLA 結合時,世界模型也多被當作簡單的數(shù)據(jù)增強來支撐 SFT,而尚未形成一個可遷移、可適配、能夠真正支撐 RL 的通用模擬器
ProphRL :基于世界模型的在線強化學習
![]()
Prophet:大規(guī)模預訓練的動作到視頻世界模型
研究團隊構建的世界模型 Prophet,目標是在統(tǒng)一接口下學習從動作序列到未來操作視頻的映射。其核心結構是視頻擴散模型,在推理時輸入歷史幀、當前參考幀,以及未來一段時間的動作序列,輸出與真實機器人執(zhí)行過程對齊的長時操作視頻。為更好地對齊動作與幾何信息,研究團隊采用雙重動作條件:一方面將共 7 維的末端執(zhí)行器位姿增量和夾爪開合編碼為全局標量嵌入;另一方面將末端執(zhí)行器動作投影到相機平面,并渲染為動作幀,為模型提供顯式位姿與運動方向線索。此外,研究團隊引入 FramePack 式的歷史記憶機制,在控制計算成本的同時,持續(xù)追蹤接觸過程中的幾何一致性和物體狀態(tài)演化。
大規(guī)模異構數(shù)據(jù)上的預訓練與少樣本微調(diào)
為了讓 Prophet 具備通用機器人直覺,研究團隊在 AgiBot、DROID、LIBERO 以及篩選后的 Open-X 等多源數(shù)據(jù)上進行統(tǒng)一預訓練,覆蓋多種機械臂、視角、場景和操作風格。訓練時,對坐標系、夾爪語義和動作參數(shù)化進行統(tǒng)一建模,避免不同數(shù)據(jù)源之間的結構沖突。在此基礎上,面對新場景、新物體或新任務時,只需百級別真實軌跡,通過 快速且輕量的微調(diào),即可讓 Prophet 快速適配,同時保持對符合真實世界物理結果生成能力的延續(xù)。
![]()
以下兩個視頻為 Prophet 的交互 demo,通過選擇具體動作,生成對應動作的視頻:
![]()
![]()
光流引導的控制一致性評估協(xié)議
傳統(tǒng)視頻生成評估指標(PSNR、SSIM 等)主要衡量畫面清晰度和逼真度,卻難以判斷機器人有沒有按預期動作。為此,研究團隊提出光流引導的評估協(xié)議:在真實視頻與 Prophet 生成視頻之間計算像素級光流,并對比兩組光流之間的一致性,以外觀無關的方式評估末端軌跡和接觸行為是否對齊。該指標與感知質(zhì)量互為補充,為在世界模型中開展 RL 提供了更貼近控制需求的反饋信號。
FA-GRPO 與 FlowScale:為流式動作頭量身打造的 RL 算法
在策略層面,研究團隊面向帶 flow-based 動作頭的 VLA,這類策略通過多步去噪生成連續(xù)動作,內(nèi)部包含大量中間流步。現(xiàn)有 Flow-GRPO 將每個流步都當作獨立動作,既放大了梯度方差,也削弱了與環(huán)境反饋之間的對應關系,訓練容易不穩(wěn)定。為此,研究團隊做了兩點改進:
- Flow-action-GRPO(FA-GRPO):在動作而不是流步層面構造 PPO 比例,將所有內(nèi)部流步的對數(shù)似然先聚合成單一環(huán)境動作的概率,再與優(yōu)勢函數(shù)結合。這樣不改動策略結構,只重新組織梯度信號,使長時序控制下的信用分配更貼近真實環(huán)境反饋。
- FlowScale:利用噪聲調(diào)度,為每個流步乘上與噪聲尺度相關的權重系數(shù):適度放大高噪聲的早期步驟,抑制低噪聲但梯度極大的后期步驟,在不改變目標函數(shù)的前提下平衡各流步對整體梯度的貢獻,顯著提升訓練穩(wěn)定性。
![]()
![]()
結合 Prophet 提供的長視野視頻模擬器,VLA 策略在其中用 FA-GRPO 和 FlowScale 反復訓練,再遷移到真實機器人上執(zhí)行,形成「在想象中學,在現(xiàn)實中用」的完整閉環(huán)。
Reward model:基于視頻 - 語言的任務成功評估
在 ProphRL 中,獎勵不再依賴手工設計的幾何距離,而是由 視覺–語言獎勵模型(Reward model) 直接根據(jù)「整條軌跡是否完成任務」給分。具體來說,reward model 以任務文本和整段執(zhí)行視頻為輸入,輸出一個標量得分,并在一個 batch 內(nèi)做歸一化后,作為整條軌跡上各步的 advantage,送入 FA-GRPO 和 FlowScale。
- LIBERO 任務:在物理仿真環(huán)境中可以直接得到成功 / 失敗標簽及完成步數(shù)。研究團隊將每條軌跡渲染成視頻,用這些帶標簽的視頻微調(diào) Qwen2.5-VL-7B,得到一個二分類 RM,用于判斷任務是否完成,并估計完成時刻,從而做時間掩碼。
- BRIDGE 與真實機器人任務:真實和離線數(shù)據(jù)上手動標注代價很高,因此研究團隊采用 Qwen2.5-VL-72B 作為零樣本 reward model。給定任務說明和精心設計的提示詞,研究團隊從每條軌跡中均勻采樣若干幀,請模型做逐步推理并給出「成功 / 失敗」判斷,多次評估后取多數(shù)票作為最終標簽,用于驅(qū)動在世界模型和真機上的強化學習。
最終,世界模型、VLA 基座模型、獎勵模型,通過在線強化學習(FA-GRPO & FlowScale)構成數(shù)據(jù)閉環(huán),為具身場景落地提供切實可行的解決方案。如下圖所示:
![]()
實驗驗證:從基準任務到真實機器人
在實驗部分,研究團隊圍繞三個維度系統(tǒng)評估 ProphRL:
世界模型能力:在 AgiBot、DROID、LIBERO 和 BRIDGE 等多數(shù)據(jù)集上,預訓練的 Prophet 就能在視覺效果和動作一致性上同時取得領先表現(xiàn),其中 BRIDGE 在預訓練階段是完全未參與的數(shù)據(jù)集。在 BRIDGE 少樣本場景中,經(jīng)過少量示范的微調(diào)后,Prophet 依然可以執(zhí)行視覺上未出現(xiàn)過的新物體、新組合動作,體現(xiàn)出良好的跨場景、跨物體泛化能力。
生成質(zhì)量超越 Nvidia 的 Cosmos 與上海智元的 Genie-envisioner:
![]()
![]()
![]()
![]()
在世界模型中的 RL 效果:研究團隊選取多種 VLA 模型(如 VLA-Adapter-0.5B、Pi 0.5-3b、OpenVLA-OFT-7B ),在 Prophet 中對每個任務分別進行強化學習訓練。對比僅做監(jiān)督微調(diào),加入 FA-GRPO + FlowScale 后,在多項 benchmark 與真實任務中成功率都有顯著提升。
![]()
![]()
真實機器人上的驗證:基于 UR30e 機械臂,研究團隊設計了 GraspBottle、PlaceCube、PulloutTissue、PlaceBowl 四個桌面操作任務,覆蓋剛體抓取、容器放置和柔性物體拉取等難以精確仿真的場景。將 Prophet 中訓練得到的策略遷移到真機后,ProphRL 相比純監(jiān)督微調(diào)在所有任務的平均成功率上都帶來約 24–30% 的成功率提升。
![]()
VLA 或者 VLA + SFT 后訓練 在做的其實是 imitate 訓練數(shù)據(jù)集,而 世界模型 + RL 能夠?qū)W習并加強到訓練數(shù)據(jù)中不存在或者弱存在的成功軌跡,如下視頻所示:
![]()
![]()
總的來看,目前機器人策略仍以基于示范的監(jiān)督微調(diào)(SFT)為主,在分布偏移和長時序任務下往往難以保持穩(wěn)定表現(xiàn),而強化學習則是提升魯棒性和適應能力的關鍵手段。
不過,以 Pi*0.6 為代表的多輪離線 RL 范式在每一輪中仍高度依賴真實系統(tǒng)部署和人工干預,訓練成本與迭代效率都存在明顯瓶頸。
ProphRL 以世界模型 Prophet 為核心,先在大規(guī)模真實軌跡上學習從動作到未來觀測的動力學,再在這一數(shù)據(jù)驅(qū)動的模擬環(huán)境中對 VLA 策略執(zhí)行 RL 優(yōu)化,最后將策略遷移到真實機器人上進行驗證。
這樣的設計使得策略改進的主要探索過程可以在世界模型中完成,在兼顧物理一致性的同時減少對真機交互的依賴,并在實驗中對多類 VLA 模型中帶來了穩(wěn)定且顯著的性能提升,表明「世界模型 + RL」讓具身智能在真實場景中落地可期!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.