碾壓π0.5，復旦團隊：「世界模型+具身訓練+強化學習」閉環(huán)框架

2025-12-04 17:43:30　來源: 機器之心Pro

河北舉報

分享至

張家輝，復旦大學大數(shù)據(jù)學院博士三年級學生，研究方向為具身智能、視覺 - 語言 - 動作模型預訓練與強化學習后訓練，4D-VLA (NeurIPS 25) 第一作者。黃澤，復旦大學大數(shù)據(jù)學院博士三年級學生，主要從事機器人世界模型與三維重建、生成等方向研究。兩人共同擔任本文第一作者。

張力，復旦大學大數(shù)據(jù)學院教授，上海創(chuàng)智學院全時導師，擔任本論文的通訊作者。主頁：https://lzrobots.github.io

Vision–Language–Action（VLA）策略正逐漸成為機器人邁向通用操作智能的重要技術路徑：這類策略能夠在統(tǒng)一模型內(nèi)同時處理視覺感知、語言指令并生成連續(xù)控制信號。

然而，當前大多數(shù) VLA 仍主要依賴模仿學習，實質(zhì)上是按示范軌跡復刻，在分布發(fā)生偏移、任務形式變化或操作時域拉長時，極易出現(xiàn)誤差累積并導致任務失敗。強化學習（RL）從回報信號出發(fā)直接優(yōu)化任務成功率，按理應當能夠緩解這一目標錯配問題，但在真實機器人上開展在線 RL 成本高昂，并行執(zhí)行受限，還伴隨大量重置與標注開銷；以 π*0.6 為代表的多輪離線 RL 范式在每一輪中仍高度依賴真實系統(tǒng)部署和人工干預，訓練成本與迭代效率都存在明顯瓶頸（需要一直有人類介入，一旦出現(xiàn)錯誤軌跡就人類接管操作，記錄相應的數(shù)據(jù)）；另一方面，基于傳統(tǒng)物理引擎（MuJoCo、Isaac sim）的強化學習又難以同時兼顧逼真度、場景多樣性與工程可用性。

針對上述問題，研究團隊提出ProphRL 框架采用大規(guī)模預訓練的世界模型 Prophet 作為「面向真實環(huán)境」的視頻級模擬器，并配合專為流式動作頭設計的在線 RL 算法 Flow-Action-GRPO 與 FlowScale，在虛擬但物理一致的環(huán)境中直接對 VLA 策略進行強化學習優(yōu)化，再將優(yōu)化后的策略部署到真實機器人上。如此，策略改進的主要探索過程可以在世界模型中完成，在兼顧物理可信度的同時顯著降低真實交互成本，為大模型 VLA 的實際落地提供了更可行的技術路徑。如圖所示：

實驗結果顯示，ProphRL在多個公開基準上為各類 VLA 模型（VLA-adapter-0.5B, Pi0.5-3B, OpenVLA-OFT-7B）帶來 5–17% 的成功率提升，在真實機器人實驗中進一步取得 24–30% 的大幅度成功率提升

論文地址：https://arxiv.org/pdf/2511.20633
項目主頁：https://logosroboticsgroup.github.io/ProphRL

研究背景

模仿學習的長期回報錯配

近年的工作表明，VLA 在自然語言指令和視覺觀測的驅(qū)動下，已經(jīng)可以完成臺面整理、物體抓取、工具操作等多步任務。但絕大多數(shù)方法仍依賴行為克隆式監(jiān)督訓練，只關心軌跡像不像示范，并未真正對齊任務最終是否成功。因此，模型在訓練分布附近表現(xiàn)良好，一旦場景略有變化或操作鏈條變長，就容易因誤差累積而導致失敗。

真實機器人上做在線 RL 很難規(guī)模化

從原理上看，為 VLA 疊加一個 RL 模塊，讓策略通過在線交互從成功或失敗中學習，是緩解上述錯配的自然途徑。但在真實機器人上實踐 RL 成本極高：每次試驗都消耗時間和硬件壽命，需要嚴格的安全防護和人工監(jiān)控，多機器人并行基礎設施投入也非常大，許多精細任務還依賴人工重置與干預。綜合來看，直接在真機上大規(guī)模跑 RL 并不現(xiàn)實。

傳統(tǒng)物理仿真器的局限

另一條路線是依托 MuJoCo、Isaac sim 等物理引擎，在仿真環(huán)境中完成 RL，再做 sim-to-real 遷移。然而，對以 RGB 圖像為輸入的 VLA 而言，要搭建一個同時兼顧視覺逼真度、接觸動力學精度和物體多樣性的仿真場景，工程成本極高，且仍難以準確覆蓋如布料折疊、紙巾拉取等復雜任務。這使得基于傳統(tǒng)仿真器的大規(guī)模 VLA 后訓練在實際中難以落地。

數(shù)據(jù)驅(qū)動世界模型的機會與不足

近年來，數(shù)據(jù)驅(qū)動世界模型開始在機器人領域興起：給定初始圖像和底層機械臂動作指令，模型可以預測未來機械臂操作視頻，從而在「想象空間」里讓策略反復練習。這類方法天然與 VLA 的視覺接口兼容，有望成為連接 RL 與真實世界的新橋梁。但現(xiàn)有世界模型通常局限于單場景或單任務，跨數(shù)據(jù)集、跨機器人形態(tài)的泛化能力有限；與 VLA 結合時，世界模型也多被當作簡單的數(shù)據(jù)增強來支撐 SFT，而尚未形成一個可遷移、可適配、能夠真正支撐 RL 的通用模擬器

ProphRL ：基于世界模型的在線強化學習

Prophet：大規(guī)模預訓練的動作到視頻世界模型

研究團隊構建的世界模型 Prophet，目標是在統(tǒng)一接口下學習從動作序列到未來操作視頻的映射。其核心結構是視頻擴散模型，在推理時輸入歷史幀、當前參考幀，以及未來一段時間的動作序列，輸出與真實機器人執(zhí)行過程對齊的長時操作視頻。為更好地對齊動作與幾何信息，研究團隊采用雙重動作條件：一方面將共 7 維的末端執(zhí)行器位姿增量和夾爪開合編碼為全局標量嵌入；另一方面將末端執(zhí)行器動作投影到相機平面，并渲染為動作幀，為模型提供顯式位姿與運動方向線索。此外，研究團隊引入 FramePack 式的歷史記憶機制，在控制計算成本的同時，持續(xù)追蹤接觸過程中的幾何一致性和物體狀態(tài)演化。

大規(guī)模異構數(shù)據(jù)上的預訓練與少樣本微調(diào)

為了讓 Prophet 具備通用機器人直覺，研究團隊在 AgiBot、DROID、LIBERO 以及篩選后的 Open-X 等多源數(shù)據(jù)上進行統(tǒng)一預訓練，覆蓋多種機械臂、視角、場景和操作風格。訓練時，對坐標系、夾爪語義和動作參數(shù)化進行統(tǒng)一建模，避免不同數(shù)據(jù)源之間的結構沖突。在此基礎上，面對新場景、新物體或新任務時，只需百級別真實軌跡，通過快速且輕量的微調(diào)，即可讓 Prophet 快速適配，同時保持對符合真實世界物理結果生成能力的延續(xù)。

以下兩個視頻為 Prophet 的交互 demo，通過選擇具體動作，生成對應動作的視頻：

光流引導的控制一致性評估協(xié)議

傳統(tǒng)視頻生成評估指標（PSNR、SSIM 等）主要衡量畫面清晰度和逼真度，卻難以判斷機器人有沒有按預期動作。為此，研究團隊提出光流引導的評估協(xié)議：在真實視頻與 Prophet 生成視頻之間計算像素級光流，并對比兩組光流之間的一致性，以外觀無關的方式評估末端軌跡和接觸行為是否對齊。該指標與感知質(zhì)量互為補充，為在世界模型中開展 RL 提供了更貼近控制需求的反饋信號。

FA-GRPO 與 FlowScale：為流式動作頭量身打造的 RL 算法

在策略層面，研究團隊面向帶 flow-based 動作頭的 VLA，這類策略通過多步去噪生成連續(xù)動作，內(nèi)部包含大量中間流步。現(xiàn)有 Flow-GRPO 將每個流步都當作獨立動作，既放大了梯度方差，也削弱了與環(huán)境反饋之間的對應關系，訓練容易不穩(wěn)定。為此，研究團隊做了兩點改進：

Flow-action-GRPO（FA-GRPO）：在動作而不是流步層面構造 PPO 比例，將所有內(nèi)部流步的對數(shù)似然先聚合成單一環(huán)境動作的概率，再與優(yōu)勢函數(shù)結合。這樣不改動策略結構，只重新組織梯度信號，使長時序控制下的信用分配更貼近真實環(huán)境反饋。
FlowScale：利用噪聲調(diào)度，為每個流步乘上與噪聲尺度相關的權重系數(shù)：適度放大高噪聲的早期步驟，抑制低噪聲但梯度極大的后期步驟，在不改變目標函數(shù)的前提下平衡各流步對整體梯度的貢獻，顯著提升訓練穩(wěn)定性。

結合 Prophet 提供的長視野視頻模擬器，VLA 策略在其中用 FA-GRPO 和 FlowScale 反復訓練，再遷移到真實機器人上執(zhí)行，形成「在想象中學，在現(xiàn)實中用」的完整閉環(huán)。

Reward model：基于視頻 - 語言的任務成功評估

在 ProphRL 中，獎勵不再依賴手工設計的幾何距離，而是由視覺–語言獎勵模型（Reward model）直接根據(jù)「整條軌跡是否完成任務」給分。具體來說，reward model 以任務文本和整段執(zhí)行視頻為輸入，輸出一個標量得分，并在一個 batch 內(nèi)做歸一化后，作為整條軌跡上各步的 advantage，送入 FA-GRPO 和 FlowScale。

LIBERO 任務：在物理仿真環(huán)境中可以直接得到成功 / 失敗標簽及完成步數(shù)。研究團隊將每條軌跡渲染成視頻，用這些帶標簽的視頻微調(diào) Qwen2.5-VL-7B，得到一個二分類 RM，用于判斷任務是否完成，并估計完成時刻，從而做時間掩碼。
BRIDGE 與真實機器人任務：真實和離線數(shù)據(jù)上手動標注代價很高，因此研究團隊采用 Qwen2.5-VL-72B 作為零樣本 reward model。給定任務說明和精心設計的提示詞，研究團隊從每條軌跡中均勻采樣若干幀，請模型做逐步推理并給出「成功 / 失敗」判斷，多次評估后取多數(shù)票作為最終標簽，用于驅(qū)動在世界模型和真機上的強化學習。

最終，世界模型、VLA 基座模型、獎勵模型，通過在線強化學習（FA-GRPO & FlowScale）構成數(shù)據(jù)閉環(huán)，為具身場景落地提供切實可行的解決方案。如下圖所示：

實驗驗證：從基準任務到真實機器人

在實驗部分，研究團隊圍繞三個維度系統(tǒng)評估 ProphRL：

世界模型能力：在 AgiBot、DROID、LIBERO 和 BRIDGE 等多數(shù)據(jù)集上，預訓練的 Prophet 就能在視覺效果和動作一致性上同時取得領先表現(xiàn)，其中 BRIDGE 在預訓練階段是完全未參與的數(shù)據(jù)集。在 BRIDGE 少樣本場景中，經(jīng)過少量示范的微調(diào)后，Prophet 依然可以執(zhí)行視覺上未出現(xiàn)過的新物體、新組合動作，體現(xiàn)出良好的跨場景、跨物體泛化能力。

生成質(zhì)量超越 Nvidia 的 Cosmos 與上海智元的 Genie-envisioner：

在世界模型中的 RL 效果：研究團隊選取多種 VLA 模型（如 VLA-Adapter-0.5B、Pi 0.5-3b、OpenVLA-OFT-7B ），在 Prophet 中對每個任務分別進行強化學習訓練。對比僅做監(jiān)督微調(diào)，加入 FA-GRPO + FlowScale 后，在多項 benchmark 與真實任務中成功率都有顯著提升。

真實機器人上的驗證：基于 UR30e 機械臂，研究團隊設計了 GraspBottle、PlaceCube、PulloutTissue、PlaceBowl 四個桌面操作任務，覆蓋剛體抓取、容器放置和柔性物體拉取等難以精確仿真的場景。將 Prophet 中訓練得到的策略遷移到真機后，ProphRL 相比純監(jiān)督微調(diào)在所有任務的平均成功率上都帶來約 24–30% 的成功率提升。

VLA 或者 VLA + SFT 后訓練在做的其實是 imitate 訓練數(shù)據(jù)集，而世界模型 + RL 能夠?qū)W習并加強到訓練數(shù)據(jù)中不存在或者弱存在的成功軌跡，如下視頻所示：

總的來看，目前機器人策略仍以基于示范的監(jiān)督微調(diào)（SFT）為主，在分布偏移和長時序任務下往往難以保持穩(wěn)定表現(xiàn)，而強化學習則是提升魯棒性和適應能力的關鍵手段。

不過，以 Pi*0.6 為代表的多輪離線 RL 范式在每一輪中仍高度依賴真實系統(tǒng)部署和人工干預，訓練成本與迭代效率都存在明顯瓶頸。

ProphRL 以世界模型 Prophet 為核心，先在大規(guī)模真實軌跡上學習從動作到未來觀測的動力學，再在這一數(shù)據(jù)驅(qū)動的模擬環(huán)境中對 VLA 策略執(zhí)行 RL 優(yōu)化，最后將策略遷移到真實機器人上進行驗證。

這樣的設計使得策略改進的主要探索過程可以在世界模型中完成，在兼顧物理一致性的同時減少對真機交互的依賴，并在實驗中對多類 VLA 模型中帶來了穩(wěn)定且顯著的性能提升，表明「世界模型 + RL」讓具身智能在真實場景中落地可期！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.