![]()
費森俞,上海創智學院 & 同濟大學博士一年級學生,導師趙憲忠教授,研究方向為 VLA 強化學習后訓練。王思尹,上海創智學院 & 復旦大學博士二年級學生,導師邱錫鵬教授,研究方向為多模態具身智能。為本文共同第一作者。
龔經經,上海創智學院全時導師。邱錫鵬,復旦大學教授,上海創智學院全時導師。為本文共同通訊作者。
你是否想過,機器人也能像人一樣,從失敗中學習,不斷自我提升
當前,視覺語言動作(VLA)模型在機器人操作任務中表現出色,但其性能嚴重依賴專家示范數據,不僅成本高昂,還存在「示范偏差」,性能難以突破人類上限。而強化學習雖好,卻常因「獎勵稀疏」問題,讓機器人無法從失敗中真正受益。
![]()
![]()
- 論文鏈接:https://arxiv.org/pdf/2511.15605
- 代碼倉庫:https://github.com/sii-research/siiRL
- 技術文檔:https://siirl.readthedocs.io/en/latest/examples/embodied_srpo_example.html
動機與貢獻
近期研究表明,強化學習作為一種有效的后訓練策略,能顯著提升 VLA 模型在分布內與分布外的性能。在強化學習方法中,基于組優化的方法(如 GRPO)因其簡潔高效的學習范式,已成為 VLA-RL 的重要技術路徑,但其仍面臨獎勵信號稀疏的挑戰。該問題在 VLA 領域尤為突出:多輪軌跡推理的計算成本極高,對失敗軌跡信息的低效利用嚴重降低了訓練效率。雖有研究嘗試通過過程監督提供密集反饋,但這些方法通常依賴專家示范或人工任務分解來定義中間進展,其固有的擴展性局限與自主學習目標存在根本矛盾。
![]()
圖 1:GRPO 等方法僅依賴稀疏的結果獎勵,學習信號有限;手動設計的過程獎勵(PRM)需要成本高昂的外部示范或任務微調;而 SRPO 框架提出了自參考范式,有效利用失敗軌跡。
為應對獎勵稀疏挑戰,我們提出自我參考學習范式,以模型自身生成的成功軌跡作為參照標準,評估并引導失敗嘗試。與 GRPO 僅利用結果性獎勵進行優勢估計不同,我們的方法能更高效地利用完整軌跡批,這一范式將監督問題的核心從「如何獲取專家標簽」轉變為「如何從自身成功經驗中提取漸進式獎勵」。
該范式的核心挑戰在于如何量化成功與失敗軌跡之間的行為相似性,以評估任務完成進度。傳統像素級世界模型存在跨領域泛化能力不足或需要大量任務特定微調的問題,我們發現潛在世界表征天然捕捉了跨環境可遷移的行為進展模式,使得無需精確環境重建或領域特定訓練即可實現魯棒的軌跡比較。
基于以上洞察,我們提出自參考策略優化(SRPO),貢獻主要包括以下三方面:
1. 提出 SRPO 框架,通過利用模型生成的成功軌跡為失敗嘗試提供漸進式獎勵,緩解獎勵稀疏性問題,消除對專家示范或任務特定工程的依賴。
2. 提出基于潛在世界表征的漸進式獎勵方法,克服傳統像素級世界模型的泛化局限與領域特定訓練需求。
3. 實驗結果表明,我們的方法在 LIBERO 基準測試中達到 SOTA 性能,在 LIBERO-Plus 上展現出強大泛化能力,并驗證了獎勵建模的真機可遷移性。
技術方案
如圖 2 所示,SRPO 通過一種「向成功者學習」的直觀方式,幫助機器人智能體在復雜任務中更有效地學習。該方案主要包含如下核心環節:
![]()
圖 2: 策略推理過程產生的軌跡被收集到動態參考集中,行為相似性被建模為潛在世界空間中的軌跡距離,以此算出的漸進式獎勵在 KL 正則化的約束下用于優勢估計和策略優化。
1. 同策略軌跡收集:每次策略更新后,模型將推理時產生的所有軌跡數據存入動態參考集,并根據任務完成情況劃分為「成功」與「失敗」兩組。
2. 世界表征提取與聚類:SRPO 將參考集中的每條軌跡都編碼到世界模型的潛在表征空間中,該表征可以理解為對整個任務過程的濃縮概括,包含物理世界的本質規律。值得注意的是,這種表征完全基于對原始觀測的直接建模,不依賴于人類發明的「語言」或「符號」作為中介。
3. 漸進式獎勵及策略更新:對于參考集中的成功軌跡,SRPO 計算其表征聚類中心作為典型成功范式,通過計算每條失敗軌跡到最近典型成功表征的距離來作為進度度量,距離越大說明與成功越遠,即進度越低,通過批次歸一化將距離變為 0 到 1 之間的連續漸進式獎勵,進而使用 PPO 式的目標函數更新策略。
問題建模
![]()
![]()
世界進展獎勵模型
![]()
![]()
![]()
自參考策略優化
![]()
優化目標:采用 PPO 風格的裁剪目標函數,并添加 KL 散度正則項以保持策略穩定性:
![]()
![]()
實驗結果
僅用 200 步強化學習,成功率從 48.9% 飆升至 99.2%
表 1 表明,SRPO 僅憑第三視角圖像與語言指令,不僅優于依賴 0/1 獎勵的 SimpleVLA-RL、RLinf 等強化學習基線,也超越了需要人工設計階段獎勵的 TGRPO 等方案,超越多個依賴腕部視角、本體感知、3D 輸入的復雜模型,突顯 SRPO 在信息利用上的高效性。
![]()
表 1: SRPO 僅通過第三視角觀測,在 LIBERO 上取得了 SOTA 性能。策略輸入符號說明:T (第三視角),I (語言指令),P (本體數據),W (腕部視角),D (深度)。
泛化能力實測:一舉超越 15w 步監督學習基線
表 2 表明,在更具挑戰的 LIBERO-Plus 泛化測試中,SRPO 帶來的性能提升高達 167%。即便未使用任何泛化場景數據進行訓練,僅通過 SRPO 自身的探索學習,泛化性能仍然超越 SFT 模型。
![]()
表 2: SRPO 在 LIBERO-Plus 泛化性測試基準上的表現顯著優于其基線。
獎勵信號:物理世界的「內行視角」
圖 3 中,我們以「將馬克杯放進微波爐并關門」(兩階段時序任務,仿真環境)和收拾桌面(五個重復性「抓取 - 放置」任務,真實環境)兩個典型任務為例,展示 SRPO 在獎勵構建上的優勢:相較于易受視覺干擾,無法反映真實進度的像素級方法,或缺乏物理規律理解,獎勵波動劇烈的通用視覺模型,我們的獎勵曲線平滑、單調,符合物理世界進展規律
![]()
圖 3: 仿真環境 (a-c) 和真實環境 (d-f) 中漸進式獎勵對比圖。
效率優勢顯著
效率方面,在圖 4 中,對于 LIBERO 長時序任務,初始模型 One-shot SFT 成功率僅 17.3%,SRPO 僅用 219 步即提升至 98.6%,相比同期 GRPO,性能提升 15.3%,相較 150k 步的 full-shot SFT 模型性能提升 12.9%。
![]()
圖 4: SRPO 與 GRPO 的訓練效率比較。
獎勵建模真機實測
![]()
![]()
圖 5: 相較于 SFT 基線,SRPO 獎勵構建方法在真實世界任務上成功率有顯著提升。
激發創造性:讓機器人學會「自主尋路」
此外,我們發現 SRPO 訓練后,模型能夠自主探索出多種專家軌跡中不存在的新路徑與抓取姿態,如圖 6 所示。說明 SRPO 不僅能提升成功率,更能激發機器人超越示范、自主探索新的解決策略。
![]()
圖 6: 模型推理過程中末端執行器軌跡記錄圖。
![]()
我們發現,SRPO 是其零成本的代替方案,是一個「免費的午餐」
![]()
![]()
結語
告別昂貴的數據標注和復雜的獎勵設計,SRPO 僅憑模型自身的成功經驗與物理世界常識,即可實現性能躍遷。無需訓練價值模型,無需人工獎勵工程,無需密集專家示范,SRPO 實現了讓機器人從「模仿」走向「創造」,從「依賴」走向「自主」,為 VLA 強化學習開辟了一條充滿希望的新路徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.