網易首頁 > 網易號 > 正文申請入駐

港科大×字節跳動Seed提出WMPO，在世界模型中進行VLA強化學習

2026-03-02 14:34:29　來源: 機器之心Pro

河北舉報

分享至

香港科技大學 PEI-Lab 與字節跳動 Seed 團隊近期提出的 WMPO（World Model-based Policy Optimization），正是這樣一種讓具身智能在 “想象中訓練” 的新范式。該方法無需在真實機器人上進行大規模強化學習交互，卻能顯著提升策略性能，甚至涌現出自我糾錯（Self-correction）行為。該文章目前已被 ICLR 2026 接收，目前，論文、代碼與模型均已開源。

論文第一作者朱方琪是香港科技大學博士生，研究方向包括世界模型，具身智能，多模態大模型等。第二作者為香港科技大學研究型碩士生嚴正陽。通訊作者為香港科技大學計算機科學及工程系講座教授郭嵩教授以及字節跳動 Seed 團隊馬驍。

論文標題：WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
項目網站：https://wm-po.github.io
論文鏈接：https://arxiv.org/abs/2511.09515
論文代碼：https://github.com/WM-PO/WMPO

傳統 VLA 訓練的 “緊箍咒”：

模仿易碎，交互昂貴

近年來，視覺 - 語言 - 動作（VLA）模型在通用操作任務中展現了令人印象深刻的潛力，但其訓練方式長期受制于兩大瓶頸。

第一，模仿學習的先天局限。

大多數 VLA 模型依賴專家演示數據進行訓練，只學習了 “什么是正確操作”，卻幾乎沒有見過 “犯錯之后該怎么辦”。在推理時，一旦狀態稍微偏離訓練分布，錯誤便會不斷累積，最終導致任務徹底失敗。這種 “脆弱性” 在長序列操作中尤為明顯。

第二，現實強化學習的高昂代價。

強化學習理論上可以解決上述問題，但在真實機器人上進行 RL 交互往往需要數百萬次嘗試，不僅采樣效率極低，還伴隨著硬件磨損、安全風險和高昂的實驗成本。

已有研究 [1] 嘗試借助潛空間世界模型（Latent Space World Model）來緩解現實交互壓力，但這類模型通常與預訓練 VLA 所使用的真實圖像表征存在差異，難以直接用于現有 VLA 框架中的策略優化。

WMPO 的核心突破：

像素級 “想象” 與 Online GRPO

WMPO 提出了一種新的訓練范式：將策略優化過程完整地遷移到視覺世界模型中完成，讓具身代理在 “想象” 的軌跡中學習如何從錯誤中恢復。其核心設計包含三個關鍵要點：

像素級視覺世界模型，讓錯誤也能被真實模擬

與以往在潛空間中進行預測不同，WMPO 構建的是像素級視覺世界模型。模型直接在圖像空間中，根據當前觀察和動作預測下一幀視覺反饋，從而生成完整的 “想象軌跡”。為了保證世界模型不僅能復現專家行為，還能覆蓋策略執行過程中可能出現的各種偏差，研究團隊引入了策略行為對齊（Policy Behavior Alignment）機制：在專家數據預訓練的基礎上，進一步對策略生成的非專家軌跡進行對齊訓練，使世界模型能夠準確模擬 OOD 動作及其失敗后果。

在想象空間中進行 Online GRPO

在高保真的視覺世界模型中，WMPO 進一步將強化學習過程引入 “想象空間”。具體而言，對于同一初始狀態，VLA 模型會在世界模型中生成一組不同的候選軌跡；通過訓練得到的獎勵函數判斷每條軌跡是否成功，并在組內進行相對比較，從而估計優勢。這種 Online GRPO（Group Relative Policy Optimization）的方式不依賴額外的價值網絡，顯著降低了內存與訓練復雜度，同時在長序列生成中表現出更好的穩定性。更重要的是，“組內競爭” 機制使模型能夠自動偏好那些即使犯錯、也能恢復并完成任務的動作路徑。

攻克長時生成難題：讓 “想象” 不崩壞

長時間視頻預測一直是視覺世界模型面臨的核心挑戰。為防止想象畫面隨時間退化，WMPO 引入了：

噪聲幀增強（Noisy-frame conditioning）
幀級動作控制機制

這些設計確保模型在生成數百幀 “想象軌跡” 時，仍能保持畫面清晰、動作對齊，為策略優化提供穩定可靠的訓練環境。

WMPO 架構解析：

像素級演化，三步跨越現實

構建高保真 “沙盒”：視覺世界模型建模

策略行為對齊：為了讓世界模型能模擬策略生成的 OOD 動作及其后果，研究團隊不僅在專家數據上訓練，還針對策略生成的非專家軌跡進行對齊，確保模型能夠準確預測 “失敗案例”。

策略評價與改進：想象空間內的 Online GRPO

這種 “組內競爭” 機制讓模型能夠自動識別并強化那些能從錯誤中恢復的動作路徑。

學習目標：自監督式參數優化

在 “想象” 出的軌跡上，WMPO 最小化以下目標函數，將 VLA 模型從單純的模仿者轉化為自我進化的決策者：

偽代碼算法如下：

實驗結果：樣本效率，

涌現能力，執行效率的驚喜

研究團隊在 MimicGen 模擬環境和真實 ALOHA 機器人上對 WMPO 進行了系統評估。

采樣效率顯著提升。

在僅使用 128 條真實軌跡作為數據預算時，WMPO 的成功率已超過最優 Offline RL 基線 9.8%；當預算提升至 1280 條時，領先優勢進一步擴大至 15.2%。

自我糾錯行為的涌現。

在 “方塊套圈” 等任務中，當基座模型因碰撞或姿態偏移而卡死時，WMPO 訓練得到的策略會主動調整動作：例如抬起方塊、重新對準目標并再次嘗試。這類糾錯行為并未出現在專家演示數據中，而是通過 “想象中的失敗與比較” 自然涌現。

執行效率更高。

WMPO 訓練的策略動作更加連貫、果斷，成功軌跡長度明顯縮短，減少了猶豫和重復嘗試。

需要注意的是，這種自我糾錯能力目前主要在結構化操作任務中被系統觀察到，其泛化邊界仍有待進一步探索。

啟示與展望

WMPO 的成功證明了：高質量的 “想象” 足以替代昂貴的 “實踐”。通過將 VLA 的強化學習過程解耦到生成式世界模型中，我們不僅解決了采樣效率的難題，更讓機器人學會了在挫折中自我完善。

正如達芬奇所言，“簡單是終極的復雜”，WMPO 用純粹的視覺模擬，為具身智能走向通用化指明了一條充滿想象力的道路。

更多方法細節與實驗分析請見原論文。

[1] Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647–653 (2025). https://doi.org/10.1038/s41586-025-08744-2

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.