![]()
香港科技大學(xué) PEI-Lab 與字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)近期提出的 WMPO(World Model-based Policy Optimization),正是這樣一種讓具身智能在 “想象中訓(xùn)練” 的新范式。該方法無(wú)需在真實(shí)機(jī)器人上進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)交互,卻能顯著提升策略性能,甚至涌現(xiàn)出 自我糾錯(cuò)(Self-correction) 行為。該文章目前已被 ICLR 2026 接收,目前,論文、代碼與模型均已開源。
論文第一作者朱方琪是香港科技大學(xué)博士生,研究方向包括世界模型,具身智能,多模態(tài)大模型等。第二作者為香港科技大學(xué)研究型碩士生嚴(yán)正陽(yáng)。通訊作者為香港科技大學(xué)計(jì)算機(jī)科學(xué)及工程系講座教授郭嵩教授以及字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)馬驍。
![]()
- 論文標(biāo)題:WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
- 項(xiàng)目網(wǎng)站:https://wm-po.github.io
- 論文鏈接:https://arxiv.org/abs/2511.09515
- 論文代碼:https://github.com/WM-PO/WMPO
傳統(tǒng) VLA 訓(xùn)練的 “緊箍咒”:
模仿易碎,交互昂貴
近年來(lái),視覺 - 語(yǔ)言 - 動(dòng)作(VLA)模型在通用操作任務(wù)中展現(xiàn)了令人印象深刻的潛力,但其訓(xùn)練方式長(zhǎng)期受制于兩大瓶頸。
第一,模仿學(xué)習(xí)的先天局限。
大多數(shù) VLA 模型依賴專家演示數(shù)據(jù)進(jìn)行訓(xùn)練,只學(xué)習(xí)了 “什么是正確操作”,卻幾乎沒(méi)有見過(guò) “犯錯(cuò)之后該怎么辦”。在推理時(shí),一旦狀態(tài)稍微偏離訓(xùn)練分布,錯(cuò)誤便會(huì)不斷累積,最終導(dǎo)致任務(wù)徹底失敗。這種 “脆弱性” 在長(zhǎng)序列操作中尤為明顯。
第二,現(xiàn)實(shí)強(qiáng)化學(xué)習(xí)的高昂代價(jià)。
強(qiáng)化學(xué)習(xí)理論上可以解決上述問(wèn)題,但在真實(shí)機(jī)器人上進(jìn)行 RL 交互往往需要數(shù)百萬(wàn)次嘗試,不僅采樣效率極低,還伴隨著硬件磨損、安全風(fēng)險(xiǎn)和高昂的實(shí)驗(yàn)成本。
已有研究 [1] 嘗試借助潛空間世界模型(Latent Space World Model)來(lái)緩解現(xiàn)實(shí)交互壓力,但這類模型通常與預(yù)訓(xùn)練 VLA 所使用的真實(shí)圖像表征存在差異,難以直接用于現(xiàn)有 VLA 框架中的策略優(yōu)化。
![]()
WMPO 的核心突破:
像素級(jí) “想象” 與 Online GRPO
WMPO 提出了一種新的訓(xùn)練范式:將策略優(yōu)化過(guò)程完整地遷移到視覺世界模型中完成,讓具身代理在 “想象” 的軌跡中學(xué)習(xí)如何從錯(cuò)誤中恢復(fù)。其核心設(shè)計(jì)包含三個(gè)關(guān)鍵要點(diǎn):
像素級(jí)視覺世界模型,讓錯(cuò)誤也能被真實(shí)模擬
與以往在潛空間中進(jìn)行預(yù)測(cè)不同,WMPO 構(gòu)建的是像素級(jí)視覺世界模型。模型直接在圖像空間中,根據(jù)當(dāng)前觀察和動(dòng)作預(yù)測(cè)下一幀視覺反饋,從而生成完整的 “想象軌跡”。為了保證世界模型不僅能復(fù)現(xiàn)專家行為,還能覆蓋策略執(zhí)行過(guò)程中可能出現(xiàn)的各種偏差,研究團(tuán)隊(duì)引入了策略行為對(duì)齊(Policy Behavior Alignment) 機(jī)制:在專家數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)上,進(jìn)一步對(duì)策略生成的非專家軌跡進(jìn)行對(duì)齊訓(xùn)練,使世界模型能夠準(zhǔn)確模擬 OOD 動(dòng)作及其失敗后果。
在想象空間中進(jìn)行 Online GRPO
在高保真的視覺世界模型中,WMPO 進(jìn)一步將強(qiáng)化學(xué)習(xí)過(guò)程引入 “想象空間”。具體而言,對(duì)于同一初始狀態(tài),VLA 模型會(huì)在世界模型中生成一組不同的候選軌跡;通過(guò)訓(xùn)練得到的獎(jiǎng)勵(lì)函數(shù)判斷每條軌跡是否成功,并在組內(nèi)進(jìn)行相對(duì)比較,從而估計(jì)優(yōu)勢(shì)。這種 Online GRPO(Group Relative Policy Optimization) 的方式不依賴額外的價(jià)值網(wǎng)絡(luò),顯著降低了內(nèi)存與訓(xùn)練復(fù)雜度,同時(shí)在長(zhǎng)序列生成中表現(xiàn)出更好的穩(wěn)定性。更重要的是,“組內(nèi)競(jìng)爭(zhēng)” 機(jī)制使模型能夠自動(dòng)偏好那些即使犯錯(cuò)、也能恢復(fù)并完成任務(wù)的動(dòng)作路徑。
攻克長(zhǎng)時(shí)生成難題:讓 “想象” 不崩壞
長(zhǎng)時(shí)間視頻預(yù)測(cè)一直是視覺世界模型面臨的核心挑戰(zhàn)。為防止想象畫面隨時(shí)間退化,WMPO 引入了:
- 噪聲幀增強(qiáng)(Noisy-frame conditioning)
- 幀級(jí)動(dòng)作控制機(jī)制
這些設(shè)計(jì)確保模型在生成數(shù)百幀 “想象軌跡” 時(shí),仍能保持畫面清晰、動(dòng)作對(duì)齊,為策略優(yōu)化提供穩(wěn)定可靠的訓(xùn)練環(huán)境。
![]()
WMPO 架構(gòu)解析:
像素級(jí)演化,三步跨越現(xiàn)實(shí)
構(gòu)建高保真 “沙盒”:視覺世界模型建模
![]()
![]()
策略行為對(duì)齊:為了讓世界模型能模擬策略生成的 OOD 動(dòng)作及其后果,研究團(tuán)隊(duì)不僅在專家數(shù)據(jù)上訓(xùn)練,還針對(duì)策略生成的非專家軌跡進(jìn)行對(duì)齊,確保模型能夠準(zhǔn)確預(yù)測(cè) “失敗案例”。
策略評(píng)價(jià)與改進(jìn):想象空間內(nèi)的 Online GRPO
![]()
![]()
這種 “組內(nèi)競(jìng)爭(zhēng)” 機(jī)制讓模型能夠自動(dòng)識(shí)別并強(qiáng)化那些能從錯(cuò)誤中恢復(fù)的動(dòng)作路徑。
學(xué)習(xí)目標(biāo):自監(jiān)督式參數(shù)優(yōu)化
在 “想象” 出的軌跡上,WMPO 最小化以下目標(biāo)函數(shù),將 VLA 模型從單純的模仿者轉(zhuǎn)化為自我進(jìn)化的決策者:
![]()
偽代碼算法如下:
![]()
實(shí)驗(yàn)結(jié)果:樣本效率,
涌現(xiàn)能力,執(zhí)行效率的驚喜
研究團(tuán)隊(duì)在 MimicGen 模擬環(huán)境和真實(shí) ALOHA 機(jī)器人上對(duì) WMPO 進(jìn)行了系統(tǒng)評(píng)估。
采樣效率顯著提升。
在僅使用 128 條真實(shí)軌跡作為數(shù)據(jù)預(yù)算時(shí),WMPO 的成功率已超過(guò)最優(yōu) Offline RL 基線 9.8%;當(dāng)預(yù)算提升至 1280 條時(shí),領(lǐng)先優(yōu)勢(shì)進(jìn)一步擴(kuò)大至 15.2%。
![]()
自我糾錯(cuò)行為的涌現(xiàn)。
在 “方塊套圈” 等任務(wù)中,當(dāng)基座模型因碰撞或姿態(tài)偏移而卡死時(shí),WMPO 訓(xùn)練得到的策略會(huì)主動(dòng)調(diào)整動(dòng)作:例如抬起方塊、重新對(duì)準(zhǔn)目標(biāo)并再次嘗試。這類糾錯(cuò)行為并未出現(xiàn)在專家演示數(shù)據(jù)中,而是通過(guò) “想象中的失敗與比較” 自然涌現(xiàn)。
![]()
執(zhí)行效率更高。
WMPO 訓(xùn)練的策略動(dòng)作更加連貫、果斷,成功軌跡長(zhǎng)度明顯縮短,減少了猶豫和重復(fù)嘗試。
![]()
需要注意的是,這種自我糾錯(cuò)能力目前主要在結(jié)構(gòu)化操作任務(wù)中被系統(tǒng)觀察到,其泛化邊界仍有待進(jìn)一步探索。
啟示與展望
WMPO 的成功證明了:高質(zhì)量的 “想象” 足以替代昂貴的 “實(shí)踐”。通過(guò)將 VLA 的強(qiáng)化學(xué)習(xí)過(guò)程解耦到生成式世界模型中,我們不僅解決了采樣效率的難題,更讓機(jī)器人學(xué)會(huì)了在挫折中自我完善。
正如達(dá)芬奇所言,“簡(jiǎn)單是終極的復(fù)雜”,WMPO 用純粹的視覺模擬,為具身智能走向通用化指明了一條充滿想象力的道路。
更多方法細(xì)節(jié)與實(shí)驗(yàn)分析請(qǐng)見原論文。
[1] Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647–653 (2025). https://doi.org/10.1038/s41586-025-08744-2
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.