網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

港科大×字節(jié)跳動(dòng)Seed提出WMPO，在世界模型中進(jìn)行VLA強(qiáng)化學(xué)習(xí)

2026-03-02 14:34:29　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

香港科技大學(xué) PEI-Lab 與字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)近期提出的 WMPO（World Model-based Policy Optimization），正是這樣一種讓具身智能在 “想象中訓(xùn)練” 的新范式。該方法無(wú)需在真實(shí)機(jī)器人上進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)交互，卻能顯著提升策略性能，甚至涌現(xiàn)出自我糾錯(cuò)（Self-correction）行為。該文章目前已被 ICLR 2026 接收，目前，論文、代碼與模型均已開源。

論文第一作者朱方琪是香港科技大學(xué)博士生，研究方向包括世界模型，具身智能，多模態(tài)大模型等。第二作者為香港科技大學(xué)研究型碩士生嚴(yán)正陽(yáng)。通訊作者為香港科技大學(xué)計(jì)算機(jī)科學(xué)及工程系講座教授郭嵩教授以及字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)馬驍。

論文標(biāo)題：WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
項(xiàng)目網(wǎng)站：https://wm-po.github.io
論文鏈接：https://arxiv.org/abs/2511.09515
論文代碼：https://github.com/WM-PO/WMPO

傳統(tǒng) VLA 訓(xùn)練的 “緊箍咒”：

模仿易碎，交互昂貴

近年來(lái)，視覺 - 語(yǔ)言 - 動(dòng)作（VLA）模型在通用操作任務(wù)中展現(xiàn)了令人印象深刻的潛力，但其訓(xùn)練方式長(zhǎng)期受制于兩大瓶頸。

第一，模仿學(xué)習(xí)的先天局限。

大多數(shù) VLA 模型依賴專家演示數(shù)據(jù)進(jìn)行訓(xùn)練，只學(xué)習(xí)了 “什么是正確操作”，卻幾乎沒(méi)有見過(guò) “犯錯(cuò)之后該怎么辦”。在推理時(shí)，一旦狀態(tài)稍微偏離訓(xùn)練分布，錯(cuò)誤便會(huì)不斷累積，最終導(dǎo)致任務(wù)徹底失敗。這種 “脆弱性” 在長(zhǎng)序列操作中尤為明顯。

第二，現(xiàn)實(shí)強(qiáng)化學(xué)習(xí)的高昂代價(jià)。

強(qiáng)化學(xué)習(xí)理論上可以解決上述問(wèn)題，但在真實(shí)機(jī)器人上進(jìn)行 RL 交互往往需要數(shù)百萬(wàn)次嘗試，不僅采樣效率極低，還伴隨著硬件磨損、安全風(fēng)險(xiǎn)和高昂的實(shí)驗(yàn)成本。

已有研究 [1] 嘗試借助潛空間世界模型（Latent Space World Model）來(lái)緩解現(xiàn)實(shí)交互壓力，但這類模型通常與預(yù)訓(xùn)練 VLA 所使用的真實(shí)圖像表征存在差異，難以直接用于現(xiàn)有 VLA 框架中的策略優(yōu)化。

WMPO 的核心突破：

像素級(jí) “想象” 與 Online GRPO

WMPO 提出了一種新的訓(xùn)練范式：將策略優(yōu)化過(guò)程完整地遷移到視覺世界模型中完成，讓具身代理在 “想象” 的軌跡中學(xué)習(xí)如何從錯(cuò)誤中恢復(fù)。其核心設(shè)計(jì)包含三個(gè)關(guān)鍵要點(diǎn)：

像素級(jí)視覺世界模型，讓錯(cuò)誤也能被真實(shí)模擬

與以往在潛空間中進(jìn)行預(yù)測(cè)不同，WMPO 構(gòu)建的是像素級(jí)視覺世界模型。模型直接在圖像空間中，根據(jù)當(dāng)前觀察和動(dòng)作預(yù)測(cè)下一幀視覺反饋，從而生成完整的 “想象軌跡”。為了保證世界模型不僅能復(fù)現(xiàn)專家行為，還能覆蓋策略執(zhí)行過(guò)程中可能出現(xiàn)的各種偏差，研究團(tuán)隊(duì)引入了策略行為對(duì)齊（Policy Behavior Alignment）機(jī)制：在專家數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)上，進(jìn)一步對(duì)策略生成的非專家軌跡進(jìn)行對(duì)齊訓(xùn)練，使世界模型能夠準(zhǔn)確模擬 OOD 動(dòng)作及其失敗后果。

在想象空間中進(jìn)行 Online GRPO

在高保真的視覺世界模型中，WMPO 進(jìn)一步將強(qiáng)化學(xué)習(xí)過(guò)程引入 “想象空間”。具體而言，對(duì)于同一初始狀態(tài)，VLA 模型會(huì)在世界模型中生成一組不同的候選軌跡；通過(guò)訓(xùn)練得到的獎(jiǎng)勵(lì)函數(shù)判斷每條軌跡是否成功，并在組內(nèi)進(jìn)行相對(duì)比較，從而估計(jì)優(yōu)勢(shì)。這種 Online GRPO（Group Relative Policy Optimization）的方式不依賴額外的價(jià)值網(wǎng)絡(luò)，顯著降低了內(nèi)存與訓(xùn)練復(fù)雜度，同時(shí)在長(zhǎng)序列生成中表現(xiàn)出更好的穩(wěn)定性。更重要的是，“組內(nèi)競(jìng)爭(zhēng)” 機(jī)制使模型能夠自動(dòng)偏好那些即使犯錯(cuò)、也能恢復(fù)并完成任務(wù)的動(dòng)作路徑。

攻克長(zhǎng)時(shí)生成難題：讓 “想象” 不崩壞

長(zhǎng)時(shí)間視頻預(yù)測(cè)一直是視覺世界模型面臨的核心挑戰(zhàn)。為防止想象畫面隨時(shí)間退化，WMPO 引入了：

噪聲幀增強(qiáng)（Noisy-frame conditioning）
幀級(jí)動(dòng)作控制機(jī)制

這些設(shè)計(jì)確保模型在生成數(shù)百幀 “想象軌跡” 時(shí)，仍能保持畫面清晰、動(dòng)作對(duì)齊，為策略優(yōu)化提供穩(wěn)定可靠的訓(xùn)練環(huán)境。

WMPO 架構(gòu)解析：

像素級(jí)演化，三步跨越現(xiàn)實(shí)

構(gòu)建高保真 “沙盒”：視覺世界模型建模

策略行為對(duì)齊：為了讓世界模型能模擬策略生成的 OOD 動(dòng)作及其后果，研究團(tuán)隊(duì)不僅在專家數(shù)據(jù)上訓(xùn)練，還針對(duì)策略生成的非專家軌跡進(jìn)行對(duì)齊，確保模型能夠準(zhǔn)確預(yù)測(cè) “失敗案例”。

策略評(píng)價(jià)與改進(jìn)：想象空間內(nèi)的 Online GRPO

這種 “組內(nèi)競(jìng)爭(zhēng)” 機(jī)制讓模型能夠自動(dòng)識(shí)別并強(qiáng)化那些能從錯(cuò)誤中恢復(fù)的動(dòng)作路徑。

學(xué)習(xí)目標(biāo)：自監(jiān)督式參數(shù)優(yōu)化

在 “想象” 出的軌跡上，WMPO 最小化以下目標(biāo)函數(shù)，將 VLA 模型從單純的模仿者轉(zhuǎn)化為自我進(jìn)化的決策者：

偽代碼算法如下：

實(shí)驗(yàn)結(jié)果：樣本效率，

涌現(xiàn)能力，執(zhí)行效率的驚喜

研究團(tuán)隊(duì)在 MimicGen 模擬環(huán)境和真實(shí) ALOHA 機(jī)器人上對(duì) WMPO 進(jìn)行了系統(tǒng)評(píng)估。

采樣效率顯著提升。

在僅使用 128 條真實(shí)軌跡作為數(shù)據(jù)預(yù)算時(shí)，WMPO 的成功率已超過(guò)最優(yōu) Offline RL 基線 9.8%；當(dāng)預(yù)算提升至 1280 條時(shí)，領(lǐng)先優(yōu)勢(shì)進(jìn)一步擴(kuò)大至 15.2%。

自我糾錯(cuò)行為的涌現(xiàn)。

在 “方塊套圈” 等任務(wù)中，當(dāng)基座模型因碰撞或姿態(tài)偏移而卡死時(shí)，WMPO 訓(xùn)練得到的策略會(huì)主動(dòng)調(diào)整動(dòng)作：例如抬起方塊、重新對(duì)準(zhǔn)目標(biāo)并再次嘗試。這類糾錯(cuò)行為并未出現(xiàn)在專家演示數(shù)據(jù)中，而是通過(guò) “想象中的失敗與比較” 自然涌現(xiàn)。

執(zhí)行效率更高。

WMPO 訓(xùn)練的策略動(dòng)作更加連貫、果斷，成功軌跡長(zhǎng)度明顯縮短，減少了猶豫和重復(fù)嘗試。

需要注意的是，這種自我糾錯(cuò)能力目前主要在結(jié)構(gòu)化操作任務(wù)中被系統(tǒng)觀察到，其泛化邊界仍有待進(jìn)一步探索。

啟示與展望

WMPO 的成功證明了：高質(zhì)量的 “想象” 足以替代昂貴的 “實(shí)踐”。通過(guò)將 VLA 的強(qiáng)化學(xué)習(xí)過(guò)程解耦到生成式世界模型中，我們不僅解決了采樣效率的難題，更讓機(jī)器人學(xué)會(huì)了在挫折中自我完善。

正如達(dá)芬奇所言，“簡(jiǎn)單是終極的復(fù)雜”，WMPO 用純粹的視覺模擬，為具身智能走向通用化指明了一條充滿想象力的道路。

更多方法細(xì)節(jié)與實(shí)驗(yàn)分析請(qǐng)見原論文。

[1] Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647–653 (2025). https://doi.org/10.1038/s41586-025-08744-2

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.