<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      港科大×字節(jié)跳動(dòng)Seed提出WMPO,在世界模型中進(jìn)行VLA強(qiáng)化學(xué)習(xí)

      0
      分享至



      香港科技大學(xué) PEI-Lab 與字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)近期提出的 WMPO(World Model-based Policy Optimization),正是這樣一種讓具身智能在 “想象中訓(xùn)練” 的新范式。該方法無(wú)需在真實(shí)機(jī)器人上進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)交互,卻能顯著提升策略性能,甚至涌現(xiàn)出 自我糾錯(cuò)(Self-correction) 行為。該文章目前已被 ICLR 2026 接收,目前,論文、代碼與模型均已開源。

      論文第一作者朱方琪是香港科技大學(xué)博士生,研究方向包括世界模型,具身智能,多模態(tài)大模型等。第二作者為香港科技大學(xué)研究型碩士生嚴(yán)正陽(yáng)。通訊作者為香港科技大學(xué)計(jì)算機(jī)科學(xué)及工程系講座教授郭嵩教授以及字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)馬驍。



      • 論文標(biāo)題:WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
      • 項(xiàng)目網(wǎng)站:https://wm-po.github.io
      • 論文鏈接:https://arxiv.org/abs/2511.09515
      • 論文代碼:https://github.com/WM-PO/WMPO

      傳統(tǒng) VLA 訓(xùn)練的 “緊箍咒”:

      模仿易碎,交互昂貴

      近年來(lái),視覺 - 語(yǔ)言 - 動(dòng)作(VLA)模型在通用操作任務(wù)中展現(xiàn)了令人印象深刻的潛力,但其訓(xùn)練方式長(zhǎng)期受制于兩大瓶頸。

      第一,模仿學(xué)習(xí)的先天局限。

      大多數(shù) VLA 模型依賴專家演示數(shù)據(jù)進(jìn)行訓(xùn)練,只學(xué)習(xí)了 “什么是正確操作”,卻幾乎沒(méi)有見過(guò) “犯錯(cuò)之后該怎么辦”。在推理時(shí),一旦狀態(tài)稍微偏離訓(xùn)練分布,錯(cuò)誤便會(huì)不斷累積,最終導(dǎo)致任務(wù)徹底失敗。這種 “脆弱性” 在長(zhǎng)序列操作中尤為明顯。

      第二,現(xiàn)實(shí)強(qiáng)化學(xué)習(xí)的高昂代價(jià)。

      強(qiáng)化學(xué)習(xí)理論上可以解決上述問(wèn)題,但在真實(shí)機(jī)器人上進(jìn)行 RL 交互往往需要數(shù)百萬(wàn)次嘗試,不僅采樣效率極低,還伴隨著硬件磨損、安全風(fēng)險(xiǎn)和高昂的實(shí)驗(yàn)成本。

      已有研究 [1] 嘗試借助潛空間世界模型(Latent Space World Model)來(lái)緩解現(xiàn)實(shí)交互壓力,但這類模型通常與預(yù)訓(xùn)練 VLA 所使用的真實(shí)圖像表征存在差異,難以直接用于現(xiàn)有 VLA 框架中的策略優(yōu)化。



      WMPO 的核心突破:

      像素級(jí) “想象” 與 Online GRPO

      WMPO 提出了一種新的訓(xùn)練范式:將策略優(yōu)化過(guò)程完整地遷移到視覺世界模型中完成,讓具身代理在 “想象” 的軌跡中學(xué)習(xí)如何從錯(cuò)誤中恢復(fù)。其核心設(shè)計(jì)包含三個(gè)關(guān)鍵要點(diǎn):

      像素級(jí)視覺世界模型,讓錯(cuò)誤也能被真實(shí)模擬

      與以往在潛空間中進(jìn)行預(yù)測(cè)不同,WMPO 構(gòu)建的是像素級(jí)視覺世界模型。模型直接在圖像空間中,根據(jù)當(dāng)前觀察和動(dòng)作預(yù)測(cè)下一幀視覺反饋,從而生成完整的 “想象軌跡”。為了保證世界模型不僅能復(fù)現(xiàn)專家行為,還能覆蓋策略執(zhí)行過(guò)程中可能出現(xiàn)的各種偏差,研究團(tuán)隊(duì)引入了策略行為對(duì)齊(Policy Behavior Alignment) 機(jī)制:在專家數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)上,進(jìn)一步對(duì)策略生成的非專家軌跡進(jìn)行對(duì)齊訓(xùn)練,使世界模型能夠準(zhǔn)確模擬 OOD 動(dòng)作及其失敗后果。

      在想象空間中進(jìn)行 Online GRPO

      在高保真的視覺世界模型中,WMPO 進(jìn)一步將強(qiáng)化學(xué)習(xí)過(guò)程引入 “想象空間”。具體而言,對(duì)于同一初始狀態(tài),VLA 模型會(huì)在世界模型中生成一組不同的候選軌跡;通過(guò)訓(xùn)練得到的獎(jiǎng)勵(lì)函數(shù)判斷每條軌跡是否成功,并在組內(nèi)進(jìn)行相對(duì)比較,從而估計(jì)優(yōu)勢(shì)。這種 Online GRPO(Group Relative Policy Optimization) 的方式不依賴額外的價(jià)值網(wǎng)絡(luò),顯著降低了內(nèi)存與訓(xùn)練復(fù)雜度,同時(shí)在長(zhǎng)序列生成中表現(xiàn)出更好的穩(wěn)定性。更重要的是,“組內(nèi)競(jìng)爭(zhēng)” 機(jī)制使模型能夠自動(dòng)偏好那些即使犯錯(cuò)、也能恢復(fù)并完成任務(wù)的動(dòng)作路徑。

      攻克長(zhǎng)時(shí)生成難題:讓 “想象” 不崩壞

      長(zhǎng)時(shí)間視頻預(yù)測(cè)一直是視覺世界模型面臨的核心挑戰(zhàn)。為防止想象畫面隨時(shí)間退化,WMPO 引入了:

      • 噪聲幀增強(qiáng)(Noisy-frame conditioning)
      • 幀級(jí)動(dòng)作控制機(jī)制

      這些設(shè)計(jì)確保模型在生成數(shù)百幀 “想象軌跡” 時(shí),仍能保持畫面清晰、動(dòng)作對(duì)齊,為策略優(yōu)化提供穩(wěn)定可靠的訓(xùn)練環(huán)境。



      WMPO 架構(gòu)解析:

      像素級(jí)演化,三步跨越現(xiàn)實(shí)

      構(gòu)建高保真 “沙盒”:視覺世界模型建模





      策略行為對(duì)齊:為了讓世界模型能模擬策略生成的 OOD 動(dòng)作及其后果,研究團(tuán)隊(duì)不僅在專家數(shù)據(jù)上訓(xùn)練,還針對(duì)策略生成的非專家軌跡進(jìn)行對(duì)齊,確保模型能夠準(zhǔn)確預(yù)測(cè) “失敗案例”。

      策略評(píng)價(jià)與改進(jìn):想象空間內(nèi)的 Online GRPO





      這種 “組內(nèi)競(jìng)爭(zhēng)” 機(jī)制讓模型能夠自動(dòng)識(shí)別并強(qiáng)化那些能從錯(cuò)誤中恢復(fù)的動(dòng)作路徑。

      學(xué)習(xí)目標(biāo):自監(jiān)督式參數(shù)優(yōu)化

      在 “想象” 出的軌跡上,WMPO 最小化以下目標(biāo)函數(shù),將 VLA 模型從單純的模仿者轉(zhuǎn)化為自我進(jìn)化的決策者:



      偽代碼算法如下:



      實(shí)驗(yàn)結(jié)果:樣本效率,

      涌現(xiàn)能力,執(zhí)行效率的驚喜

      研究團(tuán)隊(duì)在 MimicGen 模擬環(huán)境和真實(shí) ALOHA 機(jī)器人上對(duì) WMPO 進(jìn)行了系統(tǒng)評(píng)估。

      采樣效率顯著提升。

      在僅使用 128 條真實(shí)軌跡作為數(shù)據(jù)預(yù)算時(shí),WMPO 的成功率已超過(guò)最優(yōu) Offline RL 基線 9.8%;當(dāng)預(yù)算提升至 1280 條時(shí),領(lǐng)先優(yōu)勢(shì)進(jìn)一步擴(kuò)大至 15.2%。



      自我糾錯(cuò)行為的涌現(xiàn)。

      在 “方塊套圈” 等任務(wù)中,當(dāng)基座模型因碰撞或姿態(tài)偏移而卡死時(shí),WMPO 訓(xùn)練得到的策略會(huì)主動(dòng)調(diào)整動(dòng)作:例如抬起方塊、重新對(duì)準(zhǔn)目標(biāo)并再次嘗試。這類糾錯(cuò)行為并未出現(xiàn)在專家演示數(shù)據(jù)中,而是通過(guò) “想象中的失敗與比較” 自然涌現(xiàn)。



      執(zhí)行效率更高。

      WMPO 訓(xùn)練的策略動(dòng)作更加連貫、果斷,成功軌跡長(zhǎng)度明顯縮短,減少了猶豫和重復(fù)嘗試。



      需要注意的是,這種自我糾錯(cuò)能力目前主要在結(jié)構(gòu)化操作任務(wù)中被系統(tǒng)觀察到,其泛化邊界仍有待進(jìn)一步探索。

      啟示與展望

      WMPO 的成功證明了:高質(zhì)量的 “想象” 足以替代昂貴的 “實(shí)踐”。通過(guò)將 VLA 的強(qiáng)化學(xué)習(xí)過(guò)程解耦到生成式世界模型中,我們不僅解決了采樣效率的難題,更讓機(jī)器人學(xué)會(huì)了在挫折中自我完善。

      正如達(dá)芬奇所言,“簡(jiǎn)單是終極的復(fù)雜”,WMPO 用純粹的視覺模擬,為具身智能走向通用化指明了一條充滿想象力的道路。

      更多方法細(xì)節(jié)與實(shí)驗(yàn)分析請(qǐng)見原論文。

      [1] Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647–653 (2025). https://doi.org/10.1038/s41586-025-08744-2

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      新華社消息|外交部:已有1萬(wàn)余名中國(guó)旅客自阿聯(lián)酋、阿曼、沙特等國(guó)安全有序返回

      新華社消息|外交部:已有1萬(wàn)余名中國(guó)旅客自阿聯(lián)酋、阿曼、沙特等國(guó)安全有序返回

      新華社
      2026-03-10 16:37:42
      67歲湯鎮(zhèn)業(yè)近況曝光!再婚娶小25歲青島美女,如今一家8口很幸福

      67歲湯鎮(zhèn)業(yè)近況曝光!再婚娶小25歲青島美女,如今一家8口很幸福

      代軍哥哥談娛樂(lè)
      2026-03-10 09:09:50
      不可錯(cuò)過(guò)!3月10日晚上19:40比賽!中央5套CCTV5、CCTV5+直播表

      不可錯(cuò)過(guò)!3月10日晚上19:40比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-03-10 12:34:48
      3月10日俄烏:最直接的受益者

      3月10日俄烏:最直接的受益者

      山河路口
      2026-03-10 18:29:13
      心臟好不好,看臉就知道!3種“求救紋”出現(xiàn),趕緊按這倆穴位!

      心臟好不好,看臉就知道!3種“求救紋”出現(xiàn),趕緊按這倆穴位!

      徐孟醫(yī)生說(shuō)疼痛
      2026-03-08 19:00:07
      特朗普稱對(duì)伊朗戰(zhàn)事“已基本結(jié)束”

      特朗普稱對(duì)伊朗戰(zhàn)事“已基本結(jié)束”

      每日經(jīng)濟(jì)新聞
      2026-03-10 07:08:31
      偉大的2-1!德約2連勝到手,1戰(zhàn)創(chuàng)造2大紀(jì)錄,下輪PK衛(wèi)冕冠軍!

      偉大的2-1!德約2連勝到手,1戰(zhàn)創(chuàng)造2大紀(jì)錄,下輪PK衛(wèi)冕冠軍!

      劉姚堯的文字城堡
      2026-03-10 07:41:39
      重慶冠軍賽晚宴:石洵瑤艷壓群芳,王曼昱人緣好,莎莎獨(dú)自美好

      重慶冠軍賽晚宴:石洵瑤艷壓群芳,王曼昱人緣好,莎莎獨(dú)自美好

      余飩搞笑段子
      2026-03-10 11:20:47
      粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長(zhǎng),有幾人能鎮(zhèn)住他?

      粟裕一度鎮(zhèn)不住許世友,四大野戰(zhàn)軍的幾位首長(zhǎng),有幾人能鎮(zhèn)住他?

      浩渺青史
      2026-03-10 18:31:00
      封神一戰(zhàn)!伊朗導(dǎo)彈把以色列命脈炸成火海,特朗普語(yǔ)無(wú)倫次露底牌

      封神一戰(zhàn)!伊朗導(dǎo)彈把以色列命脈炸成火海,特朗普語(yǔ)無(wú)倫次露底牌

      音樂(lè)時(shí)光的娛樂(lè)
      2026-03-10 12:25:27
      上海七旬老人與牌友聚餐后離世!5名同飲者遭索賠34萬(wàn)元……法院判了

      上海七旬老人與牌友聚餐后離世!5名同飲者遭索賠34萬(wàn)元……法院判了

      環(huán)球網(wǎng)資訊
      2026-03-09 20:09:28
      瞬間破防!33歲全職媽媽翻出高考成績(jī)單,哭訴曾經(jīng)學(xué)習(xí)的苦白吃了

      瞬間破防!33歲全職媽媽翻出高考成績(jī)單,哭訴曾經(jīng)學(xué)習(xí)的苦白吃了

      火山詩(shī)話
      2026-03-08 06:58:34
      川音“淫魔”校長(zhǎng):88名女音樂(lè)教師,霸占87人,細(xì)節(jié)曝光不堪入目

      川音“淫魔”校長(zhǎng):88名女音樂(lè)教師,霸占87人,細(xì)節(jié)曝光不堪入目

      就一點(diǎn)
      2026-03-08 10:54:42
      美媒公布美軍戰(zhàn)損,美國(guó)8年心血構(gòu)建的防線,只撐了不到一個(gè)星期

      美媒公布美軍戰(zhàn)損,美國(guó)8年心血構(gòu)建的防線,只撐了不到一個(gè)星期

      安珈使者啊
      2026-03-10 10:30:40
      炸鍋!東莞一中學(xué)取消周日晚修!家長(zhǎng):天塌了!

      炸鍋!東莞一中學(xué)取消周日晚修!家長(zhǎng):天塌了!

      東莞好生活
      2026-03-10 16:04:11
      Mac版QClaw開放下載:可用微信登錄,默認(rèn)使用國(guó)產(chǎn)大模型

      Mac版QClaw開放下載:可用微信登錄,默認(rèn)使用國(guó)產(chǎn)大模型

      識(shí)礁Farsight
      2026-03-10 10:27:14
      美民主黨人警告:除非魯比奧等人就對(duì)伊行動(dòng)作證,否則動(dòng)用一切程序性手段阻撓參議院正常運(yùn)作

      美民主黨人警告:除非魯比奧等人就對(duì)伊行動(dòng)作證,否則動(dòng)用一切程序性手段阻撓參議院正常運(yùn)作

      環(huán)球網(wǎng)資訊
      2026-03-10 11:46:00
      震驚!男友父母花近1000萬(wàn)買新房,女子要加她的名字,然后退婚了

      震驚!男友父母花近1000萬(wàn)買新房,女子要加她的名字,然后退婚了

      火山詩(shī)話
      2026-03-10 06:57:22
      恐怖!美軍的陰暗操作令世界不寒而栗

      恐怖!美軍的陰暗操作令世界不寒而栗

      補(bǔ)壹刀
      2026-03-09 15:41:03
      善惡到頭終有報(bào)?57歲央視女主持王小丫,已走上另一條大路

      善惡到頭終有報(bào)?57歲央視女主持王小丫,已走上另一條大路

      妙知
      2026-01-13 11:55:41
      2026-03-10 20:40:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12467文章數(shù) 142580關(guān)注度
      往期回顧 全部

      科技要聞

      全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

      頭條要聞

      特朗普開始找接班人 當(dāng)眾問(wèn)捐款人怎么看萬(wàn)斯和魯比奧

      頭條要聞

      特朗普開始找接班人 當(dāng)眾問(wèn)捐款人怎么看萬(wàn)斯和魯比奧

      體育要聞

      加蘭沒(méi)那么差,但鱸魚會(huì)用嗎?

      娛樂(lè)要聞

      肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

      財(cái)經(jīng)要聞

      “龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      親子
      健康
      旅游
      教育
      公開課

      親子要聞

      當(dāng)萌娃被問(wèn):嬰兒為什么總是睡覺?她的回答太逗了

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      意外邂逅金甲財(cái)神殿的人間煙火,這里可不只一年兩度的“財(cái)神會(huì)”

      教育要聞

      兩會(huì)代表委員:建議減少中小學(xué)學(xué)科數(shù)量、取消中考、將性教育列為中小學(xué)必修課……

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版