網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

讓離線強(qiáng)化學(xué)習(xí)從「局部描摹」變「全局布局」丨ICLR'26

2026-04-06 13:33:32　來(lái)源: 量子位

北京舉報(bào)

分享至

面對(duì)復(fù)雜連續(xù)任務(wù)的長(zhǎng)程規(guī)劃，現(xiàn)有的生成式離線強(qiáng)化學(xué)習(xí)方法往往會(huì)暴露短板。

它們生成的軌跡經(jīng)常陷入局部合理但全局偏航的窘境。

它們太關(guān)注眼前的每一步，卻忘了最終的目的地。

針對(duì)這一痛點(diǎn)，廈門(mén)大學(xué)和香港科技大學(xué)提出一種名為MAGE（魔法師，Multi-scale Autoregressive Generation）的離線強(qiáng)化學(xué)習(xí)新算法。

MAGE與現(xiàn)有序列生成方法不同，MAGE采用自頂向下的“由粗到細(xì)”生成策略，先建模軌跡的宏觀規(guī)劃，再逐步細(xì)化微觀細(xì)節(jié)。

MAGE的核心思路非常符合人類(lèi)的直覺(jué)：“自頂向下、由粗到細(xì)”。

這就好比畫(huà)一幅素描，你不會(huì)一上來(lái)就描繪眼睛的睫毛，而是先畫(huà)出整體的身體輪廓（宏觀規(guī)劃），再逐步細(xì)化五官和表情

（微觀動(dòng)作）

△MAGE的思考過(guò)程

從一場(chǎng)”迷宮尋寶“揭示AI規(guī)劃的盲區(qū)

為了直觀展示現(xiàn)有模型的缺陷，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)迷宮吃金幣小實(shí)驗(yàn)。智能體需要從隨機(jī)起點(diǎn)出發(fā)，依靠對(duì)環(huán)境的長(zhǎng)程空間理解，先吃銀幣，再吃金幣，最后抵達(dá)終點(diǎn)。

△各個(gè)算法在迷宮環(huán)境的表現(xiàn)

然而，面對(duì)這種需要全局規(guī)劃的場(chǎng)景，現(xiàn)有的模型紛紛暴露了缺陷。

Decision Transformer受限于單向自回歸特性帶來(lái)的全局上下文缺失，它在長(zhǎng)程規(guī)劃中完全迷失方向，最終連終點(diǎn)都未能抵達(dá)。
Decision Diffuser則由于擴(kuò)散模型固有的局部生成偏差，生成的軌跡往往只能保證局部合理；雖然智能體抵達(dá)了終點(diǎn)，卻遺漏了關(guān)鍵的一枚金幣，全局連貫性較差。
Hierarchical Diffuser雖然嘗試通過(guò)分層結(jié)構(gòu)建模全局軌跡，但由于其固定的雙層結(jié)構(gòu)過(guò)于僵硬高低層策略之間缺乏有效協(xié)同，生成的軌跡甚至出現(xiàn)了物理違規(guī)的“穿墻”現(xiàn)象，全局規(guī)劃與局部動(dòng)作嚴(yán)重脫節(jié)。

相比之下，MAGE則通過(guò)多尺度“從粗到細(xì)”的生成架構(gòu)成功完成了任務(wù)。它首先在最粗的時(shí)間尺度上勾勒出包含所有關(guān)鍵節(jié)點(diǎn)的宏觀全局輪廓，隨后利用多尺度Transformer在更細(xì)的時(shí)間尺度上逐層細(xì)化，順利規(guī)劃出完整的路徑。

MAGE的核心思路：從畫(huà)大綱到扣細(xì)節(jié)

MAGE采用“自頂向下、由粗到細(xì)”的生成方式。MAGE包含兩大核心模塊，并輔以精確的控制機(jī)制：

△MAGE的架構(gòu)圖

MTAE多尺度軌跡自編碼器：MAGE將長(zhǎng)序列軌跡轉(zhuǎn)化為從粗到細(xì)的多尺度離散Token。粗尺度的Token負(fù)責(zé)掌控全局長(zhǎng)程結(jié)構(gòu)，最細(xì)尺度的Token則詳細(xì)建模短期的動(dòng)態(tài)細(xì)節(jié)。

多尺度條件引導(dǎo)自回歸生成：模型使用Transformer序列化地生成這些多尺度Token。在生成每層時(shí)，都會(huì)嚴(yán)格以“目標(biāo)回報(bào)”和“初始狀態(tài)”作為條件進(jìn)行約束，確保智能體的每一步都在朝著最終目標(biāo)前進(jìn)。

條件引導(dǎo)細(xì)化與動(dòng)作決策：因?yàn)榘堰B續(xù)世界變成離散Token會(huì)丟失信息，普通的生成過(guò)程容易讓軌跡起點(diǎn)偏離現(xiàn)實(shí)。為此，MAGE在解碼器中集成了輕量級(jí)的適配器（adapter）模塊，并引入了條件引導(dǎo)損失函數(shù)Lcond，強(qiáng)制解碼出的初始狀態(tài)與真實(shí)環(huán)境是精確對(duì)齊的。最后，通過(guò)潛在逆動(dòng)力學(xué)模型決定最終的動(dòng)作。

實(shí)驗(yàn)表現(xiàn)：長(zhǎng)序列任務(wù)全面超越，推理速度滿(mǎn)足實(shí)時(shí)控制

研究團(tuán)隊(duì)在包含Adroit、Franka Kitchen、AntMaze等5個(gè)離線RL基準(zhǔn)測(cè)試中，將MAGE與15種具有代表性的基線算法進(jìn)行了廣泛的評(píng)估。

多任務(wù)表現(xiàn)出色

在極具挑戰(zhàn)的高維連續(xù)控制Adroit機(jī)械臂任務(wù)中，面對(duì)極其稀疏的獎(jiǎng)勵(lì)，MAGE實(shí)現(xiàn)了顯著的性能提升，大幅優(yōu)于對(duì)比方法。在強(qiáng)調(diào)子目標(biāo)執(zhí)行順序的Franka Kitchen組合任務(wù)中，MAGE憑借捕獲全局結(jié)構(gòu)和局部細(xì)節(jié)的能力，以相當(dāng)大的優(yōu)勢(shì)超越了所有競(jìng)爭(zhēng)算法。

在迷宮導(dǎo)航任務(wù)中，MAGE在所有數(shù)據(jù)集上均取得了最佳性能，證明了其處理長(zhǎng)序列導(dǎo)航任務(wù)的卓越能力。

極高的推理效率與部署潛力

MAGE在保持高性能的同時(shí)，實(shí)現(xiàn)了出色的計(jì)算效率平衡。實(shí)驗(yàn)數(shù)據(jù)表明，MAGE的運(yùn)行速度比Hierarchical Diffuser快約50倍，比Decision Diffuser快80倍。其每步推理時(shí)間保持在27毫秒，完美滿(mǎn)足了真實(shí)機(jī)器人控制所要求的20 Hz實(shí)時(shí)運(yùn)行門(mén)檻。

結(jié)語(yǔ)

MAGE成功地將多尺度軌跡建模與條件引導(dǎo)相結(jié)合，通過(guò)“從粗到細(xì)”的自回歸框架生成連貫且可控的高回報(bào)軌跡。當(dāng)有一天，機(jī)器人不再需要人類(lèi)一口一口地“喂”獎(jiǎng)勵(lì)，而是能夠自主審視全局，制定長(zhǎng)遠(yuǎn)計(jì)劃并流暢執(zhí)行時(shí)，也許具身智能的下一個(gè)奇點(diǎn)就真正到來(lái)了。

論文鏈接：
https://arxiv.org/abs/2602.23770
開(kāi)源代碼：
https://github.com/xmu-rl-3dv/MAGE
實(shí)驗(yàn)室主頁(yè)：
https://asc.xmu.edu.cn/

作者介紹：
本文第一作者來(lái)自廈門(mén)大學(xué)空間感知與計(jì)算實(shí)驗(yàn)室（ASC Lab）2024級(jí)碩士生林晨興、2025級(jí)碩士生高鑫輝，通訊作者為廈門(mén)大學(xué)沈思淇副教授，并由張海鵬、李欣然（香港科技大學(xué)）、王海濤、梅松竹副研究員、劉偉權(quán)副教授（集美大學(xué)）、王程教授共同合作完成。研究團(tuán)隊(duì)長(zhǎng)期聚焦于強(qiáng)化學(xué)習(xí)，多智能體系統(tǒng)以及大模型智能體。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.