<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      讓離線強(qiáng)化學(xué)習(xí)從「局部描摹」變「全局布局」丨ICLR'26

      0
      分享至

      面對(duì)復(fù)雜連續(xù)任務(wù)的長(zhǎng)程規(guī)劃,現(xiàn)有的生成式離線強(qiáng)化學(xué)習(xí)方法往往會(huì)暴露短板。

      它們生成的軌跡經(jīng)常陷入局部合理但全局偏航的窘境。

      它們太關(guān)注眼前的每一步,卻忘了最終的目的地。



      針對(duì)這一痛點(diǎn),廈門(mén)大學(xué)和香港科技大學(xué)提出一種名為MAGE(魔法師,Multi-scale Autoregressive Generation)的離線強(qiáng)化學(xué)習(xí)新算法。

      MAGE與現(xiàn)有序列生成方法不同,MAGE采用自頂向下的“由粗到細(xì)”生成策略,先建模軌跡的宏觀規(guī)劃,再逐步細(xì)化微觀細(xì)節(jié)。

      MAGE的核心思路非常符合人類(lèi)的直覺(jué):“自頂向下、由粗到細(xì)”

      這就好比畫(huà)一幅素描,你不會(huì)一上來(lái)就描繪眼睛的睫毛,而是先畫(huà)出整體的身體輪廓(宏觀規(guī)劃),再逐步細(xì)化五官和表情

      (微觀動(dòng)作)



      △MAGE的思考過(guò)程

      從一場(chǎng)”迷宮尋寶“揭示AI規(guī)劃的盲區(qū)

      為了直觀展示現(xiàn)有模型的缺陷,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)迷宮吃金幣小實(shí)驗(yàn)。智能體需要從隨機(jī)起點(diǎn)出發(fā),依靠對(duì)環(huán)境的長(zhǎng)程空間理解,先吃銀幣,再吃金幣,最后抵達(dá)終點(diǎn)。



      △各個(gè)算法在迷宮環(huán)境的表現(xiàn)

      然而,面對(duì)這種需要全局規(guī)劃的場(chǎng)景,現(xiàn)有的模型紛紛暴露了缺陷。

      • Decision Transformer受限于單向自回歸特性帶來(lái)的全局上下文缺失,它在長(zhǎng)程規(guī)劃中完全迷失方向,最終連終點(diǎn)都未能抵達(dá)。
      • Decision Diffuser則由于擴(kuò)散模型固有的局部生成偏差,生成的軌跡往往只能保證局部合理;雖然智能體抵達(dá)了終點(diǎn),卻遺漏了關(guān)鍵的一枚金幣,全局連貫性較差。
      • Hierarchical Diffuser雖然嘗試通過(guò)分層結(jié)構(gòu)建模全局軌跡,但由于其固定的雙層結(jié)構(gòu)過(guò)于僵硬高低層策略之間缺乏有效協(xié)同,生成的軌跡甚至出現(xiàn)了物理違規(guī)的“穿墻”現(xiàn)象,全局規(guī)劃與局部動(dòng)作嚴(yán)重脫節(jié)。

      相比之下,MAGE則通過(guò)多尺度“從粗到細(xì)”的生成架構(gòu)成功完成了任務(wù)。它首先在最粗的時(shí)間尺度上勾勒出包含所有關(guān)鍵節(jié)點(diǎn)的宏觀全局輪廓,隨后利用多尺度Transformer在更細(xì)的時(shí)間尺度上逐層細(xì)化,順利規(guī)劃出完整的路徑。

      MAGE的核心思路:從畫(huà)大綱到扣細(xì)節(jié)

      MAGE采用“自頂向下、由粗到細(xì)”的生成方式。MAGE包含兩大核心模塊,并輔以精確的控制機(jī)制:



      △MAGE的架構(gòu)圖

      MTAE多尺度軌跡自編碼器:MAGE將長(zhǎng)序列軌跡轉(zhuǎn)化為從粗到細(xì)的多尺度離散Token。粗尺度的Token負(fù)責(zé)掌控全局長(zhǎng)程結(jié)構(gòu),最細(xì)尺度的Token則詳細(xì)建模短期的動(dòng)態(tài)細(xì)節(jié)

      多尺度條件引導(dǎo)自回歸生成:模型使用Transformer序列化地生成這些多尺度Token。在生成每層時(shí),都會(huì)嚴(yán)格以“目標(biāo)回報(bào)”和“初始狀態(tài)”作為條件進(jìn)行約束,確保智能體的每一步都在朝著最終目標(biāo)前進(jìn)。

      條件引導(dǎo)細(xì)化與動(dòng)作決策:因?yàn)榘堰B續(xù)世界變成離散Token會(huì)丟失信息,普通的生成過(guò)程容易讓軌跡起點(diǎn)偏離現(xiàn)實(shí)。為此,MAGE在解碼器中集成了輕量級(jí)的適配器(adapter)模塊,并引入了條件引導(dǎo)損失函數(shù)Lcond,強(qiáng)制解碼出的初始狀態(tài)與真實(shí)環(huán)境是精確對(duì)齊的。最后,通過(guò)潛在逆動(dòng)力學(xué)模型決定最終的動(dòng)作。

      實(shí)驗(yàn)表現(xiàn):長(zhǎng)序列任務(wù)全面超越,推理速度滿(mǎn)足實(shí)時(shí)控制

      研究團(tuán)隊(duì)在包含Adroit、Franka Kitchen、AntMaze等5個(gè)離線RL基準(zhǔn)測(cè)試中,將MAGE與15種具有代表性的基線算法進(jìn)行了廣泛的評(píng)估。

      多任務(wù)表現(xiàn)出色



      在極具挑戰(zhàn)的高維連續(xù)控制Adroit機(jī)械臂任務(wù)中,面對(duì)極其稀疏的獎(jiǎng)勵(lì),MAGE實(shí)現(xiàn)了顯著的性能提升,大幅優(yōu)于對(duì)比方法。在強(qiáng)調(diào)子目標(biāo)執(zhí)行順序的Franka Kitchen組合任務(wù)中,MAGE憑借捕獲全局結(jié)構(gòu)和局部細(xì)節(jié)的能力,以相當(dāng)大的優(yōu)勢(shì)超越了所有競(jìng)爭(zhēng)算法。



      迷宮導(dǎo)航任務(wù)中,MAGE在所有數(shù)據(jù)集上均取得了最佳性能,證明了其處理長(zhǎng)序列導(dǎo)航任務(wù)的卓越能力。

      極高的推理效率與部署潛力



      MAGE在保持高性能的同時(shí),實(shí)現(xiàn)了出色的計(jì)算效率平衡。實(shí)驗(yàn)數(shù)據(jù)表明,MAGE的運(yùn)行速度比Hierarchical Diffuser快約50倍,比Decision Diffuser快80倍。其每步推理時(shí)間保持在27毫秒,完美滿(mǎn)足了真實(shí)機(jī)器人控制所要求的20 Hz實(shí)時(shí)運(yùn)行門(mén)檻

      結(jié)語(yǔ)

      MAGE成功地將多尺度軌跡建模與條件引導(dǎo)相結(jié)合,通過(guò)“從粗到細(xì)”的自回歸框架生成連貫且可控的高回報(bào)軌跡。當(dāng)有一天,機(jī)器人不再需要人類(lèi)一口一口地“喂”獎(jiǎng)勵(lì),而是能夠自主審視全局,制定長(zhǎng)遠(yuǎn)計(jì)劃并流暢執(zhí)行時(shí),也許具身智能的下一個(gè)奇點(diǎn)就真正到來(lái)了。

      論文鏈接:
      https://arxiv.org/abs/2602.23770
      開(kāi)源代碼:
      https://github.com/xmu-rl-3dv/MAGE
      實(shí)驗(yàn)室主頁(yè):
      https://asc.xmu.edu.cn/

      作者介紹:
      本文第一作者來(lái)自廈門(mén)大學(xué)空間感知與計(jì)算實(shí)驗(yàn)室(ASC Lab)2024級(jí)碩士生林晨興、2025級(jí)碩士生高鑫輝,通訊作者為廈門(mén)大學(xué)沈思淇副教授,并由張海鵬、李欣然(香港科技大學(xué))、王海濤、梅松竹副研究員、劉偉權(quán)副教授(集美大學(xué))、王程教授共同合作完成。研究團(tuán)隊(duì)長(zhǎng)期聚焦于強(qiáng)化學(xué)習(xí),多智能體系統(tǒng)以及大模型智能體。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      4月中旬財(cái)星“貼身”!這3個(gè)生肖主動(dòng)迎來(lái)橫財(cái),錢(qián)包頻頻進(jìn)賬

      4月中旬財(cái)星“貼身”!這3個(gè)生肖主動(dòng)迎來(lái)橫財(cái),錢(qián)包頻頻進(jìn)賬

      毅談生肖
      2026-04-06 12:05:25
      抗美援朝 魔鬼李大安——判處死刑

      抗美援朝 魔鬼李大安——判處死刑

      秀心文雅
      2026-04-05 07:05:03
      外媒:中國(guó)728型氣墊艇,3艘同塢建造,兩棲作戰(zhàn)翻倍加強(qiáng)

      外媒:中國(guó)728型氣墊艇,3艘同塢建造,兩棲作戰(zhàn)翻倍加強(qiáng)

      萬(wàn)里繁華
      2026-04-06 11:22:00
      你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

      你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

      夜深?lèi)?ài)雜談
      2026-02-21 21:37:02
      蘇萊曼尼親屬遭美嚴(yán)懲:給中國(guó)外逃貪官敲響喪鐘!

      蘇萊曼尼親屬遭美嚴(yán)懲:給中國(guó)外逃貪官敲響喪鐘!

      達(dá)文西看世界
      2026-04-05 18:25:08
      東風(fēng)導(dǎo)彈泄密案!間諜郭萬(wàn)鈞一家三口,全部被處以死刑

      東風(fēng)導(dǎo)彈泄密案!間諜郭萬(wàn)鈞一家三口,全部被處以死刑

      番外行
      2026-03-31 08:28:28
      為男閨蜜關(guān)機(jī)四次后,老公發(fā)來(lái)與別人擁吻照:以后沒(méi)人打擾我們了

      為男閨蜜關(guān)機(jī)四次后,老公發(fā)來(lái)與別人擁吻照:以后沒(méi)人打擾我們了

      曉艾故事匯
      2026-04-04 09:13:14
      勝勇士發(fā)布會(huì)!烏度卡贊最后時(shí)刻與KD申京配合,總結(jié)防守端問(wèn)題!

      勝勇士發(fā)布會(huì)!烏度卡贊最后時(shí)刻與KD申京配合,總結(jié)防守端問(wèn)題!

      籃球資訊達(dá)人
      2026-04-06 14:33:14
      皇馬青訓(xùn)最強(qiáng)神童?16歲“新坎特”橫空出世!

      皇馬青訓(xùn)最強(qiáng)神童?16歲“新坎特”橫空出世!

      仰臥撐FTUer
      2026-04-06 11:27:35
      你敢信嗎?太湖底下有2.3米厚的淤泥,可上面才蓋著不到1.9米的水

      你敢信嗎?太湖底下有2.3米厚的淤泥,可上面才蓋著不到1.9米的水

      掠影后有感
      2026-04-01 20:26:07
      男子入職第二天就被外派越南?上海警方出手了

      男子入職第二天就被外派越南?上海警方出手了

      看看新聞Knews
      2026-04-05 23:11:07
      宋寧峰出軌是有原因的!女主身材誰(shuí)看了能不愛(ài)?網(wǎng)友:極品

      宋寧峰出軌是有原因的!女主身材誰(shuí)看了能不愛(ài)?網(wǎng)友:極品

      陳意小可愛(ài)
      2026-04-05 16:14:49
      5800億預(yù)算打了水漂?石油儲(chǔ)備嚴(yán)重縮水,印度離“癱瘓”只差5天時(shí)間!

      5800億預(yù)算打了水漂?石油儲(chǔ)備嚴(yán)重縮水,印度離“癱瘓”只差5天時(shí)間!

      億通電子游戲
      2026-04-06 13:02:16
      驚悚!一摩天輪因超載倒塌瞬間!底座撕裂!近80人被壓或甩出→

      驚悚!一摩天輪因超載倒塌瞬間!底座撕裂!近80人被壓或甩出→

      特種設(shè)備安全科普
      2026-04-05 21:43:49
      何潤(rùn)東X需求很大?董璇逼小酒窩認(rèn)新爹?

      何潤(rùn)東X需求很大?董璇逼小酒窩認(rèn)新爹?

      八卦瘋叔
      2026-04-06 10:25:06
      心梗去世的人越來(lái)越多?醫(yī)生再次強(qiáng)調(diào):寧可打打牌,也別做這6事

      心梗去世的人越來(lái)越多?醫(yī)生再次強(qiáng)調(diào):寧可打打牌,也別做這6事

      健康之光
      2026-03-26 16:00:06
      專(zhuān)家警告:每天吃一把藍(lán)莓,就等于給肝臟“大掃除”?真相揭秘!

      專(zhuān)家警告:每天吃一把藍(lán)莓,就等于給肝臟“大掃除”?真相揭秘!

      白宸侃片
      2026-04-06 12:32:32
      美媒:美航天局局長(zhǎng)稱(chēng)外星人存在幾率“相當(dāng)高”

      美媒:美航天局局長(zhǎng)稱(chēng)外星人存在幾率“相當(dāng)高”

      環(huán)球網(wǎng)資訊
      2026-04-06 11:20:49
      雷軍曬新一代SU7設(shè)計(jì)師手稿:全新進(jìn)氣格柵+內(nèi)置4D毫米波雷達(dá)

      雷軍曬新一代SU7設(shè)計(jì)師手稿:全新進(jìn)氣格柵+內(nèi)置4D毫米波雷達(dá)

      IT之家
      2026-04-05 17:16:11
      日媒舉手投降:中國(guó)已徹底世界第一!

      日媒舉手投降:中國(guó)已徹底世界第一!

      華商韜略
      2026-04-05 13:04:12
      2026-04-06 15:04:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12426文章數(shù) 176443關(guān)注度
      往期回顧 全部

      科技要聞

      前同事被蒸餾成Token,AI能否偷走職場(chǎng)經(jīng)驗(yàn)

      頭條要聞

      特朗普希望7日前與伊朗達(dá)成協(xié)議 專(zhuān)家:實(shí)現(xiàn)可能性較低

      頭條要聞

      特朗普希望7日前與伊朗達(dá)成協(xié)議 專(zhuān)家:實(shí)現(xiàn)可能性較低

      體育要聞

      球員系列賽大滿(mǎn)貫!趙心童10-3世界第一 加冕賽季第4冠

      娛樂(lè)要聞

      喬任梁離世10年 父母曝舞臺(tái)光鮮的背后

      財(cái)經(jīng)要聞

      118噸!這家央行,大幅拋售黃金!

      汽車(chē)要聞

      家用SUV沒(méi)駕駛樂(lè)趣?極氪8X第一個(gè)不同意

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      時(shí)尚
      本地
      數(shù)碼

      家居要聞

      溫馨多元 愛(ài)的具象化

      房產(chǎn)要聞

      小陽(yáng)春全面啟動(dòng)!現(xiàn)房,才是這波行情里最穩(wěn)的上車(chē)票

      AI時(shí)代,辨別真相的成本變高了

      本地新聞

      跟著歌聲游安徽,聽(tīng)古村回響

      數(shù)碼要聞

      Mac跑AI模型更方便了,消息稱(chēng)蘋(píng)果已為英偉達(dá)、AMD外置顯卡開(kāi)綠燈

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版