<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      重構跨域RL框架!理論驅動「雙重對齊」讓跨域遷移「質變」

      0
      分享至



      本文作者來自香港城市大學、伊利諾伊大學厄巴納 - 香檳分校、騰訊、中國電信人工智能研究院、清華大學等機構。作者包括喬鐘健、楊瑞、呂加飛、白辰甲、李秀、高思陽、邱爽。其中,第一作者為香港城市大學喬鐘健,通訊作者為香港城市大學邱爽。



      • 論文標題:Efficient Cross-Domain Offline Reinforcement Learning with Dynamics- and Value-Aligned Data Filtering
      • 文章鏈接:https://arxiv.org/pdf/2512.02435

      在現實世界中通過強化學習訓練智能體,往往需要大量在線試錯與環境探索,這不僅成本高昂,還可能帶來顯著安全風險:機器人可能因試錯而損壞,自動駕駛的在線探索可能危及行車安全,而持續采集交互數據本身也代價巨大。因此,離線強化學習(offline RL)通過直接利用歷史靜態數據進行策略學習,規避了持續在線交互需求,為在高成本、高風險場景中應用強化學習提供了更可行的路徑,成為推動強化學習走向真實世界的關鍵方向。

      然而,當目標環境數據稀缺時(例如,新部署的機器人僅擁有少量演示數據),僅憑目標域數據難以支撐高性能策略的學習。這一困境催生了跨域離線強化學習(Cross-Domain Offline RL)這一范式 —— 它致力于借助源域(如動力學存在差異但數據豐富的仿真環境)中的知識,彌補目標域數據不足,為數據匱乏的目標域注入學習動能,促進目標域完成策略學習。

      雖然跨領域離線強化學習的出發點很好,但源域與目標域之間往往存在動力學偏移(Dynamics Misalignment),即狀態轉移動力學規律不一致。在這種情況下,直接合并源域和目標域數據進行訓練會引發嚴重的分布外動力學 (OOD Dynamics)問題:模型學習到的轉移規律難以在目標域成立,因而性能往往會迅速退化,最終令訓練崩潰。目前解決這一問題的主流范式是動力學對齊驅動的數據過濾:首先通過對比學習或最優傳輸等方式度量源域樣本和目標域的動力學偏移程度,然后過濾掉部分動力學明顯不一致的源域數據,只保留那些動力學行為更接近目標域的樣本參與訓練。

      然而,這一范式在邏輯上依賴于一個極強的隱藏假設:動力學相似性足以刻畫源域數據的可遷移性,只要源域樣本在轉移動力學上與目標域的 “足夠接近”,源域數據便一定值得保留并用于訓練。但這一假設忽略了源域數據的另一項關鍵屬性 —— 數據質量。在現實問題中,源域不僅僅與目標域存在動力學偏移,更重要的是源域數據所含學習信號也未必同等有效,進而影響其對目標域策略學習的實際貢獻。如果一組源域數據在動力學上與目標域完全一致,卻是從環境中隨機收集的低質量數據,它對學習目標域策略的貢獻真的大嗎?

      研究動機:動力學對齊真的充分嗎?



      為了探究上述問題,作者們設計了一個啟發性實驗:在 Hopper 機器人控制任務中,源域數據由兩種類別構成:動力學對齊,但低質量的隨機樣本;以及存在動力學偏差,但高質量的專家樣本。按照現有的 IGDF 等方法,由于專家樣本存在動力學偏差,它們會被立刻過濾掉,最終只會保留隨機樣本進行策略訓練。然而,隨機樣本對策略性能的提升是相當有限的,這導致最終策略僅僅收斂到次優性能。這表明,低質量源域數據提供的有效信息較少,進而削弱其對目標域策略學習的貢獻。

      針對現有方法所存在的問題,論文首先從理論層面定位了其根源所在:現有跨域離線強化學習的主流分析框架與其真正的學習目標并不匹配。這一錯位直接導致現有方法只聚焦于動力學對齊,系統性忽視了源域數據質量。為此,論文進一步重構理論框架,通過直接推導目標域策略學習的次優性差距(sub-optimality gap)上界,從理論上明確:高效的跨域離線強化學習必須兼顧動力學偏移與價值偏差。在該理論結論驅動下,論文提出DVDF 方法:設計統一的數據過濾框架同時實現源域樣本的動力學對齊與價值對齊,選擇 “既像又值” 的源域數據用于訓練。DVDF 可作為插件(plug-in)模塊無縫集成到現有的方法中(如 IGDF、OTDF 等),并帶來穩定的性能提升。

      理論重構:修正跨域離線強化學習的優化目標

















      動力學和價值雙對齊的數據過濾框架

      基于以上分析,我們需要同時度量價值對齊和動力學對齊程度。對于動力學對齊,我們可采用現有工作中成熟的方案,如對比學習和最優傳輸等。文章需要解決的關鍵問題在于價值對齊程度的度量。為了解決這個問題,文章首先推導出了價值對齊項的上界:







      值得注意的是,預訓練得到的優勢函數的近似誤差不可忽視。為了進一步降低近似誤差的影響,文章首先推導出了優勢近似誤差的具體形式:





      然而,IQL 學習價值函數時,易受數據集中次優動作的影響,導致價值函數常被低估,從而導致優勢函數被高估。進一步,為了解決該問題,我們選用了 Sparse Q-learning (SQL) 算法進行預訓練。SQL 通過在價值函數訓練中顯式引入稀疏性,從而降低了次優動作對價值估計的影響,能夠估計出更準確的優勢函數。











      實驗驗證

      1. 動力學偏移場景下的性能對比

      論文中設計了多個動力學偏移場景以驗證 DVDF 的有效性。論文通過在四種機器人控制任務中(halfcheetah, hopper, walker2d, ant)引入兩種動力學偏移:關節偏移(kinematic shifts)和形體偏移(morphology shifts)以構建源域環境,并在相應環境中收集不同質量的離線數據以構建源域數據集。同時,論文直接從標準的 D4RL 數據集中進行采樣以構建目標域數據集。下表展示了在動態偏移場景下 DVDF 和多個基線方法的標準化得分(Normalized Score)對比??梢钥闯?,DVDF 在絕大多數數據集中的性能都優于基線方法,這是因為 DVDF 利用了源域數據集中的數據質量的信息,能夠篩選出更具有價值的高質量樣本。

      具體而言,在關節偏移場景下,DVDF 與多個基線方法的標準化得分對比。DVDF 為基礎算法 IGDF 和 OTDF 帶來了顯著的性能提升:DVDF-IGDF 在 20 個任務中的 16 個上超越了原 IGDF 方法,總分從 1001.6 提升至 1164.7,增幅達 16.3%;DVDF-OTDF 則在 15 個任務上超越了原 OTDF 方法,總分從 986.5 提升至 1172.3,增幅達 18.8%。在形體偏移這一設定下,DVDF 依然保持了顯著的性能優勢。DVDF-IGDF 在 20 個任務中的 16 個上超越了原 IGDF 方法,總分從 1039.0 提升至 1198.7,增幅達 15.4%;DVDF-OTDF 則在 14 個任務上超越了原 OTDF 方法,總分從 1042.1 提升至 1156.3,增幅達 11.0%。





      2. 消融實驗

      在消融實驗部分,論文主要分析了分別使用 SQL 和 IQL 算法進行優勢函數預訓練對策略性能和優勢估計偏差的影響。如下圖所示,相比于 IQL 算法,使用 SQL 算法進行優勢函數預訓練能夠得到更高的策略性能以及更低的優勢估計誤差。



      3. 參數敏感性實驗





      總結

      本論文聚焦于動力學偏移下的跨域離線強化學習,通過實驗和理論層面的探究,證明了動力學和價值雙重對齊對于跨域離線強化學習至關重要?;谶@一發現,論文提出全新的跨域離線強化學習框架 DVDF。通過在源域上預訓練優勢函數來度量樣本價值,并與動力學對齊相結合,DVDF 能夠識別并篩選出對策略學習有價值源域樣本。在多種場景下的實驗結果表明,DVDF 都展示了比基線算法更高的性能,充分驗證了其有效性。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      AI妓館爆了!成人行業徹底變天!

      AI妓館爆了!成人行業徹底變天!

      廣告案例精選
      2026-04-01 08:47:04
      事態嚴重了,中方接到日媒消息,日本遠導鎖定東海,俄已選邊站

      事態嚴重了,中方接到日媒消息,日本遠導鎖定東海,俄已選邊站

      音樂時光的娛樂
      2026-04-02 11:04:26
      楊振寧去世5個月后,49歲翁帆現狀:剪了頭發染了色,仍獨居國內

      楊振寧去世5個月后,49歲翁帆現狀:剪了頭發染了色,仍獨居國內

      照見古今
      2026-03-26 19:06:28
      “這樣的外形,早戀就別想了!”母親曬兒子照片引爆評論區。

      “這樣的外形,早戀就別想了!”母親曬兒子照片引爆評論區。

      特約前排觀眾
      2026-04-02 00:10:03
      王菲帶俞飛鴻吃粵式雞煲,在北京定居多年,她開始懷念香港味道了

      王菲帶俞飛鴻吃粵式雞煲,在北京定居多年,她開始懷念香港味道了

      娛樂E君
      2026-04-02 17:43:13
      78歲工地老人的奉勸:晚年請保姆養老時,一定要先講好這3個條件

      78歲工地老人的奉勸:晚年請保姆養老時,一定要先講好這3個條件

      施工員小天哥
      2026-04-01 15:59:58
      評論員:英超歷史前三主帥是弗格森、瓜帥和穆帥,溫格不在其中

      評論員:英超歷史前三主帥是弗格森、瓜帥和穆帥,溫格不在其中

      懂球帝
      2026-04-02 16:05:06
      恒大這些年掙的錢,到底都去了哪里。

      恒大這些年掙的錢,到底都去了哪里。

      流蘇晚晴
      2026-04-01 20:55:11
      美以襲伊月余,阿拉伯國家損失超千億美元!阿聯酋或成首個對伊直接參戰海灣國

      美以襲伊月余,阿拉伯國家損失超千億美元!阿聯酋或成首個對伊直接參戰海灣國

      紅星新聞
      2026-04-01 13:04:24
      父親去世數月后,母親隨口一句話:“你爸好像埋過什么東西”,浙江男子在樓下花壇挖出31枚雷管

      父親去世數月后,母親隨口一句話:“你爸好像埋過什么東西”,浙江男子在樓下花壇挖出31枚雷管

      洪觀新聞
      2026-04-02 14:43:36
      中國男乒告急!16強僅剩2人,選人引爭議,王皓本該帶上向鵬?

      中國男乒告急!16強僅剩2人,選人引爭議,王皓本該帶上向鵬?

      李喜林籃球絕殺
      2026-04-02 12:39:55
      官方:格策與法蘭克福續約至2028年

      官方:格策與法蘭克福續約至2028年

      懂球帝
      2026-04-02 00:08:15
      周恩來看完核爆照片,立刻下令:把蘑菇云高度改掉,這數據絕不能讓外國知道

      周恩來看完核爆照片,立刻下令:把蘑菇云高度改掉,這數據絕不能讓外國知道

      文史明鑒
      2026-03-23 17:29:14
      12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

      12年前,那個美國抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

      就一點
      2026-03-08 23:09:47
      4月2日人民幣對美元中間價調升145個基點

      4月2日人民幣對美元中間價調升145個基點

      證券時報
      2026-04-02 09:42:02
      剛剛過去的一個小時 以色列遭開戰以來最大規模導彈襲擊

      剛剛過去的一個小時 以色列遭開戰以來最大規模導彈襲擊

      每日經濟新聞
      2026-04-02 00:24:09
      歷史給了馬英九民族偉人的機會,他卻選擇甘當歷史罪人

      歷史給了馬英九民族偉人的機會,他卻選擇甘當歷史罪人

      雪中風車
      2026-04-02 06:42:17
      頭部大廠員工問:“張雪峰事件后,公司會強制員工早下班嗎?” 高贊回復:“老板估計會早下班”

      頭部大廠員工問:“張雪峰事件后,公司會強制員工早下班嗎?” 高贊回復:“老板估計會早下班”

      新浪財經
      2026-04-02 09:10:50
      火箭對陣爵士前瞻 再遇擺爛的福利局 火箭還有陰溝里翻船的可能嗎

      火箭對陣爵士前瞻 再遇擺爛的福利局 火箭還有陰溝里翻船的可能嗎

      大話火箭隊
      2026-04-02 16:57:38
      肖恩·墨菲無緣2026年斯諾克巡回錦標賽四強,感嘆自己運氣不佳

      肖恩·墨菲無緣2026年斯諾克巡回錦標賽四強,感嘆自己運氣不佳

      林子說事
      2026-04-02 15:50:21
      2026-04-02 18:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12667文章數 142605關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      00后女孩未婚先孕 坐月子期間男方提出"奶粉AA"并拉黑

      頭條要聞

      00后女孩未婚先孕 坐月子期間男方提出"奶粉AA"并拉黑

      體育要聞

      邵佳一的改革,從讓每個人踢舒服開始

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      高油價、AI泡沫...誰將壓垮美國經濟

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      健康
      教育
      旅游
      時尚
      本地

      干細胞抗衰4大誤區,90%的人都中招

      教育要聞

      「MiniMax」招人啦!300/天!實習津貼+免費餐食!一對一導師帶教

      旅游要聞

      春日頂流!雅安蒙頂山,憑啥被稱為“世界茶源”?|尋找21“峰”面

      女人有沒有品位看看穿搭就知道,這些造型值得借鑒,溫柔高級

      本地新聞

      從學徒到世界冠軍,為什么說張雪的底氣在重慶?

      無障礙瀏覽 進入關懷版