<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      具身導航觀行并進!S2E:強化學習助力導航基礎模型突破

      0
      分享至

      • 作者:Honglin He, Yukai Ma, Wayne Wu, Bolei Zhou

      • 單位:加利福尼亞大學洛杉磯分校

      • 論文標題:From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning

      • 論文鏈接:https://arxiv.org/pdf/2507.22028

      • 項目主頁:https://metadriverse.github.io/s2e/

      • 代碼鏈接:https://github.com/metadriverse/S2E

      主要貢獻
      • 提出 Seeing-to-Experiencing (S2E)學習框架,將離線視頻預訓練和模擬環境中的強化學習相結合,既保持了模型從大規模真實世界視頻中獲得的泛化能力,又通過強化學習增強了模型的交互性。

      • 引入 錨點引導分布匹配 (Anchor-Guided Distribution Matching,AGDM)策略用于離線預訓練,通過基于錨點的監督穩定學習并建模多樣化的運動模式。

      • 提出 殘差注意力模塊 (Residual-Attention Module,RAM)用于強化學習階段,在模擬環境中獲得反應性行為的同時,保留模型的預訓練知識。

      • 建立基于真實世界場景的光柵化三維高斯濺射重建的 NavBench-GS 綜合端到端評估基準,能夠系統評估導航基礎模型的泛化性和安全性。

      • 通過 大量實驗 表明,S2E框架能夠顯著提升模型性能,緩解僅使用離線數據擴展時的收益遞減問題,并且在真實世界的不同機器人平臺上實現了零樣本泛化。

      研究背景
      • 導航基礎模型在大規模網絡規模數據上進行訓練,能夠使智能體在多樣化環境中泛化,但僅基于離線數據訓練的模型在現實世界城市導航中面臨局限性,如缺乏對行為后果的推理能力和通過反事實理解進行適應的能力,難以應對動態環境中的障礙物和行人等交互性和安全性要求高的任務。

      • 以往的導航基礎模型研究主要依賴大規模網絡視頻和人類演示進行預訓練,但這些方法存在一些問題,如缺乏物理和因果關系的明確信息,導致模型在真實世界中的適應性和反應性有限。

      S2E 學習框架 框架概述

      S2E(Seeing-to-Experiencing)學習框架旨在通過結合離線視頻預訓練和模擬環境中的強化學習,訓練出既具有泛化能力又具備交互性的導航基礎模型。該框架的核心目標是學習一個視覺導航策略π,使機器人能夠從起點ps導航到目標點pd。具體來說,S2E框架包含兩個關鍵部分:

      • 離線預訓練 :通過錨點引導分布匹配(Anchor-Guided Distribution Matching,AGDM)策略對真實世界視頻數據進行預訓練,以學習復雜的多模態分布并穩定學習過程。

      • 強化學習后訓練 :通過殘差注意力模塊(Residual-Attention Module,RAM)在模擬環境中進行強化學習,以增強模型的交互性并保留預訓練知識。

      錨點引導分布匹配預訓練

      機器人導航軌跡具有多模態性,即在相同的觀察條件下,可能存在多個有效的動作。有效建模這種多模態性對于泛化策略至關重要。然而,常見的表示方法(如離散動作或單模態高斯分布)缺乏表達能力,而擴散模型雖然表達能力強,但過于靈活,難以控制,可能導致不安全的軌跡。



      • 方法介紹

        • 提出了一種錨點引導的高斯混合模型(GMM)來表示機器人動作。具體來說,通過在機器人的前進方向上均勻采樣生成多個錨點,每個錨點對應GMM中的一個高斯模式。

        • 這些錨點作為可解釋的高級意圖,模型通過學習這些錨點的分數來反映每個意圖點被選為引導模式的概率。通過這種方式,模型能夠在保持結構化的同時,生成多樣化且目標一致的行為。

      • 模型架構

        • 模型接收連續的RGB幀和目標位置作為上下文信息,并使用預定義的與具體體現無關的錨點作為查詢進行預測。首先,通過自注意力模塊整合上下文嵌入,生成鍵(K)和值(V)。同時,錨點特征fP作為查詢(Q)。

        • 隨后,RAM塊根據錨點查詢Q計算加權特征,并生成細化的錨點特征。最終,通過分類頭和回歸頭解碼錨點特征,預測分數和歸一化的軌跡以及速度尺度。

      • 訓練過程

        • 模型采用端到端的訓練方式,使用兩種訓練損失。第一種是負對數似然(NLL)損失,用于監督分類頭和軌跡頭。

        • 通過選擇與真實軌跡方向最一致的模式進行優化。第二種是L2回歸損失,用于優化速度尺度。

      殘差注意力強化學習

      如果直接對整個模型參數進行強化學習微調,可能會導致模型對模擬數據過度擬合,從而在真實世界數據上表現不佳。特別是對于視覺編碼器等對領域變化敏感的組件,這種分布偏移可能會顯著降低性能。



      • 方法介紹

        • RAM模塊通過復制預訓練的交叉注意力層,并在復制的層上進行微調,同時保持原始模塊凍結。

        • 這種設計通過在復制的模塊周圍添加兩個零初始化的線性層,確保在初始化時,添加的適應分支對原始模型輸出沒有影響,但在微調過程中可以平滑地進行適應。

      • 訓練過程

        • 使用PPO算法進行訓練,定義了綜合的獎勵函數,包括速度方向獎勵、位移懲罰、到達目標獎勵和碰撞懲罰。

        • 通過策略梯度調整RAM模塊的參數,使用PPO剪輯目標和熵正則化進行微調。

      實驗 通過強化學習提升模型性能
      • 研究問題 :驗證強化學習(RL)是否能在離線預訓練的基礎上進一步提升導航性能。

      • 模型變體

        • S2E-BC :僅使用離線預訓練數據的行為克隆模型。

        • S2E-PPO :從頭開始使用PPO進行強化學習訓練的模型。

        • S2E-SFT :在預訓練后使用監督微調(SFT)的模型。

        • S2E-Full :結合預訓練和強化學習微調的完整方法。

      • 數據集 :使用不同規模的離線數據進行訓練,評估模型在不同數據規模下的性能。

      • 實驗結果

        • 數據規模與性能 :S2E-BC在數據規模增加到一定程度后,性能提升有限(從100k樣本增加到200k樣本,成功率僅提高3%)。而S2E-PPO通過強化學習在模擬環境中學習交互性,成功率比預訓練模型提高了21%,且未使用更多離線數據。

        • SFT與RL對比 :在增加訓練成本的情況下,RL保持或提高了成功率,而SFT則出現嚴重的過擬合問題。這表明RL不僅樣本效率更高,而且在增加訓練成本時更具魯棒性。

      NavBench-GS 基準測試
      • 基準測試設計

        • 測試場景 :基于光柵化三維高斯濺射重建的真實世界場景,包含26個場景,每個場景包含4種任務:空環境、有隨機靜態障礙物的環境、有移動行人的環境、有障礙物和行人的環境。

        • 評估指標 :成功率(SR)、路線完成率(RC)和碰撞次數(CT)。

      • 基線方法

        • 圖像目標方法 :GNM、ViNT、NoMaD。

        • 點目標方法 :CityWalker、MBRA、ViNT*、NoMaD*(*表示使用點作為目標重新訓練的模型)。

      • 實驗結果

        • S2E-Full性能 :S2E-Full在所有測試場景中均優于基線方法。與S2E-BC相比,S2E-Full在障礙物場景中的成功率提高了21%,在行人場景中提高了3%,在障礙物-行人場景中提高了17%。這表明強化學習在增強策略的交互能力方面發揮了關鍵作用。

        • 與其他方法對比 :S2E-Full在成功率和碰撞避免方面均優于其他基線方法,證明了S2E框架在復雜環境中的有效性和魯棒性。

      真實世界評估
      • 實驗設置

        • 環境類型 :空環境和有靜態障礙物的環境。

        • 機器人平臺 :Unitree GO2四足機器人和COCO輪式機器人。

        • 測試路線 :共8條路線,每條路線重復3次。

      • 實驗結果


        • S2E-Full在真實世界中展現了優越的碰撞規避能力。在輪式機器人和四足機器人上,S2E-Full在成功率和碰撞避免指標上均取得了最高性能。

        • 具體來說,輪式機器人上S2E-Full的成功率為0.42,碰撞次數為0.70;四足機器人上S2E-Full的成功率為0.50,碰撞次數為0.75。

        • 這表明通過強化學習在模擬環境中獲得的交互能力能夠有效地遷移到真實世界中,實現零樣本泛化。

      消融研究 錨點引導分布匹配的有效性
      • 實驗設置

        • 對比方法 :ViNT*(單模態匹配)和S2E-BC(錨點引導分布匹配)。

        • 測試場景 :包含障礙物和行人的復雜環境。

      • 實驗結果

        • 性能對比 :S2E-BC在成功率上比ViNT*提高了33%,碰撞率降低。這表明錨點引導分布匹配能夠顯著提升模型在復雜環境中的性能,有效捕捉多模態分布。

      殘差注意力模塊的有效性
      • 實驗設置

        • 對比方法 :S2E-SFT(監督微調)、S2E-PPO(從頭開始的強化學習)、S2E-FullFT(全參數微調)和S2E-Full(使用RAM的強化學習)。

        • 測試場景 :NavBench-GS中的障礙物環境。

      • 實驗結果

        • 性能對比 :S2E-Full在成功率和碰撞次數上均優于其他方法。具體來說,S2E-Full的成功率為0.76,碰撞次數為0.56,而S2E-SFT的成功率為0.71,碰撞次數為0.77。這表明RAM在有限模塊適應的情況下,能夠有效地提升模型的交互能力,同時保持預訓練知識。

      結論與未來工作
      • 結論

        • S2E框架通過結合離線預訓練和強化學習,有效地提升了導航基礎模型在多樣化真實世界環境中的泛化能力和交互性,能夠在不同的機器人平臺上實現零樣本泛化,為機器人導航領域提供了一種新的、有效的學習方法。

      • 未來工作

        • 當前系統缺乏3D感知能力,導致即使S2E-full模型有時也會出現碰撞失敗的情況,未來可以考慮整合深度估計或占用預測任務來推斷3D結構線索。

        • 此外,還需要解決由于機器人機械結構導致的問題,如模擬與真實機器人平臺之間的差異所引起的sim-to-real差距,以及運動控制不準確導致的性能下降問題,可以通過實施更高保真度的模擬建模并結合廣泛的數據增強策略來有效緩解這些問題。

        • 在未來,還計劃將該框架擴展到其他機器人應用領域,例如移動操作等。

      文章來源:視覺語言導航。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      優趣紀史記
      2025-11-29 17:22:29
      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      晴晴的娛樂日記
      2025-12-15 22:06:55
      何晴去世不到24小時,惡心事發生!私生活被詬病,網友:紅顏薄命

      何晴去世不到24小時,惡心事發生!私生活被詬病,網友:紅顏薄命

      徐徐道史
      2025-12-14 18:28:32
      廣西54歲李某甘蔗地殺2女后續!10萬懸賞追逃,當地人曝更多內幕

      廣西54歲李某甘蔗地殺2女后續!10萬懸賞追逃,當地人曝更多內幕

      奇思妙想草葉君
      2025-12-14 21:46:07
      醫生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      醫生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      紙上的心語
      2025-12-15 21:32:22
      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      近史博覽
      2025-12-15 14:43:10
      突發!澤連斯基,妥協了!一切結束了!

      突發!澤連斯基,妥協了!一切結束了!

      財經要參
      2025-12-15 13:18:38
      人社部定調!穩步提高社會保障待遇水平,2026年養老金雙增長嗎?

      人社部定調!穩步提高社會保障待遇水平,2026年養老金雙增長嗎?

      財話連篇
      2025-12-15 18:35:49
      亞運三金王王莉實名舉報:基地主任索要15萬 體罰辱罵下跪是常事

      亞運三金王王莉實名舉報:基地主任索要15萬 體罰辱罵下跪是常事

      醉臥浮生
      2025-12-15 08:01:17
      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      洲洲影視娛評
      2025-12-13 19:57:10
      張藝興發文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      張藝興發文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      極目新聞
      2025-12-14 18:51:00
      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現狀

      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現狀

      黃河新流域
      2025-09-28 13:34:43
      被全網瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉!

      被全網瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉!

      毒舌八卦
      2025-12-15 22:52:12
      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      復轉這些年
      2025-12-07 15:39:25
      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      凡人說體育
      2025-12-15 13:55:06
      何晴離世消息曝光不到24小時,惡心的一幕出現了!

      何晴離世消息曝光不到24小時,惡心的一幕出現了!

      叨嘮
      2025-12-15 01:57:05
      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發動戰爭

      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發動戰爭

      泠泠說史
      2025-12-15 18:05:17
      西方內訌升級:英銀行家集體反水威脅撤出俄資產

      西方內訌升級:英銀行家集體反水威脅撤出俄資產

      夢想的現實
      2025-12-15 10:41:52
      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      被誤解的時候能微微一笑
      2025-12-15 08:54:45
      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      懂球帝
      2025-12-15 15:24:06
      2025-12-16 06:43:00
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5267文章數 64595關注度
      往期回顧 全部

      科技要聞

      大佬冷酷預言:未來15年 人形機器人成廢鐵

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內部人士回應

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內部人士回應

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現場,前夫許亞軍雙眼泛紅?

      財經要聞

      新農合漲到400元 農民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態度原創

      手機
      健康
      房產
      公開課
      軍事航空

      手機要聞

      全新紗緞光刻工藝!vivo S50圖賞

      這些新療法,讓化療不再那么痛苦

      房產要聞

      6.66億摘地,海南封關大動作,千畝海澄新城震撼登場

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基稱烏方已妥協不加入北約 俄方發聲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色av天堂| 亚洲国产综合自在线另类| 国产mv在线天堂mv免费观看| 友谊县| 中文字幕乱码无码人妻系列蜜桃| 精品人妻大屁股白浆无码| 国产做a爱免费视频在线观看| 99国产欧美另类久久久精品| 精品国模| 肥女五十路| 无码福利一区二区三区| 国产真实乱人偷精品人妻| 国产v综合v亚洲欧美大天堂| 女同av在线| 国产精品亚洲а∨无码播放麻豆 | 婷婷综合缴情亚洲| 91白浆| 亚洲在线人妻| 性大毛片视频| 欧美丰满熟妇乱XXXXX网站| 国产又大又粗| 99在线精品免费视频| 精品国产乱码久久久久久郑州公司 | av片在线观看| 扒开粉嫩的小缝隙喷白浆视频| 久艹在线| 果冻传媒色av国产在线播放 | 于田县| 中文字幕无码人妻aaa片| 久久久噜噜噜久久中文字幕色伊伊 | 国产偷国产偷亚洲清高动态图| 亚洲熟妇丰满xxxxx| 亚洲成av人片大线观看| 亚洲网成人| av无码免费一区二区三区| 九九综合va免费看| 97色综合| 国产漂亮白嫩美女在线观看| 国产综合无码一区二区色蜜蜜| 四虎库影成人在线播放| 久久精品国产热久久精品国产亚洲|