<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      中科大自適應推理具身導航框架!AdaNav:基于不確定性驅動自適應推理的視覺語言導航

      0
      分享至

      文章來源:視覺語言導航。

      • 作者: Xin Ding , Jianyu Wei , Yifan Yang , Shiqi Jiang , Qianxi Zhang , Hao Wu , Fucheng Jia , Liang Mi , Yuxuan Yan , Weijun Wang , Yunxin Liu , Zhibo Chen , Ting Cao

      • 單位: 中國科學技術大學, 微軟研究院, 南京大學, 中南大學, 浙江大學, 清華大學人工智能產業研究院

      • 論文標題:AdaNav: Adaptive Reasoning with Uncertainty for Vision-Language Navigation

      • 論文鏈接:https://arxiv.org/pdf/2509.24387v1

      • 代碼鏈接:https://github.com/xinding-sys/AdaNav

      主要貢獻
      • 提出基于不確定性的自適應推理框架了 AdaNav ,通過引入不確定性自適應推理塊(UAR Block)和啟發式到強化學習(Heuristic-to-RL)的訓練機制,使智能體能夠在導航過程中根據需要動態地觸發推理,解決了固定步長推理導致的性能次優和計算開銷問題。

      • 在僅使用 6K訓練樣本 的情況下,AdaNav在多個基準測試中取得了顯著的性能提升,超過了使用百萬級數據訓練的閉源模型。例如,在R2R val-unseen上成功率提高了20%,在RxR-CE上提高了11.7%,在真實世界場景中提高了11.4%。

      • 該框架使 推理更加困難感知和模式自適應 ,隨著訓練的進行,推理步驟更加集中在困難的軌跡上,且推理模式的選擇也更加合理,同時減少了平均推理步數,提高了效率。

      研究背景
      • 視覺語言導航(VLN)要求智能體能夠理解自然語言指令,并將其與連續的視覺觀察相結合,以執行長期的導航軌跡。現有的基于視覺語言模型(VLM)的方法存在兩個主要挑戰:一致的時間對齊和穩健的感知-動作映射。

      • 為了應對這些挑戰,以往的研究引入了顯式推理,但固定步長的推理不僅計算開銷大,還會導致過度思考,降低導航質量。理想的VLN智能體應該能夠自適應地推理,即根據需要決定何時以及如何推理,但實現這種自適應性并緩解大語言模型(LLM)的過度自信問題通常需要大量的特定任務數據進行監督微調,而這些數據收集成本高昂。

      方法 問題定義 視覺語言導航
      • 環境與動作空間 :考慮一個標準的VLN設置,智能體被放置在一個3D環境 中,具有狀態空間 和動作空間 ,其中 和 分別表示角度和距離。

      • 任務目標 :給定自然語言指令 和連續的視覺觀察 ,智能體需要執行一個軌跡 ,以達到由指令 隱式指定的目標狀態 ,目標是最大化任務成功率:

        其中, 是指示函數,表示最終狀態是否為目標狀態。

      自適應推理導航
      • 推理模式與內容 :為了提高VLN在長期和復雜環境中的性能,允許智能體在每一步 進行顯式推理,推理模式變量 ,其中 表示不進行推理, 是預定義的推理模式集合(如描述、總結、錯誤糾正)。推理內容為 。

      • 聯合策略 :智能體的策略由兩部分組成:

        1. 導航策略 :根據導航相關的歷史信息 、指令 和之前的推理內容 決定動作 。

        2. 推理策略 :決定何時進行推理(通過 或 )以及使用哪種推理模式(通過 )。

      • 整體策略 :聯合策略為:

        其中, 表示完整的導航和推理歷史信息。

      • 優化目標 :通過聯合優化導航和推理策略,目標是最大化任務性能,同時保持計算效率:

        其中, 同時考慮導航成功(如進度或成功指標)和推理調用引起的延遲懲罰。

      AdaNav的設計與實現 動機
      • 自適應推理需要智能體能夠選擇性地決定何時推理有益以及調用哪種模式。然而,現有的大語言模型(LLM)對任務難度不敏感,容易過度自信。

      • 在LLM研究中,通過監督微調引入高質量的推理痕跡可以緩解這一問題。但對于具身智能體,收集這樣的高質量交互痕跡成本過高。

      • 因此,AdaNav提出了一種替代方法,利用可解釋的不確定性信號動態觸發推理,無需依賴大規模推理監督。

      不確定性自適應推理塊
      • 動作熵作為不確定性度量 :受語言推理中高熵token對單步文本生成影響較大的啟發,定義動作熵 作為不確定性度量:

        其中, 是生成的token數量, 是詞匯表大小, 是時間步 時詞匯表中第 個token的概率。

      • 動作熵的有效性驗證 :通過診斷研究發現,失敗的軌跡具有高且持續的動作熵,而成功的軌跡保持較低的動作熵。單獨的即時動作熵不足以預測失敗,但結合歷史動作熵趨勢和當前動作熵狀態可以提供更可靠的信號 。

      • UAR Block設計 :UAR Block結合歷史動作熵 和當前觀察 ,形成推理相關信息 ,并將其轉化為緊湊的控制向量:

        直接參數化推理模式的logits。從這個向量中,模式選擇策略為:

      啟發式到強化學習訓練
      • 基于不確定性的先驗 :在冷啟動階段,由于RL策略尚未學會有意義的模式選擇,因此使用基于不確定性的先驗初始化訓練。直觀上,較高的熵表示較高的不確定性,需要更強的推理。計算標量熵分數為過去熵的均值 ,并將其映射到包含“無推理”選項的推理模式上的軟先驗分布:

        其中, 是模式特定的熵閾值, 控制先驗的平滑度。

      • 啟發式到RL的過渡 :為了逐漸從啟發式先驗轉移到學習到的RL策略,將先驗分布與模型預測融合為:

        其中, 從1逐漸衰減到0,允許RL策略 逐漸接管啟發式先驗 。因此,模式選擇策略可以表示為:

      • 獎勵設計 :首先定義推理成本為基于相對推理長度的歸一化懲罰:

        其中, 是當前步的推理長度, 是成功樣本組中最短的生成長度, 是一個常數懲罰窗口。

      • 導航目標獎勵 :采用基于距離減少的常見外在獎勵,即時獎勵定義為 ,其中 表示從當前狀態 到目標位置 的測地線距離。

      • 整體任務獎勵 :將外在獎勵和推理成本結合起來,整體任務獎勵定義為折扣累積回報:

        其中, 是折扣因子,控制未來獎勵的權重。這種獎勵設計鼓勵智能體高效地向目標導航,同時避免不必要的推理開銷。

      實驗 性能提升 實驗設置
      • 基礎模型 :選擇兩個開源的VLN模型NAVID和NAVILA作為基礎模型,AdaNav被集成到這些模型中。

      • 訓練數據 :從R2R和RxR的訓練集中隨機采樣3000個episode進行訓練。

      • 硬件配置 :使用4塊NVIDIA RTX A100 GPU進行訓練。

      • 基準測試 :在R2R和RxR的val-unseen分割上評估導航性能,并在ScanQA驗證集上評估空間場景理解能力。

      實驗結果
      • VLN-CE基準測試 :與使用百萬級數據訓練的閉源模型相比,AdaNav在僅使用6K訓練樣本的情況下,成功率顯著提升。具體來說,在R2R val-unseen上成功率提高了20%,在RxR-CE val-unseen上提高了14.6%。

      • 跨數據集評估 :在僅使用R2R數據訓練的情況下,AdaNav在RxR val-unseen上的零樣本評估中表現優異,超過了所有閉源基線模型,展示了強大的泛化能力。

      • 空間場景理解 :在ScanQA驗證集上,AdaNav不僅保持了基礎模型的通用場景理解能力,還略有提升,表明其在推理訓練后增強了魯棒性和泛化能力。

      • 真實世界評估 :在真實世界環境中,使用25個樣本或復雜指令進行實驗,AdaNav在會議室、家庭和辦公室三種環境中的成功率顯著提高,平均成功率提升了約11.4%。

      UAR Block分析 實驗方法
      • 訓練數據規模 :分別使用2K、4K和6K訓練數據進行訓練,觀察UAR Block的行為變化。

      • 推理調用分析 :統計推理調用的頻率、分布以及不同推理模式(描述、總結、錯誤糾正)的使用情況。

      • 任務難度分類 :根據基礎模型的成功與否將任務分為“容易”和“困難”兩類,分析UAR Block在不同難度任務中的推理觸發行為。

      實驗結果
      • 推理頻率 :隨著訓練數據的增加,模型傾向于減少推理調用的頻率,將推理集中在關鍵時刻,從而平衡效率和效果。

      • 推理模式選擇 :在后期步驟中,模型更傾向于使用總結和錯誤糾正模式,顯示出基于任務上下文的自適應模式選擇能力。

      • 任務難度響應 :在基礎模型失敗的任務(即“困難”任務)中,推理調用的頻率顯著增加,表明UAR Block能夠自適應地將推理能力分配給更具挑戰性的場景。

      消融研究 組件消融 實驗方法
      • 去除UAR Block :推理以固定步長(例如每5步)或隨機方式觸發,不使用自適應控制。

      • 去除啟發式先驗 :僅依賴強化學習從頭開始訓練,不使用基于不確定性的啟發式先驗。

      • 去除強化學習微調 :僅使用啟發式信號指導推理觸發,不進行進一步的策略優化。

      實驗結果
      • 去除UAR Block :性能顯著下降,表明自適應推理控制對于提升導航性能至關重要。

      • 去除啟發式先驗 :訓練初期性能較差,說明啟發式先驗為訓練提供了有效的初始引導。

      • 去除強化學習微調 :性能不如完整AdaNav,表明強化學習微調能夠進一步優化推理策略,提升性能。

      超參數敏感性 實驗方法
      • 關鍵超參數 :主要分析模式特定的熵閾值 和平滑因子 。

      • 實驗設置 :分別測試不同的 (如80%、85%、90%)和 值,觀察對性能的影響。

      實驗結果
      • 熵閾值 :較低的 值(如80%)在訓練初期提供了更寬松的推理觸發條件,有助于模型更快地學習推理模式。隨著 的增加,模型需要更高的不確定性才會觸發推理,從而提高了推理的效率。

      • 閾值增量 :適當的 值能夠平衡不同推理模式之間的觸發條件,使模型能夠根據任務難度靈活選擇推理模式。

      • 平滑因子 :較大的 值使先驗分布更加平滑,有助于模型在不同推理模式之間平滑過渡,但過大的 可能導致模型對不確定性信號不夠敏感。

      結論與未來工作
      • 結論

        • AdaNav通過結合可解釋的啟發式先驗和最優的強化學習,提供了一種可擴展的、自適應的推理方法,無需依賴昂貴的標記推理數據,即可在具身任務中實現高效的、困難感知的和模式自適應的推理。

        • 該方法在多個基準測試和真實世界部署中都表現出色,為具身智能體的推理能力提升提供了一個有前景的方向。

      • 未來工作

        • 可以進一步探索如何在更復雜的環境和任務中應用和優化AdaNav,例如在多智能體交互場景中實現自適應推理,或者將該框架擴展到其他需要推理的具身任務中。

        • 此外,還可以研究如何進一步提高推理的效率和準確性,以及如何更好地利用有限的數據來訓練更強大的推理模型。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      優趣紀史記
      2025-11-29 17:22:29
      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      晴晴的娛樂日記
      2025-12-15 22:06:55
      何晴去世不到24小時,惡心事發生!私生活被詬病,網友:紅顏薄命

      何晴去世不到24小時,惡心事發生!私生活被詬病,網友:紅顏薄命

      徐徐道史
      2025-12-14 18:28:32
      廣西54歲李某甘蔗地殺2女后續!10萬懸賞追逃,當地人曝更多內幕

      廣西54歲李某甘蔗地殺2女后續!10萬懸賞追逃,當地人曝更多內幕

      奇思妙想草葉君
      2025-12-14 21:46:07
      醫生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      醫生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      紙上的心語
      2025-12-15 21:32:22
      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      近史博覽
      2025-12-15 14:43:10
      突發!澤連斯基,妥協了!一切結束了!

      突發!澤連斯基,妥協了!一切結束了!

      財經要參
      2025-12-15 13:18:38
      人社部定調!穩步提高社會保障待遇水平,2026年養老金雙增長嗎?

      人社部定調!穩步提高社會保障待遇水平,2026年養老金雙增長嗎?

      財話連篇
      2025-12-15 18:35:49
      亞運三金王王莉實名舉報:基地主任索要15萬 體罰辱罵下跪是常事

      亞運三金王王莉實名舉報:基地主任索要15萬 體罰辱罵下跪是常事

      醉臥浮生
      2025-12-15 08:01:17
      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      洲洲影視娛評
      2025-12-13 19:57:10
      張藝興發文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      張藝興發文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      極目新聞
      2025-12-14 18:51:00
      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現狀

      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現狀

      黃河新流域
      2025-09-28 13:34:43
      被全網瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉!

      被全網瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉!

      毒舌八卦
      2025-12-15 22:52:12
      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      復轉這些年
      2025-12-07 15:39:25
      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      凡人說體育
      2025-12-15 13:55:06
      何晴離世消息曝光不到24小時,惡心的一幕出現了!

      何晴離世消息曝光不到24小時,惡心的一幕出現了!

      叨嘮
      2025-12-15 01:57:05
      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發動戰爭

      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發動戰爭

      泠泠說史
      2025-12-15 18:05:17
      西方內訌升級:英銀行家集體反水威脅撤出俄資產

      西方內訌升級:英銀行家集體反水威脅撤出俄資產

      夢想的現實
      2025-12-15 10:41:52
      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      被誤解的時候能微微一笑
      2025-12-15 08:54:45
      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      懂球帝
      2025-12-15 15:24:06
      2025-12-16 06:43:00
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5267文章數 64595關注度
      往期回顧 全部

      科技要聞

      大佬冷酷預言:未來15年 人形機器人成廢鐵

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內部人士回應

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內部人士回應

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現場,前夫許亞軍雙眼泛紅?

      財經要聞

      新農合漲到400元 農民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態度原創

      本地
      親子
      數碼
      手機
      公開課

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      親子要聞

      寶寶為啥一出門就不鬧了?真相不是“看新鮮”,90%家長沒琢磨透

      數碼要聞

      藍寶石喊話AMD等GPU制造商:給我們芯片和顯存,放開設計自由

      手機要聞

      全新紗緞光刻工藝!vivo S50圖賞

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: xxxxbbbb欧美残疾人| 成在线人永久免费视频播放 | 亚洲精品一区二区三| 日韩肏屄| 欧美成人免费全部网站| 亚洲3p| 人人妻人人狠人人爽天天综合网| 国产乱子经典视频在线观看| 亚洲少妇人妻无码视频| 成人肏屄视频| 色中色中文字幕| 男受被做哭激烈娇喘gv视频| 欧美又粗又大xxxxbbbb疯狂| 欧美国产日韩久久mv| 一区二区三区成人| 国产wwww| 国产人妻精品一二区| 久久人人爽人人人人爽av| 亚洲高清日韩heyzo| 强行糟蹋人妻HD中文字幕| 国产美女69视频免费观看| 免费偷拍| 色欲天天综合| 四虎永久地址www成人| 久久天天躁夜夜躁狠狠ds005| jizz.jizz| 乌拉特中旗| 99久久伊人精品综合观看| 免费无码又爽又黄又刺激网站| 日本一卡2卡3卡4卡无卡免费| 武山县| 国产性色av高清在线观看| 人与禽交av在线播放| 一区二区三区成人| 渑池县| 人人色在线视频播放| 日韩a无v码在线播放| 国产免费久久精品99reswag| av熟女在线更新| 久久97| 亚洲蜜桃精久久久久久久久久久久|