文章來源:視覺語言導航。![]()
作者: Xin Ding , Jianyu Wei , Yifan Yang , Shiqi Jiang , Qianxi Zhang , Hao Wu , Fucheng Jia , Liang Mi , Yuxuan Yan , Weijun Wang , Yunxin Liu , Zhibo Chen , Ting Cao
單位: 中國科學技術大學, 微軟研究院, 南京大學, 中南大學, 浙江大學, 清華大學人工智能產業研究院
論文標題:AdaNav: Adaptive Reasoning with Uncertainty for Vision-Language Navigation
論文鏈接:https://arxiv.org/pdf/2509.24387v1
代碼鏈接:https://github.com/xinding-sys/AdaNav
提出基于不確定性的自適應推理框架了 AdaNav ,通過引入不確定性自適應推理塊(UAR Block)和啟發式到強化學習(Heuristic-to-RL)的訓練機制,使智能體能夠在導航過程中根據需要動態地觸發推理,解決了固定步長推理導致的性能次優和計算開銷問題。
在僅使用 6K訓練樣本 的情況下,AdaNav在多個基準測試中取得了顯著的性能提升,超過了使用百萬級數據訓練的閉源模型。例如,在R2R val-unseen上成功率提高了20%,在RxR-CE上提高了11.7%,在真實世界場景中提高了11.4%。
該框架使 推理更加困難感知和模式自適應 ,隨著訓練的進行,推理步驟更加集中在困難的軌跡上,且推理模式的選擇也更加合理,同時減少了平均推理步數,提高了效率。
視覺語言導航(VLN)要求智能體能夠理解自然語言指令,并將其與連續的視覺觀察相結合,以執行長期的導航軌跡。現有的基于視覺語言模型(VLM)的方法存在兩個主要挑戰:一致的時間對齊和穩健的感知-動作映射。
為了應對這些挑戰,以往的研究引入了顯式推理,但固定步長的推理不僅計算開銷大,還會導致過度思考,降低導航質量。理想的VLN智能體應該能夠自適應地推理,即根據需要決定何時以及如何推理,但實現這種自適應性并緩解大語言模型(LLM)的過度自信問題通常需要大量的特定任務數據進行監督微調,而這些數據收集成本高昂。
環境與動作空間 :考慮一個標準的VLN設置,智能體被放置在一個3D環境 中,具有狀態空間 和動作空間 ,其中 和 分別表示角度和距離。
任務目標 :給定自然語言指令 和連續的視覺觀察 ,智能體需要執行一個軌跡 ,以達到由指令 隱式指定的目標狀態 ,目標是最大化任務成功率:
其中, 是指示函數,表示最終狀態是否為目標狀態。
推理模式與內容 :為了提高VLN在長期和復雜環境中的性能,允許智能體在每一步 進行顯式推理,推理模式變量 ,其中 表示不進行推理, 是預定義的推理模式集合(如描述、總結、錯誤糾正)。推理內容為 。
聯合策略 :智能體的策略由兩部分組成:
導航策略 :根據導航相關的歷史信息 、指令 和之前的推理內容 決定動作 。
推理策略 :決定何時進行推理(通過 或 )以及使用哪種推理模式(通過 )。
整體策略 :聯合策略為:
其中, 表示完整的導航和推理歷史信息。
優化目標 :通過聯合優化導航和推理策略,目標是最大化任務性能,同時保持計算效率:
其中, 同時考慮導航成功(如進度或成功指標)和推理調用引起的延遲懲罰。
自適應推理需要智能體能夠選擇性地決定何時推理有益以及調用哪種模式。然而,現有的大語言模型(LLM)對任務難度不敏感,容易過度自信。
在LLM研究中,通過監督微調引入高質量的推理痕跡可以緩解這一問題。但對于具身智能體,收集這樣的高質量交互痕跡成本過高。
因此,AdaNav提出了一種替代方法,利用可解釋的不確定性信號動態觸發推理,無需依賴大規模推理監督。
動作熵作為不確定性度量 :受語言推理中高熵token對單步文本生成影響較大的啟發,定義動作熵 作為不確定性度量:
其中, 是生成的token數量, 是詞匯表大小, 是時間步 時詞匯表中第 個token的概率。
動作熵的有效性驗證 :通過診斷研究發現,失敗的軌跡具有高且持續的動作熵,而成功的軌跡保持較低的動作熵。單獨的即時動作熵不足以預測失敗,但結合歷史動作熵趨勢和當前動作熵狀態可以提供更可靠的信號 。
UAR Block設計 :UAR Block結合歷史動作熵 和當前觀察 ,形成推理相關信息 ,并將其轉化為緊湊的控制向量:
直接參數化推理模式的logits。從這個向量中,模式選擇策略為:
基于不確定性的先驗 :在冷啟動階段,由于RL策略尚未學會有意義的模式選擇,因此使用基于不確定性的先驗初始化訓練。直觀上,較高的熵表示較高的不確定性,需要更強的推理。計算標量熵分數為過去熵的均值 ,并將其映射到包含“無推理”選項的推理模式上的軟先驗分布:
其中, 是模式特定的熵閾值, 控制先驗的平滑度。
啟發式到RL的過渡 :為了逐漸從啟發式先驗轉移到學習到的RL策略,將先驗分布與模型預測融合為:
其中, 從1逐漸衰減到0,允許RL策略 逐漸接管啟發式先驗 。因此,模式選擇策略可以表示為:
獎勵設計 :首先定義推理成本為基于相對推理長度的歸一化懲罰:
其中, 是當前步的推理長度, 是成功樣本組中最短的生成長度, 是一個常數懲罰窗口。
導航目標獎勵 :采用基于距離減少的常見外在獎勵,即時獎勵定義為 ,其中 表示從當前狀態 到目標位置 的測地線距離。
整體任務獎勵 :將外在獎勵和推理成本結合起來,整體任務獎勵定義為折扣累積回報:
其中, 是折扣因子,控制未來獎勵的權重。這種獎勵設計鼓勵智能體高效地向目標導航,同時避免不必要的推理開銷。
基礎模型 :選擇兩個開源的VLN模型NAVID和NAVILA作為基礎模型,AdaNav被集成到這些模型中。
訓練數據 :從R2R和RxR的訓練集中隨機采樣3000個episode進行訓練。
硬件配置 :使用4塊NVIDIA RTX A100 GPU進行訓練。
基準測試 :在R2R和RxR的val-unseen分割上評估導航性能,并在ScanQA驗證集上評估空間場景理解能力。
VLN-CE基準測試 :與使用百萬級數據訓練的閉源模型相比,AdaNav在僅使用6K訓練樣本的情況下,成功率顯著提升。具體來說,在R2R val-unseen上成功率提高了20%,在RxR-CE val-unseen上提高了14.6%。
跨數據集評估 :在僅使用R2R數據訓練的情況下,AdaNav在RxR val-unseen上的零樣本評估中表現優異,超過了所有閉源基線模型,展示了強大的泛化能力。
空間場景理解 :在ScanQA驗證集上,AdaNav不僅保持了基礎模型的通用場景理解能力,還略有提升,表明其在推理訓練后增強了魯棒性和泛化能力。
真實世界評估 :在真實世界環境中,使用25個樣本或復雜指令進行實驗,AdaNav在會議室、家庭和辦公室三種環境中的成功率顯著提高,平均成功率提升了約11.4%。
訓練數據規模 :分別使用2K、4K和6K訓練數據進行訓練,觀察UAR Block的行為變化。
推理調用分析 :統計推理調用的頻率、分布以及不同推理模式(描述、總結、錯誤糾正)的使用情況。
任務難度分類 :根據基礎模型的成功與否將任務分為“容易”和“困難”兩類,分析UAR Block在不同難度任務中的推理觸發行為。
推理頻率 :隨著訓練數據的增加,模型傾向于減少推理調用的頻率,將推理集中在關鍵時刻,從而平衡效率和效果。
推理模式選擇 :在后期步驟中,模型更傾向于使用總結和錯誤糾正模式,顯示出基于任務上下文的自適應模式選擇能力。
任務難度響應 :在基礎模型失敗的任務(即“困難”任務)中,推理調用的頻率顯著增加,表明UAR Block能夠自適應地將推理能力分配給更具挑戰性的場景。
去除UAR Block :推理以固定步長(例如每5步)或隨機方式觸發,不使用自適應控制。
去除啟發式先驗 :僅依賴強化學習從頭開始訓練,不使用基于不確定性的啟發式先驗。
去除強化學習微調 :僅使用啟發式信號指導推理觸發,不進行進一步的策略優化。
去除UAR Block :性能顯著下降,表明自適應推理控制對于提升導航性能至關重要。
去除啟發式先驗 :訓練初期性能較差,說明啟發式先驗為訓練提供了有效的初始引導。
去除強化學習微調 :性能不如完整AdaNav,表明強化學習微調能夠進一步優化推理策略,提升性能。
關鍵超參數 :主要分析模式特定的熵閾值 和平滑因子 。
實驗設置 :分別測試不同的 (如80%、85%、90%)和 值,觀察對性能的影響。
熵閾值 :較低的 值(如80%)在訓練初期提供了更寬松的推理觸發條件,有助于模型更快地學習推理模式。隨著 的增加,模型需要更高的不確定性才會觸發推理,從而提高了推理的效率。
閾值增量 :適當的 值能夠平衡不同推理模式之間的觸發條件,使模型能夠根據任務難度靈活選擇推理模式。
平滑因子 :較大的 值使先驗分布更加平滑,有助于模型在不同推理模式之間平滑過渡,但過大的 可能導致模型對不確定性信號不夠敏感。
結論 :
AdaNav通過結合可解釋的啟發式先驗和最優的強化學習,提供了一種可擴展的、自適應的推理方法,無需依賴昂貴的標記推理數據,即可在具身任務中實現高效的、困難感知的和模式自適應的推理。
該方法在多個基準測試和真實世界部署中都表現出色,為具身智能體的推理能力提升提供了一個有前景的方向。
未來工作 :
可以進一步探索如何在更復雜的環境和任務中應用和優化AdaNav,例如在多智能體交互場景中實現自適應推理,或者將該框架擴展到其他需要推理的具身任務中。
此外,還可以研究如何進一步提高推理的效率和準確性,以及如何更好地利用有限的數據來訓練更強大的推理模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.