文章來(lái)源:視覺(jué)語(yǔ)言導(dǎo)航。
作者:LinFeng Li , Jian Zhao , Yuan Xie , Xin Tan , Xuelong Li
單位: 華東師范大學(xué), 中國(guó)電信人工智能研究所
論文標(biāo)題:CompassNav: Steering From Path Imitation To Decision Understanding In Navigation
論文鏈接:https://arxiv.org/pdf/2510.10154
項(xiàng)目主頁(yè):https://linengcs.github.io/CompassNav/
代碼鏈接:https://github.com/linengcs/CompassNav
提出新的導(dǎo)航范式 :從傳統(tǒng)的路徑模仿轉(zhuǎn)變?yōu)闆Q策理解,旨在培養(yǎng)能夠真正理解導(dǎo)航?jīng)Q策的智能體,而不僅僅是模仿專家路徑。
構(gòu)建Compass-Data-22k數(shù)據(jù)集 :包含22k軌跡,其中的RFT子集通過(guò)為每一步的所有可行動(dòng)作標(biāo)注A*測(cè)地線距離,為決策空間提供了全景視圖。
設(shè)計(jì)差距感知混合獎(jiǎng)勵(lì)函數(shù) :根據(jù)決策確定性動(dòng)態(tài)調(diào)整反饋,既能為最優(yōu)動(dòng)作提供明確信號(hào),又能鼓勵(lì)探索,與RFT子集的密集標(biāo)注緊密結(jié)合,培養(yǎng)智能體的決策能力。
實(shí)現(xiàn)CompassNav框架 :采用SFT-then-RFT的訓(xùn)練方案,使7B參數(shù)的智能體在目標(biāo)導(dǎo)航基準(zhǔn)測(cè)試中達(dá)到新的最高水平,超越了更大的專有模型,并在真實(shí)物理環(huán)境中實(shí)現(xiàn)了穩(wěn)健的目標(biāo)導(dǎo)航。
目標(biāo)導(dǎo)航的重要性 :目標(biāo)導(dǎo)航是智能體在復(fù)雜、未見(jiàn)過(guò)的環(huán)境中自主操作的關(guān)鍵能力之一,要求智能體能夠自由探索并進(jìn)行空間推理以實(shí)現(xiàn)目標(biāo),而無(wú)需明確的、逐步的指導(dǎo)。
現(xiàn)有方法的局限性 :目前主流的訓(xùn)練視覺(jué)語(yǔ)言大模型(LVLM)進(jìn)行導(dǎo)航的方法依賴于模仿專家軌跡,這種方法將復(fù)雜的導(dǎo)航任務(wù)簡(jiǎn)化為單一正確路徑的序列復(fù)制,限制了智能體的探索能力和泛化能力。
創(chuàng)建一個(gè)能夠提供密集、細(xì)粒度監(jiān)督信號(hào)的數(shù)據(jù)集,以支持智能體學(xué)習(xí)決策理解,而不僅僅是模仿單一專家路徑。
使用 Action Proposer Module(APM) ,在每個(gè)時(shí)間步生成可行的候選動(dòng)作,這些動(dòng)作以極坐標(biāo)元組(r,θ)表示,并在智能體的視野中以箭頭形式渲染。
利用 Oracle A* Planner ,為每個(gè)候選動(dòng)作計(jì)算到目標(biāo)的測(cè)地線距離。智能體主要沿著最優(yōu)路徑前進(jìn),但在存在多個(gè)幾乎最優(yōu)的動(dòng)作(決策點(diǎn)模糊)時(shí),會(huì)探索并記錄這些替代路徑。
記錄每一步中所有候選動(dòng)作的測(cè)地線距離,生成多樣化的目標(biāo)中心軌跡,每一步都標(biāo)注了全景式的監(jiān)督信號(hào),捕捉了到達(dá)目標(biāo)的多條有效路徑。
數(shù)據(jù)結(jié)構(gòu) :將生成的密集標(biāo)注數(shù)據(jù)結(jié)構(gòu)化為RFT(Reinforcement Fine-Tuning)數(shù)據(jù)。每個(gè)RFT數(shù)據(jù)樣本包含標(biāo)準(zhǔn)輸入(指令提示和智能體當(dāng)前視覺(jué)觀察)以及用于獎(jiǎng)勵(lì)建模的專門目標(biāo)對(duì)象。目標(biāo)對(duì)象包含最優(yōu)動(dòng)作的ID以及該步驟所有候選動(dòng)作的完整A*距離向量,為差距感知混合獎(jiǎng)勵(lì)函數(shù)和GRPO(Group-wise Reward Policy Optimization)框架提供了必要的細(xì)粒度、分級(jí)偏好信號(hào)。
解決從基礎(chǔ)LVLM(Large Vision-Language Model)直接開(kāi)始RFT(Reinforcement Fine-Tuning)時(shí)面臨的“冷啟動(dòng)”問(wèn)題,通過(guò)知識(shí)蒸餾策略為智能體提供一個(gè)基礎(chǔ)的“推理-行動(dòng)”能力。
采用強(qiáng)大的教師模型Qwen-QvQ,在habitat-sim中執(zhí)行ObjectNav任務(wù),記錄其成功劇集中的完整推理過(guò)程和動(dòng)作選擇。
僅從教師模型的成功劇集中提取數(shù)據(jù),形成SFT(Supervised Fine-Tuning)數(shù)據(jù)集,以反映有效的探索策略。
數(shù)據(jù)結(jié)構(gòu) :每個(gè)SFT訓(xùn)練實(shí)例與RFT數(shù)據(jù)具有相同的輸入結(jié)構(gòu),但目標(biāo)輸出是一個(gè)包含教師完整推理過(guò)程和決策的單個(gè)字符串,格式為
...reasoning... k,明確訓(xùn)練模型在采取行動(dòng)之前外化其推理過(guò)程,建立基礎(chǔ)的“推理-行動(dòng)”行為。
通過(guò)模仿學(xué)習(xí)培養(yǎng)智能體的基礎(chǔ)“推理-行動(dòng)”能力,為后續(xù)的RFT階段提供一個(gè)良好的初始策略。
使用Compass-Data-SFT-11k數(shù)據(jù)集,訓(xùn)練模型在每個(gè)時(shí)間步生成兩部分響應(yīng):推理過(guò)程和最終動(dòng)作選擇,格式為
... k。采用 掩碼多選解碼技術(shù) ,通過(guò)在解碼器的輸出logits上應(yīng)用掩碼softmax,限制詞匯表僅包含有效候選動(dòng)作的索引,確保生成的所有輸出都是可執(zhí)行的,這對(duì)于后續(xù)RFT階段的穩(wěn)定性至關(guān)重要。
使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)對(duì)整個(gè)教師生成的序列(包括推理標(biāo)記和最終動(dòng)作標(biāo)記)進(jìn)行訓(xùn)練,以學(xué)習(xí)模仿教師模型的推理和決策過(guò)程。
在SFT初始化的策略基礎(chǔ)上,利用環(huán)境目標(biāo)對(duì)齊策略,通過(guò)差距感知混合獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)真正的決策理解。
使用GRPO(Group-wise Reward Policy Optimization)框架,對(duì)給定的輸入提示,使用策略πθ生成一組G個(gè)不同的輸出序列,并為每個(gè)生成的序列根據(jù)選擇的動(dòng)作質(zhì)量分配獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)由差距感知混合獎(jiǎng)勵(lì)函數(shù)計(jì)算。
差距感知混合獎(jiǎng)勵(lì)函數(shù) :
基礎(chǔ)分?jǐn)?shù) :通過(guò)softmax函數(shù)根據(jù)到目標(biāo)的距離對(duì)所有可用選項(xiàng)進(jìn)行連續(xù)評(píng)估,距離越短的動(dòng)作得分越高,反映其相對(duì)質(zhì)量。
動(dòng)態(tài)獎(jiǎng)金 :通過(guò)測(cè)量最佳和次佳選項(xiàng)之間的歸一化差距來(lái)評(píng)估當(dāng)前情況的確定性,差距越大,確定性越高,獎(jiǎng)金也越高,但僅對(duì)最優(yōu)行動(dòng)觸發(fā)。
最終獎(jiǎng)勵(lì)將基礎(chǔ)分?jǐn)?shù)與動(dòng)態(tài)獎(jiǎng)金相結(jié)合,通過(guò)調(diào)整獎(jiǎng)勵(lì)信號(hào)的強(qiáng)度,既能在高確定性情況下提供明確的信號(hào),又能在低確定性情況下鼓勵(lì)探索。
目標(biāo)函數(shù) :GRPO目標(biāo)函數(shù)最大化生成組的預(yù)期獎(jiǎng)勵(lì),在計(jì)算優(yōu)勢(shì)后,通過(guò)最小化損失函數(shù)來(lái)優(yōu)化策略,同時(shí)使用KL散度項(xiàng)對(duì)策略更新進(jìn)行正則化,以保持策略與SFT階段的參考策略之間的相似性,從而鼓勵(lì)策略生成導(dǎo)致高獎(jiǎng)勵(lì)動(dòng)作的序列。
數(shù)據(jù)集和任務(wù) :
在habitat-sim中使用HM3Dv2訓(xùn)練集生成訓(xùn)練數(shù)據(jù)。
在HM3Dv1-val、HM3Dv2-val和MP3D-val三個(gè)未見(jiàn)驗(yàn)證集上評(píng)估智能體的泛化能力,這些驗(yàn)證集包含完全未見(jiàn)過(guò)的場(chǎng)景和目標(biāo)實(shí)例,確保對(duì)智能體在新環(huán)境中的導(dǎo)航能力進(jìn)行嚴(yán)格評(píng)估。
主要任務(wù)是Object-Goal(Chaplot et al., 2020)和Instance-Image-Goal Navigation(Krantz et al., 2022)。
評(píng)估指標(biāo) :
成功率(SR):衡量成功劇集的比例。
路徑長(zhǎng)度加權(quán)成功率(SPL):根據(jù)實(shí)際路徑與最優(yōu)路徑長(zhǎng)度的比值對(duì)每次成功進(jìn)行加權(quán)。
實(shí)現(xiàn)細(xì)節(jié) :
CompassNav基于開(kāi)源的Qwen2.5-VL-7B模型構(gòu)建。
使用兩階段SFT-then-RFT訓(xùn)練方案。
具體訓(xùn)練框架、超參數(shù)和硬件配置等詳細(xì)信息見(jiàn)附錄E。
與模塊化導(dǎo)航方法的比較 :

上表展示了CompassNav與多種先進(jìn)模塊化系統(tǒng)(如Habitat-Web、ESC、L3MVN、InstructNav、PSL、VoroNav、Pixel-Nav、VLFM、GAMap、SG-Nav和UniGoal等)的對(duì)比結(jié)果。
CompassNav在HM3D和MP3D驗(yàn)證集上的成功率(SR)和成功率加權(quán)路徑長(zhǎng)度(SPL)指標(biāo)均優(yōu)于或接近這些模塊化方法,盡管CompassNav采用的是更簡(jiǎn)單的端到端方法,而模塊化方法通常依賴于復(fù)雜的多階段流程和顯式記憶(如語(yǔ)義地圖、歷史圖像等)。
例如,在HM3Dv2-val驗(yàn)證集上,CompassNav的SR為56.6%,SPL為27.6%,而UniGoal的SR為54.5%,SPL為25.1%。
與端到端LVLM的比較 :

上表展示了CompassNav與各種開(kāi)源和專有模型的對(duì)比結(jié)果。
CompassNav顯著優(yōu)于其他大型LVLM,如Qwen2-VL-7B、Qwen2.5-VL-3B、LLama3.2-11B等,甚至超過(guò)了以強(qiáng)大通用推理能力著稱的GPT-4o和Gemini-2.5-Flash等模型。
例如,在ObjectNav任務(wù)上,CompassNav的SR為61.6%,SPL為27.8%,而GPT-4o的SR為52.4%,SPL為23.5%。
特別地,CompassNav在HM3D-OVON基準(zhǔn)測(cè)試中超越了Nav-R1,盡管Nav-R1使用了更多的訓(xùn)練數(shù)據(jù),并且從3D專用模型開(kāi)始訓(xùn)練,而CompassNav僅使用了十分之一的訓(xùn)練數(shù)據(jù),并從通用LVLM開(kāi)始訓(xùn)練,這進(jìn)一步證明了CompassNav框架的有效性。
SFT的有效性:

上表展示了從基礎(chǔ)模型直接開(kāi)始RFT只能獲得有限的性能提升(SR為23.5%,SPL為6.95%),而經(jīng)過(guò)SFT初始化后再進(jìn)行RFT可以顯著提高性能(SR為35.6%,SPL為14.8%),驗(yàn)證了兩階段方法的協(xié)同作用。
此外,僅在SFT階段教授模型輸出導(dǎo)航任務(wù)的動(dòng)作空間實(shí)際上會(huì)降低性能(SR為17.9%,SPL為5.78%),這表明CompassNav框架中完整的SFT過(guò)程對(duì)于培養(yǎng)智能體的推理能力至關(guān)重要。
獎(jiǎng)勵(lì)函數(shù)的分析:


上圖和上表展示了差距感知混合獎(jiǎng)勵(lì)函數(shù)的優(yōu)越性。
與二進(jìn)制獎(jiǎng)勵(lì)和線性歸一化最小-最大獎(jiǎng)勵(lì)等常見(jiàn)基線相比,差距感知混合獎(jiǎng)勵(lì)函數(shù)在不同導(dǎo)航場(chǎng)景下表現(xiàn)出更好的性能,能夠?yàn)橹悄荏w提供更有意義的學(xué)習(xí)信號(hào),促進(jìn)其泛化能力。
例如,在高確定性情況下,差距感知混合獎(jiǎng)勵(lì)函數(shù)能夠?yàn)樽顑?yōu)動(dòng)作和次優(yōu)動(dòng)作之間創(chuàng)建較大的獎(jiǎng)勵(lì)差距(如1.00與0.12),而在低確定性情況下,它能夠?yàn)榻咏膭?dòng)作分配類似的非極端分?jǐn)?shù),鼓勵(lì)探索而不是任意懲罰可行的選擇。
此外,訓(xùn)練動(dòng)態(tài)曲線表明,盡管二進(jìn)制和最小-最大獎(jiǎng)勵(lì)模型在訓(xùn)練過(guò)程中能夠獲得較高的分?jǐn)?shù),但這僅僅是因?yàn)樗鼈冊(cè)谀7聠我蛔罴褎?dòng)作方面表現(xiàn)出色,而差距感知混合獎(jiǎng)勵(lì)函數(shù)雖然在絕對(duì)分?jǐn)?shù)上較低,但它教會(huì)了模型評(píng)估所有選項(xiàng),從而培養(yǎng)了更通用的推理能力。
結(jié)論 :
CompassNav框架通過(guò)從路徑模仿轉(zhuǎn)向決策理解,成功地將一個(gè)7B參數(shù)的LVLM轉(zhuǎn)變?yōu)榫哂行伦罡咚綄?dǎo)航能力的專家智能體。
該框架不僅在模擬環(huán)境中超越了更大的專有模型,還在真實(shí)世界的部署中表現(xiàn)出了穩(wěn)健的性能,為未來(lái)低成本、智能的具身智能體研究鋪平了道路。
未來(lái)工作 :
進(jìn)一步優(yōu)化數(shù)據(jù)生成管道以提高效率和數(shù)據(jù)質(zhì)量;探索更復(fù)雜的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),以更好地捕捉導(dǎo)航任務(wù)中的各種因素。
研究如何將外部記憶模塊與框架更有效地集成,以增強(qiáng)智能體的長(zhǎng)期規(guī)劃和記憶能力等。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.