文章來(lái)源:視覺(jué)語(yǔ)言導(dǎo)航。
作者:Tianyu Xu , Jiawei Chen , Jiazhao Zhang , Wenyao Zhang , Zekun Qi , Minghan Li , Zhizheng Zhang , He Wang
單位: 北京大學(xué), Galbot, 上海交通大學(xué), 清華大學(xué), 北京人工智能研究院
論文標(biāo)題:MM-Nav: Multi-View VLA Model for Robust Visual Navigation via Multi-Expert Learning
論文鏈接:https://arxiv.org/pdf/2510.03142v1
項(xiàng)目主頁(yè):https://pku-epic.github.io/MM-Nav-Web/
提出基于多視圖的視覺(jué)-語(yǔ)言-動(dòng)作模型 MM-Nav ,能夠從多個(gè)強(qiáng)化學(xué)習(xí)(RL)專家那里學(xué)習(xí)不同的導(dǎo)航能力,并通過(guò)多專家學(xué)習(xí)實(shí)現(xiàn)魯棒的視覺(jué)導(dǎo)航。
設(shè)計(jì)了 包含兩個(gè)階段的訓(xùn)練過(guò)程 :首先利用從RL專家那里收集的大規(guī)模離線數(shù)據(jù)集對(duì)VLA模型進(jìn)行初始微調(diào);然后通過(guò)在線教師-學(xué)生訓(xùn)練迭代,以能力平衡的方式對(duì)VLA模型進(jìn)行進(jìn)一步的精細(xì)化調(diào)整,使其能夠?qū)W習(xí)到多種導(dǎo)航能力并實(shí)現(xiàn)性能的提升。
在多種 合成環(huán)境和真實(shí)世界環(huán)境 中進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果表明該方法不僅在不同能力的測(cè)試場(chǎng)景中表現(xiàn)出色,還能夠?qū)崿F(xiàn)從仿真到現(xiàn)實(shí)的有效遷移,并且最終超越了專門訓(xùn)練的RL專家,證明了學(xué)習(xí)多種能力的協(xié)同效應(yīng)。
視覺(jué)導(dǎo)航因其模仿人類使用自身視覺(jué)觀察進(jìn)行導(dǎo)航的方式而備受關(guān)注,它能夠提供詳細(xì)的環(huán)境信息且成本較低。然而,視覺(jué)數(shù)據(jù)的解釋和適當(dāng)導(dǎo)航動(dòng)作的規(guī)劃是一個(gè)挑戰(zhàn),需要高度智能的模型和大規(guī)模的導(dǎo)航數(shù)據(jù)。
現(xiàn)有的方法主要通過(guò)學(xué)習(xí)策略來(lái)隱式解釋視覺(jué)輸入并預(yù)測(cè)后續(xù)動(dòng)作,但這些方法受限于有限的觀察視角和相對(duì)寬敞的環(huán)境,難以適用于更具挑戰(zhàn)性的場(chǎng)景。
真實(shí)世界的導(dǎo)航數(shù)據(jù)主要來(lái)自單相機(jī)設(shè)置,缺乏極具挑戰(zhàn)性或危險(xiǎn)性的場(chǎng)景;而合成導(dǎo)航數(shù)據(jù)雖然可以定制相機(jī)配置并生成反映不同導(dǎo)航能力的數(shù)據(jù),但存在仿真到現(xiàn)實(shí)的差距,因?yàn)樗鼈兺ǔ2皇潜普娴摹?/p>
任務(wù)定義 :學(xué)習(xí)一個(gè)速度控制策略 π,使全向機(jī)器人能夠安全地導(dǎo)航到特定的目標(biāo)點(diǎn)。在每個(gè)時(shí)間步 t,給定目標(biāo)點(diǎn)位置 和多視圖 RGB 幀 ,策略 π 輸出一個(gè)動(dòng)作 ,表示全向速度。目標(biāo)是確保策略生成的速度無(wú)碰撞且能到達(dá)指定目標(biāo)。
方法概述 :方法包括兩個(gè)主要步驟:
訓(xùn)練多個(gè) RL 專家并進(jìn)行初始 VLA 微調(diào) :在仿真環(huán)境中訓(xùn)練三個(gè)具有不同導(dǎo)航能力(到達(dá)、擠壓、躲避)的 RL 專家,并收集他們的成功軌跡來(lái)初始化 VLA 模型。
教師-學(xué)生在線訓(xùn)練迭代 :將初步訓(xùn)練的 VLA 模型部署到仿真環(huán)境中,通過(guò)在線收集 RL 專家的動(dòng)作數(shù)據(jù)并進(jìn)行能力平衡的數(shù)據(jù)聚合,迭代地微調(diào) VLA 模型,直到性能收斂。
環(huán)境構(gòu)建 :
到達(dá)(Reaching) :包含隨機(jī)靜態(tài)障礙物的場(chǎng)景,機(jī)器人需要接近并到達(dá)特定目標(biāo)點(diǎn)。
擠壓(Squeezing) :包含密集排列的柱子和狹窄通道的場(chǎng)景,機(jī)器人需要通過(guò)視覺(jué)反饋安全地通過(guò)這些通道。
躲避(Avoiding) :包含動(dòng)態(tài)障礙物的場(chǎng)景,機(jī)器人需要主動(dòng)躲避這些障礙物。
RL 專家架構(gòu) :
使用 PPO 算法進(jìn)行訓(xùn)練,每個(gè)時(shí)間步的觀察包括四個(gè)方向的深度圖像、上一動(dòng)作和目標(biāo)位置。
每個(gè)深度圖像通過(guò) ResNet-18 編碼成特征向量,與上一動(dòng)作、目標(biāo)位置和歷史標(biāo)記拼接后輸入到 MLP 中,預(yù)測(cè)速度動(dòng)作。
獎(jiǎng)勵(lì)函數(shù) :獎(jiǎng)勵(lì)函數(shù)鼓勵(lì)合理、目標(biāo)導(dǎo)向且無(wú)碰撞的行為,不同能力的專家有不同的獎(jiǎng)勵(lì)系數(shù),以指導(dǎo)和專業(yè)化他們的行為。
視覺(jué)觀察編碼 :
使用四個(gè)相機(jī)視圖(前、右、后、左)獲取 360° 觀察。
使用視覺(jué)基礎(chǔ)模型(SigLIP)和交叉模態(tài)投影器將多視圖 RGB 圖像編碼為視覺(jué)標(biāo)記。
使用滑動(dòng)窗口選擇視覺(jué)標(biāo)記,以保持合理的視覺(jué)標(biāo)記序列長(zhǎng)度,確保推理速度。
動(dòng)作預(yù)測(cè) :
將目標(biāo)點(diǎn)格式化為文本提示并編碼為語(yǔ)言標(biāo)記。
將視覺(jué)標(biāo)記和語(yǔ)言標(biāo)記輸入到大型語(yǔ)言模型(Qwen2)中,預(yù)測(cè)動(dòng)作標(biāo)記。
使用動(dòng)作頭(兩層 MLP)將動(dòng)作標(biāo)記轉(zhuǎn)換為機(jī)器人速度。
損失函數(shù) :使用均方誤差損失進(jìn)行動(dòng)作預(yù)測(cè),并保留開(kāi)放世界問(wèn)答數(shù)據(jù)的交叉熵?fù)p失,以減輕仿真到現(xiàn)實(shí)的差距。
初始專家數(shù)據(jù)收集與 VLA 微調(diào) :
收集 RL 專家在仿真中生成的成功軌跡,形成包含 500k 步的數(shù)據(jù)集。
使用這些數(shù)據(jù)對(duì) VLA 模型進(jìn)行初始微調(diào),確保模型在不同場(chǎng)景中具有初步的導(dǎo)航能力。
教師-學(xué)生在線訓(xùn)練迭代 :
將初步訓(xùn)練的 VLA 模型部署到仿真環(huán)境中,收集對(duì)應(yīng) RL 專家的動(dòng)作數(shù)據(jù)。
使用能力平衡的數(shù)據(jù)聚合方法,根據(jù) VLA 模型與 RL 專家之間的性能差距動(dòng)態(tài)調(diào)整數(shù)據(jù)比例。
使用聚合的數(shù)據(jù)微調(diào) VLA 模型,重復(fù)迭代直到性能不再提升。
RL 訓(xùn)練策略 :
在 IsaacLab 中使用 NVIDIA RTX 4090 GPU 訓(xùn)練 RL 專家,采用歷史感知的演員-評(píng)論家架構(gòu)。
深度值被裁剪以過(guò)濾噪聲,動(dòng)作分布初始化時(shí)加入噪聲以鼓勵(lì)探索。
VLA 訓(xùn)練策略 :
在 8 個(gè) NVIDIA H100 GPU 上對(duì)初始 VLA 模型進(jìn)行微調(diào),使用預(yù)訓(xùn)練的視覺(jué)編碼器和 LLM。
初始訓(xùn)練包含來(lái)自三個(gè) RL 專家的 500k 步數(shù)據(jù)和 100k 視覺(jué)問(wèn)答數(shù)據(jù)。
每次教師-學(xué)生訓(xùn)練迭代包含 200k 步在線收集的專家數(shù)據(jù)和 40k 視覺(jué)問(wèn)答數(shù)據(jù)。
部署策略 :
在 Unitree GO2 機(jī)器人上部署方法,使用服務(wù)器上的 NVIDIA RTX 5090 GPU 運(yùn)行 VLA 模型。
使用四個(gè)魚(yú)眼相機(jī)獲取四視圖實(shí)時(shí)圖像,經(jīng)過(guò)校正后輸入到 VLA 模型中。
VLA 模型輸出的速度由低級(jí)控制器執(zhí)行,平均響應(yīng)頻率約為 7Hz。
仿真環(huán)境設(shè)置 :
在 IsaacLab 仿真環(huán)境中評(píng)估方法,設(shè)計(jì)了三個(gè)特定能力的固定場(chǎng)景(Reaching、Squeezing、Avoiding)以及一個(gè)綜合測(cè)試場(chǎng)景(Mixed),后者包含靜態(tài)障礙物、動(dòng)態(tài)障礙物和狹窄通道,用于評(píng)估模型的泛化能力。
每個(gè)仿真場(chǎng)景的終止條件包括:機(jī)器人成功到達(dá)目標(biāo)、與障礙物碰撞或超時(shí)(Reaching、Squeezing、Avoiding 場(chǎng)景為 90 秒,Mixed 場(chǎng)景為 120 秒)。

真實(shí)世界環(huán)境設(shè)置 :
構(gòu)建了四個(gè)真實(shí)世界場(chǎng)景,包括狹窄之字形走廊(Narrow Zigzag Corridor)、薄障礙物躲避(Thin Obstacle Avoidance)、動(dòng)態(tài)環(huán)境(Dynamic Environment)和雜亂靜態(tài)環(huán)境(Cluttered Static Environment),用于評(píng)估從仿真到現(xiàn)實(shí)的遷移能力和泛化能力。
這些場(chǎng)景設(shè)計(jì)用于測(cè)試特定技能,并驗(yàn)證模型對(duì)訓(xùn)練數(shù)據(jù)中不存在的新物體和材料的魯棒性。
評(píng)估指標(biāo)與基線 :
使用三個(gè)指標(biāo)評(píng)估方法:成功率(Success Rate, SR)、碰撞率(Collision Rate, CR)和加權(quán)旅行時(shí)間(Weighted Travel Time, WTT,即成功場(chǎng)景的平均時(shí)間除以成功率)。
每個(gè)方法和場(chǎng)景運(yùn)行 100 個(gè)回合以計(jì)算這些指標(biāo)。
仿真基準(zhǔn)測(cè)試結(jié)果 :
上表總結(jié)了仿真環(huán)境中的定量結(jié)果。與現(xiàn)有方法(如 iPlanner、ViPlanner 和 NavDP)相比,MM-Nav 在幾乎所有測(cè)試場(chǎng)景中都實(shí)現(xiàn)了最高的成功率(SR)、最低的碰撞率(CR)和最短的加權(quán)旅行時(shí)間(WTT)。
例如,在 Reaching 場(chǎng)景中,MM-Nav 的成功率為 80%,碰撞率為 20%,加權(quán)旅行時(shí)間為 31.0 秒;而在 Squeezing 場(chǎng)景中,成功率為 71%,碰撞率為 19%,加權(quán)旅行時(shí)間為 42.2 秒。
這些結(jié)果表明 MM-Nav 不僅能夠確保無(wú)碰撞運(yùn)動(dòng),還能規(guī)劃出更有效的路徑。

真實(shí)世界場(chǎng)景中的表現(xiàn) :
在狹窄之字形走廊和雜亂靜態(tài)環(huán)境中,機(jī)器人能夠精確調(diào)整以通過(guò)障礙物,展現(xiàn)出出色的敏捷性。
在薄障礙物躲避場(chǎng)景中,機(jī)器人成功避開(kāi)了薄織物條,這些障礙物對(duì)于激光雷達(dá)傳感器來(lái)說(shuō)很難檢測(cè)(激光雷達(dá)傳感器的本地避障系統(tǒng)完全失敗)。
在辦公室走廊泛化場(chǎng)景中,模型能夠繞過(guò)未見(jiàn)過(guò)的物體,如椅子,并處理部分透明的玻璃墻等具有挑戰(zhàn)性的材料,確認(rèn)了其從仿真到現(xiàn)實(shí)的泛化能力。
在線訓(xùn)練迭代的性能提升 :
上圖展示了初始 VLA 模型及其變體在前四次訓(xùn)練迭代后的性能。初始行為克隆訓(xùn)練后,VLA 模型在所有三種能力中都存在明顯的性能差距,特別是在擠壓能力方面。
通過(guò)幾次在線訓(xùn)練迭代,模型的性能逐漸提高。在第一次迭代中,能力平衡的數(shù)據(jù)聚合方法重點(diǎn)關(guān)注擠壓能力,導(dǎo)致了顯著的改進(jìn)。經(jīng)過(guò)四次迭代后,三種任務(wù)的性能趨于穩(wěn)定,且 VLA 模型在所有任務(wù)中的表現(xiàn)都超過(guò)了 RL 專家。
能力平衡數(shù)據(jù)聚合方法的優(yōu)勢(shì) :
基于相同的初始 VLA 模型,使用能力平衡的數(shù)據(jù)和不平衡的數(shù)據(jù)分別進(jìn)行訓(xùn)練迭代。結(jié)果表明,能力平衡的方法能夠及時(shí)補(bǔ)充缺乏的能力,實(shí)現(xiàn)更快更穩(wěn)定的訓(xùn)練。
盡管不平衡的方法在 Reaching 場(chǎng)景中取得了更好的性能,但在 Squeezing 和 Avoiding 場(chǎng)景中學(xué)習(xí)效率低下。能力平衡的方法有助于將不同 RL 專家的數(shù)據(jù)融合在一起,防止 VLA 模型忽視特定能力。
專家組合策略的效果 :
通過(guò)訓(xùn)練三個(gè) VLA 模型,每個(gè)模型使用來(lái)自單一 RL 專家的數(shù)據(jù),以及在混合場(chǎng)景中訓(xùn)練的單一 RL 專家,來(lái)研究組合不同能力的 RL 專家對(duì) VLA 學(xué)生的影響。
上表顯示,使用單一數(shù)據(jù)源訓(xùn)練的模型在對(duì)應(yīng)場(chǎng)景中表現(xiàn)出色,但在需要未見(jiàn)能力的任務(wù)中泛化能力差。相比之下,使用混合數(shù)據(jù)訓(xùn)練的 VLA 模型在跨能力性能上表現(xiàn)出顯著的優(yōu)勢(shì),超過(guò)了所有單一數(shù)據(jù)源訓(xùn)練的模型。
這表明不同能力之間的互補(bǔ)性和相互增強(qiáng)性,單一專家訓(xùn)練的模型在特定領(lǐng)域表現(xiàn)出色,但缺乏其他能力提供的更廣泛上下文知識(shí)。而混合訓(xùn)練使學(xué)生接觸到多種技能維度,能夠構(gòu)建跨越多個(gè)能力的共享表示。
結(jié)論 :
MM-Nav通過(guò)從多個(gè)專門的RL專家那里學(xué)習(xí),成功地獲得了一種強(qiáng)大的、通用的視覺(jué)導(dǎo)航策略,證明了學(xué)習(xí)多種能力的協(xié)同效應(yīng),并為訓(xùn)練新一代通用視覺(jué)導(dǎo)航智能體提供了一個(gè)可擴(kuò)展且有效的藍(lán)圖。
未來(lái)工作 :
探索該訓(xùn)練策略的跨實(shí)體潛力,并進(jìn)一步通過(guò)VLA和其他方法推進(jìn)僅視覺(jué)導(dǎo)航的發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.