網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

VL-LN Bench：模擬「邊走邊問找具體目標(biāo)」的真實(shí)導(dǎo)航場景

2026-02-02 17:10:55　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本工作由上海人工智能實(shí)驗(yàn)室、中國科學(xué)技術(shù)大學(xué)、浙江大學(xué)、香港大學(xué) 的研究者們共同完成。

https://mp.weixin.qq.com/s/Sbac5L2fUbnF2TBBW8O1xg?click_id=48

論文標(biāo)題：VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
項(xiàng)目主頁：https://0309hws.github.io/VL-LN.github.io/
ArXiv 論文：https://arxiv.org/abs/2512.22342
Hugging Face 數(shù)據(jù)集： https://huggingface.co/datasets/InternRobotics/VL-LN-Bench
Hugging Face 模型：https://huggingface.co/InternRobotics/VL-LN-Bench-basemodel
GitHub 代碼庫：https://github.com/InternRobotics/VL-LN

交互式實(shí)例導(dǎo)航任務(wù)

（Interactive Instance Goal Navigation, IIGN）

如果將一臺在視覺語言導(dǎo)航（VLN）任務(wù)中表現(xiàn)優(yōu)異的機(jī)器人直接搬進(jìn)家庭場景，往往會遇到不少實(shí)際問題。

首先是使用門檻偏高：傳統(tǒng) VLN 需要用戶給出又長又精確的路線式指令，例如 “從門口直走三步，看到門右轉(zhuǎn)，再往前……”，這會顯著增加溝通成本，降低日常使用體驗(yàn)。

相比之下，人們更期待一種更自然的交互方式，比如只用隨口一句 “找到我的背包” 即可。這樣的設(shè)定更接近目標(biāo)物體導(dǎo)航（ObjectNav）任務(wù)，但它也存在明顯不足：機(jī)器人只會找到場景內(nèi)任意一個(gè)背包交差，而無法定位用戶真正需要的書包，這顯然無法滿足需求。

正因?yàn)檎鎸?shí)場景里用戶的表達(dá)常常簡短且含糊，而機(jī)器人又必須把目標(biāo)精確落實(shí)到某一個(gè)具體實(shí)例上，交互式實(shí)例導(dǎo)航才顯得格外關(guān)鍵。機(jī)器人既不能指望用戶一開始就把所有信息交代清楚，也不能用 “找到同類就算完成” 的方式草草應(yīng)付；相反，它應(yīng)在探索過程中主動(dòng)提問、逐步澄清歧義，像人一樣把 “到底是哪一個(gè)” 問明白，再高效準(zhǔn)確地完成用戶的需求。

交互式實(shí)例導(dǎo)航示例：用戶要求機(jī)器人找到場景中某一張凳子（綠框），但存在大量相似干擾項(xiàng)（紅框），因此機(jī)器人需在探索中結(jié)合觀察主動(dòng)提問，逐步縮小候選范圍，直到鎖定目標(biāo)。

構(gòu)建 VL-LN 基準(zhǔn)：

面向 IIGN 任務(wù)的自動(dòng)化數(shù)據(jù)收集及評測

語言交互是人們?nèi)粘＝换プ畛Ｒ姷男问街唬呱碇悄荏w要更好地融入人類生活也需要具有進(jìn)行這種高效的信息交流形式的能力。不同于傳統(tǒng) VLN 僅僅聚焦 “導(dǎo)航動(dòng)作（Navigation）執(zhí)行得好不好”，VL-LN 還關(guān)注機(jī)器人能否在導(dǎo)航過程中與人類進(jìn)行高效的語言交互（Language+Navigation）來提升任務(wù)的成功率與效率。

為此，VL-LN 面向交互式實(shí)例導(dǎo)航任務(wù)構(gòu)建了一套自動(dòng)化數(shù)據(jù)收集管線，并依托 InternVLA-N1 標(biāo)準(zhǔn)化模型訓(xùn)練與評測。

自動(dòng)化數(shù)據(jù)收集管線

交互式實(shí)例導(dǎo)航數(shù)據(jù)收集流程

數(shù)據(jù)收集包含三個(gè)步驟，作者首先整理了場景元數(shù)據(jù)，進(jìn)而生成能用于在線采樣的序列（episode）數(shù)據(jù)，最后在規(guī)則驅(qū)動(dòng)的交互機(jī)制下批量采集交互導(dǎo)航訓(xùn)練軌跡（trajectory），具體內(nèi)容包括：

場景元數(shù)據(jù)處理：基于 MMScan 對 MP3D 場景的標(biāo)注信息，將按房間分散的物體信息整合成全屋級的元數(shù)據(jù)，主要包括兩個(gè)字典：目標(biāo)實(shí)例字典（instance dictionary，存儲每個(gè)物體的空間關(guān)系、屬性等基本信息）和區(qū)域字典（region dictionary，存儲房間的位置、物體等信息）

序列生成：每個(gè)有效序列由起始位姿、導(dǎo)航指令、目標(biāo)實(shí)例的可停止視點(diǎn)三個(gè)主要信息組成。針對每一個(gè)目標(biāo)實(shí)例作者均提供兩個(gè)版本的導(dǎo)航指令。一種導(dǎo)航指令只有目標(biāo)實(shí)例的類別（Partial instruction，用于交互式實(shí)例導(dǎo)航任務(wù)，必須靠對話消歧），另一種導(dǎo)航指令是能在場景內(nèi)唯一鎖定目標(biāo)實(shí)例的完整描述（Full instruction，可用于評測訓(xùn)練非交互的任務(wù)）。可停止視點(diǎn)（view point）指機(jī)器人在導(dǎo)航過程中可以合法停止并判定 “已找到目標(biāo)” 的一組視點(diǎn)位置。

交互導(dǎo)航軌跡采集：該階段主要采用一個(gè)集成了基于邊界點(diǎn)的探索算法（Frontier-Based Exploration）與目標(biāo)實(shí)例分割器的智能體。在數(shù)據(jù)采集過程中，智能體除探索未知區(qū)域外，還會按規(guī)則主動(dòng)提出三類問題：屬性（目標(biāo)實(shí)例長什么樣？）、路線（如何到達(dá)目標(biāo)？）和目標(biāo)消歧（是否為眼前的實(shí)例？），從而生成相應(yīng)的交互式導(dǎo)航軌跡。

通過該流程，作者構(gòu)建了大規(guī)模交互式實(shí)例導(dǎo)航數(shù)據(jù)以支撐模型訓(xùn)練。下圖給出了數(shù)據(jù)的總體統(tǒng)計(jì)。作為首個(gè)大規(guī)模交互式實(shí)例導(dǎo)航數(shù)據(jù)集，其主要優(yōu)勢在于：

規(guī)模：40k導(dǎo)航序列，相比現(xiàn)有交互導(dǎo)航數(shù)據(jù)集（約7k）提升一個(gè)量級
多樣性：覆蓋150+物體類別與3類問答（屬性 / 位置 / 消歧），自由組合形成豐富訓(xùn)練樣本；
難度覆蓋：包含長時(shí)程軌跡（steps > 300）與多輪對話樣本（dialog turns > 5），覆蓋復(fù)雜困難場景。

第一行分別展示了每條軌跡的路徑步數(shù)、對話輪數(shù)和每輪對話長度的頻率直方圖；第二行展示了問題類型與目標(biāo)類型的統(tǒng)計(jì)結(jié)果，以及對話中高頻詞的詞云圖。

NPC 支撐的自動(dòng)化在線評測基準(zhǔn)

為了評測智能體完成交互式實(shí)例導(dǎo)航（IIGN）的能力，并與非交互式實(shí)例導(dǎo)航（IGN）進(jìn)行對比，VL-LN 基準(zhǔn)提供了可用于測試兩類任務(wù)的測試集。針對交互式實(shí)例導(dǎo)航的自動(dòng)化評測，VL-LN 還實(shí)現(xiàn)了一個(gè)由 GPT-4o 驅(qū)動(dòng)的 NPC，它能夠回答智能體在導(dǎo)航過程中提出的問題。此外，為了評估智能體提問效率，VL-LN 定義新的指標(biāo) MSP（Mean Success Progress），用于衡量主動(dòng)對話帶來的增益。

從結(jié)果到原因：

交互式實(shí)例導(dǎo)航的能力與挑戰(zhàn)

通過使用不同的數(shù)據(jù)對 Qwen2.5-VL-7B-Instruct 進(jìn)行微調(diào)，作者訓(xùn)練了三個(gè)模型。具體訓(xùn)練所使用的數(shù)據(jù)如下：

VLLN-O (object)：VLN + ObjectNav 軌跡數(shù)據(jù)
VLLN-I (instance)：VLN + ObjectNav + IGN 軌跡數(shù)據(jù)
VLLN-D (dialog)：VLN + ObjectNav + IIGN 軌跡數(shù)據(jù)（論文的核心模型）

評測同時(shí)覆蓋兩類任務(wù)：

IIGN（交互式實(shí)例導(dǎo)航）：允許提問（對話輪數(shù)限制在 5 輪）
IGN（實(shí)例導(dǎo)航）：不允許對話，但提供足以唯一鎖定目標(biāo)實(shí)例的全量指令

實(shí)驗(yàn)結(jié)果如下表所示

為了進(jìn)一步確定模型在交互式實(shí)例導(dǎo)航任務(wù)上的性能和瓶頸，研究團(tuán)隊(duì)對實(shí)驗(yàn)結(jié)果進(jìn)行系統(tǒng)性復(fù)盤，并將實(shí)驗(yàn)結(jié)論總結(jié)如下：

VL-LN Bench 錯(cuò)誤類型分布

不同對話輪次上限下的 IIGN 性能

對話消歧在任務(wù)存在歧義時(shí)顯著提升成功率：在 IIGN 與 IGN 上，具備提問能力的 VLLN-D 成功率均高于僅會探索的 VLLN-I，成功率分別提升6.0%與2.6%。在對話輪次上限消融中，隨著上限由0增至5，VLLN-D 的 SR 由15.4%提升至20.2%。

物體 — 圖像對齊是核心瓶頸：無論在 IIGN 還是 IGN 任務(wù)中，約 70% 的失敗都源于目標(biāo)未被成功檢測，說明性能瓶頸主要不在導(dǎo)航策略，而在于目標(biāo)實(shí)例與圖像觀測之間的對齊能力。

相較于全量信息設(shè)置，問答機(jī)制帶來的信息增益仍然有限：VLLN-D 在 IIGN 上的成功率為 20.2%，低于其在無法提問、但具備全量信息的 IGN 上的 21.8%，說明對當(dāng)前模型而言，對話帶來的增益仍弱于信息補(bǔ)全帶來的增益。

與人類仍有顯著差距：論文設(shè)置人類 IIGN 測試（一人負(fù)責(zé)提問與探索，另一人負(fù)責(zé)回答），結(jié)果顯示人類平均僅需2輪對話即可達(dá)到93%成功率，表明當(dāng)前模型與人類水平仍存在巨大差距。

結(jié)語

VL-LN Bench 是一個(gè)面向長時(shí)程交互式實(shí)例導(dǎo)航（IIGN）任務(wù)的高質(zhì)量、高挑戰(zhàn)且體系完備的評測基準(zhǔn)，可系統(tǒng)評估智能體在 3D 環(huán)境中的長程探索、實(shí)例級目標(biāo)識別與對話消歧能力。

與此同時(shí)，基準(zhǔn)配套自動(dòng)化數(shù)據(jù)采集管線與 NPC 評測機(jī)制，為交互式導(dǎo)航能力的訓(xùn)練與評估提供了一條可規(guī)模化、可復(fù)現(xiàn)的標(biāo)準(zhǔn)化路徑。評測結(jié)果清晰表明：引入主動(dòng)對話能夠顯著提升智能體在 IIGN 與 IGN 任務(wù)中的整體表現(xiàn)，但同時(shí)也揭示了當(dāng)前方法在實(shí)例級感知對齊與高信息增益提問策略等關(guān)鍵環(huán)節(jié)上仍存在明顯短板，為未來面向空間智能體的 “會走” 到 “會邊走邊問” 的技術(shù)演進(jìn)提供了研究方向與啟發(fā)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.