<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      VL-LN Bench:模擬「邊走邊問找具體目標(biāo)」的真實(shí)導(dǎo)航場景

      0
      分享至



      本工作由上海人工智能實(shí)驗(yàn)室、中國科學(xué)技術(shù)大學(xué)、浙江大學(xué)、香港大學(xué) 的研究者們共同完成。


      https://mp.weixin.qq.com/s/Sbac5L2fUbnF2TBBW8O1xg?click_id=48



      • 論文標(biāo)題:VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
      • 項(xiàng)目主頁:https://0309hws.github.io/VL-LN.github.io/
      • ArXiv 論文:https://arxiv.org/abs/2512.22342
      • Hugging Face 數(shù)據(jù)集: https://huggingface.co/datasets/InternRobotics/VL-LN-Bench
      • Hugging Face 模型:https://huggingface.co/InternRobotics/VL-LN-Bench-basemodel
      • GitHub 代碼庫:https://github.com/InternRobotics/VL-LN

      交互式實(shí)例導(dǎo)航任務(wù)

      (Interactive Instance Goal Navigation, IIGN)

      如果將一臺在視覺語言導(dǎo)航(VLN)任務(wù)中表現(xiàn)優(yōu)異的機(jī)器人直接搬進(jìn)家庭場景,往往會遇到不少實(shí)際問題。

      首先是使用門檻偏高:傳統(tǒng) VLN 需要用戶給出又長又精確的路線式指令,例如 “從門口直走三步,看到門右轉(zhuǎn),再往前……”,這會顯著增加溝通成本,降低日常使用體驗(yàn)。

      相比之下,人們更期待一種更自然的交互方式,比如只用隨口一句 “找到我的背包” 即可。這樣的設(shè)定更接近目標(biāo)物體導(dǎo)航(ObjectNav)任務(wù),但它也存在明顯不足:機(jī)器人只會找到場景內(nèi)任意一個(gè)背包交差,而無法定位用戶真正需要的書包,這顯然無法滿足需求。

      正因?yàn)檎鎸?shí)場景里用戶的表達(dá)常常簡短且含糊,而機(jī)器人又必須把目標(biāo)精確落實(shí)到某一個(gè)具體實(shí)例上,交互式實(shí)例導(dǎo)航才顯得格外關(guān)鍵。機(jī)器人既不能指望用戶一開始就把所有信息交代清楚,也不能用 “找到同類就算完成” 的方式草草應(yīng)付;相反,它應(yīng)在探索過程中主動(dòng)提問、逐步澄清歧義,像人一樣把 “到底是哪一個(gè)” 問明白,再高效準(zhǔn)確地完成用戶的需求。



      交互式實(shí)例導(dǎo)航示例:用戶要求機(jī)器人找到場景中某一張凳子(綠框),但存在大量相似干擾項(xiàng)(紅框),因此機(jī)器人需在探索中結(jié)合觀察主動(dòng)提問,逐步縮小候選范圍,直到鎖定目標(biāo)。

      構(gòu)建 VL-LN 基準(zhǔn):

      面向 IIGN 任務(wù)的自動(dòng)化數(shù)據(jù)收集及評測

      語言交互是人們?nèi)粘=换プ畛R姷男问街唬呱碇悄荏w要更好地融入人類生活也需要具有進(jìn)行這種高效的信息交流形式的能力。不同于傳統(tǒng) VLN 僅僅聚焦 “導(dǎo)航動(dòng)作(Navigation)執(zhí)行得好不好”,VL-LN 還關(guān)注機(jī)器人能否在導(dǎo)航過程中與人類進(jìn)行高效的語言交互(Language+Navigation)來提升任務(wù)的成功率與效率。

      為此,VL-LN 面向交互式實(shí)例導(dǎo)航任務(wù)構(gòu)建了一套自動(dòng)化數(shù)據(jù)收集管線,并依托 InternVLA-N1 標(biāo)準(zhǔn)化模型訓(xùn)練評測

      自動(dòng)化數(shù)據(jù)收集管線



      交互式實(shí)例導(dǎo)航數(shù)據(jù)收集流程

      數(shù)據(jù)收集包含三個(gè)步驟,作者首先整理了場景元數(shù)據(jù),進(jìn)而生成能用于在線采樣的序列(episode)數(shù)據(jù),最后在規(guī)則驅(qū)動(dòng)的交互機(jī)制下批量采集交互導(dǎo)航訓(xùn)練軌跡(trajectory),具體內(nèi)容包括:

      場景元數(shù)據(jù)處理:基于 MMScan 對 MP3D 場景的標(biāo)注信息,將按房間分散的物體信息整合成全屋級的元數(shù)據(jù),主要包括兩個(gè)字典:目標(biāo)實(shí)例字典(instance dictionary,存儲每個(gè)物體的空間關(guān)系、屬性等基本信息)和區(qū)域字典(region dictionary,存儲房間的位置、物體等信息)

      序列生成:每個(gè)有效序列由起始位姿、導(dǎo)航指令、目標(biāo)實(shí)例的可停止視點(diǎn)三個(gè)主要信息組成。針對每一個(gè)目標(biāo)實(shí)例作者均提供兩個(gè)版本的導(dǎo)航指令。一種導(dǎo)航指令只有目標(biāo)實(shí)例的類別(Partial instruction,用于交互式實(shí)例導(dǎo)航任務(wù),必須靠對話消歧),另一種導(dǎo)航指令是能在場景內(nèi)唯一鎖定目標(biāo)實(shí)例的完整描述(Full instruction,可用于評測訓(xùn)練非交互的任務(wù))。可停止視點(diǎn)(view point)指機(jī)器人在導(dǎo)航過程中可以合法停止并判定 “已找到目標(biāo)” 的一組視點(diǎn)位置。

      交互導(dǎo)航軌跡采集:該階段主要采用一個(gè)集成了基于邊界點(diǎn)的探索算法(Frontier-Based Exploration)與目標(biāo)實(shí)例分割器的智能體。在數(shù)據(jù)采集過程中,智能體除探索未知區(qū)域外,還會按規(guī)則主動(dòng)提出三類問題:屬性(目標(biāo)實(shí)例長什么樣?)、路線(如何到達(dá)目標(biāo)?)和目標(biāo)消歧(是否為眼前的實(shí)例?),從而生成相應(yīng)的交互式導(dǎo)航軌跡。

      通過該流程,作者構(gòu)建了大規(guī)模交互式實(shí)例導(dǎo)航數(shù)據(jù)以支撐模型訓(xùn)練。下圖給出了數(shù)據(jù)的總體統(tǒng)計(jì)。作為首個(gè)大規(guī)模交互式實(shí)例導(dǎo)航數(shù)據(jù)集,其主要優(yōu)勢在于:

      • 規(guī)模:40k導(dǎo)航序列,相比現(xiàn)有交互導(dǎo)航數(shù)據(jù)集(約7k)提升一個(gè)量級
      • 多樣性:覆蓋150+物體類別與3類問答(屬性 / 位置 / 消歧),自由組合形成豐富訓(xùn)練樣本;
      • 難度覆蓋:包含長時(shí)程軌跡(steps > 300)與多輪對話樣本(dialog turns > 5),覆蓋復(fù)雜困難場景。



      第一行分別展示了每條軌跡的路徑步數(shù)、對話輪數(shù)和每輪對話長度的頻率直方圖;第二行展示了問題類型與目標(biāo)類型的統(tǒng)計(jì)結(jié)果,以及對話中高頻詞的詞云圖。

      NPC 支撐的自動(dòng)化在線評測基準(zhǔn)

      為了評測智能體完成交互式實(shí)例導(dǎo)航(IIGN)的能力,并與非交互式實(shí)例導(dǎo)航(IGN)進(jìn)行對比,VL-LN 基準(zhǔn)提供了可用于測試兩類任務(wù)的測試集。針對交互式實(shí)例導(dǎo)航的自動(dòng)化評測,VL-LN 還實(shí)現(xiàn)了一個(gè)由 GPT-4o 驅(qū)動(dòng)的 NPC,它能夠回答智能體在導(dǎo)航過程中提出的問題。此外,為了評估智能體提問效率,VL-LN 定義新的指標(biāo) MSP(Mean Success Progress),用于衡量主動(dòng)對話帶來的增益。

      從結(jié)果到原因:

      交互式實(shí)例導(dǎo)航的能力與挑戰(zhàn)

      通過使用不同的數(shù)據(jù)對 Qwen2.5-VL-7B-Instruct 進(jìn)行微調(diào),作者訓(xùn)練了三個(gè)模型。具體訓(xùn)練所使用的數(shù)據(jù)如下:

      • VLLN-O (object):VLN + ObjectNav 軌跡數(shù)據(jù)
      • VLLN-I (instance):VLN + ObjectNav + IGN 軌跡數(shù)據(jù)
      • VLLN-D (dialog):VLN + ObjectNav + IIGN 軌跡數(shù)據(jù)(論文的核心模型)

      評測同時(shí)覆蓋兩類任務(wù):

      • IIGN(交互式實(shí)例導(dǎo)航):允許提問(對話輪數(shù)限制在 5 輪)
      • IGN(實(shí)例導(dǎo)航):不允許對話,但提供足以唯一鎖定目標(biāo)實(shí)例的全量指令

      實(shí)驗(yàn)結(jié)果如下表所示



      為了進(jìn)一步確定模型在交互式實(shí)例導(dǎo)航任務(wù)上的性能和瓶頸,研究團(tuán)隊(duì)對實(shí)驗(yàn)結(jié)果進(jìn)行系統(tǒng)性復(fù)盤,并將實(shí)驗(yàn)結(jié)論總結(jié)如下:



      VL-LN Bench 錯(cuò)誤類型分布



      不同對話輪次上限下的 IIGN 性能

      對話消歧在任務(wù)存在歧義時(shí)顯著提升成功率:在 IIGN 與 IGN 上,具備提問能力的 VLLN-D 成功率均高于僅會探索的 VLLN-I,成功率分別提升6.0%2.6%。在對話輪次上限消融中,隨著上限由0增至5,VLLN-D 的 SR 由15.4%提升至20.2%

      物體 — 圖像對齊是核心瓶頸:無論在 IIGN 還是 IGN 任務(wù)中,約 70% 的失敗都源于目標(biāo)未被成功檢測,說明性能瓶頸主要不在導(dǎo)航策略,而在于目標(biāo)實(shí)例與圖像觀測之間的對齊能力。

      相較于全量信息設(shè)置,問答機(jī)制帶來的信息增益仍然有限:VLLN-D 在 IIGN 上的成功率為 20.2%,低于其在無法提問、但具備全量信息的 IGN 上的 21.8%,說明對當(dāng)前模型而言,對話帶來的增益仍弱于信息補(bǔ)全帶來的增益。

      與人類仍有顯著差距:論文設(shè)置人類 IIGN 測試(一人負(fù)責(zé)提問與探索,另一人負(fù)責(zé)回答),結(jié)果顯示人類平均僅需2輪對話即可達(dá)到93%成功率,表明當(dāng)前模型與人類水平仍存在巨大差距。

      結(jié)語

      VL-LN Bench 是一個(gè)面向長時(shí)程交互式實(shí)例導(dǎo)航(IIGN)任務(wù)的高質(zhì)量、高挑戰(zhàn)且體系完備的評測基準(zhǔn),可系統(tǒng)評估智能體在 3D 環(huán)境中的長程探索、實(shí)例級目標(biāo)識別與對話消歧能力。

      與此同時(shí),基準(zhǔn)配套自動(dòng)化數(shù)據(jù)采集管線與 NPC 評測機(jī)制,為交互式導(dǎo)航能力的訓(xùn)練與評估提供了一條可規(guī)模化、可復(fù)現(xiàn)的標(biāo)準(zhǔn)化路徑。評測結(jié)果清晰表明:引入主動(dòng)對話能夠顯著提升智能體在 IIGN 與 IGN 任務(wù)中的整體表現(xiàn),但同時(shí)也揭示了當(dāng)前方法在實(shí)例級感知對齊與高信息增益提問策略等關(guān)鍵環(huán)節(jié)上仍存在明顯短板,為未來面向空間智能體的 “會走” 到 “會邊走邊問” 的技術(shù)演進(jìn)提供了研究方向與啟發(fā)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      錢再多有啥用?22歲的谷愛凌近況被曝光,還是踏上了樊振東的老路

      錢再多有啥用?22歲的谷愛凌近況被曝光,還是踏上了樊振東的老路

      攬星河的筆記
      2026-01-31 23:33:28
      你家領(lǐng)導(dǎo)說過最炸裂的話是啥?網(wǎng)友:這個(gè)社會德不配位的人太多了

      你家領(lǐng)導(dǎo)說過最炸裂的話是啥?網(wǎng)友:這個(gè)社會德不配位的人太多了

      帶你感受人間冷暖
      2026-02-01 06:11:49
      知名媒體人劉虎被刑拘,涉誣告、非法經(jīng)營罪

      知名媒體人劉虎被刑拘,涉誣告、非法經(jīng)營罪

      無忌財(cái)談
      2026-02-02 17:31:32
      11換3!史詩級交易方案!字母哥聯(lián)手庫里沖冠,巴特勒赴雄鹿

      11換3!史詩級交易方案!字母哥聯(lián)手庫里沖冠,巴特勒赴雄鹿

      鬼魅突破上籃
      2026-02-01 23:38:19
      為什么要得饒人處且饒人?網(wǎng)友:做人留一線,日后好相見

      為什么要得饒人處且饒人?網(wǎng)友:做人留一線,日后好相見

      夜深愛雜談
      2026-01-29 17:46:11
      趙薇也沒想到,曾和自己熱戀的上海豪門太子,如今被網(wǎng)紅“拿下”

      趙薇也沒想到,曾和自己熱戀的上海豪門太子,如今被網(wǎng)紅“拿下”

      泠泠說史
      2026-01-03 17:57:11
      滿載40噸黃金的日本“阿波丸”,中國打撈上岸后,所有人都愣住了

      滿載40噸黃金的日本“阿波丸”,中國打撈上岸后,所有人都愣住了

      鑒史錄
      2026-01-23 10:46:34
      事發(fā)上海一山姆超市!兩女子1個(gè)舉動(dòng)致停車場擁堵引發(fā)圍觀!現(xiàn)場僵持不下,商場回應(yīng)

      事發(fā)上海一山姆超市!兩女子1個(gè)舉動(dòng)致停車場擁堵引發(fā)圍觀!現(xiàn)場僵持不下,商場回應(yīng)

      新民晚報(bào)
      2026-02-02 10:18:43
      天才難相處,馬曉春競選國家隊(duì)總教練的起起落落

      天才難相處,馬曉春競選國家隊(duì)總教練的起起落落

      月滿大江流
      2025-12-17 11:22:12
      眾星憑借《太平年》群戲出圈,不僅演技收獲好評,還帶火一句臺詞

      眾星憑借《太平年》群戲出圈,不僅演技收獲好評,還帶火一句臺詞

      一娛三分地
      2026-01-28 13:07:17
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個(gè)孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個(gè)孩子

      豐譚筆錄
      2025-12-12 11:16:23
      40歲宋仲基帶老婆參加友人婚禮,被網(wǎng)友誤認(rèn)成徐帆,一點(diǎn)都不男大

      40歲宋仲基帶老婆參加友人婚禮,被網(wǎng)友誤認(rèn)成徐帆,一點(diǎn)都不男大

      丁丁鯉史紀(jì)
      2026-02-02 09:30:47
      安徽一男子參加公司年會,先后抽中10萬元彩票和蘋果17ProMax,活動(dòng)負(fù)責(zé)人:純運(yùn)氣,無暗箱操作

      安徽一男子參加公司年會,先后抽中10萬元彩票和蘋果17ProMax,活動(dòng)負(fù)責(zé)人:純運(yùn)氣,無暗箱操作

      臺州交通廣播
      2026-02-01 18:08:46
      乒乓球亞洲杯開打!4大王牌教練明牌,王楚欽、王曼昱更換主教練

      乒乓球亞洲杯開打!4大王牌教練明牌,王楚欽、王曼昱更換主教練

      曹說體育
      2026-02-02 11:57:51
      大反轉(zhuǎn)!湖北將迎雨雪降溫天氣

      大反轉(zhuǎn)!湖北將迎雨雪降溫天氣

      湖北e家庭
      2026-02-02 15:56:36
      中方明確反對,“新聯(lián)合國”迎來第二批新成員,普京的要求沒人理

      中方明確反對,“新聯(lián)合國”迎來第二批新成員,普京的要求沒人理

      青途歷史
      2026-02-02 01:35:53
      A股:突然跳水大跌,原因是什么?不出所料的話,明天行情這樣走

      A股:突然跳水大跌,原因是什么?不出所料的話,明天行情這樣走

      虎哥閑聊
      2026-02-02 15:56:16
      林書豪:楊瀚森應(yīng)該多去發(fā)展聯(lián)盟打球,給自己成長的空間

      林書豪:楊瀚森應(yīng)該多去發(fā)展聯(lián)盟打球,給自己成長的空間

      懂球帝
      2026-02-02 16:35:44
      火箭隊(duì)史59年紀(jì)錄!37歲杜蘭特再入全明星 休媒盛贊精英級的巔峰

      火箭隊(duì)史59年紀(jì)錄!37歲杜蘭特再入全明星 休媒盛贊精英級的巔峰

      顏小白的籃球夢
      2026-02-02 14:12:17
      190億資產(chǎn)徹底歸零!那個(gè)曾為民企吶喊的首富,終究還是破產(chǎn)了

      190億資產(chǎn)徹底歸零!那個(gè)曾為民企吶喊的首富,終究還是破產(chǎn)了

      比利
      2026-01-28 14:23:01
      2026-02-02 18:36:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12238文章數(shù) 142562關(guān)注度
      往期回顧 全部

      科技要聞

      阿里筑墻,騰訊寄生,字節(jié)偷家

      頭條要聞

      捧紅王菲、那英的袁惟仁走了 曾被陶晶瑩公開調(diào)侃

      頭條要聞

      捧紅王菲、那英的袁惟仁走了 曾被陶晶瑩公開調(diào)侃

      體育要聞

      澳網(wǎng)男單決賽,屬于阿爾卡拉斯的加冕儀式

      娛樂要聞

      周杰倫帶王俊凱陳奕迅聚餐 暢聊音樂

      財(cái)經(jīng)要聞

      金銀暴跌 全球股市遭遇“黑色星期一”

      汽車要聞

      雷克薩斯LC500將于今年底停產(chǎn) "最美雷克薩斯"謝幕

      態(tài)度原創(chuàng)

      游戲
      本地
      親子
      教育
      公開課

      《巔峰守衛(wèi)》要以Apex為戒!設(shè)計(jì)師說內(nèi)容準(zhǔn)備充足

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      親子要聞

      孩子出現(xiàn)5種癥狀,可能是白血病

      教育要聞

      四川一大學(xué)生放假頂“鳥巢”回家,父母血壓瞬間飆升:像逃荒一樣

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版