![]()
JanusVLN通過雙重隱式記憶解耦語義與空間,實現高效視覺語言導航。
![]()
01
引言
視覺-語言導航(Vision-and-Language Navigation, VLN)作為具身智能的關鍵研究領域,旨在賦予智能體根據自然語言指令在未知三維環境中導航的能力。近期,多模態大語言模型(MLLM)憑借其卓越的語義理解與推理能力,極大地推動了VLN領域的發展。然而,當前主流方法普遍依賴于構建**顯式記憶**(如文本拓撲地圖或存儲歷史圖像序列),這一范式面臨三大核心挑戰:
1. 空間信息損失:基于文本的記憶難以精確表征復雜的空間幾何關系。
2. 計算效率低下:重復處理歷史觀測數據導致巨大的計算冗余與推理延遲。
3. 記憶無限膨脹:記憶體積隨導航步數線性增長,阻礙了模型在長時序任務中的有效信息提取。
更根本的矛盾在于,現有模型大多沿用為2D圖文任務設計的視覺編碼器,未能充分利用RGB圖像中蘊含的豐富3D空間線索(如透視、遮擋),從根本上限制了其三維空間感知能力。為突破這些瓶頸,我們從人類認知科學中獲得啟發——人腦在導航時,左右半球分別處理語義與空間信息,并形成高效的隱式表征。
基于此,我們提出了一種全新的VLN框架——JanusVLN。該框架首次引入雙重隱式神經記憶(Dual Implicit Neural Memory),將視覺語義與空間幾何信息解耦,并將其建模為兩個獨立的、緊湊的、固定大小的神經表征(neural representation)。JanusVLN僅需單目RGB視頻流,便能賦予模型強大的3D空間推理能力,并通過高效的增量式更新機制,在實現卓越性能的同時,顯著降低了計算開銷。
論文標題:JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation
論文鏈接:https://arxiv.org/abs/2509.22548
項目主頁:https://miv-xjtu.github.io/JanusVLN.github.io/
代碼地址:https://github.com/MIV-XJTU/JanusVLN
02
JanusVLN:雙重隱式記憶框架
![]()
JanusVLN的核心創新在于其雙重隱式記憶框架,它將導航記憶從顯式、高維的原始數據,轉變為隱式、緊湊的神經網絡內部表征。
核心設計理念
1.**解耦的視覺感知:語義與空間**
為實現全面的環境理解,JanusVLN采用雙編碼器架構,分別處理“是什么”(語義)與“在哪里”(空間)的問題:
- **2D視覺語義編碼器**:采用Qwen2.5-VL的視覺編碼器,提取圖像中的高級語義特征。
- **3D空間幾何編碼器**:引入預訓練的3D視覺幾何基礎模型(VGGT),僅從RGB視頻中便可推斷出蘊含深度、遮擋等豐富3D結構的幾何特征,賦予模型無需昂貴深度傳感器的3D感知能力。
2.**雙重隱式神經記憶:以KV緩存為載體**
我們創新地將神經網絡注意力模塊的鍵值對(Key-Value, KV)緩存作為記憶的載體。這種經網絡深度處理的KV對是環境信息的高度抽象和濃縮,構成了緊湊且高效的隱式記憶。JanusVLN分別為語義與空間編碼器維護獨立的KV緩存,形成了互補的雙重記憶。
3.**高效的混合增量更新**
為維持記憶的固定大小并兼顧全局與局部信息,我們設計了一種混合緩存更新策略:
- **滑動窗口**:緩存最近幾幀的KV,確保對即時環境的敏銳感知。
- **初始窗口**:永久保留任務初始幾幀的KV。研究表明,這些初始幀如同“注意力接收器”,為長期任務提供關鍵的全局錨點。
該機制使得模型在每一步僅需處理當前幀,并通過與固定大小的隱式記憶交互來復用歷史信息,徹底避免了對歷史幀的重復計算,從而解決了記憶膨脹問題并大幅提升了推理效率。
![]()
03
實驗驗證
1.定量性能對比
我們在權威的VLN-CE基準上進行了全面評估。實驗結果表明,JanusVLN在各項指標上均取得了SOTA性能。
![]()
![]()
- **超越SOTA方法**:與同樣僅使用RGB輸入的SOTA方法(如NaVILA, StreamVLN)相比,JanusVLN在成功率(SR)上取得了**3.6至10.8個點**的顯著提升,且使用了更少的外部訓練數據,驗證了雙重隱式記憶范式的優越性。
- **超越多模態輸入方法**:相較于依賴全景圖、深度圖等昂貴多模態輸入的方法,JanusVLN僅憑單目RGB輸入,便在SR指標上實現了**10.5至35.5個點**的巨大優勢。
- **強大的泛化能力**:在更具挑戰性的多語言RxR-CE數據集上,JanusVLN同樣刷新了SOTA記錄,展現了其卓越的泛化性能。
2.計算效率優勢
![]()
*圖3:隨著序列長度增加,JanusVLN(Cached Memory)與基線方法(VGGT)的單幀推理時間對比*
如圖所示,JanusVLN的增量式更新機制使其推理時間幾乎不受導航步數影響,而VGGT由于需要重復處理整個序列,其計算成本呈指數級增長。這證明了JanusVLN在實現長時序導航方面的巨大潛力。
3.空間推理能力定性分析
![]()
我們選取了幾個對空間理解要求極高的導航任務,例如:
- **深度感知**(定位到“最遠的”黃色凳子)
- **相對方位理解**(停在盆栽“旁邊”而非“前方”)
- **空間關聯推理**(找到橙色柜子“旁邊”的凳子)
實驗表明,得益于空間幾何記憶提供的3D感知能力,JanusVLN能夠準確理解這些復雜的空間指令,并成功完成任務,而這正是傳統VLN模型面臨的主要挑戰。
04
總結與展望
本文提出的**JanusVLN**框架,通過引入開創性的**雙重隱式神經記憶**,成功將視覺語義與空間幾何信息解耦,從根本上解決了傳統VLN方法在記憶機制上的核心瓶頸。該框架不僅實現了僅依靠RGB輸入進行精確的3D空間感知,還通過高效的增量式更新大幅提升了計算效率。
全面的實驗結果驗證了JanusVLN的卓越性能與泛化能力。我們相信,這項工作將推動VLN研究從“2D語義主導”的范式,邁向“3D空間與語義協同”的新階段,為構建下一代具備高級空間認知能力的具身智能體鋪平了道路。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.