網易首頁 > 網易號 > 正文申請入駐

JanusVLN：雙重隱式記憶解耦語義與空間，開創視覺語言導航記憶新范式

2025-11-11 19:50:40　來源: AI科技評論

廣東舉報

分享至

JanusVLN通過雙重隱式記憶解耦語義與空間，實現高效視覺語言導航。

引言

視覺-語言導航（Vision-and-Language Navigation, VLN）作為具身智能的關鍵研究領域，旨在賦予智能體根據自然語言指令在未知三維環境中導航的能力。近期，多模態大語言模型（MLLM）憑借其卓越的語義理解與推理能力，極大地推動了VLN領域的發展。然而，當前主流方法普遍依賴于構建**顯式記憶**（如文本拓撲地圖或存儲歷史圖像序列），這一范式面臨三大核心挑戰：

1. 空間信息損失：基于文本的記憶難以精確表征復雜的空間幾何關系。

2. 計算效率低下：重復處理歷史觀測數據導致巨大的計算冗余與推理延遲。

3. 記憶無限膨脹：記憶體積隨導航步數線性增長，阻礙了模型在長時序任務中的有效信息提取。

更根本的矛盾在于，現有模型大多沿用為2D圖文任務設計的視覺編碼器，未能充分利用RGB圖像中蘊含的豐富3D空間線索（如透視、遮擋），從根本上限制了其三維空間感知能力。為突破這些瓶頸，我們從人類認知科學中獲得啟發——人腦在導航時，左右半球分別處理語義與空間信息，并形成高效的隱式表征。

基于此，我們提出了一種全新的VLN框架——JanusVLN。該框架首次引入雙重隱式神經記憶（Dual Implicit Neural Memory），將視覺語義與空間幾何信息解耦，并將其建模為兩個獨立的、緊湊的、固定大小的神經表征(neural representation)。JanusVLN僅需單目RGB視頻流，便能賦予模型強大的3D空間推理能力，并通過高效的增量式更新機制，在實現卓越性能的同時，顯著降低了計算開銷。

論文標題：JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

論文鏈接：https://arxiv.org/abs/2509.22548

項目主頁：https://miv-xjtu.github.io/JanusVLN.github.io/

代碼地址：https://github.com/MIV-XJTU/JanusVLN

JanusVLN：雙重隱式記憶框架

JanusVLN的核心創新在于其雙重隱式記憶框架，它將導航記憶從顯式、高維的原始數據，轉變為隱式、緊湊的神經網絡內部表征。

核心設計理念

1.**解耦的視覺感知：語義與空間**

為實現全面的環境理解，JanusVLN采用雙編碼器架構，分別處理“是什么”（語義）與“在哪里”（空間）的問題：

- **2D視覺語義編碼器**：采用Qwen2.5-VL的視覺編碼器，提取圖像中的高級語義特征。

- **3D空間幾何編碼器**：引入預訓練的3D視覺幾何基礎模型（VGGT），僅從RGB視頻中便可推斷出蘊含深度、遮擋等豐富3D結構的幾何特征，賦予模型無需昂貴深度傳感器的3D感知能力。

2.**雙重隱式神經記憶：以KV緩存為載體**

我們創新地將神經網絡注意力模塊的鍵值對（Key-Value, KV）緩存作為記憶的載體。這種經網絡深度處理的KV對是環境信息的高度抽象和濃縮，構成了緊湊且高效的隱式記憶。JanusVLN分別為語義與空間編碼器維護獨立的KV緩存，形成了互補的雙重記憶。

3.**高效的混合增量更新**

為維持記憶的固定大小并兼顧全局與局部信息，我們設計了一種混合緩存更新策略：

- **滑動窗口**：緩存最近幾幀的KV，確保對即時環境的敏銳感知。

- **初始窗口**：永久保留任務初始幾幀的KV。研究表明，這些初始幀如同“注意力接收器”，為長期任務提供關鍵的全局錨點。

該機制使得模型在每一步僅需處理當前幀，并通過與固定大小的隱式記憶交互來復用歷史信息，徹底避免了對歷史幀的重復計算，從而解決了記憶膨脹問題并大幅提升了推理效率。

實驗驗證

1.定量性能對比

我們在權威的VLN-CE基準上進行了全面評估。實驗結果表明，JanusVLN在各項指標上均取得了SOTA性能。

- **超越SOTA方法**：與同樣僅使用RGB輸入的SOTA方法（如NaVILA, StreamVLN）相比，JanusVLN在成功率（SR）上取得了**3.6至10.8個點**的顯著提升，且使用了更少的外部訓練數據，驗證了雙重隱式記憶范式的優越性。

- **超越多模態輸入方法**：相較于依賴全景圖、深度圖等昂貴多模態輸入的方法，JanusVLN僅憑單目RGB輸入，便在SR指標上實現了**10.5至35.5個點**的巨大優勢。

- **強大的泛化能力**：在更具挑戰性的多語言RxR-CE數據集上，JanusVLN同樣刷新了SOTA記錄，展現了其卓越的泛化性能。

2.計算效率優勢

*圖3：隨著序列長度增加，JanusVLN（Cached Memory）與基線方法（VGGT）的單幀推理時間對比*

如圖所示，JanusVLN的增量式更新機制使其推理時間幾乎不受導航步數影響，而VGGT由于需要重復處理整個序列，其計算成本呈指數級增長。這證明了JanusVLN在實現長時序導航方面的巨大潛力。

3.空間推理能力定性分析

我們選取了幾個對空間理解要求極高的導航任務，例如：

- **深度感知**（定位到“最遠的”黃色凳子）

- **相對方位理解**（停在盆栽“旁邊”而非“前方”）

- **空間關聯推理**（找到橙色柜子“旁邊”的凳子）

實驗表明，得益于空間幾何記憶提供的3D感知能力，JanusVLN能夠準確理解這些復雜的空間指令，并成功完成任務，而這正是傳統VLN模型面臨的主要挑戰。

總結與展望

本文提出的**JanusVLN**框架，通過引入開創性的**雙重隱式神經記憶**，成功將視覺語義與空間幾何信息解耦，從根本上解決了傳統VLN方法在記憶機制上的核心瓶頸。該框架不僅實現了僅依靠RGB輸入進行精確的3D空間感知，還通過高效的增量式更新大幅提升了計算效率。

全面的實驗結果驗證了JanusVLN的卓越性能與泛化能力。我們相信，這項工作將推動VLN研究從“2D語義主導”的范式，邁向“3D空間與語義協同”的新階段，為構建下一代具備高級空間認知能力的具身智能體鋪平了道路。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.