網易首頁 > 網易號 > 正文申請入駐

李曼玲、李飛飛、吳佳俊等聯手：評估具身大模型的新范式！

2026-03-04 12:49:32　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】全新的具身模型空間能力評估范式 Theory of Space 突破了傳統靜態圖文問答的局限，系統性地考察基礎模型能否像人一樣，在部分可觀測的動態環境中，通過自主探索來構建、修正和利用空間信念。該論文已被 ICLR 2026 接收。

當今的多模態大模型（如 GPT-5.2, Gemini-3 Pro）在各類視覺問答榜單上屢破紀錄。然而，如果希望將這些能力延伸到更真實的物理場景中，模型在空間理解上可能會面臨不小的挑戰。為什么會這樣？

想象你走進一棟從未去過的公寓。你推開門看到沙發，走進走廊瞥見臥室的床，再往前發現廚房的冰箱?，F在問你：「沙發在冰箱的哪個方向？」你通常能回答，因為你在腦海中悄悄地構建了一幅「心理地圖」。

人類大多能不假思索地做到這一點。但對當前的基礎模型而言，情況可能會有所不同，研究人員發現，現有的評估范式與真實物理世界的需求相比，可能存在一些差異：

從「上帝視角」到「部分可觀測」：傳統基準測試往往提供涵蓋全局的靜態圖片。但在真實的物理空間中，智能體的視野大多是局部的。它們往往需要通過主動探索，把零散的第一人稱視覺線索拼接成全局的「認知地圖」。
從「被動回答」到「主動決策」：現有的空間評測通常是向模型提供固定的觀察數據。但在更開放的環境中，可能需要系統自主決定探索的方向與目標，以更高效的方式獲取環境信息。
從「靜態常識」到「動態修正」：物理環境是會發生動態變化的（例如物品位置的變動）。除了構建地圖，智能體也許還需要在發現環境變化時適時更新舊的空間記憶。

西北大學李曼玲團隊、斯坦福大學李飛飛與吳佳俊團隊，以及華盛頓大學Ranjay Krishna團隊共同牽頭提出了Theory of Space（空間理論），探討了：當減少對完整給定信息的依賴，要求基礎模型通過主動探索來認識環境時，其空間認知能力會有怎樣的表現？

論文鏈接：https://arxiv.org/abs/2602.07055

代碼：https://github.com/mll-lab-nu/Theory-of-Space

項目主頁：https://theory-of-space.github.io/

數據集：https://huggingface.co/datasets/MLL-Lab/tos-data

Theory of Space：主動探索、信念探測和任務評估。左側用俯視圖展示智能體在多房間局部觀測條件下的行動軌跡；中間展示其在文本或視覺環境中通過「移動—轉向—觀察」的循環，并根據第一人稱觀測持續更新內部信念；右側通過空間任務與認知地圖探針，評估這些信念的表征及其使用方式。

空間智能中的「心智理論」

在認知科學中，Theory of Mind（心智理論）考察的是一個智能體能否推測他人隱藏的心理狀態：「他在想什么？他知不知道這件事？」它關注的是對不可見的心智世界的建模。

Theory of Space（空間理論）作為它在物理世界中的對稱概念：考察的是一個智能體能否推測環境中尚未觀測到的空間結構：「這個世界長什么樣？門后面還有什么？」它關注的是對不可見的物理世界的建模。

兩者的共同本質在于：智能體需要基于有限的線索，去推斷隱藏的結構，并隨著新信息不斷地修正自己的信念。

研究人員將 Theory of Space 定義為三個緊密耦合的核心能力：

構建（Construct）：在部分可觀測的迷霧中主動邁出腳步，收集局部觀察，并在內部表征中拼湊出一張全局一致的「認知地圖」。
修正（Revise）：面對動態環境（如物品被悄悄移位），敏銳察覺「舊記憶」與「新證據」的沖突，打破信念的慣性，完成知識的更新（Belief Revision）。
利用（Exploit）：將維護好的認知地圖，作為應對復雜下游空間推理任務（如空間導航、視角推演）的最強武器。

Theory of Space的核心：在部分可觀測環境中，智能體圍繞空間信念的構建、動態修正與利用，完成空間推理與決策。

從構建、修正到利用

對齊三大能力

研究人員圍繞Theory of Space的三大核心能力（構建Construct、修正Revise、利用Exploit）設計了一整套評測體系，并引入認知地圖顯式探測作為核心貢獻，實現對模型內部空間信念的直接診斷。

構建（Construct）：主動探索建圖

研究人員在程序化生成的多房間室內布局中，提供文本世界（符號化方向/距離）和視覺世界（ThreeDWorld 渲染的第一人稱 RGB 圖像）兩種平行環境。智能體必須自主決定移動、旋轉、觀察的策略，高效構建空間信念。直覺上你可能會以為這類任務就是「多看看」。但更關鍵的是，智能體需要用不確定性來驅動行動，去做高效的信息獲取。

修正（Revise）：在動態環境中更新過時信念

借鑒發展心理學中經典的「錯誤信念（False Belief）」范式：在智能體完成初次探索后，偷偷將若干物體移位或旋轉，制造「舊信念」與「新現實」的沖突。智能體能否發現變化、推翻舊記憶、建立新信念？

利用（Exploit）：九類空間推理任務

覆蓋路徑級（Route）（路徑推理）和全局級（Survey）（鳥瞰視角地圖推理）兩個層次，全面評估空間信念的利用價值。

下游空間任務總覽

核心貢獻：顯式認知地圖探測

以往評估只看最終對錯，內部信念是黑箱。研究人員引入顯式認知地圖探測（Explicit Cognitive Map Probing）：每一步都要求模型以JSON格式外化其空間信念，度量準確性、感知質量、穩定性和不確定性建模。不僅知道模型答得對不對，更知道它為什么答對、為什么答錯。

大模型對空間的理解

究竟卡在了哪里？

研究人員在包括GPT-5.2、Gemini-3 Pro、Claude-4.5 Sonnet等在內的六個前沿多模態大模型上進行了大規模的深度評測。通過白盒探測，深刻揭開了當前大模型在空間認知上的能力邊界：

洞察一：主動信息獲取是具身智能的阿喀琉斯之踵

讓模型自己決定「看什么」，性能大幅下降。

為了區分「探索能力」和「推理能力」，研究人員設計了腳本化的規則代理（Proxy Agent）作為探索基準：視覺世界中的代理在每個位置進行360°掃描以保證完整覆蓋，文本世界中的代理則采用信念驅動的策略來最大化消除歧義。模型在被動模式下接收這些代理收集的觀測日志進行推理，在主動模式下則需自主規劃探索。

結果令人震驚：GPT-5.2從被動57.1降到主動46.0（視覺世界），Gemini-3 Pro從60.5降到57.3，在效率方面，規則代理僅需約9步即可達到目標覆蓋，而基礎模型常常需要 14 步以上且信念質量并未提升。模型「探索得多」但「探索得差」，高冗余、低效率。隨著環境復雜度增加，這種差距進一步擴大。

任務準確率 vs. 主動探索開銷，灰色圖標代表被動模式。智能體在主動探索模式下的探索效率以及任務準確率都低于被動模式

文本與視覺模態下，主動探索與被動探索都存在鴻溝

發現二：模態鴻溝

文本推理遠強于視覺推理，所有模型無一例外。

無論在被動還是主動設定下，模型在文本環境中的表現均一致且顯著地優于視覺環境。這揭示了當前多模態模型在空間感知方面存在的根本局限：模型難以有效地從視覺觀察中提取空間信息，而高度依賴于符號化表征來進行關鍵關系的邏輯推理。

被動模式與主動探索下，視覺與文本都存在巨大性能落差

發現三：認知地圖的三重危機

通過認知地圖探測，研究人員進一步發現：朝向感知是瓶頸（視覺世界中物體朝向判斷接近隨機）；信念不穩定（正確感知的信息隨時間退化）；信念漂移（新的錯誤更新覆蓋先前正確的感知）。換句話說，模型不是「看不見」，而是「記不住」「記錯了」。

發現四：認知地圖是有效的診斷工具

研究人員通過消融實驗驗證了認知地圖作為診斷工具的有效性：

充分性驗證：給模型提供真實的認知地圖后，下游任務準確率飆升至 ~95%，證明 JSON 地圖格式捕獲了完成任務所需的全部信息。
相關性驗證：認知地圖準確度與下游任務表現呈顯著正相關（Pearson r = 0.42~0.65，p < 0.001）。

雖然外化的地圖是模型內部信念的有損壓縮，但它仍是強有力的診斷信號。

發現五：信念慣性（Belief Inertia）

即使親眼看到了變化，模型仍然「固執己見」。

當環境變化后，模型即便直接觀察到新布局，仍傾向于舊的空間坐標。視覺模型的方向慣性高達 68.9%（GPT-5.2），而文本模型僅為 5.5%。當前基礎模型缺乏足夠的認知可塑性來修正其空間記憶。

人類 vs. AI

人類在視覺世界中達到96.4%準確率（使用工具后99.0%），而最佳AI（Gemini-3 Pro）僅57.3%

有趣的是，人類在視覺世界反而優于文本世界，因為視覺信息對人類更易處理，這與AI表現恰好相反。簡言之，人類具有直觀理解視覺空間的天然優勢，而當前的 AI 架構則更傾向于依賴文本符號來進行邏輯推演。

總結與展望

Theory of Space將空間評估從「模型能否回答對？」重新定義為一個更根本的問題：模型能否通過高效的信息獲取，構建并維護一個連貫的、可修正的空間世界模型？

論文的發現指向三個關鍵方向：

不確定性感知的高效探索策略；
魯棒的長時空間記憶維護，解決信念漂移問題；
可靠的信念修正機制，克服信念慣性。

這些挑戰不僅關乎學術評測，更直接影響著具身智能的實際落地。無論是家庭機器人、自動駕駛還是搜救機器人，主動空間理解都是不可或缺的基礎能力。

該研究由Northwestern University, Stanford University, University of Washington, Cornell University聯合完成。項目現已開源，可訪問主頁獲取完整論文、測試套件代碼與數據集。

參考資料：

https://arxiv.org/abs/2602.07055

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.