李曼玲、李飛飛團隊頂會新作：給大模型測「空間智商」

2026-03-09 13:21:34　來源: 機器之心Pro

河北舉報

分享至

1. 真正的高級智能，在于認知自己的 “無知”

如果把當下最強的大模型（如 GPT-5.2、Gemini-3 Pro）丟進一個從未去過的虛擬房間，讓它自己探索并構(gòu)建地圖，它能做到嗎？

一直以來，我們評估多模態(tài)大模型的標準就像是 “開卷考試”：給一張靜態(tài)圖片，問圖里有什么。在這樣的標尺下，AI 似乎已經(jīng)無所不能。然而，在真實的物理世界中，無論是家庭服務機器人還是自動駕駛汽車，面臨的都是部分可觀測（Partial Observability）的未知環(huán)境。

人類在探索未知時，展現(xiàn)出了極高的 “空間智商”：當你發(fā)現(xiàn)視野有盲區(qū)時，你的大腦會自動預測背后的 “不確定性（Uncertainty）”，并驅(qū)使你走上前去一探究竟，從而高效地獲取信息（Information Gain）。

為了探究 AI 是否具備這種人類級別的高階能力，西北大學李曼玲團隊、斯坦福大學李飛飛與吳佳俊團隊，以及華盛頓大學 Ranjay Krishna 團隊，共同提出了一項針對基礎(chǔ)模型的“空間智商測試”—— 空間理論 (Theory of Space)

Theory of Space：主動探索，信念探測以及任務評估。左側(cè)展示智能體在多房間局部觀測下的軌跡俯視圖；中間呈現(xiàn)其在文本或視覺環(huán)境中的 “移動 - 旋轉(zhuǎn) - 觀測” 閉環(huán)，通過第一人稱觀測實時更新內(nèi)部信念；右側(cè)則通過空間任務及認知地圖探測，對信念的利用與表征進行深度評估。

該研究指出，衡量具身大模型的真正試金石，不在于它能否機械地回答 “看到” 了什么，而在于它能否主動預測并消除環(huán)境中的 “不確定性”。這才是通向通用人工智能（AGI）的必經(jīng)之路。

論文標題：Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
論文鏈接： https://arxiv.org/abs/2602.07055
代碼： https://github.com/mll-lab-nu/Theory-of-Space
項目主頁： https://theory-of-space.github.io/
數(shù)據(jù)集： https://huggingface.co/datasets/MLL-Lab/tos-data

2. 一場史無前例的 “空間 IQ 大考”

為了全方位、無死角地測量大模型的空間智商，研究團隊精心打造了一個基于程序的 “多模態(tài)平行測試宇宙”。這個宇宙同時包含了象征純粹邏輯推理的純文本房間，以及基于 ThreeDWorld 引擎渲染的視覺房間。

模型只被賦予了幾項最基礎(chǔ)的本能動作：“移動”、“多角度旋轉(zhuǎn)” 和 “就地觀察”。它必須像一個真正的勘探者一樣，在有限的試錯成本下，自主規(guī)劃探測路徑，并判斷何時已經(jīng)獲取了足夠的信息來終止探索。

為了層層剝開 AI 空間認知的底色，這一測試系統(tǒng)從三大核心維度對其展開了步步緊逼的 “拷問”：

尋找未知（Construct）：面對 “盲人摸象” 般的局部碎片視野和極具挑戰(zhàn)的 3D 渲染光影，模型能否克服感知迷霧，主動、高效地搜集信息，在腦海里無縫連結(jié)出一張全局的 “認知地圖”？
敏銳糾錯（Revise）：如果視線之外的房間格局被暗中調(diào)換（這對動態(tài)物理世界再常見不過），模型在重新路過時能否立刻警覺，并果斷修改大腦里的舊數(shù)據(jù)？
高階推演（Exploit）：建好地圖不是終點，關(guān)鍵在于能否經(jīng)受住應用層面的極致考驗。研究團隊精心設(shè)計了 9 大核心空間推理任務，既有考察第一人稱代入感的 “路線級推理（Route-level）”（如視角轉(zhuǎn)換、根據(jù)連續(xù)動作推演最終視野），也有高度抽象的 “全局級推理（Survey-level）”（如挑戰(zhàn)腦海里的 360 度動態(tài)心智旋轉(zhuǎn)、構(gòu)建上帝視角的絕對坐標構(gòu)圖）。

任務套件總覽圖

給大腦做 “X 光透視”：認知地圖顯探測

過去的研究往往只能通過動作對錯來猜測 AI 的思路。而在 Theory of Space 中，研究團隊創(chuàng)造性地引入了 “認知地圖顯式探測（Cognitive Map Probing）” 機制

在模型每走一步時，都強制要求它以 JSON 格式默寫出腦海中的虛擬地圖分布，甚至直接在地圖上選出 “尚未探索過的盲區(qū)”。這使得 AI 對不確定性的建模過程徹底透明化！

3. 成績單出爐：面對不確定性，基礎(chǔ)模型四大底層缺陷盡顯

研究團隊將 GPT-5.2, Gemini-3 Pro, Claude-4.5 Sonnet, GLM-4.6V, Qwen3-VL 等主流大模型送入考場。結(jié)果令人震撼：當 AI 面臨 “自主求解不確定性” 的任務時，看似強大的它們集體迷失，暴露出令人擔憂的四大深層病理。

缺陷一：毫無章法的試錯陷阱，主動探索得分暴跌

為了設(shè)立標尺，研究者先用了一個 “策略腳本代理（Proxy Agent）” 去執(zhí)行探索，也就是被動探索模式，發(fā)現(xiàn)只需平均約 9 步就能完全掌控整個房間結(jié)構(gòu)；而大模型自主行動時，卻往往耗費 14 到 20 步以上，并且不停地在已安全觀測的區(qū)域里打轉(zhuǎn)。

這種 “無頭蒼蠅” 式的探索，導致最終構(gòu)建的地圖質(zhì)量嚴重受損。例如，面對同樣的視覺宇宙，GPT-5.2 的動作準確率從被動接收信息的 57.1% 大幅下滑至主動探索的僅 46.0%。

癥結(jié)在于：大模型無法形成一種高效、有條理的探索策略，并且不能很好地感知自身知識的邊界，無法非常有效地標出哪些區(qū)域是未知的。

任務準確率 vs. 主動探索開銷，灰圖標代表被動探索模式

視覺模態(tài)下，主動探索與被動探索存在鴻溝

缺陷二：脆弱的記憶與 “信念漂移”

通過給大模型做 “認知透視”，研究者發(fā)現(xiàn)其內(nèi)部的空間信念呈現(xiàn)出極強的脆弱性。模型可能在第一眼準確記住了一個沙發(fā)的坐標，但隨著它轉(zhuǎn)身去探索另一側(cè)的門，先前對沙發(fā)的 “信念” 就會迅速退化模糊，甚至被稍后收到的無關(guān)信息無端覆蓋。這種無法維持長效、穩(wěn)定認知地圖的缺陷，被稱為極其致命的“信念漂移”。

缺陷三：細思極恐的 “信念慣性（Belief Inertia）”

在 “糾錯” 能力的測試中，研究人員復刻了心理學著名的 “錯誤信念” 實驗：等模型探索完一圈后，悄悄挪動了幾個關(guān)鍵物體的位置或朝向。

極其具有戲劇性的一幕出現(xiàn)了：當大模型再次路過并親眼看到物體已經(jīng)不在原地時，它對物體位置的預測，居然仍固執(zhí)地偏向了老地方！數(shù)據(jù)顯示，GPT-5.2 在視覺模型中的 “信念慣性” 高達 68.9%。這說明當前的 AI 缺乏認知可塑性，極難用眼前的視覺新證據(jù)去推翻腦海中陳舊的語言先驗。

缺陷四：難以跨越的 “模態(tài)鴻溝（Modality Gap）”

最終的統(tǒng)計數(shù)據(jù)指出了一條鴻溝：模型雖然在純文本構(gòu)建的虛擬房間中表現(xiàn)尚可（得益于長文本里強大的符號與語言邏輯），但一旦進入基于 3D 渲染的視覺世界（Vision World），面對必須依靠像素感知來推斷深度的雙重壓力，得分直線下滑。

形成鮮明對比的是，人類在相同的視覺測試中，即使面對復雜布局，借助簡單的工具也能輕松達到 99.0% 的超高準確率。總體來看，AI 在這方面仍與人類存在明顯差距。

主動探索下視覺與文本存在巨大性能落差

4. 邁向下一代具身智能：從 “死記硬背” 到構(gòu)建 “世界模型”

Theory of Space 這場大考絕不只是單純的找茬挑刺，它更像是一份詳盡的診斷書，指出了當下大模型在走向真實場景（如家用機器人、自動駕駛）時，亟待填補的能力空白。要孕育出真正能在復雜現(xiàn)實中自如穿梭的通用人工智能（AGI），未來的研究必須在以下方向?qū)で蟾拘酝黄疲?/p>

突破一：培育具有強可塑性的 “空間長時記憶”

現(xiàn)有的多模態(tài)模型一旦轉(zhuǎn)移視線，記憶往往如流沙般流失（信念漂移）；亦或是對陳舊的先驗固執(zhí)己見（信念慣性）。未來的 AI 需要構(gòu)建類似人類海馬體般靈活的回溯機制，既能穩(wěn)固地鎖定絕對空間結(jié)構(gòu)，又能根據(jù)即時的視覺線索精準剔除 “過期報廢” 的錯誤記憶。

突破二：引入內(nèi)在 “好奇心” 驅(qū)動的強化探索

當前的 AI 大部分仍處于 “你提問、我回答” 的被動反應模式中。而破局的關(guān)鍵，在于引入對 “不確定性” 的感知與博弈（Uncertainty-Awareness）。智能體應當能夠主動評估哪些區(qū)域存在信息盲區(qū)，在內(nèi)在 “好奇心” 的獎勵驅(qū)動下，規(guī)劃出信息增益最大化的探測軌跡。

突破三：真正擁抱 3D 物理法則的 “世界模型（World Models）”

如今的視覺語言模型依舊停留在 2D 像素層面的表面模式匹配，并未真正理解真實三維空間中的幾何剛體法則。一個強大的 “世界模型” 不僅僅是一張扁平的數(shù)據(jù)表，它應該天然內(nèi)蘊了物體的恒存性特征、視角變換間的物理恒等式。只有當大模型能夠閉上眼睛，在腦海里無縫推演 “我向前走兩步再右轉(zhuǎn)最終會看到什么” 時，它才算真正獲得了通關(guān)物理世界的通行證。

學會認知自身盲區(qū)，并主動向不確定性出擊。這場以 “空間 IQ” 為坐標的試煉，徹底穿透了常規(guī)刷題基準下大模型虛增的表面分數(shù)。預測未知，擁抱未知，這不僅是具身大模型打破瓶頸的起點，更是未來 AGI 構(gòu)筑真實物理世界閉環(huán)的必由之路。

（本研究已被 ICLR 2026 接收為錄用論文，歡迎訪問項目主頁獲取完整的論文、代碼與數(shù)據(jù)集。）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.