![]()
1. 真正的高級智能,在于認知自己的 “無知”
如果把當下最強的大模型(如 GPT-5.2、Gemini-3 Pro)丟進一個從未去過的虛擬房間,讓它自己探索并構(gòu)建地圖,它能做到嗎?
一直以來,我們評估多模態(tài)大模型的標準就像是 “開卷考試”:給一張靜態(tài)圖片,問圖里有什么。在這樣的標尺下,AI 似乎已經(jīng)無所不能。然而,在真實的物理世界中,無論是家庭服務機器人還是自動駕駛汽車,面臨的都是部分可觀測(Partial Observability)的未知環(huán)境。
人類在探索未知時,展現(xiàn)出了極高的 “空間智商”:當你發(fā)現(xiàn)視野有盲區(qū)時,你的大腦會自動預測背后的 “不確定性(Uncertainty)”,并驅(qū)使你走上前去一探究竟,從而高效地獲取信息(Information Gain)。
為了探究 AI 是否具備這種人類級別的高階能力,西北大學李曼玲團隊、斯坦福大學李飛飛與吳佳俊團隊,以及華盛頓大學 Ranjay Krishna 團隊,共同提出了一項針對基礎(chǔ)模型的“空間智商測試”—— 空間理論 (Theory of Space)
![]()
Theory of Space:主動探索,信念探測以及任務評估。左側(cè)展示智能體在多房間局部觀測下的軌跡俯視圖;中間呈現(xiàn)其在文本或視覺環(huán)境中的 “移動 - 旋轉(zhuǎn) - 觀測” 閉環(huán),通過第一人稱觀測實時更新內(nèi)部信念;右側(cè)則通過空間任務及認知地圖探測,對信念的利用與表征進行深度評估。
該研究指出,衡量具身大模型的真正試金石,不在于它能否機械地回答 “看到” 了什么,而在于它能否主動預測并消除環(huán)境中的 “不確定性”。這才是通向通用人工智能(AGI)的必經(jīng)之路。
![]()
- 論文標題:Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
- 論文鏈接: https://arxiv.org/abs/2602.07055
- 代碼: https://github.com/mll-lab-nu/Theory-of-Space
- 項目主頁: https://theory-of-space.github.io/
- 數(shù)據(jù)集: https://huggingface.co/datasets/MLL-Lab/tos-data
2. 一場史無前例的 “空間 IQ 大考”
為了全方位、無死角地測量大模型的空間智商,研究團隊精心打造了一個基于程序的 “多模態(tài)平行測試宇宙”。這個宇宙同時包含了象征純粹邏輯推理的純文本房間,以及基于 ThreeDWorld 引擎渲染的視覺房間。
模型只被賦予了幾項最基礎(chǔ)的本能動作:“移動”、“多角度旋轉(zhuǎn)” 和 “就地觀察”。它必須像一個真正的勘探者一樣,在有限的試錯成本下,自主規(guī)劃探測路徑,并判斷何時已經(jīng)獲取了足夠的信息來終止探索。
為了層層剝開 AI 空間認知的底色,這一測試系統(tǒng)從三大核心維度對其展開了步步緊逼的 “拷問”:
- 尋找未知(Construct): 面對 “盲人摸象” 般的局部碎片視野和極具挑戰(zhàn)的 3D 渲染光影,模型能否克服感知迷霧,主動、高效地搜集信息,在腦海里無縫連結(jié)出一張全局的 “認知地圖”?
- 敏銳糾錯(Revise): 如果視線之外的房間格局被暗中調(diào)換(這對動態(tài)物理世界再常見不過),模型在重新路過時能否立刻警覺,并果斷修改大腦里的舊數(shù)據(jù)?
- 高階推演(Exploit): 建好地圖不是終點,關(guān)鍵在于能否經(jīng)受住應用層面的極致考驗。研究團隊精心設(shè)計了 9 大核心空間推理任務,既有考察第一人稱代入感的 “路線級推理(Route-level)”(如視角轉(zhuǎn)換、根據(jù)連續(xù)動作推演最終視野),也有高度抽象的 “全局級推理(Survey-level)”(如挑戰(zhàn)腦海里的 360 度動態(tài)心智旋轉(zhuǎn)、構(gòu)建上帝視角的絕對坐標構(gòu)圖)。
![]()
任務套件總覽圖
給大腦做 “X 光透視”:認知地圖顯探測
過去的研究往往只能通過動作對錯來猜測 AI 的思路。而在 Theory of Space 中,研究團隊創(chuàng)造性地引入了 “認知地圖顯式探測(Cognitive Map Probing)” 機制
在模型每走一步時,都強制要求它以 JSON 格式默寫出腦海中的虛擬地圖分布,甚至直接在地圖上選出 “尚未探索過的盲區(qū)”。這使得 AI 對不確定性的建模過程徹底透明化!

3. 成績單出爐:面對不確定性,基礎(chǔ)模型四大底層缺陷盡顯
研究團隊將 GPT-5.2, Gemini-3 Pro, Claude-4.5 Sonnet, GLM-4.6V, Qwen3-VL 等主流大模型送入考場。結(jié)果令人震撼:當 AI 面臨 “自主求解不確定性” 的任務時,看似強大的它們集體迷失,暴露出令人擔憂的四大深層病理。
缺陷一:毫無章法的試錯陷阱,主動探索得分暴跌
為了設(shè)立標尺,研究者先用了一個 “策略腳本代理(Proxy Agent)” 去執(zhí)行探索,也就是被動探索模式,發(fā)現(xiàn)只需平均約 9 步就能完全掌控整個房間結(jié)構(gòu);而大模型自主行動時,卻往往耗費 14 到 20 步以上,并且不停地在已安全觀測的區(qū)域里打轉(zhuǎn)。

這種 “無頭蒼蠅” 式的探索,導致最終構(gòu)建的地圖質(zhì)量嚴重受損。例如,面對同樣的視覺宇宙,GPT-5.2 的動作準確率從被動接收信息的 57.1% 大幅下滑至主動探索的僅 46.0%。
癥結(jié)在于:大模型無法形成一種高效、有條理的探索策略,并且不能很好地感知自身知識的邊界,無法非常有效地標出哪些區(qū)域是未知的。
![]()
任務準確率 vs. 主動探索開銷,灰圖標代表被動探索模式
![]()
視覺模態(tài)下,主動探索與被動探索存在鴻溝
缺陷二:脆弱的記憶與 “信念漂移”
通過給大模型做 “認知透視”,研究者發(fā)現(xiàn)其內(nèi)部的空間信念呈現(xiàn)出極強的脆弱性。模型可能在第一眼準確記住了一個沙發(fā)的坐標,但隨著它轉(zhuǎn)身去探索另一側(cè)的門,先前對沙發(fā)的 “信念” 就會迅速退化模糊,甚至被稍后收到的無關(guān)信息無端覆蓋。這種無法維持長效、穩(wěn)定認知地圖的缺陷,被稱為極其致命的“信念漂移”。
缺陷三:細思極恐的 “信念慣性(Belief Inertia)”
在 “糾錯” 能力的測試中,研究人員復刻了心理學著名的 “錯誤信念” 實驗:等模型探索完一圈后,悄悄挪動了幾個關(guān)鍵物體的位置或朝向。
極其具有戲劇性的一幕出現(xiàn)了:當大模型再次路過并親眼看到物體已經(jīng)不在原地時,它對物體位置的預測,居然仍固執(zhí)地偏向了老地方!數(shù)據(jù)顯示,GPT-5.2 在視覺模型中的 “信念慣性” 高達 68.9%。這說明當前的 AI 缺乏認知可塑性,極難用眼前的視覺新證據(jù)去推翻腦海中陳舊的語言先驗。

缺陷四:難以跨越的 “模態(tài)鴻溝(Modality Gap)”
最終的統(tǒng)計數(shù)據(jù)指出了一條鴻溝:模型雖然在純文本構(gòu)建的虛擬房間中表現(xiàn)尚可(得益于長文本里強大的符號與語言邏輯),但一旦進入基于 3D 渲染的視覺世界(Vision World),面對必須依靠像素感知來推斷深度的雙重壓力,得分直線下滑。
形成鮮明對比的是,人類在相同的視覺測試中,即使面對復雜布局,借助簡單的工具也能輕松達到 99.0% 的超高準確率。總體來看,AI 在這方面仍與人類存在明顯差距。
![]()
主動探索下視覺與文本存在巨大性能落差
4. 邁向下一代具身智能:從 “死記硬背” 到構(gòu)建 “世界模型”
Theory of Space 這場大考絕不只是單純的找茬挑刺,它更像是一份詳盡的診斷書,指出了當下大模型在走向真實場景(如家用機器人、自動駕駛)時,亟待填補的能力空白。要孕育出真正能在復雜現(xiàn)實中自如穿梭的通用人工智能(AGI),未來的研究必須在以下方向?qū)で蟾拘酝黄疲?/p>
突破一:培育具有強可塑性的 “空間長時記憶”
現(xiàn)有的多模態(tài)模型一旦轉(zhuǎn)移視線,記憶往往如流沙般流失(信念漂移);亦或是對陳舊的先驗固執(zhí)己見(信念慣性)。未來的 AI 需要構(gòu)建類似人類海馬體般靈活的回溯機制,既能穩(wěn)固地鎖定絕對空間結(jié)構(gòu),又能根據(jù)即時的視覺線索精準剔除 “過期報廢” 的錯誤記憶。
突破二:引入內(nèi)在 “好奇心” 驅(qū)動的強化探索
當前的 AI 大部分仍處于 “你提問、我回答” 的被動反應模式中。而破局的關(guān)鍵,在于引入對 “不確定性” 的感知與博弈(Uncertainty-Awareness)。智能體應當能夠主動評估哪些區(qū)域存在信息盲區(qū),在內(nèi)在 “好奇心” 的獎勵驅(qū)動下,規(guī)劃出信息增益最大化的探測軌跡。
突破三:真正擁抱 3D 物理法則的 “世界模型(World Models)”
如今的視覺語言模型依舊停留在 2D 像素層面的表面模式匹配,并未真正理解真實三維空間中的幾何剛體法則。一個強大的 “世界模型” 不僅僅是一張扁平的數(shù)據(jù)表,它應該天然內(nèi)蘊了物體的恒存性特征、視角變換間的物理恒等式。只有當大模型能夠閉上眼睛,在腦海里無縫推演 “我向前走兩步再右轉(zhuǎn)最終會看到什么” 時,它才算真正獲得了通關(guān)物理世界的通行證。
學會認知自身盲區(qū),并主動向不確定性出擊。這場以 “空間 IQ” 為坐標的試煉,徹底穿透了常規(guī)刷題基準下大模型虛增的表面分數(shù)。預測未知,擁抱未知,這不僅是具身大模型打破瓶頸的起點,更是未來 AGI 構(gòu)筑真實物理世界閉環(huán)的必由之路。
(本研究已被 ICLR 2026 接收為錄用論文,歡迎訪問項目主頁獲取完整的論文、代碼與數(shù)據(jù)集。)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.