<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      李曼玲、李飛飛、吳佳俊等聯手:評估具身大模型的新范式!

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】全新的具身模型空間能力評估范式 Theory of Space 突破了傳統靜態圖文問答的局限,系統性地考察基礎模型能否像人一樣,在部分可觀測的動態環境中,通過自主探索來構建、修正和利用空間信念。該論文已被 ICLR 2026 接收。

      當今的多模態大模型(如 GPT-5.2, Gemini-3 Pro)在各類視覺問答榜單上屢破紀錄。然而,如果希望將這些能力延伸到更真實的物理場景中,模型在空間理解上可能會面臨不小的挑戰。為什么會這樣?

      想象你走進一棟從未去過的公寓。你推開門看到沙發,走進走廊瞥見臥室的床,再往前發現廚房的冰箱?,F在問你:「沙發在冰箱的哪個方向?」你通常能回答,因為你在腦海中悄悄地構建了一幅「心理地圖」。

      人類大多能不假思索地做到這一點。但對當前的基礎模型而言,情況可能會有所不同,研究人員發現,現有的評估范式與真實物理世界的需求相比,可能存在一些差異:

      1. 從「上帝視角」到「部分可觀測」:傳統基準測試往往提供涵蓋全局的靜態圖片。但在真實的物理空間中,智能體的視野大多是局部的。它們往往需要通過主動探索,把零散的第一人稱視覺線索拼接成全局的「認知地圖」。

      2. 從「被動回答」到「主動決策」:現有的空間評測通常是向模型提供固定的觀察數據。但在更開放的環境中,可能需要系統自主決定探索的方向與目標,以更高效的方式獲取環境信息。

      3. 從「靜態常識」到「動態修正」:物理環境是會發生動態變化的(例如物品位置的變動)。除了構建地圖,智能體也許還需要在發現環境變化時適時更新舊的空間記憶。

      西北大學李曼玲團隊、斯坦福大學李飛飛與吳佳俊團隊,以及華盛頓大學Ranjay Krishna團隊共同牽頭提出了Theory of Space(空間理論),探討了:當減少對完整給定信息的依賴,要求基礎模型通過主動探索來認識環境時,其空間認知能力會有怎樣的表現?


      論文鏈接:https://arxiv.org/abs/2602.07055

      代碼:https://github.com/mll-lab-nu/Theory-of-Space

      項目主頁:https://theory-of-space.github.io/

      數據集:https://huggingface.co/datasets/MLL-Lab/tos-data


      Theory of Space:主動探索、信念探測和任務評估。左側用俯視圖展示智能體在多房間局部觀測條件下的行動軌跡;中間展示其在文本或視覺環境中通過「移動—轉向—觀察」的循環,并根據第一人稱觀測持續更新內部信念;右側通過空間任務與認知地圖探針,評估這些信念的表征及其使用方式。

      空間智能中的「心智理論」

      在認知科學中,Theory of Mind(心智理論)考察的是一個智能體能否推測他人隱藏的心理狀態:「他在想什么?他知不知道這件事?」它關注的是對不可見的心智世界的建模。

      Theory of Space(空間理論)作為它在物理世界中的對稱概念:考察的是一個智能體能否推測環境中尚未觀測到的空間結構:「這個世界長什么樣?門后面還有什么?」它關注的是對不可見的物理世界的建模。

      兩者的共同本質在于:智能體需要基于有限的線索,去推斷隱藏的結構,并隨著新信息不斷地修正自己的信念。

      研究人員將 Theory of Space 定義為三個緊密耦合的核心能力:

      • 構建(Construct)在部分可觀測的迷霧中主動邁出腳步,收集局部觀察,并在內部表征中拼湊出一張全局一致的「認知地圖」。

      • 修正(Revise)面對動態環境(如物品被悄悄移位),敏銳察覺「舊記憶」與「新證據」的沖突,打破信念的慣性,完成知識的更新(Belief Revision)。

      • 利用(Exploit)將維護好的認知地圖,作為應對復雜下游空間推理任務(如空間導航、視角推演)的最強武器。


      Theory of Space的核心:在部分可觀測環境中,智能體圍繞空間信念的構建、動態修正與利用,完成空間推理與決策。

      從構建、修正到利用

      對齊三大能力

      研究人員圍繞Theory of Space的三大核心能力(構建Construct、修正Revise、利用Exploit)設計了一整套評測體系,并引入認知地圖顯式探測作為核心貢獻,實現對模型內部空間信念的直接診斷。

      構建(Construct):主動探索建圖

      研究人員在程序化生成的多房間室內布局中,提供文本世界(符號化方向/距離)和視覺世界(ThreeDWorld 渲染的第一人稱 RGB 圖像)兩種平行環境。智能體必須自主決定移動、旋轉、觀察的策略,高效構建空間信念。直覺上你可能會以為這類任務就是「多看看」。但更關鍵的是,智能體需要用不確定性來驅動行動,去做高效的信息獲取。

      修正(Revise):在動態環境中更新過時信念

      借鑒發展心理學中經典的「錯誤信念(False Belief)」范式:在智能體完成初次探索后,偷偷將若干物體移位或旋轉,制造「舊信念」與「新現實」的沖突。智能體能否發現變化、推翻舊記憶、建立新信念?


      利用(Exploit):九類空間推理任務

      覆蓋路徑級(Route)(路徑推理)和全局級(Survey)(鳥瞰視角地圖推理)兩個層次,全面評估空間信念的利用價值。


      下游空間任務總覽

      核心貢獻:顯式認知地圖探測

      以往評估只看最終對錯,內部信念是黑箱。研究人員引入顯式認知地圖探測(Explicit Cognitive Map Probing):每一步都要求模型以JSON格式外化其空間信念,度量準確性、感知質量、穩定性和不確定性建模。不僅知道模型答得對不對,更知道它為什么答對、為什么答錯。


      大模型對空間的理解

      究竟卡在了哪里?

      研究人員在包括GPT-5.2、Gemini-3 Pro、Claude-4.5 Sonnet等在內的六個前沿多模態大模型上進行了大規模的深度評測。通過白盒探測,深刻揭開了當前大模型在空間認知上的能力邊界:

      洞察一:主動信息獲取是具身智能的阿喀琉斯之踵

      讓模型自己決定「看什么」,性能大幅下降。

      為了區分「探索能力」和「推理能力」,研究人員設計了腳本化的規則代理(Proxy Agent)作為探索基準:視覺世界中的代理在每個位置進行360°掃描以保證完整覆蓋,文本世界中的代理則采用信念驅動的策略來最大化消除歧義。模型在被動模式下接收這些代理收集的觀測日志進行推理,在主動模式下則需自主規劃探索。


      結果令人震驚:GPT-5.2從被動57.1降到主動46.0(視覺世界),Gemini-3 Pro從60.5降到57.3,在效率方面,規則代理僅需約9步即可達到目標覆蓋,而基礎模型常常需要 14 步以上且信念質量并未提升。模型「探索得多」但「探索得差」,高冗余、低效率。隨著環境復雜度增加,這種差距進一步擴大。


      任務準確率 vs. 主動探索開銷,灰色圖標代表被動模式。智能體在主動探索模式下的探索效率以及任務準確率都低于被動模式



      文本與視覺模態下,主動探索與被動探索都存在鴻溝

      發現二:模態鴻溝

      文本推理遠強于視覺推理,所有模型無一例外。

      無論在被動還是主動設定下,模型在文本環境中的表現均一致且顯著地優于視覺環境。這揭示了當前多模態模型在空間感知方面存在的根本局限:模型難以有效地從視覺觀察中提取空間信息,而高度依賴于符號化表征來進行關鍵關系的邏輯推理。



      被動模式與主動探索下,視覺與文本都存在巨大性能落差

      發現三:認知地圖的三重危機

      通過認知地圖探測,研究人員進一步發現:朝向感知是瓶頸(視覺世界中物體朝向判斷接近隨機);信念不穩定(正確感知的信息隨時間退化);信念漂移(新的錯誤更新覆蓋先前正確的感知)。換句話說,模型不是「看不見」,而是「記不住」「記錯了」。

      發現四:認知地圖是有效的診斷工具

      研究人員通過消融實驗驗證了認知地圖作為診斷工具的有效性:

      • 充分性驗證:給模型提供真實的認知地圖后,下游任務準確率飆升至 ~95%,證明 JSON 地圖格式捕獲了完成任務所需的全部信息。

      • 相關性驗證:認知地圖準確度與下游任務表現呈顯著正相關(Pearson r = 0.42~0.65,p < 0.001)。

      雖然外化的地圖是模型內部信念的有損壓縮,但它仍是強有力的診斷信號。

      發現五:信念慣性(Belief Inertia)

      即使親眼看到了變化,模型仍然「固執己見」。

      當環境變化后,模型即便直接觀察到新布局,仍傾向于舊的空間坐標。視覺模型的方向慣性高達 68.9%(GPT-5.2),而文本模型僅為 5.5%。當前基礎模型缺乏足夠的認知可塑性來修正其空間記憶。

      人類 vs. AI

      人類在視覺世界中達到96.4%準確率(使用工具后99.0%),而最佳AI(Gemini-3 Pro)僅57.3%

      有趣的是,人類在視覺世界反而優于文本世界,因為視覺信息對人類更易處理,這與AI表現恰好相反。簡言之,人類具有直觀理解視覺空間的天然優勢,而當前的 AI 架構則更傾向于依賴文本符號來進行邏輯推演。

      總結與展望

      Theory of Space將空間評估從「模型能否回答對?」重新定義為一個更根本的問題:模型能否通過高效的信息獲取,構建并維護一個連貫的、可修正的空間世界模型?

      論文的發現指向三個關鍵方向:

      1. 不確定性感知的高效探索策略;

      2. 魯棒的長時空間記憶維護,解決信念漂移問題;

      3. 可靠的信念修正機制,克服信念慣性。

      這些挑戰不僅關乎學術評測,更直接影響著具身智能的實際落地。無論是家庭機器人、自動駕駛還是搜救機器人,主動空間理解都是不可或缺的基礎能力。

      該研究由Northwestern University, Stanford University, University of Washington, Cornell University聯合完成。項目現已開源,可訪問主頁獲取完整論文、測試套件代碼與數據集。

      參考資料:

      https://arxiv.org/abs/2602.07055

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      女員工手一抖摔破3000多元飛天茅臺:確實是真酒,我自己需承擔賠償,從此見到茅臺就有心理陰影

      女員工手一抖摔破3000多元飛天茅臺:確實是真酒,我自己需承擔賠償,從此見到茅臺就有心理陰影

      極目新聞
      2026-03-05 11:24:35
      以色列地面部隊,攻入黎巴嫩境內,空襲斬首真主黨關鍵人物

      以色列地面部隊,攻入黎巴嫩境內,空襲斬首真主黨關鍵人物

      觸摸史跡
      2026-03-05 17:01:25
      固態電池尷尬了:國標來了,騙子退場,真貨拖延?

      固態電池尷尬了:國標來了,騙子退場,真貨拖延?

      科學聲音
      2026-03-05 14:20:40
      2026年3月4日,兩會傳來了3個好消息,一個比一個靠譜

      2026年3月4日,兩會傳來了3個好消息,一個比一個靠譜

      牛鍋巴小釩
      2026-03-05 12:44:40
      央視公布!中國衛星立大功,全程直播美軍行動,一舉一動盡收眼底

      央視公布!中國衛星立大功,全程直播美軍行動,一舉一動盡收眼底

      解鎖世界風云
      2026-03-05 16:06:48
      美國宣布:打死一名曾試圖策劃暗殺特朗普的伊朗高級軍官!伊朗新任最高領袖將選出,哈梅內伊之子受到普遍認可

      美國宣布:打死一名曾試圖策劃暗殺特朗普的伊朗高級軍官!伊朗新任最高領袖將選出,哈梅內伊之子受到普遍認可

      每日經濟新聞
      2026-03-04 22:17:33
      波斯可能遭到群毆?

      波斯可能遭到群毆?

      高博新視野
      2026-03-03 16:26:04
      臺海大局已定,美專家:只要美國航母敢靠近,就是決定命運的時刻

      臺海大局已定,美專家:只要美國航母敢靠近,就是決定命運的時刻

      聞香閣
      2026-03-05 16:01:56
      澳大利亞驚現封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產物

      澳大利亞驚現封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產物

      第7情感
      2026-02-23 20:45:16
      建議廢除勞務派遣制度:2026勞務派遣新規落地

      建議廢除勞務派遣制度:2026勞務派遣新規落地

      李博世財經
      2026-03-05 14:01:36
      母子相認現場:母親袖口磨破舍不得扔,卻給26歲兒子買新衣新鞋

      母子相認現場:母親袖口磨破舍不得扔,卻給26歲兒子買新衣新鞋

      匹夫來搞笑
      2026-03-05 14:26:35
      機構:華為奪2025中國手機銷量第一 蘋果全球第一

      機構:華為奪2025中國手機銷量第一 蘋果全球第一

      快科技
      2026-03-03 15:35:06
      初戀敗給蔣雯麗,與耿樂7年戀情也無果,如今孔琳57歲男友是鐵佛

      初戀敗給蔣雯麗,與耿樂7年戀情也無果,如今孔琳57歲男友是鐵佛

      白面書誏
      2026-03-03 14:58:14
      比亞迪王炸技術曝光:150度電、1300匹馬力、1000公里續航!

      比亞迪王炸技術曝光:150度電、1300匹馬力、1000公里續航!

      新浪財經
      2026-03-04 18:48:54
      迪麗熱巴被困迪拜升級!工作人員直飛,只有她轉機,網友再曝猛料

      迪麗熱巴被困迪拜升級!工作人員直飛,只有她轉機,網友再曝猛料

      林輕吟
      2026-03-03 19:18:39
      這才是鐵哥們!還清中國81億欠債,贈百億大禮,西方各國都眼紅

      這才是鐵哥們!還清中國81億欠債,贈百億大禮,西方各國都眼紅

      霽寒飄雪
      2025-12-30 11:54:50
      戰場正在擴大,伊朗連炸9國,日本要求立即?;?,首個犧牲國出現

      戰場正在擴大,伊朗連炸9國,日本要求立即停火,首個犧牲國出現

      無情有思可
      2026-03-03 09:14:50
      我存50萬養老,女婿側面打聽,我稱只有4萬隔天親家母說要來享福

      我存50萬養老,女婿側面打聽,我稱只有4萬隔天親家母說要來享福

      不易一字
      2025-04-03 17:51:20
      伊朗終于等到這天,中俄一齊在安理會掀桌,特朗普計劃徹底黃了?

      伊朗終于等到這天,中俄一齊在安理會掀桌,特朗普計劃徹底黃了?

      李健政觀察
      2026-03-05 17:11:04
      美稱庫爾德武裝向伊朗發起“地面進攻”,伊朗否認!伊朗威脅:若美以企圖更迭政權,將打擊以核反應堆

      美稱庫爾德武裝向伊朗發起“地面進攻”,伊朗否認!伊朗威脅:若美以企圖更迭政權,將打擊以核反應堆

      每日經濟新聞
      2026-03-05 09:18:04
      2026-03-05 18:08:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14647文章數 66653關注度
      往期回顧 全部

      科技要聞

      阿里內部郵件回應:批準林俊旸辭職

      頭條要聞

      《武林外傳》演員在鄭州開免費自助餐廳:付錢全憑自愿

      頭條要聞

      《武林外傳》演員在鄭州開免費自助餐廳:付錢全憑自愿

      體育要聞

      不開玩笑,沒人想在季后賽碰上黃蜂

      娛樂要聞

      謝娜下場撕薛之謙,張杰前女友爆猛料

      財經要聞

      “十五五”開局之年,這么干!

      汽車要聞

      小鵬第二代VLA如何破解智駕不敢用的技術困局?

      態度原創

      數碼
      教育
      游戲
      公開課
      軍事航空

      數碼要聞

      海信UX 2026款RGB-Mini LED旗艦電視發布,頂配價格超十萬元

      教育要聞

      青島長沙路小學:以“馬”為序,策馬奔赴新學期

      《eBaseball?: PRO SPIRIT》今日于PlayStation?5與Steam?全球上線發售

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      2026年中國國防預算增長7%

      無障礙瀏覽 進入關懷版