<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      李曼玲、李飛飛團(tuán)隊(duì)頂會(huì)新作:給大模型測(cè)「空間智商」

      0
      分享至



      1. 真正的高級(jí)智能,在于認(rèn)知自己的 “無(wú)知”

      如果把當(dāng)下最強(qiáng)的大模型(如 GPT-5.2、Gemini-3 Pro)丟進(jìn)一個(gè)從未去過(guò)的虛擬房間,讓它自己探索并構(gòu)建地圖,它能做到嗎?

      一直以來(lái),我們?cè)u(píng)估多模態(tài)大模型的標(biāo)準(zhǔn)就像是 “開(kāi)卷考試”:給一張靜態(tài)圖片,問(wèn)圖里有什么。在這樣的標(biāo)尺下,AI 似乎已經(jīng)無(wú)所不能。然而,在真實(shí)的物理世界中,無(wú)論是家庭服務(wù)機(jī)器人還是自動(dòng)駕駛汽車(chē),面臨的都是部分可觀(guān)測(cè)(Partial Observability)的未知環(huán)境。

      人類(lèi)在探索未知時(shí),展現(xiàn)出了極高的 “空間智商”:當(dāng)你發(fā)現(xiàn)視野有盲區(qū)時(shí),你的大腦會(huì)自動(dòng)預(yù)測(cè)背后的 “不確定性(Uncertainty)”,并驅(qū)使你走上前去一探究竟,從而高效地獲取信息(Information Gain)。

      為了探究 AI 是否具備這種人類(lèi)級(jí)別的高階能力,西北大學(xué)李曼玲團(tuán)隊(duì)、斯坦福大學(xué)李飛飛與吳佳俊團(tuán)隊(duì),以及華盛頓大學(xué) Ranjay Krishna 團(tuán)隊(duì),共同提出了一項(xiàng)針對(duì)基礎(chǔ)模型的“空間智商測(cè)試”—— 空間理論 (Theory of Space)



      Theory of Space:主動(dòng)探索,信念探測(cè)以及任務(wù)評(píng)估。左側(cè)展示智能體在多房間局部觀(guān)測(cè)下的軌跡俯視圖;中間呈現(xiàn)其在文本或視覺(jué)環(huán)境中的 “移動(dòng) - 旋轉(zhuǎn) - 觀(guān)測(cè)” 閉環(huán),通過(guò)第一人稱(chēng)觀(guān)測(cè)實(shí)時(shí)更新內(nèi)部信念;右側(cè)則通過(guò)空間任務(wù)及認(rèn)知地圖探測(cè),對(duì)信念的利用與表征進(jìn)行深度評(píng)估。

      該研究指出,衡量具身大模型的真正試金石,不在于它能否機(jī)械地回答 “看到” 了什么,而在于它能否主動(dòng)預(yù)測(cè)并消除環(huán)境中的 “不確定性”。這才是通向通用人工智能(AGI)的必經(jīng)之路。



      • 論文標(biāo)題:Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
      • 論文鏈接: https://arxiv.org/abs/2602.07055
      • 代碼: https://github.com/mll-lab-nu/Theory-of-Space
      • 項(xiàng)目主頁(yè): https://theory-of-space.github.io/
      • 數(shù)據(jù)集: https://huggingface.co/datasets/MLL-Lab/tos-data

      2. 一場(chǎng)史無(wú)前例的 “空間 IQ 大考”

      為了全方位、無(wú)死角地測(cè)量大模型的空間智商,研究團(tuán)隊(duì)精心打造了一個(gè)基于程序的 “多模態(tài)平行測(cè)試宇宙”。這個(gè)宇宙同時(shí)包含了象征純粹邏輯推理的純文本房間,以及基于 ThreeDWorld 引擎渲染的視覺(jué)房間。

      模型只被賦予了幾項(xiàng)最基礎(chǔ)的本能動(dòng)作:“移動(dòng)”、“多角度旋轉(zhuǎn)” 和 “就地觀(guān)察”。它必須像一個(gè)真正的勘探者一樣,在有限的試錯(cuò)成本下,自主規(guī)劃探測(cè)路徑,并判斷何時(shí)已經(jīng)獲取了足夠的信息來(lái)終止探索。

      為了層層剝開(kāi) AI 空間認(rèn)知的底色,這一測(cè)試系統(tǒng)從三大核心維度對(duì)其展開(kāi)了步步緊逼的 “拷問(wèn)”:

      • 尋找未知(Construct): 面對(duì) “盲人摸象” 般的局部碎片視野和極具挑戰(zhàn)的 3D 渲染光影,模型能否克服感知迷霧,主動(dòng)、高效地搜集信息,在腦海里無(wú)縫連結(jié)出一張全局的 “認(rèn)知地圖”?
      • 敏銳糾錯(cuò)(Revise): 如果視線(xiàn)之外的房間格局被暗中調(diào)換(這對(duì)動(dòng)態(tài)物理世界再常見(jiàn)不過(guò)),模型在重新路過(guò)時(shí)能否立刻警覺(jué),并果斷修改大腦里的舊數(shù)據(jù)?
      • 高階推演(Exploit): 建好地圖不是終點(diǎn),關(guān)鍵在于能否經(jīng)受住應(yīng)用層面的極致考驗(yàn)。研究團(tuán)隊(duì)精心設(shè)計(jì)了 9 大核心空間推理任務(wù),既有考察第一人稱(chēng)代入感的 “路線(xiàn)級(jí)推理(Route-level)”(如視角轉(zhuǎn)換、根據(jù)連續(xù)動(dòng)作推演最終視野),也有高度抽象的 “全局級(jí)推理(Survey-level)”(如挑戰(zhàn)腦海里的 360 度動(dòng)態(tài)心智旋轉(zhuǎn)、構(gòu)建上帝視角的絕對(duì)坐標(biāo)構(gòu)圖)。



      任務(wù)套件總覽圖

      給大腦做 “X 光透視”:認(rèn)知地圖顯探測(cè)

      過(guò)去的研究往往只能通過(guò)動(dòng)作對(duì)錯(cuò)來(lái)猜測(cè) AI 的思路。而在 Theory of Space 中,研究團(tuán)隊(duì)創(chuàng)造性地引入了 “認(rèn)知地圖顯式探測(cè)(Cognitive Map Probing)” 機(jī)制

      在模型每走一步時(shí),都強(qiáng)制要求它以 JSON 格式默寫(xiě)出腦海中的虛擬地圖分布,甚至直接在地圖上選出 “尚未探索過(guò)的盲區(qū)”。這使得 AI 對(duì)不確定性的建模過(guò)程徹底透明化!



      3. 成績(jī)單出爐:面對(duì)不確定性,基礎(chǔ)模型四大底層缺陷盡顯

      研究團(tuán)隊(duì)將 GPT-5.2, Gemini-3 Pro, Claude-4.5 Sonnet, GLM-4.6V, Qwen3-VL 等主流大模型送入考場(chǎng)。結(jié)果令人震撼:當(dāng) AI 面臨 “自主求解不確定性” 的任務(wù)時(shí),看似強(qiáng)大的它們集體迷失,暴露出令人擔(dān)憂(yōu)的四大深層病理。

      缺陷一:毫無(wú)章法的試錯(cuò)陷阱,主動(dòng)探索得分暴跌

      為了設(shè)立標(biāo)尺,研究者先用了一個(gè) “策略腳本代理(Proxy Agent)” 去執(zhí)行探索,也就是被動(dòng)探索模式,發(fā)現(xiàn)只需平均約 9 步就能完全掌控整個(gè)房間結(jié)構(gòu);而大模型自主行動(dòng)時(shí),卻往往耗費(fèi) 14 到 20 步以上,并且不停地在已安全觀(guān)測(cè)的區(qū)域里打轉(zhuǎn)。



      這種 “無(wú)頭蒼蠅” 式的探索,導(dǎo)致最終構(gòu)建的地圖質(zhì)量嚴(yán)重受損。例如,面對(duì)同樣的視覺(jué)宇宙,GPT-5.2 的動(dòng)作準(zhǔn)確率從被動(dòng)接收信息的 57.1% 大幅下滑至主動(dòng)探索的僅 46.0%。

      癥結(jié)在于:大模型無(wú)法形成一種高效、有條理的探索策略,并且不能很好地感知自身知識(shí)的邊界,無(wú)法非常有效地標(biāo)出哪些區(qū)域是未知的。



      任務(wù)準(zhǔn)確率 vs. 主動(dòng)探索開(kāi)銷(xiāo),灰圖標(biāo)代表被動(dòng)探索模式



      視覺(jué)模態(tài)下,主動(dòng)探索與被動(dòng)探索存在鴻溝

      缺陷二:脆弱的記憶與 “信念漂移”

      通過(guò)給大模型做 “認(rèn)知透視”,研究者發(fā)現(xiàn)其內(nèi)部的空間信念呈現(xiàn)出極強(qiáng)的脆弱性。模型可能在第一眼準(zhǔn)確記住了一個(gè)沙發(fā)的坐標(biāo),但隨著它轉(zhuǎn)身去探索另一側(cè)的門(mén),先前對(duì)沙發(fā)的 “信念” 就會(huì)迅速退化模糊,甚至被稍后收到的無(wú)關(guān)信息無(wú)端覆蓋。這種無(wú)法維持長(zhǎng)效、穩(wěn)定認(rèn)知地圖的缺陷,被稱(chēng)為極其致命的“信念漂移”。

      缺陷三:細(xì)思極恐的 “信念慣性(Belief Inertia)”

      在 “糾錯(cuò)” 能力的測(cè)試中,研究人員復(fù)刻了心理學(xué)著名的 “錯(cuò)誤信念” 實(shí)驗(yàn):等模型探索完一圈后,悄悄挪動(dòng)了幾個(gè)關(guān)鍵物體的位置或朝向。

      極其具有戲劇性的一幕出現(xiàn)了:當(dāng)大模型再次路過(guò)并親眼看到物體已經(jīng)不在原地時(shí),它對(duì)物體位置的預(yù)測(cè),居然仍固執(zhí)地偏向了老地方!數(shù)據(jù)顯示,GPT-5.2 在視覺(jué)模型中的 “信念慣性” 高達(dá) 68.9%。這說(shuō)明當(dāng)前的 AI 缺乏認(rèn)知可塑性,極難用眼前的視覺(jué)新證據(jù)去推翻腦海中陳舊的語(yǔ)言先驗(yàn)。



      缺陷四:難以跨越的 “模態(tài)鴻溝(Modality Gap)”

      最終的統(tǒng)計(jì)數(shù)據(jù)指出了一條鴻溝:模型雖然在純文本構(gòu)建的虛擬房間中表現(xiàn)尚可(得益于長(zhǎng)文本里強(qiáng)大的符號(hào)與語(yǔ)言邏輯),但一旦進(jìn)入基于 3D 渲染的視覺(jué)世界(Vision World),面對(duì)必須依靠像素感知來(lái)推斷深度的雙重壓力,得分直線(xiàn)下滑。

      形成鮮明對(duì)比的是,人類(lèi)在相同的視覺(jué)測(cè)試中,即使面對(duì)復(fù)雜布局,借助簡(jiǎn)單的工具也能輕松達(dá)到 99.0% 的超高準(zhǔn)確率。總體來(lái)看,AI 在這方面仍與人類(lèi)存在明顯差距。



      主動(dòng)探索下視覺(jué)與文本存在巨大性能落差

      4. 邁向下一代具身智能:從 “死記硬背” 到構(gòu)建 “世界模型”

      Theory of Space 這場(chǎng)大考絕不只是單純的找茬挑刺,它更像是一份詳盡的診斷書(shū),指出了當(dāng)下大模型在走向真實(shí)場(chǎng)景(如家用機(jī)器人、自動(dòng)駕駛)時(shí),亟待填補(bǔ)的能力空白。要孕育出真正能在復(fù)雜現(xiàn)實(shí)中自如穿梭的通用人工智能(AGI),未來(lái)的研究必須在以下方向?qū)で蟾拘酝黄疲?/p>

      突破一:培育具有強(qiáng)可塑性的 “空間長(zhǎng)時(shí)記憶”

      現(xiàn)有的多模態(tài)模型一旦轉(zhuǎn)移視線(xiàn),記憶往往如流沙般流失(信念漂移);亦或是對(duì)陳舊的先驗(yàn)固執(zhí)己見(jiàn)(信念慣性)。未來(lái)的 AI 需要構(gòu)建類(lèi)似人類(lèi)海馬體般靈活的回溯機(jī)制,既能穩(wěn)固地鎖定絕對(duì)空間結(jié)構(gòu),又能根據(jù)即時(shí)的視覺(jué)線(xiàn)索精準(zhǔn)剔除 “過(guò)期報(bào)廢” 的錯(cuò)誤記憶。

      突破二:引入內(nèi)在 “好奇心” 驅(qū)動(dòng)的強(qiáng)化探索

      當(dāng)前的 AI 大部分仍處于 “你提問(wèn)、我回答” 的被動(dòng)反應(yīng)模式中。而破局的關(guān)鍵,在于引入對(duì) “不確定性” 的感知與博弈(Uncertainty-Awareness)。智能體應(yīng)當(dāng)能夠主動(dòng)評(píng)估哪些區(qū)域存在信息盲區(qū),在內(nèi)在 “好奇心” 的獎(jiǎng)勵(lì)驅(qū)動(dòng)下,規(guī)劃出信息增益最大化的探測(cè)軌跡。

      突破三:真正擁抱 3D 物理法則的 “世界模型(World Models)”

      如今的視覺(jué)語(yǔ)言模型依舊停留在 2D 像素層面的表面模式匹配,并未真正理解真實(shí)三維空間中的幾何剛體法則。一個(gè)強(qiáng)大的 “世界模型” 不僅僅是一張扁平的數(shù)據(jù)表,它應(yīng)該天然內(nèi)蘊(yùn)了物體的恒存性特征、視角變換間的物理恒等式。只有當(dāng)大模型能夠閉上眼睛,在腦海里無(wú)縫推演 “我向前走兩步再右轉(zhuǎn)最終會(huì)看到什么” 時(shí),它才算真正獲得了通關(guān)物理世界的通行證。

      學(xué)會(huì)認(rèn)知自身盲區(qū),并主動(dòng)向不確定性出擊。這場(chǎng)以 “空間 IQ” 為坐標(biāo)的試煉,徹底穿透了常規(guī)刷題基準(zhǔn)下大模型虛增的表面分?jǐn)?shù)。預(yù)測(cè)未知,擁抱未知,這不僅是具身大模型打破瓶頸的起點(diǎn),更是未來(lái) AGI 構(gòu)筑真實(shí)物理世界閉環(huán)的必由之路。

      (本研究已被 ICLR 2026 接收為錄用論文,歡迎訪(fǎng)問(wèn)項(xiàng)目主頁(yè)獲取完整的論文、代碼與數(shù)據(jù)集。)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      高曙光也沒(méi)想到,他52歲和富婆生下的兒子,如今成了他的“救贖”

      高曙光也沒(méi)想到,他52歲和富婆生下的兒子,如今成了他的“救贖”

      動(dòng)物奇奇怪怪
      2026-03-10 18:47:04
      注意了!下周金價(jià)或?qū)⒅匮?015年歷史,及早做準(zhǔn)備

      注意了!下周金價(jià)或?qū)⒅匮?015年歷史,及早做準(zhǔn)備

      藍(lán)色海邊
      2026-03-11 02:44:08
      臺(tái)灣即將有望統(tǒng)一!五大信號(hào)正在釋放:武力統(tǒng)一或?qū)⑦M(jìn)入倒計(jì)時(shí)?

      臺(tái)灣即將有望統(tǒng)一!五大信號(hào)正在釋放:武力統(tǒng)一或?qū)⑦M(jìn)入倒計(jì)時(shí)?

      南宗歷史
      2026-03-08 22:36:31
      2026年就業(yè)有多難,有HR一個(gè)崗位放上去沒(méi)多久,上百人就來(lái)咨詢(xún)了

      2026年就業(yè)有多難,有HR一個(gè)崗位放上去沒(méi)多久,上百人就來(lái)咨詢(xún)了

      映射生活的身影
      2026-03-10 17:05:43
      四川宜賓一佳人,好漂亮,仙姿玉色,貌美如花,絕世佳人不過(guò)如此

      四川宜賓一佳人,好漂亮,仙姿玉色,貌美如花,絕世佳人不過(guò)如此

      小椰的奶奶
      2026-03-10 21:01:12
      好慘!賽季報(bào)銷(xiāo)后馬上被裁!他基本告別NBA了....

      好慘!賽季報(bào)銷(xiāo)后馬上被裁!他基本告別NBA了....

      柚子說(shuō)球
      2026-03-10 17:00:49
      96小時(shí)內(nèi)哈梅葬禮如期舉行,普京無(wú)法到場(chǎng),中國(guó)作出重要承諾

      96小時(shí)內(nèi)哈梅葬禮如期舉行,普京無(wú)法到場(chǎng),中國(guó)作出重要承諾

      漢字筆跡心理分析
      2026-03-09 21:53:36
      俄羅斯向伊朗表態(tài)之后,不到24小時(shí),特朗普打消了對(duì)普京的懷疑

      俄羅斯向伊朗表態(tài)之后,不到24小時(shí),特朗普打消了對(duì)普京的懷疑

      詩(shī)里尋那個(gè)他
      2026-03-11 03:20:39
      售價(jià)8999元起!榮耀Magic V6正式發(fā)布,跨代領(lǐng)先全滿(mǎn)貫折疊旗艦!

      售價(jià)8999元起!榮耀Magic V6正式發(fā)布,跨代領(lǐng)先全滿(mǎn)貫折疊旗艦!

      商業(yè)與生活
      2026-03-10 21:07:30
      韓庚和妻子與友人聚餐,素顏皮膚黑眉毛好淡,盧靖姍狀態(tài)比他好

      韓庚和妻子與友人聚餐,素顏皮膚黑眉毛好淡,盧靖姍狀態(tài)比他好

      八怪娛
      2026-03-10 17:48:32
      哇,富態(tài)優(yōu)雅,成熟豐腴,誰(shuí)娶了她定能旺三代

      哇,富態(tài)優(yōu)雅,成熟豐腴,誰(shuí)娶了她定能旺三代

      可樂(lè)談情感
      2026-03-10 21:20:45
      于東來(lái)發(fā)文稱(chēng)死后不辦任何儀式,骨灰找就近河流撒完,近日他現(xiàn)身多地并分享旅游動(dòng)態(tài)

      于東來(lái)發(fā)文稱(chēng)死后不辦任何儀式,骨灰找就近河流撒完,近日他現(xiàn)身多地并分享旅游動(dòng)態(tài)

      大風(fēng)新聞
      2026-03-10 18:42:55
      67歲湯鎮(zhèn)業(yè)近況曝光!再婚娶小25歲青島美女,如今一家8口很幸福

      67歲湯鎮(zhèn)業(yè)近況曝光!再婚娶小25歲青島美女,如今一家8口很幸福

      代軍哥哥談娛樂(lè)
      2026-03-10 09:09:50
      央視怒批,國(guó)務(wù)院點(diǎn)名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

      央視怒批,國(guó)務(wù)院點(diǎn)名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

      大魚(yú)簡(jiǎn)科
      2025-09-02 19:34:00
      不可錯(cuò)過(guò)!3月10日晚上19:40比賽!中央5套CCTV5、CCTV5+直播表

      不可錯(cuò)過(guò)!3月10日晚上19:40比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀(guān)天下
      2026-03-10 12:34:48
      伊朗官方電視臺(tái):新最高領(lǐng)袖已受傷

      伊朗官方電視臺(tái):新最高領(lǐng)袖已受傷

      華人生活網(wǎng)
      2026-03-10 04:33:57
      男人的生理需求能有多難忍?網(wǎng)友:我對(duì)我老公只有動(dòng)物本能

      男人的生理需求能有多難忍?網(wǎng)友:我對(duì)我老公只有動(dòng)物本能

      帶你感受人間冷暖
      2026-02-07 03:58:56
      外交部:中方高度警惕,堅(jiān)決反對(duì)日方妄圖在臺(tái)灣問(wèn)題上打“擦邊球”“搞突破”,日方縱容挑釁和恣意妄為必將付出代價(jià)

      外交部:中方高度警惕,堅(jiān)決反對(duì)日方妄圖在臺(tái)灣問(wèn)題上打“擦邊球”“搞突破”,日方縱容挑釁和恣意妄為必將付出代價(jià)

      環(huán)球網(wǎng)資訊
      2026-03-09 15:34:10
      西方觀(guān)察家認(rèn)為:這次的美伊以沖突會(huì)導(dǎo)致永久改寫(xiě)臺(tái)海戰(zhàn)爭(zhēng)的規(guī)則

      西方觀(guān)察家認(rèn)為:這次的美伊以沖突會(huì)導(dǎo)致永久改寫(xiě)臺(tái)海戰(zhàn)爭(zhēng)的規(guī)則

      阿七說(shuō)史
      2026-03-09 16:03:48
      欠中國(guó)的錢(qián),委內(nèi)瑞拉不還了?美財(cái)長(zhǎng):中國(guó)已無(wú)法繼續(xù)獲得委石油

      欠中國(guó)的錢(qián),委內(nèi)瑞拉不還了?美財(cái)長(zhǎng):中國(guó)已無(wú)法繼續(xù)獲得委石油

      萌城少年強(qiáng)
      2026-01-22 12:47:40
      2026-03-11 05:44:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專(zhuān)業(yè)的人工智能媒體
      12467文章數(shù) 142581關(guān)注度
      往期回顧 全部

      科技要聞

      全民"養(yǎng)蝦"背后:大廠(chǎng)集體下場(chǎng)瘋狂賣(mài)Token

      頭條要聞

      伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話(huà) 官方回應(yīng)

      頭條要聞

      伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話(huà) 官方回應(yīng)

      體育要聞

      加蘭沒(méi)那么差,但鱸魚(yú)會(huì)用嗎?

      娛樂(lè)要聞

      《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

      財(cái)經(jīng)要聞

      “龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

      汽車(chē)要聞

      MG4有SUV衍生 上汽乘用車(chē)多款新車(chē)規(guī)劃曝光

      態(tài)度原創(chuàng)

      本地
      親子
      藝術(shù)
      游戲
      公開(kāi)課

      本地新聞

      云游中國(guó)|候鳥(niǎo)高顏值亮相!沉浸式打卡青海濕地

      親子要聞

      老婆懷的是女孩嗎?

      藝術(shù)要聞

      這組剪紙?zhí)懒耍?/h3>

      《德波尼亞》Steam 免費(fèi)領(lǐng) / 《超級(jí)馬力歐銀河大電影》最終預(yù)告曝光

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版