全球頂尖大模型一夜慘遭血洗！最難測試人類拿滿分，AI第一名得0.2%分

2026-03-26 18:14:12　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：Aeneas 好困

【新智元導(dǎo)讀】今夜，整個(gè)AI圈震動(dòng)了。全球最難AGI測試ARC-AGI-3一上線，就把全球頂尖AI打到集體失聲，人類滿分通關(guān)，最強(qiáng)模型Opus 4.6得分僅0.2%，還不到1%。AI這是一夜被打回「原始人」了。

就在今天，這條消息把整個(gè)AI圈給震了。

眾望所歸的，全球唯一尚未飽和的智能體基準(zhǔn)測試ARC-AGI-3出爐了，直接血洗了全球頂尖大模型。

在這個(gè)測試中，人類得分100%，AI的得分普遍低于1%。

這個(gè)差距，比珠穆朗瑪峰還高。

最慘烈的是，在上一代測試中還能拿下69.2%高分的「模范生」Opus 4.6，在ARC-AGI-3面前直接現(xiàn)了原形，得分僅為0.2%。

這位曾經(jīng)橫掃各大榜單的「學(xué)霸」，連蒙帶猜都拿不到1分。

這面鏡子，照出了當(dāng)前AI能力中最深的裂縫。

在最近的采訪中，老黃認(rèn)為我們已經(jīng)實(shí)現(xiàn)了AGI。但是ARC-AGI-3顯示，或許如今的AI連1%的AGI都沒有實(shí)現(xiàn)。

ARC-AGI-3，到底有多變態(tài)

它的前身ARC-AGI-1和ARC-AGI-2，已經(jīng)是AI圈出了名的「魔鬼測試」。

那些測試?yán)铮珹I需要觀察幾個(gè)示例，然后推斷出網(wǎng)格變換的規(guī)律，完成新任務(wù)。

聽起來不難？但就是這些看起來像幼兒園連線題的東西，曾經(jīng)讓無數(shù)大模型鎩羽而歸。

而到了ARC-AGI-3，難度直接換了個(gè)維度：從「靜態(tài)題」變成了「互動(dòng)游戲」。

150多個(gè)手工設(shè)計(jì)的交互式游戲環(huán)境，包含1000多個(gè)關(guān)卡。

每個(gè)游戲都有自己的內(nèi)在邏輯、隱藏規(guī)則和通關(guān)條件。但沒有任何說明文檔，沒有自然語言提示，沒有人告訴你「左邊的按鈕會(huì)開門」或者「收集三個(gè)紅色方塊就能過關(guān)」。

AI智能體被丟進(jìn)去，只能看到當(dāng)前畫面，選擇一個(gè)動(dòng)作，觀察結(jié)果，再?zèng)Q定下一步。

它只能像盲人摸象一樣，一步一步試探，然后在大腦里拼湊出一個(gè)「這個(gè)世界可能是這樣運(yùn)作的」的模型。

這正是ARC Prize基金會(huì)想測的四件事。

探索：能不能通過主動(dòng)與環(huán)境互動(dòng)來獲取關(guān)鍵信息？
建模：能不能把零散的觀察凝聚成一個(gè)可以預(yù)測未來狀態(tài)的世界模型？
目標(biāo)獲取：沒有人下達(dá)指令，能不能自己判斷出「我應(yīng)該以什么為目標(biāo)」？
規(guī)劃與執(zhí)行：能不能規(guī)劃出行動(dòng)路徑，并根據(jù)環(huán)境反饋隨時(shí)修正？

「幾何級(jí)數(shù)」的羞辱：0.2%是怎么來的？

評(píng)分標(biāo)準(zhǔn)同樣殘忍。

ARC-AGI-3的評(píng)分不看「有沒有通關(guān)」，而是看「效率」，而且是和人類比效率。

這在AI基準(zhǔn)測試的歷史上，還是頭一回。

受Chollet那篇《論智能的衡量》的啟發(fā)，ARC Prize團(tuán)隊(duì)把「智能」操作化為一個(gè)轉(zhuǎn)換率：

你從環(huán)境中獲取信息的效率有多高？你把這些信息轉(zhuǎn)化為正確行動(dòng)的速度有多快？

假設(shè)人類解決這個(gè)游戲需要10步，而AI用了100步，那AI的得分是多少？

不是10%，而是1%。

公式是：(人類步數(shù)/AI步數(shù))2。人類10步，AI 100步，那就是(10/100)2=0.01=1%。

如果AI用了200步，這一數(shù)字就是0.25%；500步就是0.04%。

這一下，把AI所有的「蠻力」路都堵死了。

以前AI可以靠窮舉，把所有可能的操作試一遍，總能試出正確路徑。

但在這種評(píng)分體系下，你多試一步，分?jǐn)?shù)就斷崖式下跌。

現(xiàn)在，你就知道了Opus 4.6得分只有0.2%的意味——

假設(shè)人類解決某個(gè)游戲用了10步，0.2%=0.002，開平方≈0.0447，10÷0.0447≈224步。

這已經(jīng)不是「笨」了，這是在迷宮里原地轉(zhuǎn)圈到天荒地老。

當(dāng)這種差距被如此強(qiáng)烈地展示出來，很多以為AGI近在眼前的人，都震驚了。

350步 vs 兩三下：成績單全景

在正式發(fā)布之前，ARC-AGI-3跑了一輪為期30天的開發(fā)者預(yù)覽。

三款公開游戲從地圖導(dǎo)航到圖案匹配再到水位調(diào)節(jié)，題目類型各異，但有一個(gè)共同點(diǎn)：人類覺得簡單，AI覺得要命。

1200多名人類玩家參與了測試，完成了3900多場游戲。

大部分人不僅輕松過關(guān)，還玩得很開心，有些執(zhí)著的玩家甚至一路「速通」挑戰(zhàn)到了理論最優(yōu)步數(shù)。

人類基線：100%。AI這邊，前沿大模型得分全部低于1%。

預(yù)覽期的冠軍叫StochasticGoose，來自Tufa Labs。

它不是大模型，而是一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作學(xué)習(xí)型智能體，用簡單的強(qiáng)化學(xué)習(xí)來預(yù)測哪些操作會(huì)導(dǎo)致畫面變化。最終得分12.58%，已經(jīng)是所有參賽系統(tǒng)里最高的了。

但即便是這個(gè)冠軍，在一款調(diào)水位的游戲里，開局也花了將近350步做無效的點(diǎn)擊操作。

350步。人類大概只需要點(diǎn)兩三下就能搞明白的事。

更反直覺的是，排行榜的前三名全是非LLM方案——CNN、基于規(guī)則的狀態(tài)圖探索、無需訓(xùn)練的幀圖搜索。

一個(gè)基于CNN的方案，比GPT-5.x系列高出12個(gè)百分點(diǎn)以上。而那些接入了前沿大模型的智能體，成績反而經(jīng)常墊底，有的甚至頻繁崩潰。

AI把自己坑了

ARC團(tuán)隊(duì)還發(fā)現(xiàn)一個(gè)特別有意思的現(xiàn)象。

AI的主要失敗模式之一是：「以為自己在玩另一個(gè)游戲」。

比如，你被蒙上眼睛，扔進(jìn)一個(gè)房間。

你摸到了一個(gè)圓形的物體，于是你斷定：「這是個(gè)籃球場，我應(yīng)該投籃。」但事實(shí)上，你拿的可能是一個(gè)西瓜，而房間其實(shí)是一個(gè)廚房。

AI犯的就是這樣的錯(cuò)。

它在一個(gè)全新的環(huán)境里，看到一些初始的視覺信息，然后迅速給自己「腦補(bǔ)」了一個(gè)游戲框架，接著就沿著這個(gè)錯(cuò)誤的假設(shè)瘋狂執(zhí)行計(jì)劃，越走越偏，越偏越遠(yuǎn)。

它不會(huì)停下來想：等等，我怎么好像一直沒得到正反饋？是不是我的假設(shè)錯(cuò)了？

因?yàn)楫?dāng)前的AI，缺乏一種「元認(rèn)知」能力。也就是說，它不知道自己不知道。

這解釋了為什么大模型反而墊底。

參數(shù)量越大、預(yù)訓(xùn)練知識(shí)越豐富的模型，越容易把陌生環(huán)境「腦補(bǔ)」成自己見過的東西，然后死磕到底。

而那些輕量級(jí)的CNN智能體和圖搜索系統(tǒng)，反倒因?yàn)闆]有「先入為主」的包袱，能老老實(shí)實(shí)地從環(huán)境反饋中學(xué)習(xí)。

為什么人類能輕松通關(guān)？

ARC團(tuán)隊(duì)在文檔里寫了一句話：「人類不會(huì)蠻力行事。他們會(huì)構(gòu)建思維模型，檢驗(yàn)想法，并迅速改進(jìn)。」

首先第一步，人類會(huì)構(gòu)建思維模型。

一個(gè)人類玩家面對一個(gè)全新游戲時(shí)，第一件事不是「瞎點(diǎn)」，而是觀察。幾分鐘之內(nèi)，一個(gè)粗糙但可用的「世界模型」就建成了。

第二步，人類會(huì)檢驗(yàn)想法。

如果結(jié)果和預(yù)期一致，模型得到強(qiáng)化。如果不一致，模型立即修正。

第三步，人類會(huì)迅速改進(jìn)。錯(cuò)了就改，改了再試。

這種「探索-建模-驗(yàn)證-修正」的循環(huán)，在人類身上幾乎是本能的。

而AI呢？只是一個(gè)「記住了很多答案」的應(yīng)試高手，它的「學(xué)習(xí)」和人類的「學(xué)習(xí)」根本不是一個(gè)物種。

人類的學(xué)習(xí)是在線、交互、假設(shè)驅(qū)動(dòng)的；AI的學(xué)習(xí)是離線、數(shù)據(jù)驅(qū)動(dòng)、模式匹配的。

ARC-AGI-3沒有任何「題海戰(zhàn)術(shù)」可以覆蓋，它考的是「怎么學(xué)習(xí)」。這恰恰是目前AI最弱的一環(huán)。

目前，這場挑戰(zhàn)賽的獎(jiǎng)金池高達(dá)85萬美元，其中70萬美元是給「滿分通關(guān)者」的終極大獎(jiǎng)。

參賽者必須完全開源代碼，并且在無網(wǎng)環(huán)境下接受評(píng)估。這意味著你不能偷偷調(diào)用云端大模型，不能偷偷聯(lián)網(wǎng)查資料。

和人類這個(gè)珠穆朗瑪峰的差距，有AI能克服嗎？

讓我們靜待結(jié)果。

參考資料：

https://x.com/Hesamation/status/2036861818321146306

https://arcprize.org/arc-agi/3

https://docs.arcprize.org/

https://x.com/fchollet/status/2036881543973790004

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.