<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      全球頂尖大模型一夜慘遭血洗!最難測試人類拿滿分,AI第一名得0.2%分

      0
      分享至


      新智元報(bào)道

      編輯:Aeneas 好困

      【新智元導(dǎo)讀】今夜,整個(gè)AI圈震動(dòng)了。全球最難AGI測試ARC-AGI-3一上線,就把全球頂尖AI打到集體失聲,人類滿分通關(guān),最強(qiáng)模型Opus 4.6得分僅0.2%,還不到1%。AI這是一夜被打回「原始人」了。

      就在今天,這條消息把整個(gè)AI圈給震了。

      眾望所歸的,全球唯一尚未飽和的智能體基準(zhǔn)測試ARC-AGI-3出爐了,直接血洗了全球頂尖大模型。

      在這個(gè)測試中,人類得分100%,AI的得分普遍低于1%。


      這個(gè)差距,比珠穆朗瑪峰還高。

      最慘烈的是,在上一代測試中還能拿下69.2%高分的「模范生」Opus 4.6,在ARC-AGI-3面前直接現(xiàn)了原形,得分僅為0.2%。


      這位曾經(jīng)橫掃各大榜單的「學(xué)霸」,連蒙帶猜都拿不到1分。

      這面鏡子,照出了當(dāng)前AI能力中最深的裂縫。


      在最近的采訪中,老黃認(rèn)為我們已經(jīng)實(shí)現(xiàn)了AGI。但是ARC-AGI-3顯示,或許如今的AI連1%的AGI都沒有實(shí)現(xiàn)。


      ARC-AGI-3,到底有多變態(tài)

      它的前身ARC-AGI-1和ARC-AGI-2,已經(jīng)是AI圈出了名的「魔鬼測試」。


      那些測試?yán)铮珹I需要觀察幾個(gè)示例,然后推斷出網(wǎng)格變換的規(guī)律,完成新任務(wù)。

      聽起來不難?但就是這些看起來像幼兒園連線題的東西,曾經(jīng)讓無數(shù)大模型鎩羽而歸。

      而到了ARC-AGI-3,難度直接換了個(gè)維度:從「靜態(tài)題」變成了「互動(dòng)游戲」。


      150多個(gè)手工設(shè)計(jì)的交互式游戲環(huán)境,包含1000多個(gè)關(guān)卡。

      每個(gè)游戲都有自己的內(nèi)在邏輯、隱藏規(guī)則和通關(guān)條件。但沒有任何說明文檔,沒有自然語言提示,沒有人告訴你「左邊的按鈕會(huì)開門」或者「收集三個(gè)紅色方塊就能過關(guān)」。


      AI智能體被丟進(jìn)去,只能看到當(dāng)前畫面,選擇一個(gè)動(dòng)作,觀察結(jié)果,再?zèng)Q定下一步。

      它只能像盲人摸象一樣,一步一步試探,然后在大腦里拼湊出一個(gè)「這個(gè)世界可能是這樣運(yùn)作的」的模型。


      這正是ARC Prize基金會(huì)想測的四件事。

      • 探索:能不能通過主動(dòng)與環(huán)境互動(dòng)來獲取關(guān)鍵信息?

      • 建模:能不能把零散的觀察凝聚成一個(gè)可以預(yù)測未來狀態(tài)的世界模型?

      • 目標(biāo)獲取:沒有人下達(dá)指令,能不能自己判斷出「我應(yīng)該以什么為目標(biāo)」?

      • 規(guī)劃與執(zhí)行:能不能規(guī)劃出行動(dòng)路徑,并根據(jù)環(huán)境反饋隨時(shí)修正?


      「幾何級(jí)數(shù)」的羞辱:0.2%是怎么來的?

      評(píng)分標(biāo)準(zhǔn)同樣殘忍。

      ARC-AGI-3的評(píng)分不看「有沒有通關(guān)」,而是看「效率」,而且是和人類比效率。

      這在AI基準(zhǔn)測試的歷史上,還是頭一回。


      受Chollet那篇《論智能的衡量》的啟發(fā),ARC Prize團(tuán)隊(duì)把「智能」操作化為一個(gè)轉(zhuǎn)換率:

      你從環(huán)境中獲取信息的效率有多高?你把這些信息轉(zhuǎn)化為正確行動(dòng)的速度有多快?

      假設(shè)人類解決這個(gè)游戲需要10步,而AI用了100步,那AI的得分是多少?

      不是10%,而是1%。

      公式是:(人類步數(shù)/AI步數(shù))2。人類10步,AI 100步,那就是(10/100)2=0.01=1%。

      如果AI用了200步,這一數(shù)字就是0.25%;500步就是0.04%。


      這一下,把AI所有的「蠻力」路都堵死了。

      以前AI可以靠窮舉,把所有可能的操作試一遍,總能試出正確路徑。

      但在這種評(píng)分體系下,你多試一步,分?jǐn)?shù)就斷崖式下跌。

      現(xiàn)在,你就知道了Opus 4.6得分只有0.2%的意味——

      假設(shè)人類解決某個(gè)游戲用了10步,0.2%=0.002,開平方≈0.0447,10÷0.0447≈224步。

      這已經(jīng)不是「笨」了,這是在迷宮里原地轉(zhuǎn)圈到天荒地老。

      當(dāng)這種差距被如此強(qiáng)烈地展示出來,很多以為AGI近在眼前的人,都震驚了。


      350步 vs 兩三下:成績單全景

      在正式發(fā)布之前,ARC-AGI-3跑了一輪為期30天的開發(fā)者預(yù)覽。

      三款公開游戲從地圖導(dǎo)航到圖案匹配再到水位調(diào)節(jié),題目類型各異,但有一個(gè)共同點(diǎn):人類覺得簡單,AI覺得要命。



      1200多名人類玩家參與了測試,完成了3900多場游戲。

      大部分人不僅輕松過關(guān),還玩得很開心,有些執(zhí)著的玩家甚至一路「速通」挑戰(zhàn)到了理論最優(yōu)步數(shù)。

      人類基線:100%。AI這邊,前沿大模型得分全部低于1%。


      預(yù)覽期的冠軍叫StochasticGoose,來自Tufa Labs。

      它不是大模型,而是一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作學(xué)習(xí)型智能體,用簡單的強(qiáng)化學(xué)習(xí)來預(yù)測哪些操作會(huì)導(dǎo)致畫面變化。最終得分12.58%,已經(jīng)是所有參賽系統(tǒng)里最高的了。

      但即便是這個(gè)冠軍,在一款調(diào)水位的游戲里,開局也花了將近350步做無效的點(diǎn)擊操作。

      350步。人類大概只需要點(diǎn)兩三下就能搞明白的事。

      更反直覺的是,排行榜的前三名全是非LLM方案——CNN、基于規(guī)則的狀態(tài)圖探索、無需訓(xùn)練的幀圖搜索。

      一個(gè)基于CNN的方案,比GPT-5.x系列高出12個(gè)百分點(diǎn)以上。而那些接入了前沿大模型的智能體,成績反而經(jīng)常墊底,有的甚至頻繁崩潰。


      AI把自己坑了

      ARC團(tuán)隊(duì)還發(fā)現(xiàn)一個(gè)特別有意思的現(xiàn)象。

      AI的主要失敗模式之一是:「以為自己在玩另一個(gè)游戲」。

      比如,你被蒙上眼睛,扔進(jìn)一個(gè)房間。

      你摸到了一個(gè)圓形的物體,于是你斷定:「這是個(gè)籃球場,我應(yīng)該投籃。」但事實(shí)上,你拿的可能是一個(gè)西瓜,而房間其實(shí)是一個(gè)廚房。

      AI犯的就是這樣的錯(cuò)。

      它在一個(gè)全新的環(huán)境里,看到一些初始的視覺信息,然后迅速給自己「腦補(bǔ)」了一個(gè)游戲框架,接著就沿著這個(gè)錯(cuò)誤的假設(shè)瘋狂執(zhí)行計(jì)劃,越走越偏,越偏越遠(yuǎn)。


      它不會(huì)停下來想:等等,我怎么好像一直沒得到正反饋?是不是我的假設(shè)錯(cuò)了?

      因?yàn)楫?dāng)前的AI,缺乏一種「元認(rèn)知」能力。也就是說,它不知道自己不知道。

      這解釋了為什么大模型反而墊底。

      參數(shù)量越大、預(yù)訓(xùn)練知識(shí)越豐富的模型,越容易把陌生環(huán)境「腦補(bǔ)」成自己見過的東西,然后死磕到底。

      而那些輕量級(jí)的CNN智能體和圖搜索系統(tǒng),反倒因?yàn)闆]有「先入為主」的包袱,能老老實(shí)實(shí)地從環(huán)境反饋中學(xué)習(xí)。


      為什么人類能輕松通關(guān)?

      ARC團(tuán)隊(duì)在文檔里寫了一句話:「人類不會(huì)蠻力行事。他們會(huì)構(gòu)建思維模型,檢驗(yàn)想法,并迅速改進(jìn)。」

      首先第一步,人類會(huì)構(gòu)建思維模型。

      一個(gè)人類玩家面對一個(gè)全新游戲時(shí),第一件事不是「瞎點(diǎn)」,而是觀察。幾分鐘之內(nèi),一個(gè)粗糙但可用的「世界模型」就建成了。

      第二步,人類會(huì)檢驗(yàn)想法。

      如果結(jié)果和預(yù)期一致,模型得到強(qiáng)化。如果不一致,模型立即修正。

      第三步,人類會(huì)迅速改進(jìn)。錯(cuò)了就改,改了再試。

      這種「探索-建模-驗(yàn)證-修正」的循環(huán),在人類身上幾乎是本能的。

      而AI呢?只是一個(gè)「記住了很多答案」的應(yīng)試高手,它的「學(xué)習(xí)」和人類的「學(xué)習(xí)」根本不是一個(gè)物種。

      人類的學(xué)習(xí)是在線、交互、假設(shè)驅(qū)動(dòng)的;AI的學(xué)習(xí)是離線、數(shù)據(jù)驅(qū)動(dòng)、模式匹配的。

      ARC-AGI-3沒有任何「題海戰(zhàn)術(shù)」可以覆蓋,它考的是「怎么學(xué)習(xí)」。這恰恰是目前AI最弱的一環(huán)。


      目前,這場挑戰(zhàn)賽的獎(jiǎng)金池高達(dá)85萬美元,其中70萬美元是給「滿分通關(guān)者」的終極大獎(jiǎng)。

      參賽者必須完全開源代碼,并且在無網(wǎng)環(huán)境下接受評(píng)估。這意味著你不能偷偷調(diào)用云端大模型,不能偷偷聯(lián)網(wǎng)查資料。


      和人類這個(gè)珠穆朗瑪峰的差距,有AI能克服嗎?

      讓我們靜待結(jié)果。

      參考資料:

      https://x.com/Hesamation/status/2036861818321146306

      https://arcprize.org/arc-agi/3

      https://docs.arcprize.org/

      https://x.com/fchollet/status/2036881543973790004

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      長護(hù)險(xiǎn)制度全面推開!國家醫(yī)保局:參保人無論來自農(nóng)村還是城市,從同一個(gè)資金池報(bào)銷費(fèi)用

      長護(hù)險(xiǎn)制度全面推開!國家醫(yī)保局:參保人無論來自農(nóng)村還是城市,從同一個(gè)資金池報(bào)銷費(fèi)用

      紅星新聞
      2026-03-26 11:28:05
      京東外賣虧了466億,但劉強(qiáng)東笑了

      京東外賣虧了466億,但劉強(qiáng)東笑了

      新浪財(cái)經(jīng)
      2026-03-25 10:04:53
      黎真主黨導(dǎo)彈襲擊以國防部及軍營

      黎真主黨導(dǎo)彈襲擊以國防部及軍營

      北青網(wǎng)-北京青年報(bào)
      2026-03-26 10:19:17
      CCTV5直播!國足熱身“世界杯新貴”,15.9萬人小國,邵佳一首秀

      CCTV5直播!國足熱身“世界杯新貴”,15.9萬人小國,邵佳一首秀

      汪星人喲
      2026-03-26 19:13:15
      杜淳寵妻太狠了!王燦戴4條金手鏈,口紅整箱買像批發(fā)?

      杜淳寵妻太狠了!王燦戴4條金手鏈,口紅整箱買像批發(fā)?

      娛樂領(lǐng)航家
      2026-03-26 00:00:03
      國金證券:長期來看黃金有望開啟新一輪大牛市

      國金證券:長期來看黃金有望開啟新一輪大牛市

      財(cái)聯(lián)社
      2026-03-26 08:08:04
      震驚!網(wǎng)傳福建一公司提醒員工,出現(xiàn)心梗前兆,先保存文件再救命

      震驚!網(wǎng)傳福建一公司提醒員工,出現(xiàn)心梗前兆,先保存文件再救命

      火山詩話
      2026-03-26 06:50:40
      22歲陳熠3-0橫掃挺進(jìn)四強(qiáng):國乒最后一張門票,她已無路可退

      22歲陳熠3-0橫掃挺進(jìn)四強(qiáng):國乒最后一張門票,她已無路可退

      羅納爾說個(gè)球
      2026-03-26 18:04:03
      36歲中國大哥在非洲開“手機(jī)網(wǎng)吧”,生意火爆到需要排隊(duì)取號(hào),當(dāng)事人:投入很小,僅花了點(diǎn)流量錢,最火的時(shí)候10來個(gè)人看一個(gè)手機(jī)

      36歲中國大哥在非洲開“手機(jī)網(wǎng)吧”,生意火爆到需要排隊(duì)取號(hào),當(dāng)事人:投入很小,僅花了點(diǎn)流量錢,最火的時(shí)候10來個(gè)人看一個(gè)手機(jī)

      觀威海
      2026-03-26 09:19:03
      “14天12板”!000908,復(fù)牌后上演“地天板”

      “14天12板”!000908,復(fù)牌后上演“地天板”

      大眾證券報(bào)
      2026-03-26 17:58:54
      廣西一挖掘機(jī)過橋時(shí)撞斷護(hù)欄墜湖,司機(jī)遺體已被打撈上岸,墜橋原因還在調(diào)查中

      廣西一挖掘機(jī)過橋時(shí)撞斷護(hù)欄墜湖,司機(jī)遺體已被打撈上岸,墜橋原因還在調(diào)查中

      大風(fēng)新聞
      2026-03-26 18:09:04
      徐陽點(diǎn)評(píng)U23國足2-2泰國:句句實(shí)在話,理性看球更懂賽場本質(zhì)!

      徐陽點(diǎn)評(píng)U23國足2-2泰國:句句實(shí)在話,理性看球更懂賽場本質(zhì)!

      田先生籃球
      2026-03-26 06:00:06
      315曝光10個(gè)最毒食黑名單!第8個(gè)你幾乎天天在吃,看完脊背發(fā)涼

      315曝光10個(gè)最毒食黑名單!第8個(gè)你幾乎天天在吃,看完脊背發(fā)涼

      現(xiàn)代小青青慕慕
      2026-03-24 08:13:54
      張雪峰離世的警示:人一定要學(xué)會(huì)避讖

      張雪峰離世的警示:人一定要學(xué)會(huì)避讖

      代偉看世界
      2026-03-26 15:21:09
      伊朗發(fā)動(dòng)第81波行動(dòng),打擊以色列70多處目標(biāo)!內(nèi)塔尼亞胡:48小時(shí)內(nèi)盡可能多摧毀伊朗軍工設(shè)施;伊朗外長:以將美國推向沖突,沒有談判余地

      伊朗發(fā)動(dòng)第81波行動(dòng),打擊以色列70多處目標(biāo)!內(nèi)塔尼亞胡:48小時(shí)內(nèi)盡可能多摧毀伊朗軍工設(shè)施;伊朗外長:以將美國推向沖突,沒有談判余地

      每日經(jīng)濟(jì)新聞
      2026-03-26 08:26:06
      短短1年,靈活就業(yè)者暴增4千萬

      短短1年,靈活就業(yè)者暴增4千萬

      深度報(bào)
      2026-03-23 21:47:58
      網(wǎng)友在烏茲別克斯坦偶遇“佛山三水城巴”,佛山方面回應(yīng):車子被轉(zhuǎn)賣到了國外

      網(wǎng)友在烏茲別克斯坦偶遇“佛山三水城巴”,佛山方面回應(yīng):車子被轉(zhuǎn)賣到了國外

      極目新聞
      2026-03-26 17:01:19
      東契奇湖人生涯第16次斬獲40+ 還差兩場追平詹姆斯

      東契奇湖人生涯第16次斬獲40+ 還差兩場追平詹姆斯

      北青網(wǎng)-北京青年報(bào)
      2026-03-26 20:51:03
      喜歡把家里打掃得很干凈的人,往往會(huì)有這3種命運(yùn),很準(zhǔn)!

      喜歡把家里打掃得很干凈的人,往往會(huì)有這3種命運(yùn),很準(zhǔn)!

      品讀時(shí)刻
      2026-02-12 00:06:27
      特朗普拒絕承認(rèn)對伊朗打擊是戰(zhàn)爭

      特朗普拒絕承認(rèn)對伊朗打擊是戰(zhàn)爭

      界面新聞
      2026-03-26 15:51:22
      2026-03-26 21:23:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14821文章數(shù) 66721關(guān)注度
      往期回顧 全部

      科技要聞

      Meta高管狂分百億期權(quán),700名員工卻下崗

      頭條要聞

      張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

      頭條要聞

      張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

      體育要聞

      申京努力了,然而杜蘭特啊

      娛樂要聞

      劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

      財(cái)經(jīng)要聞

      油價(jià)"馴服"特朗普?一到100美元就TACO

      汽車要聞

      一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

      態(tài)度原創(chuàng)

      時(shí)尚
      家居
      健康
      藝術(shù)
      本地

      上新|| 她們說,找到了自己的人生裙子!

      家居要聞

      傍海而居 靜觀蝴蝶海

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      藝術(shù)要聞

      哪一座橋不是風(fēng)景?

      本地新聞

      救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

      無障礙瀏覽 進(jìn)入關(guān)懷版