<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全球頂尖大模型一夜慘遭血洗!最難測試人類拿滿分,AI第一名得0.2%分

      0
      分享至


      新智元報道

      編輯:Aeneas 好困

      【新智元導讀】今夜,整個AI圈震動了。全球最難AGI測試ARC-AGI-3一上線,就把全球頂尖AI打到集體失聲,人類滿分通關,最強模型Opus 4.6得分僅0.2%,還不到1%。AI這是一夜被打回「原始人」了。

      就在今天,這條消息把整個AI圈給震了。

      眾望所歸的,全球唯一尚未飽和的智能體基準測試ARC-AGI-3出爐了,直接血洗了全球頂尖大模型。

      在這個測試中,人類得分100%,AI的得分普遍低于1%。


      這個差距,比珠穆朗瑪峰還高。

      最慘烈的是,在上一代測試中還能拿下69.2%高分的「模范生」Opus 4.6,在ARC-AGI-3面前直接現了原形,得分僅為0.2%。


      這位曾經橫掃各大榜單的「學霸」,連蒙帶猜都拿不到1分。

      這面鏡子,照出了當前AI能力中最深的裂縫。


      在最近的采訪中,老黃認為我們已經實現了AGI。但是ARC-AGI-3顯示,或許如今的AI連1%的AGI都沒有實現。


      ARC-AGI-3,到底有多變態

      它的前身ARC-AGI-1和ARC-AGI-2,已經是AI圈出了名的「魔鬼測試」。


      那些測試里,AI需要觀察幾個示例,然后推斷出網格變換的規律,完成新任務。

      聽起來不難?但就是這些看起來像幼兒園連線題的東西,曾經讓無數大模型鎩羽而歸。

      而到了ARC-AGI-3,難度直接換了個維度:從「靜態題」變成了「互動游戲」。


      150多個手工設計的交互式游戲環境,包含1000多個關卡。

      每個游戲都有自己的內在邏輯、隱藏規則和通關條件。但沒有任何說明文檔,沒有自然語言提示,沒有人告訴你「左邊的按鈕會開門」或者「收集三個紅色方塊就能過關」。


      AI智能體被丟進去,只能看到當前畫面,選擇一個動作,觀察結果,再決定下一步。

      它只能像盲人摸象一樣,一步一步試探,然后在大腦里拼湊出一個「這個世界可能是這樣運作的」的模型。


      這正是ARC Prize基金會想測的四件事。

      • 探索:能不能通過主動與環境互動來獲取關鍵信息?

      • 建模:能不能把零散的觀察凝聚成一個可以預測未來狀態的世界模型?

      • 目標獲取:沒有人下達指令,能不能自己判斷出「我應該以什么為目標」?

      • 規劃與執行:能不能規劃出行動路徑,并根據環境反饋隨時修正?


      「幾何級數」的羞辱:0.2%是怎么來的?

      評分標準同樣殘忍。

      ARC-AGI-3的評分不看「有沒有通關」,而是看「效率」,而且是和人類比效率。

      這在AI基準測試的歷史上,還是頭一回。


      受Chollet那篇《論智能的衡量》的啟發,ARC Prize團隊把「智能」操作化為一個轉換率:

      你從環境中獲取信息的效率有多高?你把這些信息轉化為正確行動的速度有多快?

      假設人類解決這個游戲需要10步,而AI用了100步,那AI的得分是多少?

      不是10%,而是1%。

      公式是:(人類步數/AI步數)2。人類10步,AI 100步,那就是(10/100)2=0.01=1%。

      如果AI用了200步,這一數字就是0.25%;500步就是0.04%。


      這一下,把AI所有的「蠻力」路都堵死了。

      以前AI可以靠窮舉,把所有可能的操作試一遍,總能試出正確路徑。

      但在這種評分體系下,你多試一步,分數就斷崖式下跌。

      現在,你就知道了Opus 4.6得分只有0.2%的意味——

      假設人類解決某個游戲用了10步,0.2%=0.002,開平方≈0.0447,10÷0.0447≈224步。

      這已經不是「笨」了,這是在迷宮里原地轉圈到天荒地老。

      當這種差距被如此強烈地展示出來,很多以為AGI近在眼前的人,都震驚了。


      350步 vs 兩三下:成績單全景

      在正式發布之前,ARC-AGI-3跑了一輪為期30天的開發者預覽。

      三款公開游戲從地圖導航到圖案匹配再到水位調節,題目類型各異,但有一個共同點:人類覺得簡單,AI覺得要命。



      1200多名人類玩家參與了測試,完成了3900多場游戲。

      大部分人不僅輕松過關,還玩得很開心,有些執著的玩家甚至一路「速通」挑戰到了理論最優步數。

      人類基線:100%。AI這邊,前沿大模型得分全部低于1%。


      預覽期的冠軍叫StochasticGoose,來自Tufa Labs。

      它不是大模型,而是一個基于卷積神經網絡的動作學習型智能體,用簡單的強化學習來預測哪些操作會導致畫面變化。最終得分12.58%,已經是所有參賽系統里最高的了。

      但即便是這個冠軍,在一款調水位的游戲里,開局也花了將近350步做無效的點擊操作。

      350步。人類大概只需要點兩三下就能搞明白的事。

      更反直覺的是,排行榜的前三名全是非LLM方案——CNN、基于規則的狀態圖探索、無需訓練的幀圖搜索。

      一個基于CNN的方案,比GPT-5.x系列高出12個百分點以上。而那些接入了前沿大模型的智能體,成績反而經常墊底,有的甚至頻繁崩潰。


      AI把自己坑了

      ARC團隊還發現一個特別有意思的現象。

      AI的主要失敗模式之一是:「以為自己在玩另一個游戲」。

      比如,你被蒙上眼睛,扔進一個房間。

      你摸到了一個圓形的物體,于是你斷定:「這是個籃球場,我應該投籃?!沟聦嵣希隳玫目赡苁且粋€西瓜,而房間其實是一個廚房。

      AI犯的就是這樣的錯。

      它在一個全新的環境里,看到一些初始的視覺信息,然后迅速給自己「腦補」了一個游戲框架,接著就沿著這個錯誤的假設瘋狂執行計劃,越走越偏,越偏越遠。


      它不會停下來想:等等,我怎么好像一直沒得到正反饋?是不是我的假設錯了?

      因為當前的AI,缺乏一種「元認知」能力。也就是說,它不知道自己不知道。

      這解釋了為什么大模型反而墊底。

      參數量越大、預訓練知識越豐富的模型,越容易把陌生環境「腦補」成自己見過的東西,然后死磕到底。

      而那些輕量級的CNN智能體和圖搜索系統,反倒因為沒有「先入為主」的包袱,能老老實實地從環境反饋中學習。


      為什么人類能輕松通關?

      ARC團隊在文檔里寫了一句話:「人類不會蠻力行事。他們會構建思維模型,檢驗想法,并迅速改進?!?/p>

      首先第一步,人類會構建思維模型。

      一個人類玩家面對一個全新游戲時,第一件事不是「瞎點」,而是觀察。幾分鐘之內,一個粗糙但可用的「世界模型」就建成了。

      第二步,人類會檢驗想法。

      如果結果和預期一致,模型得到強化。如果不一致,模型立即修正。

      第三步,人類會迅速改進。錯了就改,改了再試。

      這種「探索-建模-驗證-修正」的循環,在人類身上幾乎是本能的。

      而AI呢?只是一個「記住了很多答案」的應試高手,它的「學習」和人類的「學習」根本不是一個物種。

      人類的學習是在線、交互、假設驅動的;AI的學習是離線、數據驅動、模式匹配的。

      ARC-AGI-3沒有任何「題海戰術」可以覆蓋,它考的是「怎么學習」。這恰恰是目前AI最弱的一環。


      目前,這場挑戰賽的獎金池高達85萬美元,其中70萬美元是給「滿分通關者」的終極大獎。

      參賽者必須完全開源代碼,并且在無網環境下接受評估。這意味著你不能偷偷調用云端大模型,不能偷偷聯網查資料。


      和人類這個珠穆朗瑪峰的差距,有AI能克服嗎?

      讓我們靜待結果。

      參考資料:

      https://x.com/Hesamation/status/2036861818321146306

      https://arcprize.org/arc-agi/3

      https://docs.arcprize.org/

      https://x.com/fchollet/status/2036881543973790004

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      立陶宛涉臺表態變了,中歐班列已改道,200多條鐵軌全拆…

      立陶宛涉臺表態變了,中歐班列已改道,200多條鐵軌全拆…

      福建平子
      2026-03-27 11:25:16
      張雪峰去世僅三天,女兒再也忍不住了:爸爸曾偷偷睡在會議桌上

      張雪峰去世僅三天,女兒再也忍不住了:爸爸曾偷偷睡在會議桌上

      潮鹿逐夢
      2026-03-27 20:16:27
      一個稱“遺憾”,一個沒反應

      一個稱“遺憾”,一個沒反應

      新民周刊
      2026-03-28 09:08:46
      懸念不大了!今年拿NBA總冠軍的球隊,大概率這5支,四大豪門出局

      懸念不大了!今年拿NBA總冠軍的球隊,大概率這5支,四大豪門出局

      籃球掃地僧
      2026-03-27 20:04:26
      谷歌翻譯耳機實時翻譯功能正式登陸 iOS 平臺,支持超 70 種語言

      谷歌翻譯耳機實時翻譯功能正式登陸 iOS 平臺,支持超 70 種語言

      龍劍秀南
      2026-03-27 07:23:23
      楊瀚森18+7+4,末節獨得12分!率隊106-101獲勝,加盟NBA真漲球了

      楊瀚森18+7+4,末節獨得12分!率隊106-101獲勝,加盟NBA真漲球了

      球場沒跑道
      2026-03-28 10:20:12
      張雪峰生前推薦的6所高校,性價比極高,記得默默收藏!

      張雪峰生前推薦的6所高校,性價比極高,記得默默收藏!

      教育導向分享
      2026-03-25 22:32:02
      悲催!房貸136萬,月供6580.36元,蘇州業主哭訴失業后奔深圳太難

      悲催!房貸136萬,月供6580.36元,蘇州業主哭訴失業后奔深圳太難

      火山詩話
      2026-03-27 13:32:27
      釋永信“開光”真相大白,過程不堪入目,易中天也有牽扯

      釋永信“開光”真相大白,過程不堪入目,易中天也有牽扯

      尋墨閣
      2026-03-25 11:39:10
      二戰后德國恢復人口手段有多狠?連日本都不敢用,顛覆三觀!

      二戰后德國恢復人口手段有多狠?連日本都不敢用,顛覆三觀!

      歷史人文2
      2026-03-26 21:05:03
      中國小電驢海外殺瘋了,油價暴漲,東南亞一車難求,日本摩托看懵

      中國小電驢海外殺瘋了,油價暴漲,東南亞一車難求,日本摩托看懵

      有范又有料
      2026-03-27 16:54:24
      美媒評中國演員謝苗新片《火遮眼》“或成動作影史經典”,該片5月29日北美上映,李連杰說很期待,聽說“超級?!?>
    </a>
        <h3>
      <a href=美媒評中國演員謝苗新片《火遮眼》“或成動作影史經典”,該片5月29日北美上映,李連杰說很期待,聽說“超級?!?/a> 極目新聞
      2026-03-26 20:16:01
      中方拒收道歉,日本自衛官被轉移,小泉進次郎沉默24小時后發聲

      中方拒收道歉,日本自衛官被轉移,小泉進次郎沉默24小時后發聲

      何氽簡史
      2026-03-26 15:40:58
      某園區攝像頭時常自動旋轉,國家安全機關查驗發現:監控系統密碼為出廠默認,境外黑客開展“撞庫”攻擊成功登錄

      某園區攝像頭時常自動旋轉,國家安全機關查驗發現:監控系統密碼為出廠默認,境外黑客開展“撞庫”攻擊成功登錄

      揚子晚報
      2026-03-28 07:40:48
      中東實戰打出真相!伊朗越猛越顯中國實力,美軍徹底慌了神

      中東實戰打出真相!伊朗越猛越顯中國實力,美軍徹底慌了神

      小舟談歷史
      2026-03-28 04:42:18
      王傳福拿下小米汽車

      王傳福拿下小米汽車

      新浪財經
      2026-03-27 08:42:30
      荷蘭經濟部長:是我讓安世脫離中國的,這一切全部為了荷蘭與歐洲

      荷蘭經濟部長:是我讓安世脫離中國的,這一切全部為了荷蘭與歐洲

      離離言幾許
      2026-03-27 20:34:48
      奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

      奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

      品牌營銷報
      2026-02-23 11:31:10
      大反撲!快船最多落后24分縮小分差:倫納德11分,加蘭出現崴腳

      大反撲!快船最多落后24分縮小分差:倫納德11分,加蘭出現崴腳

      體壇小李
      2026-03-28 08:20:57
      終于爆發了,擊落大批美以軍機:隱身戰機,超級大黃蜂不斷下墜!

      終于爆發了,擊落大批美以軍機:隱身戰機,超級大黃蜂不斷下墜!

      混沌錄
      2026-03-27 16:39:18
      2026-03-28 10:28:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14829文章數 66720關注度
      往期回顧 全部

      科技要聞

      遭中國學界"拉黑"后,這家AI頂會低頭道歉

      頭條要聞

      現役軍官帶刀闖中使館日方僅表示"遺憾" 高市沒反應

      頭條要聞

      現役軍官帶刀闖中使館日方僅表示"遺憾" 高市沒反應

      體育要聞

      “我是全家最差勁的運動員”

      娛樂要聞

      范瑋琪加盟,官宣《浪姐7》遭全網抵制

      財經要聞

      我在小吃培訓機構學習“科技與狠活”

      汽車要聞

      與眾08,金標大眾不能輸的一戰

      態度原創

      教育
      本地
      旅游
      家居
      親子

      教育要聞

      “考研6年,輸給一條黑褲襪”,女大學生啃老式考研,被嘲研王爺

      本地新聞

      在濰坊待了三天,沒遇到一個“濰坊人”

      旅游要聞

      鏡觀中國丨赴一場春天的約會

      家居要聞

      曲線華爾茲 現代簡約

      親子要聞

      夫妻生孩子的核心目的就是生孩子

      無障礙瀏覽 進入關懷版