<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      MMLU已死?「人類最后考試」登Nature:全球AI模型集體不及格!

      0
      分享至


      新智元報(bào)道

      編輯:KingHZ

      【新智元導(dǎo)讀】從高德納震驚Claude解難題,到陶哲軒稱GPT-5.2pro夠發(fā)Nature數(shù)學(xué)博士……AI狂飆突進(jìn),卻在 「人類最后的考試」上集體啞火:最高分不過50%,人類專家還有多大安全區(qū)?

      AI新聞圈,兩天一地震,三天一顛覆,讓你目不暇接、眼花繚亂!

      或有夸大的地方,但AI日新月異、有目共睹!

      「算法分析祖師爺」高德納見證了Claude解決了一道高難度算法題,發(fā)文連用兩個「震驚」(shock)。

      數(shù)學(xué)家陶哲軒宣布GPT 5.2 Pro解決了一個數(shù)學(xué)Erdos難題且完全與之前人類的解法不同,足以拿下數(shù)學(xué)博士學(xué)位了!


      此前,更有Claude Code引發(fā)的Vibe Coding熱潮。

      至于各種長期存在的基準(zhǔn)測試,AI取得優(yōu)異成績已不足為怪!

      AI研究人員早已意識到問題:這些測試太簡單了。


      像大規(guī)模多任務(wù)語言理解(MMLU)這類曾被視為難度頗高的熱門評測,如今已無法有效檢驗(yàn)先進(jìn)AI系統(tǒng)的真實(shí)水平

      問題在于:AI模型發(fā)展得如此之快,基準(zhǔn)測試正難以跟上其步伐,難以確保AI安全有效。


      在MMLU等熱門基準(zhǔn)測試中,大語言模型的準(zhǔn)確率現(xiàn)已超過90%,早已「飽和」。

      「人類最后的考試」的新AI測試基準(zhǔn),或許能提供解決方案。


      各大LLM在不同基準(zhǔn)上準(zhǔn)確率的對比

      最近,這篇合作名單巨長的論文,正式登上頂刊Nature!


      鏈接:https://www.nature.com/articles/s41586-025-09962-4

      順便提一句,Alexandr Wang還在Scale AI時,相關(guān)工作已發(fā)表在預(yù)印本平臺Arxiv。

      AI基準(zhǔn):測試,再測試

      從性能和安全等角度來看,測試大語言模型有多種不同的方法。

      例如,在發(fā)布前,AI開發(fā)人員會評估大語言模型被用于惡意目的的抵抗能力。

      此外,還有一些獨(dú)立組織對大語言模型進(jìn)行評估,比如評估大語言模型被用于自主利用軟件漏洞的風(fēng)險。

      然而,這些測試通常只涵蓋狹窄的學(xué)科領(lǐng)域,或者只包含少量任務(wù)。

      為了比較模型而創(chuàng)建更廣泛、標(biāo)準(zhǔn)化基準(zhǔn)的嘗試包括MMLU,它使用大約16000道多項(xiàng)選擇題來測試模型的通用知識和解決問題的能力。

      但很快,過去那些曾經(jīng)很難的考試,現(xiàn)在對AI來說已經(jīng)變成了「送分題」。


      為了彌補(bǔ)這一差距,近1000名研究人員組成的全球聯(lián)盟創(chuàng)建了「人類最后的考試」(Humanity’s Last Exam,HLE。


      該測試由AI安全中心CAIS和Scale AI的一個團(tuán)隊(duì)開發(fā),包含由全球研究人員提交的3000個具有挑戰(zhàn)性的問題,旨在成為衡量大語言模型能力的終極基準(zhǔn)

      這項(xiàng)基準(zhǔn)測試覆蓋面極廣、挑戰(zhàn)性極高、深深植根于人類專家知識,以至于當(dāng)前最強(qiáng)的AI準(zhǔn)確率也不足50%。


      「人類最后的考試」共包含2500道問題,涵蓋數(shù)學(xué)、人文學(xué)科、自然科學(xué)、古代語言以及高度專業(yè)化的子領(lǐng)域。


      問題學(xué)科分布

      這些題目非常專業(yè):從翻譯古代巴爾米拉銘文,到識別鳥類的顯微解剖結(jié)構(gòu),再到分析圣經(jīng)希伯來語發(fā)音的復(fù)雜特征。


      每道題都經(jīng)過了領(lǐng)先AI模型的測試。如果有任何系統(tǒng)能答對,該題就會被剔除。最終形成的是一項(xiàng)經(jīng)過精心設(shè)計(jì)、恰好處于當(dāng)前AI能力邊界之外的考試。


      從7萬到提交的難題中,精挑細(xì)選出了其中的2500道題目

      結(jié)果也證實(shí)了這一點(diǎn)。

      早期結(jié)果顯示,即使是最先進(jìn)的模型也舉步維艱:

      • GPT-4o得分2.7%;

      • Claude 3.5 Sonnet達(dá)到4.1%;

      • OpenAI的旗艦?zāi)P蚾1僅取得8%的成績。


      新基準(zhǔn)為何重要

      德州農(nóng)工大學(xué)計(jì)算機(jī)科學(xué)與工程系的教學(xué)副教授Tung Nguyen,他參與了問題的撰寫和完善工作。


      他貢獻(xiàn)了2500道公開考題中的73道(貢獻(xiàn)量位居第二),并且在數(shù)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域撰寫的題目數(shù)量最多。

      最近,他分享了對「人類最后的考試」的思考。


      「當(dāng)AI系統(tǒng)開始在人類設(shè)定的基準(zhǔn)測試中表現(xiàn)得極為出色時,人們很容易認(rèn)為它們正在接近人類水平的理解力,」Tung Nguyen說道。

      但HLE提醒我們,智能不僅僅是模式識別——它關(guān)乎深度、背景和專業(yè)化的知識。

      這個考試的目的并非難倒人類。而是要精確、系統(tǒng)地揭示出AI目前——至少是現(xiàn)階段——還無法做到的事情。


      鏈接:lastexam.ai

      Tung Nguyen表示,AI超越傳統(tǒng)基準(zhǔn)的問題遠(yuǎn)超學(xué)術(shù)層面。

      「如果沒有準(zhǔn)確的評估工具,政策制定者、開發(fā)者和用戶就可能誤解AI系統(tǒng)的實(shí)際能力,」他說。「基準(zhǔn)測試為衡量進(jìn)展和識別風(fēng)險提供了基礎(chǔ)。

      正如團(tuán)隊(duì)論文所指出的,雖然AI可能在為人類設(shè)計(jì)的考試中表現(xiàn)出色,但這些測試不一定在衡量「智能」。

      盡管名字聽起來有點(diǎn)「末日」感,但「人類最后的考試」并非意在暗示人類重要性的終結(jié)。

      相反,它突顯了仍有大量知識是獨(dú)一無二地屬于人類的,以及AI還需要走多遠(yuǎn)。

      Tung Nguyen坦言:「這個名字有點(diǎn)半開玩笑的意味」。

      重要的是背后的理念:

      這是人類對AI的設(shè)置的最后一道難關(guān)。如果AI能通過這項(xiàng)考試,就意味著它達(dá)到了某種專業(yè)化的人類專家水平,而這在以前被認(rèn)為是機(jī)器不可能做到的。

      因?yàn)镠LE涵蓋了從核物理到古代史的所有領(lǐng)域,所以沒人能通過單打獨(dú)斗的通過整個考試。

      然而,特定領(lǐng)域的人類專家可以輕松回答其專業(yè)領(lǐng)域內(nèi)的問題,而AI在幾乎所有類別上都失敗了。


      為什么AI還會失敗?

      原因在于AI擅長模式識別和總結(jié)已知數(shù)據(jù),但它難以處理深度、專業(yè)化的背景知識。

      HLE提出的問題需要多年的專門研究。在這些問題上,基于常見互聯(lián)網(wǎng)數(shù)據(jù)的「猜測」行不通。

      參考資料:

      https://www.nature.com/articles/s41586-025-09962-4

      https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      世界上最燒錢的十項(xiàng)運(yùn)動,沒錢你真玩不起!

      世界上最燒錢的十項(xiàng)運(yùn)動,沒錢你真玩不起!

      馬拉松跑步健身
      2026-02-28 11:37:18
      這么看侯佩岑挺慘,還在等周杰倫求復(fù)合呢,周杰倫跑去追田馥甄了

      這么看侯佩岑挺慘,還在等周杰倫求復(fù)合呢,周杰倫跑去追田馥甄了

      一盅情懷
      2026-03-06 16:27:03
      這家船廠宣布:史上最大幅度加薪協(xié)議達(dá)成

      這家船廠宣布:史上最大幅度加薪協(xié)議達(dá)成

      龍de船人
      2026-03-07 20:07:13
      隨著蘭帕德率隊(duì)2-0,萊斯特城1-1,赫爾城1-3,英冠最新積分榜出爐

      隨著蘭帕德率隊(duì)2-0,萊斯特城1-1,赫爾城1-3,英冠最新積分榜出爐

      側(cè)身凌空斬
      2026-03-08 07:03:56
      王曼昱退賽,太原賽8人名單公布,4男4女,陳熠無緣

      王曼昱退賽,太原賽8人名單公布,4男4女,陳熠無緣

      東球貓貓
      2026-03-08 10:01:42
      江西母女喝了3瓶牛奶,被老公數(shù)落2小時,眼神太嚇人,網(wǎng)友炸鍋

      江西母女喝了3瓶牛奶,被老公數(shù)落2小時,眼神太嚇人,網(wǎng)友炸鍋

      青梅侃史啊
      2026-03-08 07:18:01
      霍爾木茲海峽如果斷供,中國的石油能撐多久?我查完數(shù)據(jù)算了一遍

      霍爾木茲海峽如果斷供,中國的石油能撐多久?我查完數(shù)據(jù)算了一遍

      何毅商業(yè)財(cái)經(jīng)
      2026-03-08 09:07:44
      蘋果在美升級地理封鎖:字節(jié)跳動中文應(yīng)用遭全面限制,跨區(qū)下載已成歷史

      蘋果在美升級地理封鎖:字節(jié)跳動中文應(yīng)用遭全面限制,跨區(qū)下載已成歷史

      驅(qū)動中國
      2026-03-06 11:12:05
      美軍或用對付伊拉克的方法,對付中國?一旦開戰(zhàn),衛(wèi)星必然不保!

      美軍或用對付伊拉克的方法,對付中國?一旦開戰(zhàn),衛(wèi)星必然不保!

      阿籫你好
      2026-03-08 10:28:25
      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      南權(quán)先生
      2026-01-26 15:41:26
      難辨真?zhèn)危_實(shí)有可能,美媒:中國用殲16的舊雷達(dá)來升級殲11B

      難辨真?zhèn)危_實(shí)有可能,美媒:中國用殲16的舊雷達(dá)來升級殲11B

      嘯鷹評
      2026-03-07 23:24:42
      葛薈婕的男友吳海峰,32歲,廣西農(nóng)村初中學(xué)歷,曾是薇婭公司司機(jī)

      葛薈婕的男友吳海峰,32歲,廣西農(nóng)村初中學(xué)歷,曾是薇婭公司司機(jī)

      靜若梨花
      2026-03-08 11:15:50
      政府工作報(bào)告:加強(qiáng)初婚初育家庭住房保障;落實(shí)職工帶薪錯峰休假制度

      政府工作報(bào)告:加強(qiáng)初婚初育家庭住房保障;落實(shí)職工帶薪錯峰休假制度

      每日經(jīng)濟(jì)新聞
      2026-03-07 20:19:10
      全國人大代表、北京協(xié)和醫(yī)院院長張抒揚(yáng)建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      全國人大代表、北京協(xié)和醫(yī)院院長張抒揚(yáng)建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      觀威海
      2026-03-07 12:07:22
      地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

      地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

      甜檸聊史
      2026-03-08 01:56:33
      全新一代雷克薩斯ES美國售價揭曉:48795美元起,下月登陸國內(nèi)

      全新一代雷克薩斯ES美國售價揭曉:48795美元起,下月登陸國內(nèi)

      IT之家
      2026-03-06 18:19:38
      朝鮮戰(zhàn)爭期間:美軍原本已接近擊敗中國,卻碰上中國決死的指揮官

      朝鮮戰(zhàn)爭期間:美軍原本已接近擊敗中國,卻碰上中國決死的指揮官

      別人都叫我阿腈
      2026-02-13 21:25:33
      中央定調(diào)!15年最低繳費(fèi)成歷史,2030年15年繳費(fèi)還能正常退休嗎?

      中央定調(diào)!15年最低繳費(fèi)成歷史,2030年15年繳費(fèi)還能正常退休嗎?

      另子維愛讀史
      2026-03-03 21:58:41
      羅永浩怒懟算命大V!稱沒了膽也不慣著,網(wǎng)友:踢到鋼板了

      羅永浩怒懟算命大V!稱沒了膽也不慣著,網(wǎng)友:踢到鋼板了

      雷科技
      2026-03-07 23:58:00
      請12人吃飯結(jié)賬變四桌,我悄悄結(jié)賬走人,半小時飯店來電:人被扣了,我直接回答:和我沒關(guān)系

      請12人吃飯結(jié)賬變四桌,我悄悄結(jié)賬走人,半小時飯店來電:人被扣了,我直接回答:和我沒關(guān)系

      奶茶麥子
      2026-03-08 00:01:07
      2026-03-08 12:07:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      14664文章數(shù) 66667關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      伊朗公布行動細(xì)節(jié) 有導(dǎo)彈配備集束彈頭均命中目標(biāo)

      頭條要聞

      伊朗公布行動細(xì)節(jié) 有導(dǎo)彈配備集束彈頭均命中目標(biāo)

      體育要聞

      大傷后被交易,他說:22歲的我已經(jīng)死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財(cái)經(jīng)要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

      態(tài)度原創(chuàng)

      數(shù)碼
      藝術(shù)
      健康
      教育
      公開課

      數(shù)碼要聞

      華為PC加速鴻蒙化 上半年或推出兩款鴻蒙PC新品!

      藝術(shù)要聞

      他是二王書法的化身?米芾的秘密揭曉!

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      給孩子減負(fù)重磅消息

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版