MMLU已死？「人類最后考試」登Nature：全球AI模型集體不及格！

2026-03-07 09:06:10　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：KingHZ

【新智元導(dǎo)讀】從高德納震驚Claude解難題，到陶哲軒稱GPT-5.2pro夠發(fā)Nature數(shù)學(xué)博士……AI狂飆突進(jìn)，卻在「人類最后的考試」上集體啞火：最高分不過50%，人類專家還有多大安全區(qū)？

AI新聞圈，兩天一地震，三天一顛覆，讓你目不暇接、眼花繚亂！

或有夸大的地方，但AI日新月異、有目共睹！

「算法分析祖師爺」高德納見證了Claude解決了一道高難度算法題，發(fā)文連用兩個「震驚」（shock）。

數(shù)學(xué)家陶哲軒宣布GPT 5.2 Pro解決了一個數(shù)學(xué)Erdos難題且完全與之前人類的解法不同，足以拿下數(shù)學(xué)博士學(xué)位了！

此前，更有Claude Code引發(fā)的Vibe Coding熱潮。

至于各種長期存在的基準(zhǔn)測試，AI取得優(yōu)異成績已不足為怪！

AI研究人員早已意識到問題：這些測試太簡單了。

像大規(guī)模多任務(wù)語言理解（MMLU）這類曾被視為難度頗高的熱門評測，如今已無法有效檢驗(yàn)先進(jìn)AI系統(tǒng)的真實(shí)水平

問題在于：AI模型發(fā)展得如此之快，基準(zhǔn)測試正難以跟上其步伐，難以確保AI安全有效。

在MMLU等熱門基準(zhǔn)測試中,大語言模型的準(zhǔn)確率現(xiàn)已超過90%，早已「飽和」。

「人類最后的考試」的新AI測試基準(zhǔn)，或許能提供解決方案。

各大LLM在不同基準(zhǔn)上準(zhǔn)確率的對比

最近，這篇合作名單巨長的論文，正式登上頂刊Nature!

鏈接：https://www.nature.com/articles/s41586-025-09962-4

順便提一句，Alexandr Wang還在Scale AI時，相關(guān)工作已發(fā)表在預(yù)印本平臺Arxiv。

AI基準(zhǔn)：測試，再測試

從性能和安全等角度來看，測試大語言模型有多種不同的方法。

例如，在發(fā)布前，AI開發(fā)人員會評估大語言模型被用于惡意目的的抵抗能力。

此外，還有一些獨(dú)立組織對大語言模型進(jìn)行評估，比如評估大語言模型被用于自主利用軟件漏洞的風(fēng)險。

然而，這些測試通常只涵蓋狹窄的學(xué)科領(lǐng)域，或者只包含少量任務(wù)。

為了比較模型而創(chuàng)建更廣泛、標(biāo)準(zhǔn)化基準(zhǔn)的嘗試包括MMLU，它使用大約16000道多項(xiàng)選擇題來測試模型的通用知識和解決問題的能力。

但很快，過去那些曾經(jīng)很難的考試，現(xiàn)在對AI來說已經(jīng)變成了「送分題」。

為了彌補(bǔ)這一差距，近1000名研究人員組成的全球聯(lián)盟創(chuàng)建了「人類最后的考試」（Humanity’s Last Exam，HLE。

該測試由AI安全中心CAIS和Scale AI的一個團(tuán)隊(duì)開發(fā)，包含由全球研究人員提交的3000個具有挑戰(zhàn)性的問題，旨在成為衡量大語言模型能力的終極基準(zhǔn)

這項(xiàng)基準(zhǔn)測試覆蓋面極廣、挑戰(zhàn)性極高、深深植根于人類專家知識，以至于當(dāng)前最強(qiáng)的AI準(zhǔn)確率也不足50%。

「人類最后的考試」共包含2500道問題，涵蓋數(shù)學(xué)、人文學(xué)科、自然科學(xué)、古代語言以及高度專業(yè)化的子領(lǐng)域。

問題學(xué)科分布

這些題目非常專業(yè)：從翻譯古代巴爾米拉銘文，到識別鳥類的顯微解剖結(jié)構(gòu)，再到分析圣經(jīng)希伯來語發(fā)音的復(fù)雜特征。

每道題都經(jīng)過了領(lǐng)先AI模型的測試。如果有任何系統(tǒng)能答對，該題就會被剔除。最終形成的是一項(xiàng)經(jīng)過精心設(shè)計(jì)、恰好處于當(dāng)前AI能力邊界之外的考試。

從7萬到提交的難題中，精挑細(xì)選出了其中的2500道題目

結(jié)果也證實(shí)了這一點(diǎn)。

早期結(jié)果顯示，即使是最先進(jìn)的模型也舉步維艱：

GPT-4o得分2.7%；
Claude 3.5 Sonnet達(dá)到4.1%；
OpenAI的旗艦?zāi)Ｐ蚾1僅取得8%的成績。

新基準(zhǔn)為何重要

德州農(nóng)工大學(xué)計(jì)算機(jī)科學(xué)與工程系的教學(xué)副教授Tung Nguyen，他參與了問題的撰寫和完善工作。

他貢獻(xiàn)了2500道公開考題中的73道（貢獻(xiàn)量位居第二），并且在數(shù)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域撰寫的題目數(shù)量最多。

最近，他分享了對「人類最后的考試」的思考。

「當(dāng)AI系統(tǒng)開始在人類設(shè)定的基準(zhǔn)測試中表現(xiàn)得極為出色時，人們很容易認(rèn)為它們正在接近人類水平的理解力，」Tung Nguyen說道。

但HLE提醒我們，智能不僅僅是模式識別——它關(guān)乎深度、背景和專業(yè)化的知識。

這個考試的目的并非難倒人類。而是要精確、系統(tǒng)地揭示出AI目前——至少是現(xiàn)階段——還無法做到的事情。

鏈接：lastexam.ai

Tung Nguyen表示，AI超越傳統(tǒng)基準(zhǔn)的問題遠(yuǎn)超學(xué)術(shù)層面。

「如果沒有準(zhǔn)確的評估工具，政策制定者、開發(fā)者和用戶就可能誤解AI系統(tǒng)的實(shí)際能力，」他說。「基準(zhǔn)測試為衡量進(jìn)展和識別風(fēng)險提供了基礎(chǔ)。」

正如團(tuán)隊(duì)論文所指出的，雖然AI可能在為人類設(shè)計(jì)的考試中表現(xiàn)出色，但這些測試不一定在衡量「智能」。

盡管名字聽起來有點(diǎn)「末日」感，但「人類最后的考試」并非意在暗示人類重要性的終結(jié)。

相反，它突顯了仍有大量知識是獨(dú)一無二地屬于人類的，以及AI還需要走多遠(yuǎn)。

Tung Nguyen坦言：「這個名字有點(diǎn)半開玩笑的意味」。

重要的是背后的理念：

這是人類對AI的設(shè)置的最后一道難關(guān)。如果AI能通過這項(xiàng)考試，就意味著它達(dá)到了某種專業(yè)化的人類專家水平，而這在以前被認(rèn)為是機(jī)器不可能做到的。

因?yàn)镠LE涵蓋了從核物理到古代史的所有領(lǐng)域，所以沒人能通過單打獨(dú)斗的通過整個考試。

然而，特定領(lǐng)域的人類專家可以輕松回答其專業(yè)領(lǐng)域內(nèi)的問題，而AI在幾乎所有類別上都失敗了。

為什么AI還會失敗？

原因在于AI擅長模式識別和總結(jié)已知數(shù)據(jù)，但它難以處理深度、專業(yè)化的背景知識。

HLE提出的問題需要多年的專門研究。在這些問題上，基于常見互聯(lián)網(wǎng)數(shù)據(jù)的「猜測」行不通。

參考資料：

https://www.nature.com/articles/s41586-025-09962-4

https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

高德納：「震驚！震驚！」Claude破解《計(jì)算機(jī)程序設(shè)計(jì)藝術(shù)》難題

機(jī)器之心Pro 2026-03-06 10:26:04
0 跟貼 0
海外華人團(tuán)隊(duì)打造，統(tǒng)一理解與生成的圖像模型，超越Nano banana

機(jī)器之心Pro 2026-03-06 14:31:14
0 跟貼 0

黑馬圖像模型被Nano Banana技術(shù)負(fù)責(zé)人點(diǎn)贊！

量子位 2026-03-06 22:34:17
0 跟貼 0

幫我編假論文？Nature曝arXiv創(chuàng)始人釣魚實(shí)驗(yàn)：13個頂尖AI全淪陷

新智元 2026-03-07 17:33:34
0 跟貼 0
OpenClaw掀起龍蝦熱：行動ASI奇點(diǎn)時刻！全球打工人巨變

新智元 2026-03-08 09:05:49
0 跟貼 0

爆火，有人說幾天賺了26萬！近千人在騰訊樓下排隊(duì)，QQ最新宣布

都市快報(bào)橙柿互動 2026-03-08 08:11:30
0 跟貼 0

SAP全球CEO 柯睿安：軟件正邁入最強(qiáng)大的時代

鈦媒體APP 2026-03-08 10:57:11
0 跟貼 0
五八智能四足機(jī)器人平臺Q20A，適用于千行百業(yè)

量子位 2025-09-30 15:35:41
0 跟貼 0

世界各國速算法哪家強(qiáng)？哪種能讓你算得飛起

大嘴觀影 2026-03-06 10:25:25
1 跟貼 1
FlashAttention-4正式發(fā)布：算法流水線大改，矩陣乘法級速度

機(jī)器之心Pro 2026-03-06 14:48:35
0 跟貼 0
微積分到底想告訴我們什么？

huaser不花 2026-03-05 06:06:34
529 跟貼 529
數(shù)學(xué)推理魯棒性研究：基于高階數(shù)學(xué)問題等價變換的基準(zhǔn)測試

CreateAMind 2026-03-04 19:08:21
0 跟貼 0
幾何計(jì)算太復(fù)雜？等高模型一步到位！

秒懂奧數(shù)李菁老師 2026-03-06 15:57:07
6 跟貼 6
湖南中考數(shù)學(xué)：求整數(shù)部分和小數(shù)部分，幾乎都做錯了

大力小學(xué)數(shù)學(xué) 2026-03-05 06:44:00
0 跟貼 0
五年級數(shù)學(xué)求陰影部分面積

天天數(shù)理學(xué)習(xí)分享 2026-03-07 17:14:31
4 跟貼 4
一年級數(shù)學(xué)填空題技巧，期末考試必備！

秒懂奧數(shù)李菁老師 2026-03-05 15:39:41
7 跟貼 7
1634三年級：孩子怎么也不會，家長也講不明白，為難

我服子佩 2026-03-05 13:14:21
1 跟貼 1
折疊問題如何求解？小升初考試易錯題，小學(xué)奧數(shù)老師陳延忠

陳老師講小學(xué)奧數(shù) 2026-03-06 10:13:10
16 跟貼 16
水池注滿和排空的計(jì)算技巧，秒變數(shù)學(xué)高手！

奧數(shù)輕松學(xué) 2026-03-07 16:56:32
4 跟貼 4
六年級易錯題，一做就錯，該長長記性了

郎老師趣味數(shù)學(xué)課堂 2026-03-06 14:18:48
0 跟貼 0
知識解讀：差倍問題，末尾添“0”

人生長河 2026-03-05 11:27:26
3 跟貼 3
在買菜做家務(wù)中教孩子，生活里的實(shí)用教育法

看著考卷唱 2026-03-07 23:48:01
0 跟貼 0
乘號都寫的歪歪扭扭的年紀(jì)，卻算出了拉馬努金等式

八塊腹肌的熊貓 2026-03-08 07:57:25
0 跟貼 0
西安市城鎮(zhèn)基準(zhǔn)地價新標(biāo)準(zhǔn)更新！居住用地樓面地價600-7200元/㎡

樂居好房 2026-03-06 10:49:10
0 跟貼 0
女子在杭州西湖景區(qū)把“西泠印社”認(rèn)成“杜帥冷面”，網(wǎng)友：四個字認(rèn)錯五個，當(dāng)事人：沒有文化確實(shí)不行

揚(yáng)子晚報(bào) 2026-03-06 17:44:56
1442 跟貼 1442
小學(xué)數(shù)學(xué)低于90分，初中滿分120，低于80分基本就不是讀書的料

好爸育兒 2026-03-07 20:52:39
21 跟貼 21
老人說過的話，誰也逃不掉，看完瞬間漲知識了!

海星旅行 2026-03-07 09:03:01
0 跟貼 0
份數(shù)思想解決太簡單了，小升初數(shù)學(xué)易錯題，小學(xué)奧數(shù)老師陳延忠

陳老師講小學(xué)奧數(shù) 2026-03-07 10:55:55
3 跟貼 3
21到25填入圓圈，每條線三數(shù)和為69！你能解出來嗎？

奧數(shù)輕松學(xué) 2026-03-06 15:47:41
6 跟貼 6
數(shù)學(xué)專項(xiàng)練習(xí)：排列組合

人生長河 2026-03-07 19:37:21
6 跟貼 6
60歲王大爺上大學(xué)，今日返校，其寒假自學(xué)高數(shù)：我感覺不是特別難

星視頻 2026-03-05 23:58:59
0 跟貼 0
3.6課堂上的數(shù)學(xué)小課堂，數(shù)字飛舞在黑板前

中書省的世界觀 2026-03-07 05:21:12
0 跟貼 0
孩子數(shù)學(xué)考了97分爸爸還不愿意，抱怨考上清華北大還得去北京看他

渝派生活幫 2026-03-07 19:16:40
0 跟貼 0
黎曼度量與信息幾何

泥塑動物 2026-03-07 10:34:59
3 跟貼 3
油價或迎來本年度飆升加滿一箱油要貴20元

都市快報(bào)橙柿互動 2026-03-07 23:13:42
1335 跟貼 1335
2026兩會·委員說丨袁亞湘：培養(yǎng)興趣讓學(xué)生迷上數(shù)學(xué)

中國網(wǎng) 2026-03-07 21:00:06
0 跟貼 0
別讓數(shù)字泔水“偷走”下一代

中國青年報(bào) 2026-03-08 06:55:33
0 跟貼 0
數(shù)學(xué)怎么就那么難根本學(xué)不會！

有有侃劇人 2026-03-07 15:56:10
1 跟貼 1
這是思維邏輯，和數(shù)學(xué)沒有關(guān)系

小小魚追劇 2026-03-08 10:15:49
1 跟貼 1
全國政協(xié)委員周世虹：建議平臺推行算法選擇權(quán)

界面新聞 2026-03-07 14:11:41
0 跟貼 0

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

14664文章數(shù) 66667關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數(shù)碼

藝術(shù)

健康

教育

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

MMLU已死？「人類最后考試」登Nature：全球AI模型集體不及格！

OpenClaw最大的推手是閑魚和小紅書

伊朗公布行動細(xì)節(jié) 有導(dǎo)彈配備集束彈頭均命中目標(biāo)

伊朗公布行動細(xì)節(jié) 有導(dǎo)彈配備集束彈頭均命中目標(biāo)

大傷后被交易，他說：22歲的我已經(jīng)死了

周迅新戀情曝光，李亞鵬等人已成過去

油價要失控？

9分鐘充飽 全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

態(tài)度原創(chuàng)

華為PC加速鴻蒙化 上半年或推出兩款鴻蒙PC新品！

他是二王書法的化身？米芾的秘密揭曉！

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

給孩子減負(fù)重磅消息

9分鐘充飽全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

華為PC加速鴻蒙化上半年或推出兩款鴻蒙PC新品！