<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<cite id="pern3"><track id="pern3"></track></cite>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

MMLU已死？「人類最后考試」登Nature：全球AI模型集體不及格！

2026-03-07 09:06:10　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：KingHZ

【新智元導讀】從高德納震驚Claude解難題，到陶哲軒稱GPT-5.2pro夠發Nature數學博士……AI狂飆突進，卻在「人類最后的考試」上集體啞火：最高分不過50%，人類專家還有多大安全區？

AI新聞圈，兩天一地震，三天一顛覆，讓你目不暇接、眼花繚亂！

或有夸大的地方，但AI日新月異、有目共睹！

「算法分析祖師爺」高德納見證了Claude解決了一道高難度算法題，發文連用兩個「震驚」（shock）。

數學家陶哲軒宣布GPT 5.2 Pro解決了一個數學Erdos難題且完全與之前人類的解法不同，足以拿下數學博士學位了！

此前，更有Claude Code引發的Vibe Coding熱潮。

至于各種長期存在的基準測試，AI取得優異成績已不足為怪！

AI研究人員早已意識到問題：這些測試太簡單了。

像大規模多任務語言理解（MMLU）這類曾被視為難度頗高的熱門評測，如今已無法有效檢驗先進AI系統的真實水平

問題在于：AI模型發展得如此之快，基準測試正難以跟上其步伐，難以確保AI安全有效。

在MMLU等熱門基準測試中,大語言模型的準確率現已超過90%，早已「飽和」。

「人類最后的考試」的新AI測試基準，或許能提供解決方案。

各大LLM在不同基準上準確率的對比

最近，這篇合作名單巨長的論文，正式登上頂刊Nature!

鏈接：https://www.nature.com/articles/s41586-025-09962-4

順便提一句，Alexandr Wang還在Scale AI時，相關工作已發表在預印本平臺Arxiv。

AI基準：測試，再測試

從性能和安全等角度來看，測試大語言模型有多種不同的方法。

例如，在發布前，AI開發人員會評估大語言模型被用于惡意目的的抵抗能力。

此外，還有一些獨立組織對大語言模型進行評估，比如評估大語言模型被用于自主利用軟件漏洞的風險。

然而，這些測試通常只涵蓋狹窄的學科領域，或者只包含少量任務。

為了比較模型而創建更廣泛、標準化基準的嘗試包括MMLU，它使用大約16000道多項選擇題來測試模型的通用知識和解決問題的能力。

但很快，過去那些曾經很難的考試，現在對AI來說已經變成了「送分題」。

為了彌補這一差距，近1000名研究人員組成的全球聯盟創建了「人類最后的考試」（Humanity’s Last Exam，HLE。

該測試由AI安全中心CAIS和Scale AI的一個團隊開發，包含由全球研究人員提交的3000個具有挑戰性的問題，旨在成為衡量大語言模型能力的終極基準

這項基準測試覆蓋面極廣、挑戰性極高、深深植根于人類專家知識，以至于當前最強的AI準確率也不足50%。

「人類最后的考試」共包含2500道問題，涵蓋數學、人文學科、自然科學、古代語言以及高度專業化的子領域。

問題學科分布

這些題目非常專業：從翻譯古代巴爾米拉銘文，到識別鳥類的顯微解剖結構，再到分析圣經希伯來語發音的復雜特征。

每道題都經過了領先AI模型的測試。如果有任何系統能答對，該題就會被剔除。最終形成的是一項經過精心設計、恰好處于當前AI能力邊界之外的考試。

從7萬到提交的難題中，精挑細選出了其中的2500道題目

結果也證實了這一點。

早期結果顯示，即使是最先進的模型也舉步維艱：

GPT-4o得分2.7%；
Claude 3.5 Sonnet達到4.1%；
OpenAI的旗艦模型o1僅取得8%的成績。

新基準為何重要

德州農工大學計算機科學與工程系的教學副教授Tung Nguyen，他參與了問題的撰寫和完善工作。

他貢獻了2500道公開考題中的73道（貢獻量位居第二），并且在數學和計算機科學領域撰寫的題目數量最多。

最近，他分享了對「人類最后的考試」的思考。

「當AI系統開始在人類設定的基準測試中表現得極為出色時，人們很容易認為它們正在接近人類水平的理解力，」Tung Nguyen說道。

但HLE提醒我們，智能不僅僅是模式識別——它關乎深度、背景和專業化的知識。

這個考試的目的并非難倒人類。而是要精確、系統地揭示出AI目前——至少是現階段——還無法做到的事情。

鏈接：lastexam.ai

Tung Nguyen表示，AI超越傳統基準的問題遠超學術層面。

「如果沒有準確的評估工具，政策制定者、開發者和用戶就可能誤解AI系統的實際能力，」他說。「基準測試為衡量進展和識別風險提供了基礎。」

正如團隊論文所指出的，雖然AI可能在為人類設計的考試中表現出色，但這些測試不一定在衡量「智能」。

盡管名字聽起來有點「末日」感，但「人類最后的考試」并非意在暗示人類重要性的終結。

相反，它突顯了仍有大量知識是獨一無二地屬于人類的，以及AI還需要走多遠。

Tung Nguyen坦言：「這個名字有點半開玩笑的意味」。

重要的是背后的理念：

這是人類對AI的設置的最后一道難關。如果AI能通過這項考試，就意味著它達到了某種專業化的人類專家水平，而這在以前被認為是機器不可能做到的。

因為HLE涵蓋了從核物理到古代史的所有領域，所以沒人能通過單打獨斗的通過整個考試。

然而，特定領域的人類專家可以輕松回答其專業領域內的問題，而AI在幾乎所有類別上都失敗了。

為什么AI還會失敗？

原因在于AI擅長模式識別和總結已知數據，但它難以處理深度、專業化的背景知識。

HLE提出的問題需要多年的專門研究。在這些問題上，基于常見互聯網數據的「猜測」行不通。

參考資料：

https://www.nature.com/articles/s41586-025-09962-4

https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

高德納：「震驚！震驚！」Claude破解《計算機程序設計藝術》難題

機器之心Pro 2026-03-06 10:26:04
0 跟貼 0
海外華人團隊打造，統一理解與生成的圖像模型，超越Nano banana

機器之心Pro 2026-03-06 14:31:14
0 跟貼 0

黑馬圖像模型被Nano Banana技術負責人點贊！

量子位 2026-03-06 22:34:17
0 跟貼 0

小鵬加速沖向L4終局：對VLA架構「動刀」成關鍵一環

機器之心Pro 2026-03-06 21:05:29
0 跟貼 0
AI能否「圣地巡禮」？多模態大模型全新評估基準VIR-Bench來了

機器之心Pro 2025-10-15 16:05:02
0 跟貼 0

300萬AI悄悄「建國」？Nature長文：第一代AI社會正在成形

新智元 2026-03-06 19:15:39
0 跟貼 0

專訪全國人大代表李政：人工智能和機器人要推進關鍵技術攻關和場景應用深化

經濟觀察報 2026-03-07 12:48:45
0 跟貼 0
人社部：正研究措施發揮人工智能創造新崗位

新華社 2026-03-07 10:31:07
13 跟貼 13

FlashAttention-4正式發布：算法流水線大改，矩陣乘法級速度

機器之心Pro 2026-03-06 14:48:35
0 跟貼 0
數學推理魯棒性研究：基于高階數學問題等價變換的基準測試

CreateAMind 2026-03-04 19:08:21
0 跟貼 0
微積分到底想告訴我們什么？

huaser不花 2026-03-05 06:06:34
353 跟貼 353
世界各國速算法哪家強？哪種能讓你算得飛起

大嘴觀影 2026-03-06 10:25:25
1 跟貼 1
幾何計算太復雜？等高模型一步到位！

秒懂奧數李菁老師 2026-03-06 15:57:07
3 跟貼 3
這些公式放在數學界也是相當炸裂的

挑燈剪輯 2026-03-06 16:08:56
1 跟貼 1
麥當勞CEO吃自家漢堡細咬“一大口”遭群嘲，漢堡王等CEO都跟風亮吃相

界面新聞 2026-03-06 14:02:49
191 跟貼 191
國外的難解數學題，能給出答案的寥寥無幾

老外故事匯 2026-03-03 06:37:57
0 跟貼 0
1634三年級：孩子怎么也不會，家長也講不明白，為難

我服子佩 2026-03-05 13:14:21
1 跟貼 1
六年級易錯題，一做就錯，該長長記性了

郎老師趣味數學課堂 2026-03-06 14:18:48
0 跟貼 0
一只雞加兩只鴨等于37元，問一只雞多少錢？

公考客棧店小二 2026-03-03 10:00:00
0 跟貼 0
折疊問題如何求解？小升初考試易錯題，小學奧數老師陳延忠

陳老師講小學奧數 2026-03-06 10:13:10
16 跟貼 16
湖南中考數學：求整數部分和小數部分，幾乎都做錯了

大力小學數學 2026-03-05 06:44:00
0 跟貼 0
西安市城鎮基準地價新標準更新！居住用地樓面地價600-7200元/㎡

樂居好房 2026-03-06 10:49:10
0 跟貼 0
知識解讀：差倍問題，末尾添“0”

人生長河 2026-03-05 11:27:26
3 跟貼 3
劍指世界模型！商湯發多模態理解生成一體化架構，無需編碼器“玩轉”圖像

智東西 2026-03-06 20:12:11
0 跟貼 0
份數思想解決太簡單了，小升初數學易錯題，小學奧數老師陳延忠

陳老師講小學奧數 2026-03-07 10:55:55
3 跟貼 3
一年級數學填空題技巧，期末考試必備！

秒懂奧數李菁老師 2026-03-05 15:39:41
7 跟貼 7
21到25填入圓圈，每條線三數和為69！你能解出來嗎？

奧數輕松學 2026-03-06 15:47:41
6 跟貼 6
希望每個孩子在創造與實驗中收獲快樂

中國教育新聞網 2026-03-07 08:45:07
0 跟貼 0
數學考不好和體育老師有關系？

熱劇聊不完 2026-03-06 16:48:19
1 跟貼 1
3.6課堂上的數學小課堂，數字飛舞在黑板前

中書省的世界觀 2026-03-07 05:21:12
0 跟貼 0
剛下飛機行李就沒了！杭州姑娘花10多萬去南極旅游卻崩潰：衣物全靠借

環球網資訊 2026-03-03 08:53:57
5570 跟貼 5570
60歲王大爺上大學，今日返校，其寒假自學高數：我感覺不是特別難

星視頻 2026-03-05 23:58:59
0 跟貼 0
央行行長：中國股票市場在全球主要股市中表現較好

財聯社 2026-03-06 17:08:03
7625 跟貼 7625
研究人員被雄獅追擊，幸虧大猩猩及時發現，下幕雄獅想跑也晚了

西黃的生活 2026-03-03 16:29:12
64 跟貼 64
機構：霍爾木茲海峽航運幾乎完全停滯

財聯社 2026-03-06 14:04:07
6667 跟貼 6667
小學數學課外拓展-6年級-第27講圓柱與圓錐（1）

維七的教育分享圈 2026-03-07 08:31:07
3 跟貼 3
24-25浙江第三次聯考數學視頻講解

教育趣事收錄 2026-03-05 11:23:10
7 跟貼 7
黎曼度量與信息幾何

泥塑動物 2026-03-07 10:34:59
3 跟貼 3
算數寫的太快我都沒看懂！

娛糖主 2026-03-06 14:51:27
1 跟貼 1
倒三角符號在數學和物理公式里的意義

量子位 2026-01-08 13:59:54
0 跟貼 0

遭25分逆轉！小卡空砍30+9各種續命球真盡力了創三紀錄聊表安慰

遭25分逆轉！小卡空砍30+9各種續命球真盡力了創三紀錄聊表安慰

顏小白的籃球夢

2026-03-07 13:01:08

“以為是六個博士，結果是六個送外賣的！”六個兒子征婚視頻火了

“以為是六個博士，結果是六個送外賣的！”六個兒子征婚視頻火了

阿凱銷售場

2026-03-01 01:46:42

一覺醒來，美軍沒彈藥了？特朗普到處搬救援后，以色列開始找退路

一覺醒來，美軍沒彈藥了？特朗普到處搬救援后，以色列開始找退路

諦聽骨語本尊

2026-03-07 13:26:13

買超新歡邵晴懷孕，小三熬成正宮！張嘉倪的逆襲，才是最狠的報復

買超新歡邵晴懷孕，小三熬成正宮！張嘉倪的逆襲，才是最狠的報復

樂悠悠娛樂

2026-03-07 12:28:40

A股致命陷阱：橫盤數月拉2個漲停就跌主力就賺這點？真相扎心了

A股致命陷阱：橫盤數月拉2個漲停就跌主力就賺這點？真相扎心了

一方聊市

2026-03-05 10:18:35

美防長坦言若中美開戰，10艘航母對陣中國，20分鐘全軍覆沒？

美防長坦言若中美開戰，10艘航母對陣中國，20分鐘全軍覆沒？

愿你余生安好嘴角帶笑

2026-03-07 01:16:04

李賀：我爸是李雙江，我弟是李天一，我在沒有父愛的環境中成長

李賀：我爸是李雙江，我弟是李天一，我在沒有父愛的環境中成長

談古論今歷史有道

2026-03-07 10:20:03

謝賢前女友再曝猛料！相識第一天拒絕了兩次謝賢，當時行情非常好

謝賢前女友再曝猛料！相識第一天拒絕了兩次謝賢，當時行情非常好

念得小柔

2026-02-13 02:19:33

《乘風2026》最終陣容確認：蕭薔最大咖，歌手姐姐陣容弱

《乘風2026》最終陣容確認：蕭薔最大咖，歌手姐姐陣容弱

音樂鋼琴娛樂咖

2026-03-07 10:28:18

把美軍拖在中東泥潭？俄技術援伊到位，歐盟拉警報，普京要賺大了

把美軍拖在中東泥潭？俄技術援伊到位，歐盟拉警報，普京要賺大了

一家說

2026-03-07 11:29:03

薛之謙是“長寧海王”！？

八卦瘋叔

2026-03-05 11:14:49

貶值3000%！145萬僅換1美元，生活開銷暴漲30倍，伊朗人陷入絕望

貶值3000%！145萬僅換1美元，生活開銷暴漲30倍，伊朗人陷入絕望

知法而形

2026-03-07 09:39:20

一場5：1驗出成都蓉城一大水貨，歐冠后衛徒有虛名，恐遭新帥冷落

一場5：1驗出成都蓉城一大水貨，歐冠后衛徒有虛名，恐遭新帥冷落

零度眼看球

2026-03-07 07:26:42

51歲港姐癌癥晚期自曝已辦追思會，稱身體流膿發臭，標靶藥已無效

51歲港姐癌癥晚期自曝已辦追思會，稱身體流膿發臭，標靶藥已無效

樹娃

2026-03-07 13:29:08

拿老U充當新U！國產筆記本CPU欺詐被揭穿：官方回應含糊其辭

拿老U充當新U！國產筆記本CPU欺詐被揭穿：官方回應含糊其辭

快科技

2026-03-06 12:05:08

西方戰略專家感嘆：中國是全世界，唯一強得悄無聲息的超級大國！

西方戰略專家感嘆：中國是全世界，唯一強得悄無聲息的超級大國！

勇士軍武閑談

2026-03-05 11:20:31

明星卸妝后，曾黎臉蠟黃，王子文像老阿姨，看到王一博后我驚呆了

明星卸妝后，曾黎臉蠟黃，王子文像老阿姨，看到王一博后我驚呆了

最美的開始

2026-02-24 19:00:14

必須提防以色列！以色列現在已經把話挑明了。

必須提防以色列！以色列現在已經把話挑明了。

安安說

2026-03-07 12:59:38

身價暴漲3倍封神！2570萬血虧，曼聯悔到骨子里

身價暴漲3倍封神！2570萬血虧，曼聯悔到骨子里

卿子書

2026-03-06 10:31:22

洗牙可能影響壽命！醫生再三提醒：60歲以后，牢記洗牙5不要

洗牙可能影響壽命！醫生再三提醒：60歲以后，牢記洗牙5不要

醫學科普匯

2026-03-06 18:20:07

AI產業主平臺領航智能+時代

14656文章數 66666關注度

往期回顧全部

科技要聞

OpenClaw爆火，六位"養蝦人"自述與AI共生

頭條要聞

特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

頭條要聞

特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

體育要聞

塔圖姆歸來：凱爾特人的春之綠

娛樂要聞

周杰倫田馥甄的“JH戀” 被扒得底朝天

財經要聞

針對"不敢休、不讓休"怪圈國家出手了

汽車要聞

逃離ICU，上汽通用“止血”企穩

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

游戲

親子

數碼

教育要聞

兩會速遞｜教育部部長：將實施新一輪學生心理健康促進行動

這些才是適合普通人的穿搭！搭配腰帶、多穿牛仔褲，簡單舒適

鍵鼠不是萬能的神！外媒盤點近年適合用手柄玩的游戲

親子要聞

六個月寶寶查出散光，原因竟是父母長期身旁玩手機，媽媽懵了：我一直以為他閉著眼就沒事

數碼要聞

蘋果M5 Pro芯片GeekBench跑分曝光：多核破2.8萬

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<s id="owrh8"></s><cite id="owrh8"></cite>