<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      MMLU已死?「人類最后考試」登Nature:全球AI模型集體不及格!

      0
      分享至


      新智元報道

      編輯:KingHZ

      【新智元導讀】從高德納震驚Claude解難題,到陶哲軒稱GPT-5.2pro夠發Nature數學博士……AI狂飆突進,卻在 「人類最后的考試」上集體啞火:最高分不過50%,人類專家還有多大安全區?

      AI新聞圈,兩天一地震,三天一顛覆,讓你目不暇接、眼花繚亂!

      或有夸大的地方,但AI日新月異、有目共睹!

      「算法分析祖師爺」高德納見證了Claude解決了一道高難度算法題,發文連用兩個「震驚」(shock)。

      數學家陶哲軒宣布GPT 5.2 Pro解決了一個數學Erdos難題且完全與之前人類的解法不同,足以拿下數學博士學位了!


      此前,更有Claude Code引發的Vibe Coding熱潮。

      至于各種長期存在的基準測試,AI取得優異成績已不足為怪!

      AI研究人員早已意識到問題:這些測試太簡單了。


      像大規模多任務語言理解(MMLU)這類曾被視為難度頗高的熱門評測,如今已無法有效檢驗先進AI系統的真實水平

      問題在于:AI模型發展得如此之快,基準測試正難以跟上其步伐,難以確保AI安全有效。


      在MMLU等熱門基準測試中,大語言模型的準確率現已超過90%,早已「飽和」。

      「人類最后的考試」的新AI測試基準,或許能提供解決方案。


      各大LLM在不同基準上準確率的對比

      最近,這篇合作名單巨長的論文,正式登上頂刊Nature!


      鏈接:https://www.nature.com/articles/s41586-025-09962-4

      順便提一句,Alexandr Wang還在Scale AI時,相關工作已發表在預印本平臺Arxiv。

      AI基準:測試,再測試

      從性能和安全等角度來看,測試大語言模型有多種不同的方法。

      例如,在發布前,AI開發人員會評估大語言模型被用于惡意目的的抵抗能力。

      此外,還有一些獨立組織對大語言模型進行評估,比如評估大語言模型被用于自主利用軟件漏洞的風險。

      然而,這些測試通常只涵蓋狹窄的學科領域,或者只包含少量任務。

      為了比較模型而創建更廣泛、標準化基準的嘗試包括MMLU,它使用大約16000道多項選擇題來測試模型的通用知識和解決問題的能力。

      但很快,過去那些曾經很難的考試,現在對AI來說已經變成了「送分題」。


      為了彌補這一差距,近1000名研究人員組成的全球聯盟創建了「人類最后的考試」(Humanity’s Last Exam,HLE。


      該測試由AI安全中心CAIS和Scale AI的一個團隊開發,包含由全球研究人員提交的3000個具有挑戰性的問題,旨在成為衡量大語言模型能力的終極基準

      這項基準測試覆蓋面極廣、挑戰性極高、深深植根于人類專家知識,以至于當前最強的AI準確率也不足50%。


      「人類最后的考試」共包含2500道問題,涵蓋數學、人文學科、自然科學、古代語言以及高度專業化的子領域。


      問題學科分布

      這些題目非常專業:從翻譯古代巴爾米拉銘文,到識別鳥類的顯微解剖結構,再到分析圣經希伯來語發音的復雜特征。


      每道題都經過了領先AI模型的測試。如果有任何系統能答對,該題就會被剔除。最終形成的是一項經過精心設計、恰好處于當前AI能力邊界之外的考試。


      從7萬到提交的難題中,精挑細選出了其中的2500道題目

      結果也證實了這一點。

      早期結果顯示,即使是最先進的模型也舉步維艱:

      • GPT-4o得分2.7%;

      • Claude 3.5 Sonnet達到4.1%;

      • OpenAI的旗艦模型o1僅取得8%的成績。


      新基準為何重要

      德州農工大學計算機科學與工程系的教學副教授Tung Nguyen,他參與了問題的撰寫和完善工作。


      他貢獻了2500道公開考題中的73道(貢獻量位居第二),并且在數學和計算機科學領域撰寫的題目數量最多。

      最近,他分享了對「人類最后的考試」的思考。


      「當AI系統開始在人類設定的基準測試中表現得極為出色時,人們很容易認為它們正在接近人類水平的理解力,」Tung Nguyen說道。

      但HLE提醒我們,智能不僅僅是模式識別——它關乎深度、背景和專業化的知識。

      這個考試的目的并非難倒人類。而是要精確、系統地揭示出AI目前——至少是現階段——還無法做到的事情。


      鏈接:lastexam.ai

      Tung Nguyen表示,AI超越傳統基準的問題遠超學術層面。

      「如果沒有準確的評估工具,政策制定者、開發者和用戶就可能誤解AI系統的實際能力,」他說。「基準測試為衡量進展和識別風險提供了基礎。

      正如團隊論文所指出的,雖然AI可能在為人類設計的考試中表現出色,但這些測試不一定在衡量「智能」。

      盡管名字聽起來有點「末日」感,但「人類最后的考試」并非意在暗示人類重要性的終結。

      相反,它突顯了仍有大量知識是獨一無二地屬于人類的,以及AI還需要走多遠。

      Tung Nguyen坦言:「這個名字有點半開玩笑的意味」。

      重要的是背后的理念:

      這是人類對AI的設置的最后一道難關。如果AI能通過這項考試,就意味著它達到了某種專業化的人類專家水平,而這在以前被認為是機器不可能做到的。

      因為HLE涵蓋了從核物理到古代史的所有領域,所以沒人能通過單打獨斗的通過整個考試。

      然而,特定領域的人類專家可以輕松回答其專業領域內的問題,而AI在幾乎所有類別上都失敗了。


      為什么AI還會失敗?

      原因在于AI擅長模式識別和總結已知數據,但它難以處理深度、專業化的背景知識。

      HLE提出的問題需要多年的專門研究。在這些問題上,基于常見互聯網數據的「猜測」行不通。

      參考資料:

      https://www.nature.com/articles/s41586-025-09962-4

      https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      遭25分逆轉!小卡空砍30+9各種續命球真盡力了 創三紀錄聊表安慰

      遭25分逆轉!小卡空砍30+9各種續命球真盡力了 創三紀錄聊表安慰

      顏小白的籃球夢
      2026-03-07 13:01:08
      “以為是六個博士,結果是六個送外賣的!”六個兒子征婚視頻火了

      “以為是六個博士,結果是六個送外賣的!”六個兒子征婚視頻火了

      阿凱銷售場
      2026-03-01 01:46:42
      一覺醒來,美軍沒彈藥了?特朗普到處搬救援后,以色列開始找退路

      一覺醒來,美軍沒彈藥了?特朗普到處搬救援后,以色列開始找退路

      諦聽骨語本尊
      2026-03-07 13:26:13
      買超新歡邵晴懷孕,小三熬成正宮!張嘉倪的逆襲,才是最狠的報復

      買超新歡邵晴懷孕,小三熬成正宮!張嘉倪的逆襲,才是最狠的報復

      樂悠悠娛樂
      2026-03-07 12:28:40
      A股致命陷阱:橫盤數月拉2個漲停就跌 主力就賺這點?真相扎心了

      A股致命陷阱:橫盤數月拉2個漲停就跌 主力就賺這點?真相扎心了

      一方聊市
      2026-03-05 10:18:35
      美防長坦言若中美開戰,10艘航母對陣中國,20分鐘全軍覆沒?

      美防長坦言若中美開戰,10艘航母對陣中國,20分鐘全軍覆沒?

      愿你余生安好嘴角帶笑
      2026-03-07 01:16:04
      李賀:我爸是李雙江,我弟是李天一,我在沒有父愛的環境中成長

      李賀:我爸是李雙江,我弟是李天一,我在沒有父愛的環境中成長

      談古論今歷史有道
      2026-03-07 10:20:03
      謝賢前女友再曝猛料!相識第一天拒絕了兩次謝賢,當時行情非常好

      謝賢前女友再曝猛料!相識第一天拒絕了兩次謝賢,當時行情非常好

      念得小柔
      2026-02-13 02:19:33
      《乘風2026》最終陣容確認:蕭薔最大咖,歌手姐姐陣容弱

      《乘風2026》最終陣容確認:蕭薔最大咖,歌手姐姐陣容弱

      音樂鋼琴娛樂咖
      2026-03-07 10:28:18
      把美軍拖在中東泥潭?俄技術援伊到位,歐盟拉警報,普京要賺大了

      把美軍拖在中東泥潭?俄技術援伊到位,歐盟拉警報,普京要賺大了

      一家說
      2026-03-07 11:29:03
      薛之謙是“長寧海王”!?

      薛之謙是“長寧海王”!?

      八卦瘋叔
      2026-03-05 11:14:49
      貶值3000%!145萬僅換1美元,生活開銷暴漲30倍,伊朗人陷入絕望

      貶值3000%!145萬僅換1美元,生活開銷暴漲30倍,伊朗人陷入絕望

      知法而形
      2026-03-07 09:39:20
      一場5:1驗出成都蓉城一大水貨,歐冠后衛徒有虛名,恐遭新帥冷落

      一場5:1驗出成都蓉城一大水貨,歐冠后衛徒有虛名,恐遭新帥冷落

      零度眼看球
      2026-03-07 07:26:42
      51歲港姐癌癥晚期自曝已辦追思會,稱身體流膿發臭,標靶藥已無效

      51歲港姐癌癥晚期自曝已辦追思會,稱身體流膿發臭,標靶藥已無效

      樹娃
      2026-03-07 13:29:08
      拿老U充當新U!國產筆記本CPU欺詐被揭穿:官方回應含糊其辭

      拿老U充當新U!國產筆記本CPU欺詐被揭穿:官方回應含糊其辭

      快科技
      2026-03-06 12:05:08
      西方戰略專家感嘆:中國是全世界,唯一強得悄無聲息的超級大國!

      西方戰略專家感嘆:中國是全世界,唯一強得悄無聲息的超級大國!

      勇士軍武閑談
      2026-03-05 11:20:31
      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      最美的開始
      2026-02-24 19:00:14
      必須提防以色列!以色列現在已經把話挑明了。

      必須提防以色列!以色列現在已經把話挑明了。

      安安說
      2026-03-07 12:59:38
      身價暴漲3倍封神!2570萬血虧,曼聯悔到骨子里

      身價暴漲3倍封神!2570萬血虧,曼聯悔到骨子里

      卿子書
      2026-03-06 10:31:22
      洗牙可能影響壽命!醫生再三提醒:60歲以后,牢記洗牙5不要

      洗牙可能影響壽命!醫生再三提醒:60歲以后,牢記洗牙5不要

      醫學科普匯
      2026-03-06 18:20:07
      2026-03-07 13:56:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14656文章數 66666關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      教育
      時尚
      游戲
      親子
      數碼

      教育要聞

      兩會速遞|教育部部長:將實施新一輪學生心理健康促進行動

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

      鍵鼠不是萬能的神!外媒盤點近年適合用手柄玩的游戲

      親子要聞

      六個月寶寶查出散光,原因竟是父母長期身旁玩手機,媽媽懵了:我一直以為他閉著眼就沒事

      數碼要聞

      蘋果M5 Pro芯片GeekBench跑分曝光:多核破2.8萬

      無障礙瀏覽 進入關懷版