<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      所有AI全軍覆沒!學者出2500道題,GPT-5得分25.3%,GPT-4o 2.7%

      0
      分享至

      近日,由全球近 1,000 名頂尖學者打造的 AI 新基準“人類最后一次考試”(HLE,Humanity's Last Exam)的相關論文發在Nature。這套新試卷覆蓋數學、物理、化學、歷史、語言、醫學,每一道題都來自專家自己的研究領域,每一道題都有唯一正確的答案,每一道題也都經過 AI 的經驗,如果哪個 AI 能夠答對,這道題就會作廢。


      圖 | 相關論文(來源:Nature)

      結果呢?GPT-4o 只拿了 2.7%,Claude 3.5 Sonnet 4.1%,OpenAI 最先進的 o1 模型,8%。發布之后,更強的 Gemini 2.5 Pro 和 GPT-5 也來挑戰,一個 21.6%,一個 25.3%。可謂是全軍覆沒,沒有一個能及格。


      圖 | 各個模型的得分(來源:Nature)

      之所以出這套新卷子,是因為當前最聰明的大模型在那些曾難倒無數學生的考試里,已經能夠考到 90 分以上。MMLU這樣一個包含 57 個學科、14,000 道題目的超難測試,AI 早就拿到了接近滿分的成績。


      圖 | “人類最后一次考試”的數據集創建流程(來源:Nature)

      因此,“人類最后一次考試”的推出正是為了跟上和適應 AI 的發展。那么,這套題到底有多難?

      有一道題是一張古羅馬墓碑的照片,上面刻著帕爾米拉文字,要求 AI把它翻譯出來。帕爾米拉是古代敘利亞的一個城市,有自己的語言和文字,但是現在已經沒人說了。翻譯這種文字,需要懂古閃米特語、懂考古學、懂歷史學。

      另一道題問:蜂鳥身上有一塊特殊的籽骨,位于某塊肌肉的腱膜里,這塊骨頭支撐著幾根肌腱?答案是數字。這就需要 AI 知道蜂鳥的解剖結構,知道那塊骨頭長在哪兒,知道它連著幾根肌腱,差一點都不行。

      還有一道題是數學,關于自然變換和余端,里面充滿了Σ、∞、Hom 這些符號。題目本身已經復雜到讓大多數數學系學生直接跳過,但答案要求卻是精確數字。

      這套題的設計邏輯很殘酷。每一道題提交之前,都要讓 AI 先做一遍。如果 AI 做對了,這道題就不要。如果 AI 做錯了,才會進入人工審核環節。審核要過兩關,第一關是幾個研究生水平的審稿人提意見,第二關是專家拍板。整個過程下來,1,000 個專家花費幾個月,從幾萬道題里篩選出了這 2,500 道題。

      如前所述,MMLU 已經無法滿足當前 AI 的發展。2020 年,MMLU 剛出來的時候,AI 只能考三四十分。到了 2023 年,GPT-4 直接飆到 86 分。現在,隨便一個開源模型都能考到 90 分以上。當考試分數都溢出來了,如何測量 AI 的聰明程度呢?因此,得換一套更難的新卷子。

      “人類最后一次考試”這套基準測試名字聽著嚇人,但并不是字面意思,而是說這是 AI 最后一次可能考過的考試。等到 AI 哪天也在這套題上拿到 90% 的成績,說明它已經具備了專家級的學術能力。

      那么,AI 現在可以考多少分?前面提到,最厲害的 AI 也就考試 25% 左右,距離 90% 還有很大的差距。而且更有意思的是,AI 不知道自己不會。研究團隊在讓 AI 回答的同時給出信心分數,結果大多數 AI 明明答錯了,卻給出 80%、90% 的信心。這種過度自信非常危險,如果 AI 用在醫療和法律這些領域,而它不知道自己不知道,就會出現大問題。

      還有一點值得注意。研究團隊發現,推理模型在回答這套題的時候,思考時間越長,正確率越高。但當思考時間超過一定長度,正確率反而下降了。這說明不是想得越久就越好,當思考時間超過某個臨界點,可能就是 AI 在瞎繞。這也給 AI 開發提了個醒,以后不能光拼推理時間,還得拼推理效率。

      這套題現在已經在網上公開了一部分,網址是 lastexam.ai。任何人都可以去看看這些題目長什么樣,也可以看看自己能不能答對幾道。當然,大部分人可能不太能答對,因為題目本來就是給專家出的。


      圖 | 長長的論文作者名字,截圖僅為部分論文作者(來源:Nature)

      那么,這道題對于 AI 開發有什么用?

      它就好比一面鏡子,可以照出來 AI 到底有幾斤幾兩。以后誰再宣稱自己的 AI 多厲害,先拿這套題目考一下。考不過 25%,就談不上超越人類。透過這套題也可以看清楚 AI 擅長什么和不擅長什么。比如,從目前的得分來看,AI 在數學和計算機上的表現稍好,但是在歷史和語言上表現得慘不忍睹。

      這說明 AI 的智能和我們想象得還不一樣。論文里有一句話寫得很克制,AI 在這些專家級問題上表現很差,說明真正的智能還需要深度、需要上下文、需要專業知識。那些覺得 AI 馬上就要統治世界的人,通過嘗試一下這套題目,可能就不再會那么悲觀。


      (來源:Nature)

      美國德克薩斯 A&M 大學的助理教授阮東(Tung Nguyen,音譯)參與了出題,他寫了 73 道,是貢獻第二多的作者。他告訴媒體,這套題是一種理解 AI 的方法。它就好比是 AI 的入學考試,通過設置這套門檻,我們可以知道 AI 強在哪里、弱在哪里,才能造出更安全、更可靠的技術。同時,也說明了人類的專業知識依然重要。

      參考資料:

      相關論文https://www.nature.com/articles/s41586-025-09962-4

      https://techxplore.com/news/2026-02-dont-panic-humanity-exam-begun.html#google_vignette

      排版:胡巍巍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普沒想到:美伊大戰打醒兩個國家,一個是越南,一個是菲律賓

      特朗普沒想到:美伊大戰打醒兩個國家,一個是越南,一個是菲律賓

      東極妙嚴
      2026-03-07 12:41:17
      雕和鷹誰更厲害?看完才知道,根本不是一個量級!

      雕和鷹誰更厲害?看完才知道,根本不是一個量級!

      心中的麥田
      2026-03-07 19:20:54
      剛入境就落網!普拉托五名中國男子因攜帶武器和爆炸物被捕

      剛入境就落網!普拉托五名中國男子因攜帶武器和爆炸物被捕

      意大利華人網0039
      2026-03-08 00:33:36
      勇士如何防亞歷山大;萊納德的胸與肩

      勇士如何防亞歷山大;萊納德的胸與肩

      張佳瑋寫字的地方
      2026-03-08 13:07:23
      伊朗老國王每天要性生活,三個老婆不夠用,讓警察綁架女子進宮

      伊朗老國王每天要性生活,三個老婆不夠用,讓警察綁架女子進宮

      老土歷史
      2026-03-08 10:10:07
      集體下挫!美聯儲降息,突傳大消息!

      集體下挫!美聯儲降息,突傳大消息!

      證券時報e公司
      2026-03-07 22:27:40
      秦牛正威回應退還彩禮:不用催,人家催的比你們急

      秦牛正威回應退還彩禮:不用催,人家催的比你們急

      韓小娛
      2026-03-07 20:24:21
      外媒:為何世界應關注中國兩會?

      外媒:為何世界應關注中國兩會?

      參考消息
      2026-03-07 11:45:13
      下午17點,中國女足vs朝鮮!賽前傳來2個好消息,感謝亞足聯助攻

      下午17點,中國女足vs朝鮮!賽前傳來2個好消息,感謝亞足聯助攻

      侃球熊弟
      2026-03-08 01:25:03
      宮魯鳴最大失誤:不是沒招李夢、晚招劉禹彤,而是用錯張子宇

      宮魯鳴最大失誤:不是沒招李夢、晚招劉禹彤,而是用錯張子宇

      卿子書
      2026-03-08 10:46:27
      中華人民共和國居民身份證上竟然還有隱藏彩蛋!滿滿的科技感和中國元素

      中華人民共和國居民身份證上竟然還有隱藏彩蛋!滿滿的科技感和中國元素

      閃電新聞
      2026-03-07 21:16:03
      俄媒:蘇萊曼尼繼任者是內鬼,確認哈梅內伊位置,會沒開完就溜了

      俄媒:蘇萊曼尼繼任者是內鬼,確認哈梅內伊位置,會沒開完就溜了

      蕭鑟科普解說
      2026-03-07 00:30:38
      國家衛健委主任:已有3300萬家庭領到育兒補貼,有人比喻“孩子一出生就自帶口糧、自帶工資”

      國家衛健委主任:已有3300萬家庭領到育兒補貼,有人比喻“孩子一出生就自帶口糧、自帶工資”

      紅星新聞
      2026-03-07 12:41:11
      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      廖保平
      2026-03-05 12:08:52
      中國警告:若安世半導體糾紛再升級 全球芯片供應或再度陷入危機

      中國警告:若安世半導體糾紛再升級 全球芯片供應或再度陷入危機

      cnBeta.COM
      2026-03-08 02:02:05
      遼寧男籃全力出擊!布羅金頓CBA首秀,趙繼偉漸入佳境,央視直播

      遼寧男籃全力出擊!布羅金頓CBA首秀,趙繼偉漸入佳境,央視直播

      體壇瞎白話
      2026-03-08 08:52:00
      女孩想"白嫖"大奔反被"白嫖"8天,背上一屁股債,還幫騙子賺了3萬

      女孩想"白嫖"大奔反被"白嫖"8天,背上一屁股債,還幫騙子賺了3萬

      觀世記
      2026-03-06 16:53:47
      朱亞文的“發言”在全網火了,馮遠征的兩會建議,含金量還在升

      朱亞文的“發言”在全網火了,馮遠征的兩會建議,含金量還在升

      好賢觀史記
      2026-03-07 09:51:22
      房東突然說要漲租3千,我口頭答應連夜跑路,3天后她腸子悔青

      房東突然說要漲租3千,我口頭答應連夜跑路,3天后她腸子悔青

      奶茶麥子
      2026-03-07 22:26:32
      打人時有多狂,求和解時就有多慫!看完太解氣!

      打人時有多狂,求和解時就有多慫!看完太解氣!

      風起見你
      2026-02-25 18:54:43
      2026-03-08 13:32:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16376文章數 514725關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      英國考慮向中東地區派遣航母 特朗普批評:不需要

      頭條要聞

      英國考慮向中東地區派遣航母 特朗普批評:不需要

      體育要聞

      大傷后被交易,他說:22歲的我已經死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財經要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

      態度原創

      健康
      親子
      教育
      數碼
      時尚

      轉頭就暈的耳石癥,能開車上班嗎?

      親子要聞

      幼兒園操場變練兵場 硬核體能訓練含吊桿跳馬

      教育要聞

      父母留給子女最好的財富是什么?

      數碼要聞

      小米又在這一領域成為全球第三,國內一,友商還不跟嗎?

      2026春夏一定要擁有的6只包,好看又百搭

      無障礙瀏覽 進入關懷版