<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI解數學題的速度比科學家編考題還快——技術飛速迭代,基準測試正以前所未有的速度過時——IEEE Spectrum

      0
      分享至

      置頂zzllrr小樂公眾號(主頁右上角)數學科普不迷路!

      AI解數學題的速度比科學家編考題還快。技術飛速迭代,基準測試正以前所未有的速度過時。

      作者:Benjamin Skuse(本杰明·斯庫斯)IEEE Spectrum 2026-2-26

      譯者:zzllrr小樂(數學科普公眾號)2026-2-27


      圖表:折線圖顯示,谷歌DeepMind的Aletheia AI在博士階段數學習題中的得分,比最新版Gemini Deep Think至少高出5%。

      AI解決高階數學問題的能力正飛速提升

      圖源:谷歌DeepMind

      數學常被視為有效衡量AI進展的理想領域。其分步推進的邏輯易于追蹤,且答案明確、可自動驗證,能排除人為或主觀因素的干擾。但AI系統的進步速度如此之快,以至于數學基準測試已難以跟上其步伐。

      早在2024年11月,非營利研究機構Epoch AI悄然發布了FrontierMath基準測試。這一標準化、嚴謹的測試工具,旨在衡量最先進AI工具的數學推理能力。

      “它包含一系列難度極高的數學題,”Epoch AI高級研究員格雷格·伯納姆解釋道,“最初只有300道題,也就是我們現在所說的1-3級;但目睹AI能力突飛猛進后,我們意識到必須全力跟進才能保持領先,因此新增了一組精心設計的特殊挑戰題,命名為4級?!?/p>

      大致來說,1-4級的難度覆蓋從高等本科到博士后初期階段的數學水平。該測試推出時,最先進的AI模型最多只能解決其中2%的題目。而如今,GPT-5.2、Claude Opus 4.6等最優秀的公開AI模型,已能解決FrontierMath 300道1-3級題目中的40%以上,以及50道4級題目中的30%以上。

      AI挑戰博士級數學研究

      這種驚人的進步速度毫無放緩跡象。例如,谷歌DeepMind近期宣布,其基于Gemini Deep Think開發的實驗性AI系統Aletheia,取得了可發表級別的博士水平研究成果。盡管從數學角度來看較為冷門——計算算術幾何中名為“特征權重”的特定結構常數——但這一成果在AI發展史上具有重要意義。

      “他們聲稱該系統基本實現了自主研究,即無需人類指導,且研究結果達到了發表標準,”伯納姆說,“這雖然算不上能讓數學家們興奮不已的重大成果,但它是全新的——是我們此前從未見過的突破。”

      為了讓這一成就更易理解:FrontierMath的所有題目都有人類已推導得出的已知答案,而Aletheia的成果,盡管“人類若花一周時間潛心鉆研或許也能完成”,但在此之前,從未有人做到過。

      Aletheia的成果及其他AI“數學家”近期的突破表明,我們亟需更快地推出更嚴苛的新基準測試來評估AI能力,因為現有測試很快就會過時?!耙延泻脦状^簡單的數學基準測試被淘汰了,”伯納姆說,“FrontierMath可能在未來兩年內達到飽和狀態(即最先進AI模型得分為100%),甚至可能更快。”

      “首輪證明”挑戰賽

      為應對這一問題,2月6日,11位頂尖數學家聯合發起了“首輪證明”(First Proof)挑戰賽。該挑戰賽包含10道極難的數學題,均源自出題者自身的研究過程,證明過程約5頁紙以內,且此前未向任何人公開。這一挑戰賽是評估AI系統獨立解決研究級數學問題能力的初步嘗試。詳情參閱:

      挑戰賽在數學界引發了廣泛關注,專業與業余數學家紛紛參與,OpenAI等團隊也積極應戰。但截至2月14日出題者公布證明過程時,尚無任何參與者能提交全部10道題的正確解答。

      事實上,差距還很大。出題者本人使用Gemini 3.0 Deep Think和ChatGPT 5.2 Pro,也僅解決了其中2道題。除OpenAI和谷歌DeepMind的Aletheia小團隊外,多數外部參與者的表現都不盡如人意。在“有限人類監督”下,OpenAI最先進的內部AI系統解決了10道題中的5道,Aletheia也取得了類似成績——數學界對此反應不一,有人驚嘆,也有人失望?!笆纵喿C明”挑戰賽團隊計劃于3月14日推出難度更高的第二輪挑戰。

      AI的新前沿

      “我認為‘首輪證明’挑戰賽非常出色:它盡可能真實地讓AI系統模擬數學家的工作場景,”伯納姆說。盡管他贊賞該挑戰賽能測試AI對各類數學領域及數學家的實用價值,但Epoch AI也推出了自己的新測試方案——FrontierMath:開放問題 (參閱 )。這一試點基準測試的獨特之處在于,它包含16道來自研究領域的開放問題(后續還將新增),這些問題都是專業數學家嘗試解決但未能成功的難題。自1月27日推出以來,尚無AI能解決其中任何一道題。

      “通過‘開放問題’測試,我們試圖讓挑戰難度再上一個臺階,”伯納姆說,“僅達到基準線的成果就具備發表價值,至少能在專業期刊上發表?!备匾氖?,每道題都設計成可自動評分的形式。“這有點違反直覺,”伯納姆補充道,“雖然沒人知道答案,但我們有一個計算機程序,能夠判斷提交的答案是否正確?!?/p>

      伯納姆認為“首輪證明”與“開放問題”這兩項測試是互補的?!拔艺J為對AI能力的了解越多越好,”他說,“AI已經發展到在某些方面優于大多數博士生的水平,因此我們需要提出一些人類數學家至少會適度感興趣的問題——不是因為這些問題是AI在解決,而是因為它們本身就是人類數學家關注的數學問題。”

      參考資料

      https://spectrum.ieee.org/ai-math-benchmarks

      小樂數學科普近期文章

      ·開放 · 友好 · 多元 · 普適 · 守拙·

      讓數學

      更加

      易學易練

      易教易研

      易賞易玩

      易見易得

      易傳易及

      歡迎評論、點贊、在看、在聽

      收藏、分享、轉載、投稿

      查看原始文章出處

      點擊zzllrr小樂

      公眾號主頁

      右上角

      置頂★加星

      數學科普不迷路!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      76歲的萬科創始人王石,最近徹底成了全網焦點。

      76歲的萬科創始人王石,最近徹底成了全網焦點。

      夢錄的西方史話
      2026-04-23 14:36:39
      谷雨后,不建議買5種蔬菜,口感不好,還沒營養,菜販自己都不吃

      谷雨后,不建議買5種蔬菜,口感不好,還沒營養,菜販自己都不吃

      阿龍美食記
      2026-04-22 18:39:10
      OpenClaw,崩了!

      OpenClaw,崩了!

      新智元
      2026-04-23 18:38:34
      老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

      老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

      楊華評論
      2026-04-24 03:04:33
      好消息,勇士隊和斯蒂芬·庫里在續約問題上已達成共識

      好消息,勇士隊和斯蒂芬·庫里在續約問題上已達成共識

      好火子
      2026-04-24 05:52:12
      一家旅行社連續3年中標,研學“婆羅門”何時休?

      一家旅行社連續3年中標,研學“婆羅門”何時休?

      環球旅訊
      2026-04-23 08:08:14
      馬筱梅與婆家切割成立公司,和玥箖劃界限,張蘭后悔也來不及了

      馬筱梅與婆家切割成立公司,和玥箖劃界限,張蘭后悔也來不及了

      魔都姐姐雜談
      2026-04-23 18:50:33
      看完這7件事,我終于懂了:中國足球的離譜,早就超出了人類認知

      看完這7件事,我終于懂了:中國足球的離譜,早就超出了人類認知

      圣西羅的太陽
      2026-04-23 13:24:10
      亞航兩乘客吵架延誤航班后續:冒充空姐女長相老氣,南航躺著中槍

      亞航兩乘客吵架延誤航班后續:冒充空姐女長相老氣,南航躺著中槍

      奇思妙想草葉君
      2026-04-23 02:43:04
      被拒上廁所老兵發聲,透露自己98抗洪致殘,訴求未解決,拒收捐款

      被拒上廁所老兵發聲,透露自己98抗洪致殘,訴求未解決,拒收捐款

      社會日日鮮
      2026-04-23 21:43:19
      太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

      太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

      橙星文娛
      2026-04-17 13:19:56
      51歲徐靜蕾美國超市被拍,胖到不敢認!旁邊黃立行頭發花白?

      51歲徐靜蕾美國超市被拍,胖到不敢認!旁邊黃立行頭發花白?

      老吳教育課堂
      2026-04-23 14:11:28
      中央定調!4月起公務員退休徹底取消彈性延遲,體制內真繃不住了

      中央定調!4月起公務員退休徹底取消彈性延遲,體制內真繃不住了

      愛下廚的阿椅
      2026-04-22 17:30:09
      “領導通知6點下班”!深圳男子辦事遭拒,投訴管理混亂!街道:系個人行為

      “領導通知6點下班”!深圳男子辦事遭拒,投訴管理混亂!街道:系個人行為

      南方都市報
      2026-04-23 19:24:21
      隨著龐俊旭6-10不敵羅伯遜,世錦賽中國7人一輪游!8強有望占2席

      隨著龐俊旭6-10不敵羅伯遜,世錦賽中國7人一輪游!8強有望占2席

      球場沒跑道
      2026-04-24 06:10:03
      今夜,漲爆了!突破10000點

      今夜,漲爆了!突破10000點

      中國基金報
      2026-04-24 00:21:50
      1951年,112歲虛云和尚在云門寺被打斷肋骨,五竅流血,驚動北京

      1951年,112歲虛云和尚在云門寺被打斷肋骨,五竅流血,驚動北京

      興趣知識
      2026-04-23 03:24:33
      1比4逆轉后特魯姆普放話:趙心童不是最大威脅,50倍丁俊暉才是

      1比4逆轉后特魯姆普放話:趙心童不是最大威脅,50倍丁俊暉才是

      生活新鮮市
      2026-04-23 18:37:10
      天助馬競:1-1,西甲第3遭西甲倒數第一逼平,僅領先馬競5分

      天助馬競:1-1,西甲第3遭西甲倒數第一逼平,僅領先馬競5分

      側身凌空斬
      2026-04-24 05:31:46
      如果在家突發心梗,黃金6分鐘自救法,快了解,關鍵時刻可自救

      如果在家突發心梗,黃金6分鐘自救法,快了解,關鍵時刻可自救

      健康科普365
      2026-01-20 16:05:03
      2026-04-24 07:47:00
      小樂數學科普 incentive-icons
      小樂數學科普
      zzllrr小樂,小樂數學科普,讓前沿數學流行起來~
      324文章數 7關注度
      往期回顧 全部

      科技要聞

      馬斯克喊出"史上最大產品",但量產難預測

      頭條要聞

      特朗普發文后 伊朗最高領袖、總統、議長、外長齊發聲

      頭條要聞

      特朗普發文后 伊朗最高領袖、總統、議長、外長齊發聲

      體育要聞

      給文班剃頭的馬刺DJ,成為NBA最佳第六人

      娛樂要聞

      王大陸因涉黑討債被判 女友也一同獲刑

      財經要聞

      普華永道賠償10億 恒大股東見到"回頭錢"

      汽車要聞

      預售30.29萬起 嵐圖泰山X8配896線激光雷達

      態度原創

      房產
      健康
      手機
      家居
      親子

      房產要聞

      三亞安居房,突然官宣!

      干細胞如何讓燒燙傷皮膚"再生"?

      手機要聞

      vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

      家居要聞

      浪漫協奏 法式風格

      親子要聞

      新華讀報|打乒乓球有助提高兒童注意力

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产日产欧产系列| 国产区二区三区在线观看| 国产欧美在线观看精品一区污| 午夜天堂av天堂久久久| 国产,精品,无码,丝袜| gogogo免费高清在线| 粉嫩小泬无遮挡久久久久久| 国产精品va在线观看无码不卡| 亚洲 日韩 欧美 成人 在线| 特殊重囗味sm在线观看无码| 新版资源天堂中文| 午夜无码福利| 97人妻人人揉人人躁人人| 国产v自拍| 亚洲无码精品人妻| 91在线视频观看| 亚洲国产成人久久综合| 精品国产午夜福利在线观看| 无码中出人妻中文字幕AV| 欧美午夜一区二区福利视频 | 免费A片国产毛无码A片| 又爽又黄无遮挡高潮视频网站| 91免费高清| 中文字幕人妻一区二区三区| 亚洲精品国产自在现线最新| 夜夜爽夜夜叫夜夜高潮漏水| 极品少妇被后入内射视| 2018av天堂在线视频精品观看| 男人猛躁进女人免费播放| 午夜无码A级毛片免费视频| 国产精品日本一区二区在线播放| 武陟县| 国产欧美性成人精品午夜| 日本熟妇视频| 99精品偷自拍| 69堂在线观看线无码视频一| 曾医生17分钟??下载| 国产老熟女伦老熟妇露脸| 熟女?人妻?人妻のA片| 人妻丰满熟妇av无码区| 在线综合亚洲欧洲综合网站|