震撼！OpenAI神秘模型連破6道前沿難題，奧特曼：AI在造「新知識」

2026-02-15 16:45:42　來源: 新智元

北京舉報

分享至

新智元報道

編輯：犀牛

【新智元導讀】OpenAI首席科學家震撼爆料，其神秘內(nèi)部模型僅憑一周成功攻克了10道未發(fā)表頂尖數(shù)學難題中的6道。這一名為First Proof的挑戰(zhàn)標志著AI已從奧賽選手進化為前沿知識的創(chuàng)造者，奧特曼更直言STEM研究范式將被徹底重塑。

還記得兩年前，AI只能磕磕絆絆地解出一道小學奧數(shù)題。

今天，讀完這篇文章時，你可能會感到一種深入骨髓的戰(zhàn)栗。

因為那個曾經(jīng)蹣跚學步的「孩子」，在剛剛過去的一周里，不僅學會了奔跑，還一腳踢開了人類智力皇冠上最堅固的那扇門——前沿數(shù)學研究。

就在剛剛，OpenAI首席科學家Jakub Pachocki在X上扔出了一顆重磅炸彈——

「我們用內(nèi)部模型對10道前沿數(shù)學研究題發(fā)起挑戰(zhàn)，在僅有少量人工監(jiān)督的情況下，至少6道的解答有很高概率是正確的。」

隨后，奧特曼親自轉(zhuǎn)發(fā)并感慨：「我們從AI連小學數(shù)學都做不好，到AI能解決研究級別的數(shù)學問題，只用了短短幾年。」

奧特曼以一貫的輕描淡寫風格加了一句：「我也相當確定，大家的主要反應會是『也沒那么難嘛』。」

嗯，典型的奧式凡爾賽。

奧特曼甚至表示，AI已經(jīng)有了產(chǎn)生新知識的能力！

OpenAI總裁Brockman也轉(zhuǎn)發(fā)表示振奮！

確實，這不是奧數(shù)競賽題，不是考研真題，不是任何已經(jīng)有標準答案的東西。

這是11位世界頂級數(shù)學家剛剛從自己的研究中挖出來、答案從未公開過的前沿問題。

人類專家自己解這些題，每道也需要好幾天，甚至更久。

而OpenAI一個還沒公開的神秘模型，一周搞定了其中大部分。

這到底是怎么回事？

一場硬核的數(shù)學考試

故事要從2月6日說起。

那天，來自斯坦福大學、哥倫比亞大學、哈佛大學、耶魯大學、洛桑聯(lián)邦理工學院等頂尖機構(gòu)的11位數(shù)學家，聯(lián)合發(fā)布了一篇名為「First Proof」（首次發(fā)酵）的論文。

這個名字本身就很有意思——在烘焙中，「first proof」指的是面團的第一次整體發(fā)酵，在分割成型之前讓它慢慢膨脹。

數(shù)學家們把這次實驗比作面團發(fā)酵：先把問題撒出去，讓AI和社區(qū)一起「醒發(fā)」。

這11位出題人來頭可不小。

其中Martin Hairer是2014年菲爾茲獎得主，Daniel Spielman是耶魯大學的譜圖論大牛，Lauren Williams是哈佛大學的代數(shù)組合學權(quán)威。

Martin Hairer

他們每人貢獻了一道（或參與出了一道）從自己正在進行的研究中抽出來的真問題。

這10道題覆蓋了數(shù)學中極為廣泛的領域：代數(shù)組合、譜圖論、代數(shù)拓撲、隨機分析、辛幾何、表示論、李群中的格、張量分析、數(shù)值線性代數(shù)。

網(wǎng)站地址：https://1stproof.org/

每一道題的證明長度大約在五頁左右——這不是那種需要幾百頁論文才能搞定的世紀難題，而是數(shù)學家在研究過程中遇到的「引理」（lemma），也就是通往更大定理路上的一塊關鍵墊腳石。

換句話說，這是一個優(yōu)秀研究生可能需要苦苦琢磨一段時間的那種日常級研究任務。

關鍵是，這些問題的答案從未在互聯(lián)網(wǎng)上出現(xiàn)過。

沒有發(fā)表過，沒有在任何會議上講過，沒有出現(xiàn)在任何公開場合。

答案被加密后上傳到了1stproof.org。

這意味著，AI模型不可能通過檢索訓練數(shù)據(jù)來作弊。

數(shù)學家們的目標很明確：我們不想再看AI做奧數(shù)題了，我們想知道，AI到底能不能做真正的數(shù)學研究。

OpenAI的瘋狂一周

消息一出，整個AI圈和數(shù)學圈都炸了。

斯坦福大學數(shù)學教授、First Proof團隊成員Mohammed Abouzaid后來坦言：「我們完全沒想到會引發(fā)這么大的動靜，更沒想到AI公司會這么認真地投入資源來做這件事。」

其中最引人注目的參賽者，當然是OpenAI。

根據(jù)Jakub Pachocki的描述，這并不是OpenAI傾巢出動的大會戰(zhàn)，而是一次「Side-sprint」（副業(yè)沖刺）。

就像是工程師們在午休時間順手搞的一個測試。

他們使用的是一個內(nèi)測模型。

不是GPT-5.2，不知道它是不是GPT-6，還是某種更激進的架構(gòu)。

這個模型在「有限的人工監(jiān)督」下工作：OpenAI沒有向模型提供數(shù)學思路或解題建議，但在某些解答上，根據(jù)專家反饋要求模型進行了擴展和補充。

他們還手動安排了這個內(nèi)部模型與ChatGPT之間的對話，用于驗證、排版和風格潤色。

對于部分問題，他們從幾次嘗試中按照人類判斷選出了最優(yōu)解。

最終，OpenAI在2月13日提交了一份67頁的PDF，包含了對全部10道題的解答嘗試。

Pachocki自信地宣布：至少6道解答（第2、4、5、6、9、10題）有很高概率是正確的。

文檔地址：https://cdn.openai.com/pdf/a430f16e-08c6-49c7-9ed0-ce5368b71d3c/1stproof_oai.pdf

OpenAI的另一位核心研究者Noam Brown也在社交媒體上高調(diào)喊話：「去年夏天IMO的結(jié)果公布時，有些人不以為然，說那只是高中數(shù)學。我們認為我們最新的模型將消除一切懷疑——STEM研究即將發(fā)生根本性變革。」

Noam Brown還在文中承諾，他們很快會發(fā)布這個新模型。

真相比宣傳復雜得多

2月14日，F(xiàn)irst Proof團隊公布了全部10道題的正式答案，并發(fā)布了他們自己用公開AI模型（GPT-5.2 Pro和Gemini 3.0 Deepthink）測試這些題目的經(jīng)驗報告。

有趣的是，官方論文中可能出現(xiàn)了一個小錯誤。

這里應該是2026，不是2025。

不過，這都不重要。

我們來看結(jié)論。

結(jié)論相當冷峻：在單次嘗試的情況下，公開可用的最強AI模型只答對了2道題——第9題（張量代數(shù)關系）和第10題（核化CP-ALS子問題）。

而且第9題還存在疑似「數(shù)據(jù)污染」問題——一個幾乎等價的證明已經(jīng)存在于已有文獻中。

第1題也被發(fā)現(xiàn)受到了污染，出題人Hairer網(wǎng)站上曾經(jīng)有一個證明草稿的存檔，但即便如此，AI也沒能填上其中的關鍵缺口。

更耐人尋味的是Abouzaid對AI產(chǎn)出風格的評價：「我看到的AI給出的正確解答，有一種19世紀數(shù)學的味道。但我們要構(gòu)建的是21世紀的數(shù)學。」

那么OpenAI自稱的「6道很可能正確」到底怎么樣了？

事態(tài)很快出現(xiàn)了戲劇性轉(zhuǎn)折。

論文發(fā)布不到一天，數(shù)學社區(qū)就開始對OpenAI的解答進行逐題審查。

Pachocki自己很快更新了聲明，承認第2題（關于扭曲局部Rankin-Selberg積分的非消沒檢驗向量）的解答「很可能不正確」。

社區(qū)的獨立評審則進一步發(fā)現(xiàn)，第5題（關于等變穩(wěn)定范疇的O-適應切片濾過）和第7題（關于Q-無環(huán)萬有覆疊的均勻格）的解答也存在嚴重漏洞。

到目前為止，根據(jù)《科學美國人》的報道以及社區(qū)數(shù)學家的獨立評判，比較確定正確的是第4題（有限加法卷積的調(diào)和平均不等式）、第8題（四價多面體拉格朗日曲面的光滑化）、第9題和第10題。

其余幾道仍在審查中，但整體來看，OpenAI的實際命中率很可能低于其最初宣稱的六成。

依然是一個歷史時刻

盡管真實成績可能沒有OpenAI宣傳的那么輝煌，但我們不應因此低估這件事的歷史意義。

哪怕最終確認只有3到4道題被正確解答，這也意味著一個AI，在面對從未見過的、真正前沿的數(shù)學研究問題時，能在一周之內(nèi)獨立（或半獨立地）給出嚴格的數(shù)學證明。

這在幾年前是完全不可想象的事情。

2022年，當時ChatGPT還經(jīng)常在分數(shù)加減法上犯錯。

2024年，AI開始能解一些競賽數(shù)學題。

2025年夏天，OpenAI的模型在國際數(shù)學奧林匹克上拿到金牌成績。

而現(xiàn)在——2026年2月——AI正在嘗試解答人類數(shù)學家正在研究的、從未發(fā)表過的原創(chuàng)問題。

從小學算術(shù)到前沿研究，這條路走了不到四年。

這個速度，才是真正讓人心跳加速的地方。

更值得關注的是那些被AI做對了的題目。

比如第4題，關于有限加法卷積中Φ_n函數(shù)的調(diào)和平均不等式——這需要一系列精巧的線性代數(shù)操作、對雙隨機矩陣的深刻理解、以及Jensen不等式的巧妙應用。

OpenAI的模型寫出了一個自包含的23頁證明，邏輯鏈條完整，最終被專家確認為正確。

一個AI，獨立完成了一篇可以發(fā)表在數(shù)學期刊上的研究級證明。

這不是做題，這就是做研究。

數(shù)學家要失業(yè)了嗎？

至少現(xiàn)在，還不會。

《科學美國人》在報道這次事件時給出的判斷很直接：「AI目前還不能取代數(shù)學家。」

為什么？

因為數(shù)學研究遠不止「證明一個已知問題」這一個環(huán)節(jié)。

真正的數(shù)學研究包括：發(fā)現(xiàn)值得研究的問題、創(chuàng)造新的概念和定義、構(gòu)建新的理論框架——然后才是證明。

First Proof測試的只是最后一步，也是最機械化的一步。

而在前面那些需要真正的洞察力、審美判斷和開創(chuàng)性想象的環(huán)節(jié)，AI目前連門都還沒摸到。

但奧特曼說的也沒錯：速度是關鍵變量。

如果AI從做不了小學數(shù)學到能碰前沿研究只用了四年。

那再過四年呢？

有趣的是，一些頂尖數(shù)學家已經(jīng)開始用腳投票。

哥倫比亞大學的數(shù)學天才Ashwin Sawhney從學術(shù)界休假加入了OpenAI。意大利數(shù)學家Pagano則去了Google DeepMind。

他們的理由出奇一致：「很明顯這將改變我們做數(shù)學的方式，與其以后被動適應，不如趁早參與。」

面團還在發(fā)酵

First Proof團隊已經(jīng)宣布，他們將在3月14日（恰好是π日）發(fā)布更多細節(jié)和分析，并計劃在未來幾個月內(nèi)發(fā)布第二批問題——附帶更嚴格的評判標準和更完善的規(guī)則。

他們甚至愿意與AI公司簽訂協(xié)議，在問題公開前進行受控測試。

這不是一場考試的結(jié)束，而是一個新時代的開始。

數(shù)學——這門人類最古老、最純粹的智力活動——正在第一次面臨一個真正的對話伙伴。

這個伙伴有時胡說八道，有時又驚人地深刻。

它會用19世紀的語言說話，但運算速度是21世紀的。

它還不能代替數(shù)學家思考，但它已經(jīng)可以在某些關鍵節(jié)點上為數(shù)學家分擔工作。

面團還在發(fā)酵。

我們已經(jīng)聞到面包的香味了。

參考資料：

https://x.com/merettm/status/2022517085193277874

https://x.com/polynoamial/status/2022527227049742779

https://x.com/sama/status/2022729068949717182

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

中國AI回答牛頓300年之問，破解數(shù)學之吻難題，打開高維幾何視野

DeepTech深科技 2026-02-14 12:32:53
1 跟貼 1
17歲高中生用AI解決數(shù)學界難題，陶哲軒、Jeff Dean點贊

機器之心Pro 2026-01-26 14:24:45
0 跟貼 0

OpenAI頭號叛徒，竟然是自學的AI?

量子位 2025-08-22 16:06:15
1 跟貼 1

“SaaS已死，SaaS到來”！Altman預言“全AI企業(yè)”時代開啟

華爾街見聞官方 2026-02-15 11:46:16
14 跟貼 14
OpenAI高管：工程師變成“魔法師”，AI將開啟新一輪創(chuàng)業(yè)狂潮

華爾街見聞官方 2026-02-15 16:00:24
0 跟貼 0

程序員不許寫代碼！OpenAI硬核實驗：3人指揮AI，5個月造出百萬行

新智元 2026-02-15 12:12:36
3 跟貼 3

36年卷積猜想被解決，華人唯一作者，AI或受益

機器之心Pro 2025-11-26 14:30:39
1 跟貼 1
萬億思考模型奪下IMO金牌，無縫接入OpenClaw！一句話手搓丐版PS

新智元 2026-02-15 12:17:21
3 跟貼 3

具身智能奇點已至！超越π*0.6，極佳視界自我進化VLA大模型拿下世界第一

新智元 2026-02-14 12:56:13
13 跟貼 13
北大大牛團隊最新頂會，首次讓AI能夠生成真實火焰

新智元 2026-02-14 18:06:07
1 跟貼 1
萬億思考模型新速度！螞蟻開源Ring-2.5-1T

量子位 2026-02-14 11:16:17
0 跟貼 0
極佳視界斬獲全球第一后，GigaBrain-0.5M*再進化

機器之心Pro 2026-02-14 15:39:15
0 跟貼 0
Seedance一騎絕塵背后：中國AI春節(jié)前為何“殺瘋了”？

澎湃新聞 2026-02-15 07:50:28
99 跟貼 99
幾天手搓的Claude Code拓麻歌子火了：成本幾乎為0，一句話做硬件時代來了

愛范兒 2026-02-15 17:13:57
0 跟貼 0
以判別式監(jiān)督學習強化推理LLM，解決難度偏差和熵崩塌難題

機器之心Pro 2025-10-28 11:14:55
0 跟貼 0
使命反復“變臉”，馬斯克的商業(yè)帝國到底在追逐什么

環(huán)球網(wǎng)資訊 2026-02-15 10:05:21
48 跟貼 48
AI遇上最強春節(jié)檔 Token通脹已成必然？

財聯(lián)社 2026-02-15 17:23:09
0 跟貼 0
北大謝俊逸袁新意合作論文登數(shù)學四大頂刊！合力破解50年猜想

算法與數(shù)學之美 2026-02-12 01:50:45
0 跟貼 0
初中中考幾何壓軸題精選-65，矩形折疊，直角三角形中建立方程

潘小童講數(shù)學 2026-02-13 13:33:05
1 跟貼 1
積跬步方至千里，積怠惰必墜深淵

小侯爺 2026-02-13 03:15:02
0 跟貼 0
三百年幾何猜想被推翻，數(shù)學家首次發(fā)現(xiàn)「穿不過去」的多面體

機器之心Pro 2025-10-27 18:02:35
10 跟貼 10
1980年陳景潤悔婚驚動中央領導，妻子含淚說：婚后我絕不會妨礙你

元哥說歷史 2026-02-15 07:00:03
0 跟貼 0
孫悟空棒打奧特曼、葉問拳打鋼鐵俠，Seedance2.0海外爆火！美國導演：可能會搞垮好萊塢

大象新聞 2026-02-12 19:42:18
277 跟貼 277
初中中考幾何壓軸題精選-64，學會12345模型，5秒出答案

潘小童講數(shù)學 2026-02-12 21:20:06
0 跟貼 0
構(gòu)造特殊三角形的方法，初中中考幾何壓軸題必考題型

潘小童講數(shù)學 2026-02-14 19:54:25
5 跟貼 5
數(shù)學老師講解數(shù)學題，手把手教你解題！

猴姐不好惹 2026-02-15 01:48:24
1 跟貼 1
奧特曼打敗高市早苗的惡搞視頻擴散，日本網(wǎng)友這樣評論

日本物語 2026-02-13 20:31:55
5 跟貼 5
北京中考題，本來是送分題，很多人都做成了送命題

郎老師趣味數(shù)學課堂 2026-02-15 14:16:49
0 跟貼 0
初中數(shù)學代數(shù)式求值，正確率很低

天天數(shù)理學習分享 2026-02-14 11:31:09
34 跟貼 34
透視高層住宅：從建設到衰敗的資產(chǎn)邏輯。一起來聽聽

豎笛小魔王 2026-02-15 04:08:45
20 跟貼 20
初中數(shù)學代數(shù)式求值，因式分解難度大

天天數(shù)理學習分享 2026-02-13 10:12:16
3 跟貼 3
用梯形蝴蝶模型求陰影部分面積，很簡單

公考客棧店小二 2026-02-11 14:00:00
0 跟貼 0
兩空白三角形面積分別為12和40，求陰影三角形的面積

公考客棧店小二 2026-02-11 18:00:00
27 跟貼 27
中考數(shù)學，課本上消失的定理

大力小學數(shù)學 2026-02-12 23:25:00
6 跟貼 6
中美俄人均智商對比：美99.74，俄103.16，中國多少？

不要把蜜語說給側(cè)耳聽 2026-02-15 15:28:25
0 跟貼 0
垂徑定理第1講，一個視頻學明白！

大鵬老師講數(shù)學 2026-02-14 05:00:00
0 跟貼 0
兩個陰影三角形的面積分別是3和9，求長方形面積

公考客棧店小二 2026-02-13 08:00:00
0 跟貼 0
美媒發(fā)出感慨：美國過時了中國出乎意料成了熱門

環(huán)球時報 2026-02-15 12:00:05
9566 跟貼 9566
初中數(shù)學階乘和冪比較大小

天天數(shù)理學習分享 2026-02-15 17:19:34
0 跟貼 0
奧特曼和高市早苗大戰(zhàn)

國際風云錄 2026-02-15 03:19:43
0 跟貼 0

新智元

AI產(chǎn)業(yè)主平臺領航智能+時代

14542文章數(shù) 66626關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

教育

時尚

健康

軍事航空

手機 / 數(shù)碼

房產(chǎn) / 家居

震撼！OpenAI神秘模型連破6道前沿難題，奧特曼：AI在造「新知識」

發(fā)春節(jié)紅包的大廠都被約談了

杭州女子5年前在醫(yī)美機構(gòu)充值8萬 5年后尷尬了

杭州女子5年前在醫(yī)美機構(gòu)充值8萬 5年后尷尬了

最戲劇性的花滑男單，冠軍為什么是他？

河南春晚被罵上熱搜！大量廣告滿屏AI

誰在掌控你的胃？起底百億"飄香劑"江湖

奔馳中國換帥：段建軍離任，李德思接棒

態(tài)度原創(chuàng)

宋徽宗耗費30年，尋得“二王”100幅真跡！

五年級求面積，中點是解題關鍵

推廣中獎名單-更新至2026年2月3日推廣

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

特朗普：在俄烏沖突問題上 澤連斯基必須行動起來

特朗普：在俄烏沖突問題上澤連斯基必須行動起來