![]()
新智元報道
編輯:犀牛
【新智元導讀】OpenAI首席科學家震撼爆料,其神秘內(nèi)部模型僅憑一周成功攻克了10道未發(fā)表頂尖數(shù)學難題中的6道。這一名為First Proof的挑戰(zhàn)標志著AI已從奧賽選手進化為前沿知識的創(chuàng)造者,奧特曼更直言STEM研究范式將被徹底重塑。
還記得兩年前,AI只能磕磕絆絆地解出一道小學奧數(shù)題。
今天,讀完這篇文章時,你可能會感到一種深入骨髓的戰(zhàn)栗。
因為那個曾經(jīng)蹣跚學步的「孩子」,在剛剛過去的一周里,不僅學會了奔跑,還一腳踢開了人類智力皇冠上最堅固的那扇門——前沿數(shù)學研究。
就在剛剛,OpenAI首席科學家Jakub Pachocki在X上扔出了一顆重磅炸彈——
「我們用內(nèi)部模型對10道前沿數(shù)學研究題發(fā)起挑戰(zhàn),在僅有少量人工監(jiān)督的情況下,至少6道的解答有很高概率是正確的。」
![]()
隨后,奧特曼親自轉(zhuǎn)發(fā)并感慨:「我們從AI連小學數(shù)學都做不好,到AI能解決研究級別的數(shù)學問題,只用了短短幾年。」
![]()
奧特曼以一貫的輕描淡寫風格加了一句:「我也相當確定,大家的主要反應會是『也沒那么難嘛』。」
嗯,典型的奧式凡爾賽。
奧特曼甚至表示,AI已經(jīng)有了產(chǎn)生新知識的能力!
![]()
OpenAI總裁Brockman也轉(zhuǎn)發(fā)表示振奮!
![]()
確實,這不是奧數(shù)競賽題,不是考研真題,不是任何已經(jīng)有標準答案的東西。
這是11位世界頂級數(shù)學家剛剛從自己的研究中挖出來、答案從未公開過的前沿問題。
人類專家自己解這些題,每道也需要好幾天,甚至更久。
而OpenAI一個還沒公開的神秘模型,一周搞定了其中大部分。
這到底是怎么回事?
一場硬核的數(shù)學考試
故事要從2月6日說起。
那天,來自斯坦福大學、哥倫比亞大學、哈佛大學、耶魯大學、洛桑聯(lián)邦理工學院等頂尖機構(gòu)的11位數(shù)學家,聯(lián)合發(fā)布了一篇名為「First Proof」(首次發(fā)酵)的論文。
![]()
這個名字本身就很有意思——在烘焙中,「first proof」指的是面團的第一次整體發(fā)酵,在分割成型之前讓它慢慢膨脹。
數(shù)學家們把這次實驗比作面團發(fā)酵:先把問題撒出去,讓AI和社區(qū)一起「醒發(fā)」。
這11位出題人來頭可不小。
其中Martin Hairer是2014年菲爾茲獎得主,Daniel Spielman是耶魯大學的譜圖論大牛,Lauren Williams是哈佛大學的代數(shù)組合學權(quán)威。
![]()
Martin Hairer
他們每人貢獻了一道(或參與出了一道)從自己正在進行的研究中抽出來的真問題。
這10道題覆蓋了數(shù)學中極為廣泛的領域:代數(shù)組合、譜圖論、代數(shù)拓撲、隨機分析、辛幾何、表示論、李群中的格、張量分析、數(shù)值線性代數(shù)。
![]()
網(wǎng)站地址:https://1stproof.org/
每一道題的證明長度大約在五頁左右——這不是那種需要幾百頁論文才能搞定的世紀難題,而是數(shù)學家在研究過程中遇到的「引理」(lemma),也就是通往更大定理路上的一塊關鍵墊腳石。
換句話說,這是一個優(yōu)秀研究生可能需要苦苦琢磨一段時間的那種日常級研究任務。
關鍵是,這些問題的答案從未在互聯(lián)網(wǎng)上出現(xiàn)過。
沒有發(fā)表過,沒有在任何會議上講過,沒有出現(xiàn)在任何公開場合。
答案被加密后上傳到了1stproof.org。
這意味著,AI模型不可能通過檢索訓練數(shù)據(jù)來作弊。
數(shù)學家們的目標很明確:我們不想再看AI做奧數(shù)題了,我們想知道,AI到底能不能做真正的數(shù)學研究。
OpenAI的瘋狂一周
消息一出,整個AI圈和數(shù)學圈都炸了。
斯坦福大學數(shù)學教授、First Proof團隊成員Mohammed Abouzaid后來坦言:「我們完全沒想到會引發(fā)這么大的動靜,更沒想到AI公司會這么認真地投入資源來做這件事。」
其中最引人注目的參賽者,當然是OpenAI。
根據(jù)Jakub Pachocki的描述,這并不是OpenAI傾巢出動的大會戰(zhàn),而是一次「Side-sprint」(副業(yè)沖刺)。
就像是工程師們在午休時間順手搞的一個測試。
他們使用的是一個內(nèi)測模型。
不是GPT-5.2,不知道它是不是GPT-6,還是某種更激進的架構(gòu)。
這個模型在「有限的人工監(jiān)督」下工作:OpenAI沒有向模型提供數(shù)學思路或解題建議,但在某些解答上,根據(jù)專家反饋要求模型進行了擴展和補充。
他們還手動安排了這個內(nèi)部模型與ChatGPT之間的對話,用于驗證、排版和風格潤色。
對于部分問題,他們從幾次嘗試中按照人類判斷選出了最優(yōu)解。
最終,OpenAI在2月13日提交了一份67頁的PDF,包含了對全部10道題的解答嘗試。
Pachocki自信地宣布:至少6道解答(第2、4、5、6、9、10題)有很高概率是正確的。
![]()
文檔地址:https://cdn.openai.com/pdf/a430f16e-08c6-49c7-9ed0-ce5368b71d3c/1stproof_oai.pdf
OpenAI的另一位核心研究者Noam Brown也在社交媒體上高調(diào)喊話:「去年夏天IMO的結(jié)果公布時,有些人不以為然,說那只是高中數(shù)學。我們認為我們最新的模型將消除一切懷疑——STEM研究即將發(fā)生根本性變革。」
![]()
Noam Brown還在文中承諾,他們很快會發(fā)布這個新模型。
真相比宣傳復雜得多
2月14日,F(xiàn)irst Proof團隊公布了全部10道題的正式答案,并發(fā)布了他們自己用公開AI模型(GPT-5.2 Pro和Gemini 3.0 Deepthink)測試這些題目的經(jīng)驗報告。
![]()
有趣的是,官方論文中可能出現(xiàn)了一個小錯誤。
這里應該是2026,不是2025。
![]()
不過,這都不重要。
我們來看結(jié)論。
結(jié)論相當冷峻:在單次嘗試的情況下,公開可用的最強AI模型只答對了2道題——第9題(張量代數(shù)關系)和第10題(核化CP-ALS子問題)。
而且第9題還存在疑似「數(shù)據(jù)污染」問題——一個幾乎等價的證明已經(jīng)存在于已有文獻中。
第1題也被發(fā)現(xiàn)受到了污染,出題人Hairer網(wǎng)站上曾經(jīng)有一個證明草稿的存檔,但即便如此,AI也沒能填上其中的關鍵缺口。
更耐人尋味的是Abouzaid對AI產(chǎn)出風格的評價:「我看到的AI給出的正確解答,有一種19世紀數(shù)學的味道。但我們要構(gòu)建的是21世紀的數(shù)學。」
那么OpenAI自稱的「6道很可能正確」到底怎么樣了?
事態(tài)很快出現(xiàn)了戲劇性轉(zhuǎn)折。
論文發(fā)布不到一天,數(shù)學社區(qū)就開始對OpenAI的解答進行逐題審查。
Pachocki自己很快更新了聲明,承認第2題(關于扭曲局部Rankin-Selberg積分的非消沒檢驗向量)的解答「很可能不正確」。
![]()
社區(qū)的獨立評審則進一步發(fā)現(xiàn),第5題(關于等變穩(wěn)定范疇的O-適應切片濾過)和第7題(關于Q-無環(huán)萬有覆疊的均勻格)的解答也存在嚴重漏洞。
到目前為止,根據(jù)《科學美國人》的報道以及社區(qū)數(shù)學家的獨立評判,比較確定正確的是第4題(有限加法卷積的調(diào)和平均不等式)、第8題(四價多面體拉格朗日曲面的光滑化)、第9題和第10題。
![]()
其余幾道仍在審查中,但整體來看,OpenAI的實際命中率很可能低于其最初宣稱的六成。
依然是一個歷史時刻
盡管真實成績可能沒有OpenAI宣傳的那么輝煌,但我們不應因此低估這件事的歷史意義。
哪怕最終確認只有3到4道題被正確解答,這也意味著一個AI,在面對從未見過的、真正前沿的數(shù)學研究問題時,能在一周之內(nèi)獨立(或半獨立地)給出嚴格的數(shù)學證明。
這在幾年前是完全不可想象的事情。
2022年,當時ChatGPT還經(jīng)常在分數(shù)加減法上犯錯。
2024年,AI開始能解一些競賽數(shù)學題。
2025年夏天,OpenAI的模型在國際數(shù)學奧林匹克上拿到金牌成績。
而現(xiàn)在——2026年2月——AI正在嘗試解答人類數(shù)學家正在研究的、從未發(fā)表過的原創(chuàng)問題。
從小學算術(shù)到前沿研究,這條路走了不到四年。
這個速度,才是真正讓人心跳加速的地方。
更值得關注的是那些被AI做對了的題目。
比如第4題,關于有限加法卷積中Φ_n函數(shù)的調(diào)和平均不等式——這需要一系列精巧的線性代數(shù)操作、對雙隨機矩陣的深刻理解、以及Jensen不等式的巧妙應用。
OpenAI的模型寫出了一個自包含的23頁證明,邏輯鏈條完整,最終被專家確認為正確。
![]()
一個AI,獨立完成了一篇可以發(fā)表在數(shù)學期刊上的研究級證明。
這不是做題,這就是做研究。
數(shù)學家要失業(yè)了嗎?
至少現(xiàn)在,還不會。
《科學美國人》在報道這次事件時給出的判斷很直接:「AI目前還不能取代數(shù)學家。」
![]()
為什么?
因為數(shù)學研究遠不止「證明一個已知問題」這一個環(huán)節(jié)。
真正的數(shù)學研究包括:發(fā)現(xiàn)值得研究的問題、創(chuàng)造新的概念和定義、構(gòu)建新的理論框架——然后才是證明。
First Proof測試的只是最后一步,也是最機械化的一步。
而在前面那些需要真正的洞察力、審美判斷和開創(chuàng)性想象的環(huán)節(jié),AI目前連門都還沒摸到。
但奧特曼說的也沒錯:速度是關鍵變量。
如果AI從做不了小學數(shù)學到能碰前沿研究只用了四年。
那再過四年呢?
有趣的是,一些頂尖數(shù)學家已經(jīng)開始用腳投票。
哥倫比亞大學的數(shù)學天才Ashwin Sawhney從學術(shù)界休假加入了OpenAI。意大利數(shù)學家Pagano則去了Google DeepMind。
他們的理由出奇一致:「很明顯這將改變我們做數(shù)學的方式,與其以后被動適應,不如趁早參與。」
面團還在發(fā)酵
First Proof團隊已經(jīng)宣布,他們將在3月14日(恰好是π日)發(fā)布更多細節(jié)和分析,并計劃在未來幾個月內(nèi)發(fā)布第二批問題——附帶更嚴格的評判標準和更完善的規(guī)則。
他們甚至愿意與AI公司簽訂協(xié)議,在問題公開前進行受控測試。
![]()
這不是一場考試的結(jié)束,而是一個新時代的開始。
數(shù)學——這門人類最古老、最純粹的智力活動——正在第一次面臨一個真正的對話伙伴。
這個伙伴有時胡說八道,有時又驚人地深刻。
它會用19世紀的語言說話,但運算速度是21世紀的。
它還不能代替數(shù)學家思考,但它已經(jīng)可以在某些關鍵節(jié)點上為數(shù)學家分擔工作。
面團還在發(fā)酵。
我們已經(jīng)聞到面包的香味了。
參考資料:
https://x.com/merettm/status/2022517085193277874
https://x.com/polynoamial/status/2022527227049742779
https://x.com/sama/status/2022729068949717182
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.