<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      震撼!OpenAI神秘模型連破6道前沿難題,奧特曼:AI在造「新知識」

      0
      分享至


      新智元報道

      編輯:犀牛

      【新智元導讀】OpenAI首席科學家震撼爆料,其神秘內(nèi)部模型僅憑一周成功攻克了10道未發(fā)表頂尖數(shù)學難題中的6道。這一名為First Proof的挑戰(zhàn)標志著AI已從奧賽選手進化為前沿知識的創(chuàng)造者,奧特曼更直言STEM研究范式將被徹底重塑。

      還記得兩年前,AI只能磕磕絆絆地解出一道小學奧數(shù)題。

      今天,讀完這篇文章時,你可能會感到一種深入骨髓的戰(zhàn)栗。

      因為那個曾經(jīng)蹣跚學步的「孩子」,在剛剛過去的一周里,不僅學會了奔跑,還一腳踢開了人類智力皇冠上最堅固的那扇門——前沿數(shù)學研究

      就在剛剛,OpenAI首席科學家Jakub Pachocki在X上扔出了一顆重磅炸彈——

      「我們用內(nèi)部模型對10道前沿數(shù)學研究題發(fā)起挑戰(zhàn),在僅有少量人工監(jiān)督的情況下,至少6道的解答有很高概率是正確的。」


      隨后,奧特曼親自轉(zhuǎn)發(fā)并感慨:「我們從AI連小學數(shù)學都做不好,到AI能解決研究級別的數(shù)學問題,只用了短短幾年。」


      奧特曼以一貫的輕描淡寫風格加了一句:「我也相當確定,大家的主要反應會是『也沒那么難嘛』。」

      嗯,典型的奧式凡爾賽。

      奧特曼甚至表示,AI已經(jīng)有了產(chǎn)生新知識的能力!


      OpenAI總裁Brockman也轉(zhuǎn)發(fā)表示振奮!


      確實,這不是奧數(shù)競賽題,不是考研真題,不是任何已經(jīng)有標準答案的東西。

      這是11位世界頂級數(shù)學家剛剛從自己的研究中挖出來、答案從未公開過的前沿問題。

      人類專家自己解這些題,每道也需要好幾天,甚至更久。

      而OpenAI一個還沒公開的神秘模型,一周搞定了其中大部分。

      這到底是怎么回事?

      一場硬核的數(shù)學考試

      故事要從2月6日說起。

      那天,來自斯坦福大學、哥倫比亞大學、哈佛大學、耶魯大學、洛桑聯(lián)邦理工學院等頂尖機構(gòu)的11位數(shù)學家,聯(lián)合發(fā)布了一篇名為「First Proof」(首次發(fā)酵)的論文。


      這個名字本身就很有意思——在烘焙中,「first proof」指的是面團的第一次整體發(fā)酵,在分割成型之前讓它慢慢膨脹。

      數(shù)學家們把這次實驗比作面團發(fā)酵:先把問題撒出去,讓AI和社區(qū)一起「醒發(fā)」。

      這11位出題人來頭可不小。

      其中Martin Hairer是2014年菲爾茲獎得主,Daniel Spielman是耶魯大學的譜圖論大牛,Lauren Williams是哈佛大學的代數(shù)組合學權(quán)威。


      Martin Hairer

      他們每人貢獻了一道(或參與出了一道)從自己正在進行的研究中抽出來的真問題。

      這10道題覆蓋了數(shù)學中極為廣泛的領域:代數(shù)組合、譜圖論、代數(shù)拓撲、隨機分析、辛幾何、表示論、李群中的格、張量分析、數(shù)值線性代數(shù)。


      網(wǎng)站地址:https://1stproof.org/

      每一道題的證明長度大約在五頁左右——這不是那種需要幾百頁論文才能搞定的世紀難題,而是數(shù)學家在研究過程中遇到的「引理」(lemma),也就是通往更大定理路上的一塊關鍵墊腳石。

      換句話說,這是一個優(yōu)秀研究生可能需要苦苦琢磨一段時間的那種日常級研究任務。

      關鍵是,這些問題的答案從未在互聯(lián)網(wǎng)上出現(xiàn)過。

      沒有發(fā)表過,沒有在任何會議上講過,沒有出現(xiàn)在任何公開場合。

      答案被加密后上傳到了1stproof.org。

      這意味著,AI模型不可能通過檢索訓練數(shù)據(jù)來作弊。

      數(shù)學家們的目標很明確:我們不想再看AI做奧數(shù)題了,我們想知道,AI到底能不能做真正的數(shù)學研究。

      OpenAI的瘋狂一周

      消息一出,整個AI圈和數(shù)學圈都炸了。

      斯坦福大學數(shù)學教授、First Proof團隊成員Mohammed Abouzaid后來坦言:「我們完全沒想到會引發(fā)這么大的動靜,更沒想到AI公司會這么認真地投入資源來做這件事。」

      其中最引人注目的參賽者,當然是OpenAI。

      根據(jù)Jakub Pachocki的描述,這并不是OpenAI傾巢出動的大會戰(zhàn),而是一次「Side-sprint」(副業(yè)沖刺)。

      就像是工程師們在午休時間順手搞的一個測試。

      他們使用的是一個內(nèi)測模型

      不是GPT-5.2,不知道它是不是GPT-6,還是某種更激進的架構(gòu)。

      這個模型在「有限的人工監(jiān)督」下工作:OpenAI沒有向模型提供數(shù)學思路或解題建議,但在某些解答上,根據(jù)專家反饋要求模型進行了擴展和補充。

      他們還手動安排了這個內(nèi)部模型與ChatGPT之間的對話,用于驗證、排版和風格潤色。

      對于部分問題,他們從幾次嘗試中按照人類判斷選出了最優(yōu)解。

      最終,OpenAI在2月13日提交了一份67頁的PDF,包含了對全部10道題的解答嘗試。

      Pachocki自信地宣布:至少6道解答(第2、4、5、6、9、10題)有很高概率是正確的。


      文檔地址:https://cdn.openai.com/pdf/a430f16e-08c6-49c7-9ed0-ce5368b71d3c/1stproof_oai.pdf

      OpenAI的另一位核心研究者Noam Brown也在社交媒體上高調(diào)喊話:「去年夏天IMO的結(jié)果公布時,有些人不以為然,說那只是高中數(shù)學。我們認為我們最新的模型將消除一切懷疑——STEM研究即將發(fā)生根本性變革。


      Noam Brown還在文中承諾,他們很快會發(fā)布這個新模型。

      真相比宣傳復雜得多

      2月14日,F(xiàn)irst Proof團隊公布了全部10道題的正式答案,并發(fā)布了他們自己用公開AI模型(GPT-5.2 Pro和Gemini 3.0 Deepthink)測試這些題目的經(jīng)驗報告。


      有趣的是,官方論文中可能出現(xiàn)了一個小錯誤。

      這里應該是2026,不是2025。


      不過,這都不重要。

      我們來看結(jié)論。

      結(jié)論相當冷峻:在單次嘗試的情況下,公開可用的最強AI模型只答對了2道題——第9題(張量代數(shù)關系)和第10題(核化CP-ALS子問題)。

      而且第9題還存在疑似「數(shù)據(jù)污染」問題——一個幾乎等價的證明已經(jīng)存在于已有文獻中。

      第1題也被發(fā)現(xiàn)受到了污染,出題人Hairer網(wǎng)站上曾經(jīng)有一個證明草稿的存檔,但即便如此,AI也沒能填上其中的關鍵缺口。

      更耐人尋味的是Abouzaid對AI產(chǎn)出風格的評價:「我看到的AI給出的正確解答,有一種19世紀數(shù)學的味道。但我們要構(gòu)建的是21世紀的數(shù)學。」

      那么OpenAI自稱的「6道很可能正確」到底怎么樣了?

      事態(tài)很快出現(xiàn)了戲劇性轉(zhuǎn)折。

      論文發(fā)布不到一天,數(shù)學社區(qū)就開始對OpenAI的解答進行逐題審查。

      Pachocki自己很快更新了聲明,承認第2題(關于扭曲局部Rankin-Selberg積分的非消沒檢驗向量)的解答「很可能不正確」。


      社區(qū)的獨立評審則進一步發(fā)現(xiàn),第5題(關于等變穩(wěn)定范疇的O-適應切片濾過)和第7題(關于Q-無環(huán)萬有覆疊的均勻格)的解答也存在嚴重漏洞。

      到目前為止,根據(jù)《科學美國人》的報道以及社區(qū)數(shù)學家的獨立評判,比較確定正確的是第4題(有限加法卷積的調(diào)和平均不等式)、第8題(四價多面體拉格朗日曲面的光滑化)、第9題和第10題。


      其余幾道仍在審查中,但整體來看,OpenAI的實際命中率很可能低于其最初宣稱的六成。

      依然是一個歷史時刻

      盡管真實成績可能沒有OpenAI宣傳的那么輝煌,但我們不應因此低估這件事的歷史意義。

      哪怕最終確認只有3到4道題被正確解答,這也意味著一個AI,在面對從未見過的、真正前沿的數(shù)學研究問題時,能在一周之內(nèi)獨立(或半獨立地)給出嚴格的數(shù)學證明。

      這在幾年前是完全不可想象的事情。

      2022年,當時ChatGPT還經(jīng)常在分數(shù)加減法上犯錯。

      2024年,AI開始能解一些競賽數(shù)學題。

      2025年夏天,OpenAI的模型在國際數(shù)學奧林匹克上拿到金牌成績。

      而現(xiàn)在——2026年2月——AI正在嘗試解答人類數(shù)學家正在研究的、從未發(fā)表過的原創(chuàng)問題。

      從小學算術(shù)到前沿研究,這條路走了不到四年。

      這個速度,才是真正讓人心跳加速的地方。

      更值得關注的是那些被AI做對了的題目。

      比如第4題,關于有限加法卷積中Φ_n函數(shù)的調(diào)和平均不等式——這需要一系列精巧的線性代數(shù)操作、對雙隨機矩陣的深刻理解、以及Jensen不等式的巧妙應用。

      OpenAI的模型寫出了一個自包含的23頁證明,邏輯鏈條完整,最終被專家確認為正確。


      一個AI,獨立完成了一篇可以發(fā)表在數(shù)學期刊上的研究級證明。

      這不是做題,這就是做研究。

      數(shù)學家要失業(yè)了嗎?

      至少現(xiàn)在,還不會。

      《科學美國人》在報道這次事件時給出的判斷很直接:「AI目前還不能取代數(shù)學家。」


      為什么?

      因為數(shù)學研究遠不止「證明一個已知問題」這一個環(huán)節(jié)。

      真正的數(shù)學研究包括:發(fā)現(xiàn)值得研究的問題、創(chuàng)造新的概念和定義、構(gòu)建新的理論框架——然后才是證明。

      First Proof測試的只是最后一步,也是最機械化的一步。

      而在前面那些需要真正的洞察力、審美判斷和開創(chuàng)性想象的環(huán)節(jié),AI目前連門都還沒摸到。

      但奧特曼說的也沒錯:速度是關鍵變量。

      如果AI從做不了小學數(shù)學到能碰前沿研究只用了四年。

      那再過四年呢?

      有趣的是,一些頂尖數(shù)學家已經(jīng)開始用腳投票。

      哥倫比亞大學的數(shù)學天才Ashwin Sawhney從學術(shù)界休假加入了OpenAI。意大利數(shù)學家Pagano則去了Google DeepMind。

      他們的理由出奇一致:「很明顯這將改變我們做數(shù)學的方式,與其以后被動適應,不如趁早參與。」

      面團還在發(fā)酵

      First Proof團隊已經(jīng)宣布,他們將在3月14日(恰好是π日)發(fā)布更多細節(jié)和分析,并計劃在未來幾個月內(nèi)發(fā)布第二批問題——附帶更嚴格的評判標準和更完善的規(guī)則。

      他們甚至愿意與AI公司簽訂協(xié)議,在問題公開前進行受控測試。


      這不是一場考試的結(jié)束,而是一個新時代的開始。

      數(shù)學——這門人類最古老、最純粹的智力活動——正在第一次面臨一個真正的對話伙伴。

      這個伙伴有時胡說八道,有時又驚人地深刻。

      它會用19世紀的語言說話,但運算速度是21世紀的。

      它還不能代替數(shù)學家思考,但它已經(jīng)可以在某些關鍵節(jié)點上為數(shù)學家分擔工作。

      面團還在發(fā)酵。

      我們已經(jīng)聞到面包的香味了。

      參考資料:

      https://x.com/merettm/status/2022517085193277874

      https://x.com/polynoamial/status/2022527227049742779

      https://x.com/sama/status/2022729068949717182

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      出軌、凈身出戶?這次,74歲的梁錦松,終究在伏明霞身上栽了跟頭

      出軌、凈身出戶?這次,74歲的梁錦松,終究在伏明霞身上栽了跟頭

      秋姐居
      2026-02-10 09:19:42
      美國每天20萬人賣血創(chuàng)收!當?shù)孛襟w坐實斬殺線,中產(chǎn)也無法逃脫

      美國每天20萬人賣血創(chuàng)收!當?shù)孛襟w坐實斬殺線,中產(chǎn)也無法逃脫

      火山詩話
      2026-02-14 15:40:52
      誰也沒想到,被美軍抓走一個多月的馬杜羅,劇情突然迎來大反轉(zhuǎn)。

      誰也沒想到,被美軍抓走一個多月的馬杜羅,劇情突然迎來大反轉(zhuǎn)。

      安安說
      2026-02-15 11:26:40
      1000萬超值!皇馬飛翼代表作:彎刀助攻 11次長傳盤活全隊

      1000萬超值!皇馬飛翼代表作:彎刀助攻 11次長傳盤活全隊

      葉青足球世界
      2026-02-15 10:26:44
      “盧宣傳”發(fā)布烏克蘭大規(guī)模進攻消息

      “盧宣傳”發(fā)布烏克蘭大規(guī)模進攻消息

      李未熟擒話2
      2026-02-14 19:13:44
      伊能靜情人節(jié)曬全家福合影,和老公秦昊甜蜜比心,一家人幸福滿溢

      伊能靜情人節(jié)曬全家福合影,和老公秦昊甜蜜比心,一家人幸福滿溢

      伴史緣
      2026-02-15 08:54:02
      揭秘:為何中國寧愿向越南輸電,也不向朝鮮輸電?

      揭秘:為何中國寧愿向越南輸電,也不向朝鮮輸電?

      輝輝歷史記
      2025-11-24 21:16:46
      1974年,李鵬突遭車禍,肇事司機前來道歉,李鵬:我有主要責任

      1974年,李鵬突遭車禍,肇事司機前來道歉,李鵬:我有主要責任

      飛哥談史
      2026-02-15 06:35:08
      高齡補貼漲錢了,滿70歲的退休人員符合要求嗎?每月都可領錢?

      高齡補貼漲錢了,滿70歲的退休人員符合要求嗎?每月都可領錢?

      貓叔東山再起
      2026-02-15 08:30:07
      帶娃上班被停職,我把娃扔董事長桌上:你孫子我不要了!

      帶娃上班被停職,我把娃扔董事長桌上:你孫子我不要了!

      極品小牛肉
      2026-01-21 09:48:29
      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      蜉蝣說
      2026-01-29 14:46:50
      劉少昂:接下來的接力比賽沒有PlanB,相信孫龍會上場

      劉少昂:接下來的接力比賽沒有PlanB,相信孫龍會上場

      懂球帝
      2026-02-15 15:41:04
      波蘭全面?zhèn)鋺?zhàn):50萬大軍待命、全民防空、退出禁雷公約

      波蘭全面?zhèn)鋺?zhàn):50萬大軍待命、全民防空、退出禁雷公約

      老馬拉車莫少裝
      2026-02-10 23:19:56
      杜若溪帶公婆去娘家過年,坐18個小時綠皮車,一家八口同框很幸福

      杜若溪帶公婆去娘家過年,坐18個小時綠皮車,一家八口同框很幸福

      TVB的四小花
      2026-02-14 21:10:27
      足控狂喜!《黑神話鐘馗》廚娘是四妹同款裸足

      足控狂喜!《黑神話鐘馗》廚娘是四妹同款裸足

      游民星空
      2026-02-15 11:07:27
      星鏈正式入越!馬斯克衛(wèi)星互聯(lián)網(wǎng)獲越南官方許可

      星鏈正式入越!馬斯克衛(wèi)星互聯(lián)網(wǎng)獲越南官方許可

      緬甸中文網(wǎng)
      2026-02-15 14:14:22
      2-0!哈蘭德休戰(zhàn),格伊處子球,7200萬先生中柱,曼城四線爭冠

      2-0!哈蘭德休戰(zhàn),格伊處子球,7200萬先生中柱,曼城四線爭冠

      我的護球最獨特
      2026-02-15 00:53:22
      在ICU做了10年護士,發(fā)現(xiàn)一個秘密:放棄搶救時,簽字越快哭得越兇

      在ICU做了10年護士,發(fā)現(xiàn)一個秘密:放棄搶救時,簽字越快哭得越兇

      千秋文化
      2026-02-14 20:45:52
      不查不知道一查嚇一跳,69歲"反派專業(yè)戶"程煜,私下玩得這么壕

      不查不知道一查嚇一跳,69歲"反派專業(yè)戶"程煜,私下玩得這么壕

      冷紫葉
      2026-01-26 00:35:15
      今日賽事!2月15日19:30!央視CCTV5、CCTV5+直播節(jié)目表

      今日賽事!2月15日19:30!央視CCTV5、CCTV5+直播節(jié)目表

      皮皮觀天下
      2026-02-15 14:14:01
      2026-02-15 18:43:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領航智能+時代
      14542文章數(shù) 66626關注度
      往期回顧 全部

      科技要聞

      發(fā)春節(jié)紅包的大廠都被約談了

      頭條要聞

      杭州女子5年前在醫(yī)美機構(gòu)充值8萬 5年后尷尬了

      頭條要聞

      杭州女子5年前在醫(yī)美機構(gòu)充值8萬 5年后尷尬了

      體育要聞

      最戲劇性的花滑男單,冠軍為什么是他?

      娛樂要聞

      河南春晚被罵上熱搜!大量廣告滿屏AI

      財經(jīng)要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態(tài)度原創(chuàng)

      藝術(shù)
      教育
      時尚
      健康
      軍事航空

      藝術(shù)要聞

      宋徽宗耗費30年,尋得“二王”100幅真跡!

      教育要聞

      五年級求面積,中點是解題關鍵

      推廣中獎名單-更新至2026年2月3日推廣

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      軍事要聞

      特朗普:在俄烏沖突問題上 澤連斯基必須行動起來

      無障礙瀏覽 進入關懷版