網易首頁 > 網易號 > 正文申請入駐

AI拿下奧數IMO金牌，但數學界的AlphaGo時刻還沒來?|?101?Weekly

2025-08-01 08:55:17　來源: 硅谷101

上海舉報

分享至

撰稿｜魯漪文

編輯｜陳茜

最近，2025年國際數學奧林匹克（IMO）在澳大利亞落幕的兩天內，AI界因“IMO金牌認證”，開展了一場人才與技術話語權的雙重爭奪戰。

OpenAI搶先宣布其保密推理模型以35分達到金牌線，DeepMind兩天后也亮出IMO官方認證的同等成績單。這標志著AI首次在IMO中比肩頂尖學生，實現從2024年銀牌到2025年雙金牌的數學推理能力躍升。

伴隨技術進展而來的，是行業競爭“好戲”：當Demis Hassabis公開譴責OpenAI提前泄露成績時，媒體曝出DeepMind金牌團隊三名核心研究員已被Meta挖角。

AI數學能力的進步速度令人驚嘆。但IMO金牌究竟意味著什么？這是數學界的AlphaGo時刻嗎？AI將會成為數學研究中值得信賴的合作者，還是淪為市場邏輯下的技術產品，消解數學的真正意義？

本周《101 Weekly》的第二期，我們邀請了IMO金牌得主，以親歷者的角度來聊聊兩大AI的解題邏輯和數學水平，并透視競賽背后的技術突破與數學的未來。

（本文為視頻稿件改寫，歡迎大家收看以下視頻）

前后獲得IMO金牌DeepMind與OpenAI之戰

一覺醒來，我以為我穿越回高中了：朋友圈竟然有人提起IMO（國際數學奧林匹克競賽，International Mathematical Olympiad，面向高中生的國際性數學競賽）。記得當年還是萬里挑一的學霸才會去挑戰這個比賽，最近卻被AI拿下了：OpenAI和谷歌DeepMind前后宣布他們的模型達到了IMO金牌的標準。

這個“前后”雖然只差兩天，但卻充滿了戲劇性：今年的IMO是7月20日周日在澳大利亞閉幕，而OpenAI在周五，也就是7月18日晚上，就早早宣布了這個消息。

研究員Alexander Wei在X上說：OpenAI最新的實驗性推理大模型，實現了人工智能領域長期以來的一項重大挑戰，在IMO競賽的6道題目中解出了5道，并且最終獲得了35分。IMO的滿分是42分，而35分恰好就達到了金牌的門檻。

兩天之后，DeepMind也下場宣布：Gemini Deep Think的進階版本模型也達到了這一成就。DeepMind的模型在整個過程中完全使用自然語言操作，最后同樣獲得了35分的成績，并且IMO官方組委會也證明了這一成績。

IMO主席Gregor Dolinar說：DeepMind的解題在許多方面都令人驚嘆，閱卷官認為這些解答清晰、嚴謹，而且大多數都很容易理解。

這個組委會親自背書的待遇，卻沒有給到OpenAI。Demis Hassabis甚至特意下場，在X上表示：我們之所以沒有周五公布，是因為我們尊重IMO組委會最初的請求。所有AI實驗室都應該在官方成績經過獨立專家驗證，并且參賽學生已經獲得應有的表彰之后，才公開各自的結果。

他還說：我們的模型是第一個獲得官方“金牌水平”評級的AI系統——這簡直就差點OpenAI的名了。OpenAI之前的歡呼好像就沒那么名正言順了。

但更戲劇性的是，隔天媒體就爆出，DeepMind這一金牌模型背后的研究團隊中，有三名研究員已經被Meta挖走了。在此之前的六個月內，DeepMind已經有20名員工被挖去了微軟。

看來這場頂尖實驗室之間的斗爭，還在愈演愈烈。在吃瓜的同時，我們還是回到IMO競賽這個話題上：AI達到金牌水平，到底意味著什么？

首先要知道的是，這還遠遠說不上是數學領域的AlphaGo時刻。當年AlphaGo擊敗了世界圍棋冠軍李世石，震驚全球，最核心的原因是圍棋被認為是人類智慧最難被機器超越的領域之一。

2022年DeepMind的AlphaFold準確預測蛋白質結構，也被稱為是生物學的AlphaGo時刻，我們硅谷101在去年的文章里詳細解讀了它的重要性。

但是這次，有72位高中生的成績也達到了金牌標準，其中5位獲得了42分滿分的成績，也就是完美地解答了6道題，但兩個AI模型都只做出來了5道。所以要說AI在數學能力上已經勝過人類，還為時過早。

但即使沒有到AlphaGo的標準，IMO金牌的結果也足夠證明當下大模型優秀的數學能力了。紐約大學的計算機教授Gary Marcus和Ernest Davis就評價說：非常了不起。

作為能力標準的IMO證明了AI的數學推理能力

將解答IMO題目作為評估AI推理能力的標準，其實早有先例。

比如去年，DeepMind發布了兩個專為數學設計的模型：AlphaGeometry和AlphaProof。在IMO的六道題中，它們解出了四道，成為第一批達到銀牌標準的AI系統。

圖源：Google DeepMind

不過，這兩個模型當時并不是用自然語言來解題，而是結合了“形式化證明”方法。簡單來說，形式化證明（Formal Proof）就是把數學問題轉成機器能“看懂”的語言，再由AI用這種形式化語言一步步寫出邏輯嚴謹、可驗證的解答。

而這套語言的寫作工具，就叫做Lean（一種現代的定理證明助手和函數式編程語言，由微軟研究院開發），類似編程語言。

為了讓AI解題，研究者得先把自然語言題目“翻譯”成Lean，讓AI去處理，再轉回人類可讀的答案。整個過程耗時長達三天——遠超IMO給高中生兩天、共9小時的比賽限制。

但這一次，DeepMind最新的Gemini Deep Think模型在完全自然語言輸入輸出的條件下，達到了IMO的金牌標準。也就是說，AI直接從自然語言讀題、用自然語言作答——沒有再依賴Lean或其他形式化工具。這背后的意義很重要。

一直以來，很多人都認為語言模型不具備真正的推理能力。比如問它：“strawberry這個詞里有幾個r？”，它可能就會開始“內耗”，反復計算還出錯。因為自然語言里沒有明確的邏輯結構，推理過程也就不穩定。這也是為什么過去像AlphaProof那樣的模型，需要把自然語言轉成Lean，繞開語言的不確定性。

但現在，DeepMind證明了：語言模型本身，也可以完成高難度數學推理。雖然DeepMind和OpenAI都沒有公開模型的具體訓練過程，但和一年前相比，這確實是一次重大進展。

李元杉圣母大學邏輯學博士生: 現在AI大家都知道是根據很多技術、從很多數據當中學習出來的一些參數，這樣的一個結果，就不是說，我們預先給定了很多邏輯規則，然后它去執行。同理，在數學上，最早期的用電腦來做數學的人會認為，把數學全部都形式化，然后運用這些規則，是解決數學問題的方法。但是現在，我們更多地看到這些公司會想辦法把兩者結合起來，甚至是直接使用語言模型去輸出自然語言的數學，而完全不借助于形式化系統。

此前以Gary Marcus為代表的AI學者一直認為，語言模型無法獨立完成真正的數學推理。在他的設想中，AI模型必須依托像Lean這樣的形式化語言，輸出可以機器驗證的邏輯結構，最后再人工轉換成自然語言。也就是說，只有像AlphaProof這樣的“混合模型”才有可能達到數學研究的標準。

因此，Gemini Deep Think的成功，無疑在一定程度上挑戰了Gary Marcus的觀點。

李元杉圣母大學邏輯學博士生：你可以看到DeepMind發布了自己的模型生成出來的解答，這個解答就完全是自然語言了，就沒有一些代碼之類的。但是相比于去年使用的那一套系統就是，它可能最終輸出也是自然語言的，但是它需要先把這些東西翻譯成一個邏輯語言，然后進行一些形式化的證明之后，再輸出回來。

可能過往數學家會把用電腦輔助數學跟形式化方法等同起來，但是經過了這些語言模型的發展，以及它們證明了自己能夠顯示出一定的數學能力之后，他們可能會改變這個想法。

前IMO金牌得主點評OpenAI與DeepMind解題差異

為了讓大家直觀地對比AI和人類選手的解答，我們邀請了前IMO中國國家隊成員胡蘇麟，為我們分享他對AI回答的感受。

他告訴我們，AI在作答的五道題中解答思路清晰、邏輯鏈條完整，獲得滿分是實至名歸的。

但在具體題目里對比兩個AI的回答，還是能發現一些有意思的情況。就比如第二題，一道平面幾何題。

胡蘇麟 2019年IMO金牌得主：平面幾何題對于AI來說，算是最容易做的題型之一了。在這里，兩個AI也給出了不一樣的做法。DeepMind的做法是一個更加幾何的，更加自然的做法，我覺得也是更接近于正常人類選手能想到的做法。相比起來，OpenAI的方法就非常暴力，因為它直接使用了解析幾何的手段。用解析幾何的辦法，直接把這道幾何題轉化成了一道代數題，并且在它的解答過程中出現了巨量的計算。不過通常來說，人類選手通常不會在考場上做那么大量的計算。所以這個方法可能對AI來說，實行起來比人類選手要容易。

他還提到，兩個AI作答時的語言風格也不同于人類選手。

胡蘇麟 2019年IMO金牌得主：兩個AI的一個共同點就是：解答過程中會不斷引入新符號，來定義一些概念或者公式。這個選項在我上大學的高等數學的學習中比較經常出現，但在我以前的競賽生涯中不太經常出現。原因是高中的競賽題沒有那么復雜，如果在解答過程中不斷引入新的符號，反而會增加我們理解解答過程以及解答思路的難度。

兩個AI的語言風格也有非常明顯的區別。比如說OpenAI在它的解答過程中會經常出現一些人性化的描述詞，比如“XXX so far good”或者“XXX 我們完成了這一步”或者“nice”之類的詞匯。在一些方面也會適當省略一些細節，比如它會說“很容易驗證”或者“根據某某公式可以很容易檢查下面這些東西是對的?！?/blockquote>
所以總的來說，它給我的感覺像是一個在課堂上給學生講題的老師，所以它會經常使用一些口語化的語言來鼓勵學生，循循善誘，比如它會說“我們已經完成了關鍵的一步，非常棒”，又比如“我們已經完成了這個結論，真是一個漂亮的結論”之類的話，來強調關鍵的步驟。

而相比之下，DeepMind所用的語言則更加書面化，像是在閱讀一篇數學論文。
04
AI用于數學研究的前景學術界褒貶不一
雖然和之前相比，大模型在IMO競賽中的表現已經達到了質的飛躍。但我們的采訪嘉賓告訴我們，IMO終究只是數學能力的一個側面：它是在一個限時、封閉的環境中，需要參賽者進行巧妙的思考，從而找到固定答案的一個競賽。
這不是我們在生活中買菜逛街要用的數學，也不是數學家要窮盡一生思考的目標。

李元衫圣母大學邏輯學博士生：真正的數學研究，有時候目標可能更加開放，比如說，有些人可能會覺得自己做研究的目的是描述出一種現象，或者是發現一些具有規律性的結構。但是在你真正做出這些發現之前，你能發現出什么是不知道的。所以說，相比于解決真正的開放性數學問題，可能解決競賽問題對于這些模型來說，現在是更可及了。

在AI不斷發展的過程中，數學學界也分裂成了兩派：有人認為，AI在數學和推理能力上的進展，已經能夠在很大程度上幫助數學家。
比如澳籍華人數學家陶哲軒（Terence Tao，菲爾茲獎得主，被譽為“數學界的莫扎特”）就說：2023年，AI已經能夠為職業數學家生成有啟發性的提示和有前景的思路。當它與形式化證明及驗證、搜索引擎、符號數學工具等結合使用時，2026年的AI將會成為數學研究中值得信賴的合作者。

但與此同時，也有數學家對AI不那么信任。哥倫比亞大學的數學家Michael Harris就在自己的Substack博客中提出了對AI數學的批判。
他提出，數學的真正意義在于自由探索和內在洞見，而不是將其淪為市場邏輯下的技術產品。而像Lean這樣的計算機語言，卻將數學簡化成機器能看得懂的邏輯，讓他鐘愛的數學失去了自由創造和思辨力。
同時，他十分關注數學研究資本化的趨勢，擔心類似Google、NSA（美國國家安全局，National Security Agency）這樣的資助者傾向于以應用價值衡量數學，而忽視其內在價值。
他批評當前關于AI輔助數學的討論過分關注“它管用嗎”“會帶來效益嗎”，卻忽略了“對誰有益？”“為什么需要它？”這類值得探討的根本問題。
我們知道，李世石在被AlphaGo擊敗后選擇提前退役。頂尖的數學家們會因為AI在數學上的成就，懷疑自己研究的意義嗎？DeepMind的Pushmeet Kohli在去年AlphaProof達到IMO銀牌標準后就說，他認為這會促進數學學術研究。

Pushmeet Kohli DeepMind科學家：即使在圍棋的例子中，我們看到的是，當圍棋選手在比賽結束后開始分析AlphaGo的策略時，他們發現了很多以前沒見過的關于圍棋的新理論。而數學并不是一個游戲。AlphaProof或類似的系統提供給你的，可以說是一個非常強大的工具，它可以幫助數學家和科學家們做一件大事：試圖理解這個世界。
你怎么看待這些不同的意見？歡迎在評論區告訴我們你的想法。
視頻有視覺和音樂的加持，更能呈現出這些精彩的故事細節。請跳轉至硅谷101【視頻號】收看完整版。
注：部分圖片來源于網絡
【本期節目不構成任何投資建議】
【視頻播放渠道】
國內：B站｜騰訊｜視頻號｜西瓜｜頭條｜百家號｜36kr｜微博｜虎嗅
海外：Youtube
聯系我們：video@sv101.net
【創作團隊】
監制｜泓君陳茜
撰稿 / 主持｜魯漪文
文稿編輯｜陳茜
剪輯｜Jacob
平面設計 | 橘子
運營｜王梓沁陳思揚何源清

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.