<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI拿下奧數IMO金牌,但數學界的AlphaGo時刻還沒來?|?101?Weekly

      0
      分享至

      撰稿 |魯漪文

      編輯|陳茜

      最近,2025年國際數學奧林匹克(IMO)在澳大利亞落幕的兩天內,AI界因“IMO金牌認證”,開展了一場人才與技術話語權的雙重爭奪戰。

      OpenAI搶先宣布其保密推理模型以35分達到金牌線,DeepMind兩天后也亮出IMO官方認證的同等成績單。這標志著AI首次在IMO中比肩頂尖學生,實現從2024年銀牌到2025年雙金牌的數學推理能力躍升。


      伴隨技術進展而來的,是行業競爭“好戲”:當Demis Hassabis公開譴責OpenAI提前泄露成績時,媒體曝出DeepMind金牌團隊三名核心研究員已被Meta挖角。

      AI數學能力的進步速度令人驚嘆。但IMO金牌究竟意味著什么?這是數學界的AlphaGo時刻嗎?AI將會成為數學研究中值得信賴的合作者,還是淪為市場邏輯下的技術產品,消解數學的真正意義?

      本周《101 Weekly》的第二期,我們邀請了IMO金牌得主,以親歷者的角度來聊聊兩大AI的解題邏輯和數學水平,并透視競賽背后的技術突破與數學的未來。

      (本文為視頻稿件改寫,歡迎大家收看以下視頻)

      01

      前后獲得IMO金牌DeepMind與OpenAI之戰

      一覺醒來,我以為我穿越回高中了:朋友圈竟然有人提起IMO(國際數學奧林匹克競賽,International Mathematical Olympiad,面向高中生的國際性數學競賽)。記得當年還是萬里挑一的學霸才會去挑戰這個比賽,最近卻被AI拿下了:OpenAI和谷歌DeepMind前后宣布他們的模型達到了IMO金牌的標準。


      這個“前后”雖然只差兩天,但卻充滿了戲劇性:今年的IMO是7月20日周日在澳大利亞閉幕,而OpenAI在周五,也就是7月18日晚上,就早早宣布了這個消息。

      研究員Alexander Wei在X上說:OpenAI最新的實驗性推理大模型,實現了人工智能領域長期以來的一項重大挑戰,在IMO競賽的6道題目中解出了5道,并且最終獲得了35分。IMO的滿分是42分,而35分恰好就達到了金牌的門檻。


      兩天之后,DeepMind也下場宣布:Gemini Deep Think的進階版本模型也達到了這一成就。DeepMind的模型在整個過程中完全使用自然語言操作,最后同樣獲得了35分的成績,并且IMO官方組委會也證明了這一成績。

      IMO主席Gregor Dolinar說:DeepMind的解題在許多方面都令人驚嘆,閱卷官認為這些解答清晰、嚴謹,而且大多數都很容易理解。

      這個組委會親自背書的待遇,卻沒有給到OpenAI。Demis Hassabis甚至特意下場,在X上表示:我們之所以沒有周五公布,是因為我們尊重IMO組委會最初的請求。所有AI實驗室都應該在官方成績經過獨立專家驗證,并且參賽學生已經獲得應有的表彰之后,才公開各自的結果。


      他還說:我們的模型是第一個獲得官方“金牌水平”評級的AI系統——這簡直就差點OpenAI的名了。OpenAI之前的歡呼好像就沒那么名正言順了。

      但更戲劇性的是,隔天媒體就爆出,DeepMind這一金牌模型背后的研究團隊中,有三名研究員已經被Meta挖走了。在此之前的六個月內,DeepMind已經有20名員工被挖去了微軟。


      看來這場頂尖實驗室之間的斗爭,還在愈演愈烈。在吃瓜的同時,我們還是回到IMO競賽這個話題上:AI達到金牌水平,到底意味著什么?

      首先要知道的是,這還遠遠說不上是數學領域的AlphaGo時刻。當年AlphaGo擊敗了世界圍棋冠軍李世石,震驚全球,最核心的原因是圍棋被認為是人類智慧最難被機器超越的領域之一。

      2022年DeepMind的AlphaFold準確預測蛋白質結構,也被稱為是生物學的AlphaGo時刻,我們硅谷101在去年的文章里詳細解讀了它的重要性。


      但是這次,有72位高中生的成績也達到了金牌標準,其中5位獲得了42分滿分的成績,也就是完美地解答了6道題,但兩個AI模型都只做出來了5道。所以要說AI在數學能力上已經勝過人類,還為時過早。

      但即使沒有到AlphaGo的標準,IMO金牌的結果也足夠證明當下大模型優秀的數學能力了。紐約大學的計算機教授Gary Marcus和Ernest Davis就評價說:非常了不起。

      02

      作為能力標準的IMO證明了AI的數學推理能力

      將解答IMO題目作為評估AI推理能力的標準,其實早有先例。

      比如去年,DeepMind發布了兩個專為數學設計的模型:AlphaGeometry和AlphaProof。在IMO的六道題中,它們解出了四道,成為第一批達到銀牌標準的AI系統。


      圖源:Google DeepMind

      不過,這兩個模型當時并不是用自然語言來解題,而是結合了“形式化證明”方法。簡單來說,形式化證明(Formal Proof)就是把數學問題轉成機器能“看懂”的語言,再由AI用這種形式化語言一步步寫出邏輯嚴謹、可驗證的解答。

      而這套語言的寫作工具,就叫做Lean(一種現代的定理證明助手和函數式編程語言,由微軟研究院開發),類似編程語言。

      為了讓AI解題,研究者得先把自然語言題目“翻譯”成Lean,讓AI去處理,再轉回人類可讀的答案。整個過程耗時長達三天——遠超IMO給高中生兩天、共9小時的比賽限制。


      但這一次,DeepMind最新的Gemini Deep Think模型在完全自然語言輸入輸出的條件下,達到了IMO的金牌標準。也就是說,AI直接從自然語言讀題、用自然語言作答——沒有再依賴Lean或其他形式化工具。這背后的意義很重要。

      一直以來,很多人都認為語言模型不具備真正的推理能力。比如問它:“strawberry這個詞里有幾個r?”,它可能就會開始“內耗”,反復計算還出錯。因為自然語言里沒有明確的邏輯結構,推理過程也就不穩定。這也是為什么過去像AlphaProof那樣的模型,需要把自然語言轉成Lean,繞開語言的不確定性。

      但現在,DeepMind證明了:語言模型本身,也可以完成高難度數學推理。雖然DeepMind和OpenAI都沒有公開模型的具體訓練過程,但和一年前相比,這確實是一次重大進展。


      李元杉 圣母大學邏輯學博士生: 現在AI大家都知道是根據很多技術、從很多數據當中學習出來的一些參數,這樣的一個結果,就不是說,我們預先給定了很多邏輯規則,然后它去執行。同理,在數學上,最早期的用電腦來做數學的人會認為,把數學全部都形式化,然后運用這些規則,是解決數學問題的方法。但是現在,我們更多地看到這些公司會想辦法把兩者結合起來,甚至是直接使用語言模型去輸出自然語言的數學,而完全不借助于形式化系統。


      此前以Gary Marcus為代表的AI學者一直認為,語言模型無法獨立完成真正的數學推理。在他的設想中,AI模型必須依托像Lean這樣的形式化語言,輸出可以機器驗證的邏輯結構,最后再人工轉換成自然語言。也就是說,只有像AlphaProof這樣的“混合模型”才有可能達到數學研究的標準。

      因此,Gemini Deep Think的成功,無疑在一定程度上挑戰了Gary Marcus的觀點。


      李元杉 圣母大學邏輯學博士生: 你可以看到DeepMind發布了自己的模型生成出來的解答,這個解答就完全是自然語言了,就沒有一些代碼之類的。但是相比于去年使用的那一套系統就是,它可能最終輸出也是自然語言的,但是它需要先把這些東西翻譯成一個邏輯語言,然后進行一些形式化的證明之后,再輸出回來。
      可能過往數學家會把用電腦輔助數學跟形式化方法等同起來,但是經過了這些語言模型的發展,以及它們證明了自己能夠顯示出一定的數學能力之后,他們可能會改變這個想法。

      03

      前IMO金牌得主點評OpenAI與DeepMind解題差異

      為了讓大家直觀地對比AI和人類選手的解答,我們邀請了前IMO中國國家隊成員胡蘇麟,為我們分享他對AI回答的感受。

      他告訴我們,AI在作答的五道題中解答思路清晰、邏輯鏈條完整,獲得滿分是實至名歸的。

      但在具體題目里對比兩個AI的回答,還是能發現一些有意思的情況。就比如第二題,一道平面幾何題。


      胡蘇麟 2019年IMO金牌得主: 平面幾何題對于AI來說,算是最容易做的題型之一了。在這里,兩個AI也給出了不一樣的做法。DeepMind的做法是一個更加幾何的,更加自然的做法,我覺得也是更接近于正常人類選手能想到的做法。相比起來,OpenAI的方法就非常暴力,因為它直接使用了解析幾何的手段。用解析幾何的辦法,直接把這道幾何題轉化成了一道代數題,并且在它的解答過程中出現了巨量的計算。不過通常來說,人類選手通常不會在考場上做那么大量的計算。所以這個方法可能對AI來說,實行起來比人類選手要容易。


      他還提到,兩個AI作答時的語言風格也不同于人類選手。


      胡蘇麟 2019年IMO金牌得主: 兩個AI的一個共同點就是:解答過程中會不斷引入新符號,來定義一些概念或者公式。這個選項在我上大學的高等數學的學習中比較經常出現,但在我以前的競賽生涯中不太經常出現。原因是高中的競賽題沒有那么復雜,如果在解答過程中不斷引入新的符號,反而會增加我們理解解答過程以及解答思路的難度。
      兩個AI的語言風格也有非常明顯的區別。比如說OpenAI在它的解答過程中會經常出現一些人性化的描述詞,比如“XXX so far good”或者“XXX 我們完成了這一步”或者“nice”之類的詞匯。在一些方面也會適當省略一些細節,比如它會說“很容易驗證”或者“根據某某公式可以很容易檢查下面這些東西是對的?!?/blockquote>
      所以總的來說,它給我的感覺像是一個在課堂上給學生講題的老師,所以它會經常使用一些口語化的語言來鼓勵學生,循循善誘,比如它會說“我們已經完成了關鍵的一步,非常棒”,又比如“我們已經完成了這個結論,真是一個漂亮的結論”之類的話,來強調關鍵的步驟。


      而相比之下,DeepMind所用的語言則更加書面化,像是在閱讀一篇數學論文。

      04

      AI用于數學研究的前景學術界褒貶不一

      雖然和之前相比,大模型在IMO競賽中的表現已經達到了質的飛躍。但我們的采訪嘉賓告訴我們,IMO終究只是數學能力的一個側面:它是在一個限時、封閉的環境中,需要參賽者進行巧妙的思考,從而找到固定答案的一個競賽。

      這不是我們在生活中買菜逛街要用的數學,也不是數學家要窮盡一生思考的目標。


      李元衫 圣母大學邏輯學博士生: 真正的數學研究,有時候目標可能更加開放,比如說,有些人可能會覺得自己做研究的目的是描述出一種現象,或者是發現一些具有規律性的結構。但是在你真正做出這些發現之前,你能發現出什么是不知道的。 所以說,相比于解決真正的開放性數學問題,可能解決競賽問題對于這些模型來說,現在是更可及了。


      在AI不斷發展的過程中,數學學界也分裂成了兩派:有人認為,AI在數學和推理能力上的進展,已經能夠在很大程度上幫助數學家。

      比如澳籍華人數學家陶哲軒(Terence Tao,菲爾茲獎得主,被譽為“數學界的莫扎特”)就說:2023年,AI已經能夠為職業數學家生成有啟發性的提示和有前景的思路。當它與形式化證明及驗證、搜索引擎、符號數學工具等結合使用時,2026年的AI將會成為數學研究中值得信賴的合作者。


      但與此同時,也有數學家對AI不那么信任。哥倫比亞大學的數學家Michael Harris就在自己的Substack博客中提出了對AI數學的批判。

      他提出,數學的真正意義在于自由探索和內在洞見,而不是將其淪為市場邏輯下的技術產品。而像Lean這樣的計算機語言,卻將數學簡化成機器能看得懂的邏輯,讓他鐘愛的數學失去了自由創造和思辨力。

      同時,他十分關注數學研究資本化的趨勢,擔心類似Google、NSA(美國國家安全局,National Security Agency)這樣的資助者傾向于以應用價值衡量數學,而忽視其內在價值。

      他批評當前關于AI輔助數學的討論過分關注“它管用嗎”“會帶來效益嗎”,卻忽略了“對誰有益?”“為什么需要它?”這類值得探討的根本問題。

      我們知道,李世石在被AlphaGo擊敗后選擇提前退役。頂尖的數學家們會因為AI在數學上的成就,懷疑自己研究的意義嗎?DeepMind的Pushmeet Kohli在去年AlphaProof達到IMO銀牌標準后就說,他認為這會促進數學學術研究。


      Pushmeet Kohli DeepMind科學家: 即使在圍棋的例子中,我們看到的是,當圍棋選手在比賽結束后開始分析AlphaGo的策略時,他們發現了很多以前沒見過的關于圍棋的新理論。而數學并不是一個游戲。AlphaProof或類似的系統提供給你的,可以說是一個非常強大的工具,它可以幫助數學家和科學家們做一件大事:試圖理解這個世界。

      你怎么看待這些不同的意見?歡迎在評論區告訴我們你的想法。

      視頻有視覺和音樂的加持,更能呈現出這些精彩的故事細節。 請跳轉至硅谷101【視頻號】收看完整版。

      注:部分圖片來源于網絡

      【本期節目不構成任何投資建議】

      【視頻播放渠道】

      國內:B站|騰訊|視頻號|西瓜|頭條|百家號|36kr|微博|虎嗅

      海外:Youtube

      聯系我們:video@sv101.net

      【創作團隊】

      監制|泓君 陳茜

      撰稿 / 主持|魯漪文

      文稿編輯|陳茜

      剪輯|Jacob

      平面設計 | 橘子

      運營|王梓沁 陳思揚 何源清

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      性能力與壽命關系被發現!男性40歲后,睪酮越高,死亡風險越低

      性能力與壽命關系被發現!男性40歲后,睪酮越高,死亡風險越低

      藥師說健康
      2025-12-05 09:47:10
      全球不到300只!2017年,2只被賣到蘇州,黑市1只賣上百萬元

      全球不到300只!2017年,2只被賣到蘇州,黑市1只賣上百萬元

      萬象硬核本尊
      2025-12-24 17:28:42
      日本徹底目瞪口呆,美國也完全難以置信,遼寧已成全球矚目中心

      日本徹底目瞪口呆,美國也完全難以置信,遼寧已成全球矚目中心

      文雅筆墨
      2025-12-20 10:57:51
      美智庫:中國的新型超級殲-36“NGAD”隱形戰斗機即將問世

      美智庫:中國的新型超級殲-36“NGAD”隱形戰斗機即將問世

      滄海旅行家
      2025-12-23 12:57:27
      屬雞人:1月初有人離開?做好四件事,穩穩拿捏生活主動權

      屬雞人:1月初有人離開?做好四件事,穩穩拿捏生活主動權

      叮當當科技
      2025-12-26 11:04:56
      這個國家可以有英雄,但不需要英雄

      這個國家可以有英雄,但不需要英雄

      柴差說
      2025-12-26 18:55:23
      突傳大消息!黃金、白銀暴走!美股跳水!

      突傳大消息!黃金、白銀暴走!美股跳水!

      證券時報e公司
      2025-12-26 23:25:56
      南博事件發酵!吳家哭訴,和龐家同病相憐,我們家捐的文物也丟了

      南博事件發酵!吳家哭訴,和龐家同病相憐,我們家捐的文物也丟了

      火山詩話
      2025-12-24 17:35:41
      6戰5?。≌憬瓝Q帥首戰仍遭寧波雙殺 約克23分吳前僅9+4+4

      6戰5?。≌憬瓝Q帥首戰仍遭寧波雙殺 約克23分吳前僅9+4+4

      醉臥浮生
      2025-12-26 22:03:03
      澎湖海戰為什么會被日本和臺獨盯上?

      澎湖海戰為什么會被日本和臺獨盯上?

      帥先工場
      2025-12-26 19:22:22
      警報拉響!2025中國出生人口僅871萬,全球每14個新生兒才1個中國娃

      警報拉響!2025中國出生人口僅871萬,全球每14個新生兒才1個中國娃

      現代小青青慕慕
      2025-12-26 00:59:37
      靈活就業社保覆蓋不高,國務院報告:探索平臺承擔部分繳費可行性

      靈活就業社保覆蓋不高,國務院報告:探索平臺承擔部分繳費可行性

      21世紀經濟報道
      2025-12-26 12:12:07
      全國統一體制內口頭禪,一出口就知道,網友:味太正了!

      全國統一體制內口頭禪,一出口就知道,網友:味太正了!

      另子維愛讀史
      2025-12-18 16:59:41
      投資3200億!中國獲批修建歷史最昂貴的運河,為什么成為國際焦點

      投資3200億!中國獲批修建歷史最昂貴的運河,為什么成為國際焦點

      糖逗在娛樂
      2025-12-26 11:17:57
      無錫茂業 情況有變

      無錫茂業 情況有變

      無錫eTV全媒體
      2025-12-26 13:11:07
      西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

      西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

      嘆知
      2025-12-25 18:27:44
      超10億瀏覽的美國“斬殺線”:從硅谷精英到下水道浮尸,不到百天

      超10億瀏覽的美國“斬殺線”:從硅谷精英到下水道浮尸,不到百天

      大白聊IT
      2025-12-24 10:23:46
      周大福“牛馬吊墜”被指陰陽打工人,客服:系繁體字,寓意不怕困難好運加倍

      周大福“牛馬吊墜”被指陰陽打工人,客服:系繁體字,寓意不怕困難好運加倍

      極目新聞
      2025-12-26 17:59:39
      歷史性突破!全球首款2nm手機芯片成功量產,這次真的遙遙領先了

      歷史性突破!全球首款2nm手機芯片成功量產,這次真的遙遙領先了

      滄海旅行家
      2025-12-25 00:53:29
      黃曉明帶兒子和媽媽包餃子,摘了假發套發量很藝術,兒子很像楊穎

      黃曉明帶兒子和媽媽包餃子,摘了假發套發量很藝術,兒子很像楊穎

      笑飲孤鴻非
      2025-12-24 01:09:08
      2025-12-27 01:56:49
      硅谷101 incentive-icons
      硅谷101
      從這里駛向未來
      134文章數 102關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      教育
      游戲
      房產
      健康
      公開課

      教育要聞

      最新:一批學校期中考試成績曝光!民辦和公辦的差距巨大!

      PS6或兼容PS1-PS5全世代游戲!索尼新專利曝光

      房產要聞

      炸裂,三亞360億超級清單發布,又一批重大配套要來了!

      這些新療法,讓化療不再那么痛苦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品97久久中文字幕无码| 深爱色情网| www.91xxx| 98人妻| 精品成a人无码| 无码福利日韩神码福利片| 国产精品无码v在线观看| 久久久久国产a免费观看rela| 国产在线中文字幕精品| 日本精品视频| 国产AV一二三| 色色图区| 欧洲人妻丰满av无码久久不卡| chinese极品人妻videos| 免费av在线| 欧美日本亚洲| 人妻熟女一区二区aⅴ向井蓝| 国产午夜福利精品久久不卡| a片精品| 人妻久久精品天天中文字幕| 国产精品日韩av在线播放| 成人无号精品一区二区三区| 99热精品在线| 久久97| 欧美日本韩国亚洲| 欧美一区二区三区欧美日韩亚洲| 做受视频一区二区三区| 精品1卡二卡三卡四卡老狼| 蜜臀av一区二区| 亚洲老熟女一区二区三区 | 国产福利姬喷水福利在线观看| 亚洲伊人精品久视频国产| 亚洲AV日韩精品| 男女毛多水多亚洲| 欧美疯狂性受xxxxx喷水| 亚洲中文字幕无码爆乳| 青青av| 暖暖视频日本在线观看| 国产成人无码av一区二区在线观看 | 天堂资源中文| 亚洲最大在线|