<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      華人女學霸AI殺瘋!本科最難數賽12題全對,自主證明首次公開

      0
      分享至


      新智元報道

      編輯:元宇 桃子

      【新智元導讀】在人類滿分都罕見的普特南數賽上,AI直接12題全對拿滿分。陶哲軒等大佬預言AI已經取得了重要里程碑,再加上GPT-5.2 Pro在數學上強到「離譜」的表現,那種「奇點將近」的直覺,真的壓不住了。

      全網震撼!

      今天,24歲華人女學霸Carina Hong初創打造的AxiomProver,在2025 Putnam數學競賽拿下了滿分成績。

      12道題,AI全部答對!

      與此同時,AxiomProver自主生成的Lean證明也正式公開。


      這一競賽,堪稱北美本科生數學競賽的天花板級別,人類需在6小時攻克12道題。

      Putnam競賽總分120分,要接近滿分極其罕見,通常只有Putnam Fellows(前幾名)才能做到。

      網友表示,「AxiomProver拿下Putnam競賽比奪得IMO金牌更厲害,解決下一個千禧難題可能比預想的要來得更快」!


      最近,陶哲軒公開表示,ChatGPT等AI鞠躬基本可以自主解決「埃爾德什問題」,瞬間登上HK熱榜。


      OpenAI總裁Greg、科學家Sebastien Bubeck紛紛激動轉發。


      看來,千禧年難題,或許離破解之日不遠了......

      「本科最難數賽」奪下滿分,全網震撼

      先來看看AxiomProver,如何在「本科版最難數學競賽」中拔得頭籌。


      https://axiommath.ai/territory/from-seeing-why-to-checking-everything

      在AxiomMathAI的官方博客中,把所有的Lean證明都公開了,還把題目分成了這么幾類:

      人類直覺簡單,但形式化起來卻極為繁瑣的問題;

      AI出人意料地攻克人類未曾預料到的問題;

      AxiomProver和人類采用不同數學思路解出來的問題。

      之所以這么分,在于AI與人類對「難度」感知并不一致。

      團隊指出,以后更理想的工作流大概是:

      人主要負責提供靈感的想法,而機器負責快速自洽檢查與形式化落地,甚至推動數學研究中的新抽象選擇。


      人類覺得簡單,AI直接「懷疑人生」

      但在Putnam競賽中,最「好下手」的往往是微積分題。

      回想Mathlib庫( Lean語言的數學庫,相當于給AI用的「數學字典」)的早期,隨便一本分析教材第一章里的簡單概念,都要花很長時間才能定義清楚。

      而在Putnam2025里,這類題通常出現在每個部分的第二題。

      以A2題為例。


      這道題如果給人看,我們只需要附上一張函數圖像,你的眼睛會瞬間捕捉到曲線的走勢,非常直觀。


      但是這在系統那里,你必須把這些線條、趨勢、拐點,統統翻譯成嚴格的數學語言。

      人類要是逐行去讀Lean代碼,那就更像是在「坐牢」。

      B2也是同樣的故事。


      對人類來說一個很簡單的「正性引理」,在Lean里要寫60多行。

      A2的引理h_nonpos_on_Icc和B2的引理psi_support_pos,成了各自證明里最難啃、最費篇幅的「釘子戶」。

      這就是形式化的代價。

      組合構造:友善的「野獸」

      假如你正在下午茶時間的黑板邊聊天,朋友給你展示了一個精妙的組合構造,你卡殼半天,他只說了句:「先這樣,再那樣,把這個切開……」

      然后你恍然大悟:怎么就變得這么簡單了?

      這種感覺很震撼,問題仿佛一瞬間就溶解了。

      但一旦你試圖把這種直覺「釘死」成一個完全形式化的證明,尤其是在證明助手里,事情就會出奇地棘手。


      拿A5題來說。

      Axiom團隊和AxiomProver都想到了同一個很自然的思路:

      對一個排列里最大(或最小)的元素做歸納,把剩下的切成兩段,然后據此推理。


      用人類語言來講,這種論證可能兩三段就寫完了,但在Lean的世界里并非這樣簡單。

      每一個小角落的特殊情況、每一處記賬式的繁瑣細節,都必須被明確寫出來,沒有任何模糊空間。

      當然,也不能使用人類最愛的「省略號」。

      于是結果就令人咋舌:這份Lean形式化代碼長達2054行,生成耗時518分鐘!

      這并非要吐槽Lean,而是從「人類顯而易見的證明」走到「這是機器校驗過的證明」,你所必須繳納的稅。

      AI神來之筆,人類沒想到的

      AI有望破解組合數學,幾何引擎并非必需

      一直以來,大家都覺得組合題是AI的軟肋。

      事實上,這類題目「臭名昭著」到很多工程團隊直接選擇放棄。

      看看近幾年的IMO,最難的硬骨頭幾乎都是組合題。IMO 2025唯一沒做出來的題,以及IMO 2024的兩道題,全是組合。

      所以,當Axiom團隊看到Putnam的A3是一道組合博弈論,B1是一道歐式幾何時,心里的預期其實是極低的。

      畢竟,AxiomProver目前連一個完整的幾何引擎都沒有。

      然而,奇跡發生了。

      系統自主解出了A3和B1。那一刻,Axiom辦公室里直接有人尖叫了起來。他們根本沒想到它現在就夠解開這兩道題!


      Axiom團隊賽后分析,這并不意味著幾何或博弈論變容易了,而是說明他們之前的悲觀判斷有點過于草率了。

      這些例子說明,這道「門檻」比他們之前判斷的更微妙、更有層次。

      A3的解決的確有點運氣成分。

      在這道題中,「后手玩家」有一個非常干凈的必勝策略,一旦看破,只需要機械執行,不需要去探索復雜的博弈樹。這種「少狀態、無分支」的邏輯,恰好是Lean最擅長的。


      B1題可能更有趣。


      問題B1的概要

      題面涉及「外心」這個純幾何概念。系統給出的解法風格非常幾何,但當Axiom團隊的數學家讀的時候,如果沒有圖,根本跟不上。

      這就有點諷刺了,因為機器從頭到尾也沒畫過圖。最后,人類不得不自己畫了個草圖,才弄明白機器到底干了什么。

      機器似乎很滿足于純符號推理,它沒畫過一張圖就建立了一個「兩條圓恰好相交于兩個點」的事實。

      而人類則強烈依賴圖像。

      為了更具體地讓人感受這些機器證明如何和人類的幾何直覺對齊,這里截取了一段Lean代碼,用來建立這樣一個事實:

      在某個特定構型下,兩條圓恰好相交于兩個點(這個構型里,每個圓都經過另一個圓的圓心,而且兩個圓心不同)。


      而對人類讀者來說,配圖能立刻把情況講清楚。

      作為對照,Axiom小組也想出了一個類似的幾何論證。


      Axiom團隊對于B1的解法

      這次AxiomProver意外搞定人們原本沒指望它能做出來的組合題,而且也證明了沒有幾何引擎也不一定不行。

      蠻力的勝利:數學家幾乎都栽在了這個問題上

      Axiom團隊坦言,這次AxiomProver系統最終解出A6,令他們非常震驚。

      因為這道題幾乎把他們內部的所有人都打敗了。

      他們的一位數學家認出它屬于p進算術動力系統的范疇,他知道處理p進冪級數展開必須非常小心,甚至他的大方向都是對的。

      但「方向對了」和「把題徹底做完」是兩碼事。在A6這場硬仗上,機器贏了。

      AxiomProver居然5小時就做完了它,而且這是12題里Token用量第二高的一題。

      而且,它在處理相關冪級數的求導上用了一種特別笨拙、但確實有效的方法——人類絕對不會這么寫,但它就是能跑通。

      有時候,我們不得不承認,蠻力本身也有一種不講道理、碾壓一切的優雅。

      同一道題,兩條完全不同的路

      A4可能是這一批里最有故事的一題,因為它完美展示了「人類的代數直覺」與「AI的幾何視角」的碰撞。

      人類數學家看到這道題,本能地去找代數方法,靠符號推演。

      然而在競賽中,AxiomProver展示了另一種思路:它會把人類覺得「應該代數」的東西轉成幾何,把人類想用圖講清楚的內容,變成機械化的組合核算。

      在下面兩道很有代表性題:A4和B4,人類和AxiomProver解法各有特色。

      A4:人類想推公式,AI先把它變成幾何

      A4的設定看起來就很「代數」。


      人類選手在這套題上分歧也很典型:

      有人很快給出k=3的構造,于是開始懷疑答案會隨著n以某種方式增長;另一個人從小n往上堆,排除了k=2,直覺上覺得答案應該就是3。

      兩人一起拼出了若干針對不同n的臨時構造,能支持「答案是3」這個猜測,但離「統一的通用構造」還有距離。

      與此同時,他們隱約覺得背后可能藏著表示論的影子:這也很符合人類的經驗——當一個條件像「關系編碼」時,很容易聯想到群作用、表示、代數結構。

      AxiomProver的建議簡潔到有點「反常識」:讓每個A_i 都是投影到某個單位向量v_i上的秩一投影(rank-one projection)。

      驗證層面,形式化里最「重」的節點,往往集中在一件在人類眼里極其自然的事:

      認真檢查一圈n個向量的構造確實滿足要求。

      人們往往認為,「顯然相鄰垂直,其他不垂直,環狀閉合也沒問題」。

      Lean大量篇幅被花在「把直覺變成可檢驗的陳述」上,這恰好反映了形式化的性格:它不反對直覺,它拒絕用直覺替代證明文本。

      B4:人類用一張圖講完,AI直出1061行代碼

      在B4中,思路是構造一個從特殊對角線(第一條非零對角線)到取值為1的條目的單射。


      人類選手盯著圖看一會兒,函數怎么定義就很清楚了;也能看出來它為什么成立,圖自己就把話說完了。

      題在于Lean不會「看圖」。


      AxiomProver直接產出了1061行Lean代碼,把行列的組合性質一條條磨到結論出來。

      它能在缺乏圖像溝通的情況下,用耐心把組合性質逐格展開,把證明變成可驗證的流水線。

      奇點臨近,GPT-5.2攻克難題

      不僅如此,就連菲爾茲獎得主陶哲軒認為,AI已經取得了重要里程碑。


      這兩天,波蘭數學家Bartosz Naskr?cki在X上發的帖把這把火點得更旺了。

      他直言,GPT-5.2 Pro在數學上的表現強得離譜:面對非瑣碎問題,很難找到真正能讓AI卡死的點。

      即使是高難題,一到兩小時的來回交互,模型就能把答案推出來。


      最要命的是,他還用半開玩笑的方式表達震撼:

      要么OpenAI 背后有一支「全天候的小精靈與頂尖數學家團隊」在實時代打,要么模型已經具備非常扎實的能力。

      甚至,讓人產生「奇點將近」的直覺。


      這次Putnam 2025競賽的成績,對于AxiomProver團隊來說是一次重要的勝利。

      他們在博客最后總結道,「看著系統實時硬啃競賽數學,確實有種說不出的爽感:即使它經常用一些我們根本想不到的方式。」

      這也引出了一個深層問題:到底是什么讓一道數學題對機器來說「難」?

      顯然,人類覺得難的,和機器覺得難的并不是一回事。

      人類怕繁瑣的枚舉,怕沒有靈感(巧妙構造)就卡死的死胡同。但對機器而言,什么才是真正的障礙?目前還是一個黑盒。

      但正因為雙方擅長和卡殼的點不一樣,「人機協作」才顯得如此合理。

      而Axiom正在構建這樣一個世界:人類直覺由機器驗證來「落地」,而機器驗證反過來激發人類直覺。

      這就好比做咖啡:機器負責磨豆子,人類負責品咖啡。

      在Axiom看來,我們不需要去硬攻數學研究每一個問題。

      正如Grothendieck所說的「漲潮的海」——我們抬高水位,直到問題被那些堅硬的陸地慢慢包圍,最終自然溶解。

      雖然目前人類還未完全到達那一步,但奇點已經臨近。

      AxiomProver在Putnam 2025競賽中取得滿分,以及GPT-5.2 Pro在數學上的驚艷表現,都在提醒我們:

      這個未來更近了。

      參考資料:

      https://x.com/apples_jimmy/status/2009742681166229687

      https://x.com/axiommathai/status/2009682955804045370

      https://x.com/nasqret/status/2008672809094905970

      https://jmlr.org/papers/v24/22-125.html

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      阿里納斯:若湖人與里夫斯簽2.4億美元頂薪,那湖人將倒退十年

      阿里納斯:若湖人與里夫斯簽2.4億美元頂薪,那湖人將倒退十年

      懂球帝
      2026-01-22 11:35:27
      特朗普達沃斯演講當眾“點名”加州州長紐森,鏡頭捕捉到后者表情……

      特朗普達沃斯演講當眾“點名”加州州長紐森,鏡頭捕捉到后者表情……

      環球網資訊
      2026-01-22 12:05:26
      房東別想著拿捏李亞鵬,嫣然醫院已經有搬遷的打算了

      房東別想著拿捏李亞鵬,嫣然醫院已經有搬遷的打算了

      金牌娛樂
      2026-01-21 11:13:33
      字母哥賽后怒批隊友!直言有人打球太獨 一門心思只想自己出手

      字母哥賽后怒批隊友!直言有人打球太獨 一門心思只想自己出手

      羅說NBA
      2026-01-22 16:53:09
      省委決定:市長劉凱,跨市任市委書記

      省委決定:市長劉凱,跨市任市委書記

      上觀新聞
      2026-01-22 17:17:04
      惠州市博羅縣龍華鎮黨委原書記利勉被開除黨籍和公職

      惠州市博羅縣龍華鎮黨委原書記利勉被開除黨籍和公職

      瀟湘晨報
      2026-01-22 16:43:24
      馬刺快船交易達成!祖巴茨要價曝光,想交易轉正2人,保羅沒人要

      馬刺快船交易達成!祖巴茨要價曝光,想交易轉正2人,保羅沒人要

      你的籃球頻道
      2026-01-22 11:04:22
      不排除直接斬首賴清德?解放軍涉臺措辭有變,洪秀柱呼吁趕快統一

      不排除直接斬首賴清德?解放軍涉臺措辭有變,洪秀柱呼吁趕快統一

      議紀史
      2026-01-21 17:00:07
      32歲程序員周末暈倒后猝死,搶救期間曾被拉入工作群,工傷申請已被受理

      32歲程序員周末暈倒后猝死,搶救期間曾被拉入工作群,工傷申請已被受理

      上觀新聞
      2026-01-22 15:12:18
      娛樂圈又丟人!嫣然醫院捐款名單曝光,年入上億明星“集體沉默”

      娛樂圈又丟人!嫣然醫院捐款名單曝光,年入上億明星“集體沉默”

      說歷史的老牢
      2026-01-21 15:16:44
      中日航班取消,最新列表!

      中日航班取消,最新列表!

      達文西看世界
      2026-01-22 15:44:51
      韋德:我愚蠢地把04年奧運銅牌送人了,當時覺得除金牌外都一文不值

      韋德:我愚蠢地把04年奧運銅牌送人了,當時覺得除金牌外都一文不值

      懂球帝
      2026-01-22 11:22:52
      2026年1月車市涼透了!銷量暴跌67%,到底是誰按下了暫停鍵?

      2026年1月車市涼透了!銷量暴跌67%,到底是誰按下了暫停鍵?

      老特有話說
      2026-01-20 21:55:30
      點球打飛 63歲穆帥低頭認命!歐冠末輪死磕皇馬 輸球就出局

      點球打飛 63歲穆帥低頭認命!歐冠末輪死磕皇馬 輸球就出局

      葉青足球世界
      2026-01-22 10:02:57
      上海遛狗圍毆后續:警方立案,勸架鄰居嘴被打裂,更多細節曝光

      上海遛狗圍毆后續:警方立案,勸架鄰居嘴被打裂,更多細節曝光

      奇思妙想草葉君
      2026-01-21 18:54:39
      廣東程序員高廣輝去世!僅32歲,妻子曝死因,死后不能進祖墳

      廣東程序員高廣輝去世!僅32歲,妻子曝死因,死后不能進祖墳

      八斗小先生
      2026-01-22 13:38:12
      水貝市場已禁售銅條

      水貝市場已禁售銅條

      財聯社
      2026-01-21 08:48:10
      俄羅斯發動大規模空襲,導彈中途居然還會轉向,基輔一半地區停電

      俄羅斯發動大規模空襲,導彈中途居然還會轉向,基輔一半地區停電

      碳基生物關懷組織
      2026-01-20 19:48:05
      貝克漢姆次子在家族風波后首露面,帶著哥哥布魯克林的“前女友”

      貝克漢姆次子在家族風波后首露面,帶著哥哥布魯克林的“前女友”

      譯言
      2026-01-21 21:34:08
      李亞鵬,人菜是真的,人善也是真的

      李亞鵬,人菜是真的,人善也是真的

      畫生筆記
      2026-01-22 09:21:28
      2026-01-22 17:56:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14384文章數 66522關注度
      往期回顧 全部

      科技要聞

      幾千億只是開胃菜,AI基建還得再砸幾萬億

      頭條要聞

      女大學生白血病病危 確診一月后發現自己非父母親生

      頭條要聞

      女大學生白血病病危 確診一月后發現自己非父母親生

      體育要聞

      跑個步而已,他們在燃什么?

      娛樂要聞

      鐘麗緹土耳其高空落淚 與張倫碩擁吻

      財經要聞

      申通快遞創始人被前夫索要股份

      汽車要聞

      配備多塊娛樂屏 極氪8X內飾曝光

      態度原創

      親子
      游戲
      藝術
      公開課
      軍事航空

      親子要聞

      牛奶過敏 vs 乳糖不耐受:家長如何辨別與科學應對

      挑戰冠軍車手!兩輪版《地平線6》即將發售

      藝術要聞

      一場雪,飄進了唐詩

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      普京:愿意向"和平委員會"提供10億美元

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 曰本无码人妻丰满熟妇啪啪| 色综合久久蜜芽国产精品| 91制片厂天美传媒网站进入| 九九re线精品视频在线观看视频 | 亚洲精品一二三| 99热精品国产三级在线观看| 国产成人麻豆亚洲综合无码精品| 国产在线拍揄自揄拍无码| 亚洲色成人www永久在线观看| 欧美成a人片在线观看久| 伊人免费在线观看| 日本va欧美va欧美va精品| freeAV爽视频| 国产h视频在线观看| 亚洲AV无码不卡在线播放| 日韩精人妻无码一区二区三区| 亚洲国产欧美日本视频| 亚洲最大无码中文字幕网站| 色综合久久中文综合网| 大又大粗又爽又黄少妇毛片| 超碰8| 欧美成人18| 日本大尺度吃奶呻吟视频| 国产精品久久一区二区三区| 亚洲精品aⅴ无码精品丝袜足 | 91福利姬| 国模在线| 亚洲小色网| 日韩无码第2页| 高级艳妇交换俱乐部小说| 国产在线啪| 男女xx00xx的视频免费观看| 色老二精品视频在线观看| 精品久久久久久无码不卡| 亚洲精品国产字幕久久不卡| 亚洲视屏| 中文字幕乱码亚洲无线| 一区二区三区中文字幕| 亚洲1区二区三区麻豆| 精品国内自产拍在线观看视频| 宣化县|