<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      華人女學霸AI殺瘋!本科最難數(shù)賽12題全對,自主證明首次公開

      0
      分享至

      在人類滿分都罕見的普特南數(shù)賽上,AI直接12題全對拿滿分。陶哲軒等大佬預言AI已經(jīng)取得了重要里程碑,再加上GPT-5.2 Pro在數(shù)學上強到「離譜」的表現(xiàn),那種「奇點將近」的直覺,真的壓不住了。

      全網(wǎng)震撼!

      今天,24歲華人女學霸Carina Hong初創(chuàng)打造的AxiomProver,在2025 Putnam數(shù)學競賽拿下了滿分成績。

      12道題,AI全部答對!

      與此同時,AxiomProver自主生成的Lean證明也正式公開。


      這一競賽,堪稱北美本科生數(shù)學競賽的天花板級別,人類需在6小時攻克12道題。

      Putnam競賽總分120分,要接近滿分極其罕見,通常只有Putnam Fellows(前幾名)才能做到。

      網(wǎng)友表示,「AxiomProver拿下Putnam競賽比奪得IMO金牌更厲害,解決下一個千禧難題可能比預想的要來得更快」!


      最近,陶哲軒公開表示,ChatGPT等AI鞠躬基本可以自主解決「埃爾德什問題」,瞬間登上HK熱榜。


      OpenAI總裁Greg、科學家Sebastien Bubeck紛紛激動轉發(fā)。


      看來,千禧年難題,或許離破解之日不遠了......

      「本科最難數(shù)賽」奪下滿分,全網(wǎng)震撼

      先來看看AxiomProver,如何在「本科版最難數(shù)學競賽」中拔得頭籌。


      https://axiommath.ai/territory/from-seeing-why-to-checking-everything

      在AxiomMathAI的官方博客中,把所有的Lean證明都公開了,還把題目分成了這么幾類:

      人類直覺簡單,但形式化起來卻極為繁瑣的問題;

      AI出人意料地攻克人類未曾預料到的問題;

      AxiomProver和人類采用不同數(shù)學思路解出來的問題。

      之所以這么分,在于AI與人類對「難度」感知并不一致。

      團隊指出,以后更理想的工作流大概是:

      人主要負責提供靈感的想法,而機器負責快速自洽檢查與形式化落地,甚至推動數(shù)學研究中的新抽象選擇。


      人類覺得簡單,AI直接「懷疑人生」

      但在Putnam競賽中,最「好下手」的往往是微積分題。

      回想Mathlib庫( Lean語言的數(shù)學庫,相當于給AI用的「數(shù)學字典」)的早期,隨便一本分析教材第一章里的簡單概念,都要花很長時間才能定義清楚。

      而在Putnam2025里,這類題通常出現(xiàn)在每個部分的第二題。

      以A2題為例。


      這道題如果給人看,我們只需要附上一張函數(shù)圖像,你的眼睛會瞬間捕捉到曲線的走勢,非常直觀。


      但是這在系統(tǒng)那里,你必須把這些線條、趨勢、拐點,統(tǒng)統(tǒng)翻譯成嚴格的數(shù)學語言。

      人類要是逐行去讀Lean代碼,那就更像是在「坐牢」。

      B2也是同樣的故事。


      對人類來說一個很簡單的「正性引理」,在Lean里要寫60多行。

      A2的引理h_nonpos_on_Icc和B2的引理psi_support_pos,成了各自證明里最難啃、最費篇幅的「釘子戶」。

      這就是形式化的代價。

      組合構造:友善的「野獸」

      假如你正在下午茶時間的黑板邊聊天,朋友給你展示了一個精妙的組合構造,你卡殼半天,他只說了句:「先這樣,再那樣,把這個切開……」

      然后你恍然大悟:怎么就變得這么簡單了?

      這種感覺很震撼,問題仿佛一瞬間就溶解了。

      但一旦你試圖把這種直覺「釘死」成一個完全形式化的證明,尤其是在證明助手里,事情就會出奇地棘手。


      拿A5題來說。

      Axiom團隊和AxiomProver都想到了同一個很自然的思路:

      對一個排列里最大(或最小)的元素做歸納,把剩下的切成兩段,然后據(jù)此推理。


      用人類語言來講,這種論證可能兩三段就寫完了,但在Lean的世界里并非這樣簡單。

      每一個小角落的特殊情況、每一處記賬式的繁瑣細節(jié),都必須被明確寫出來,沒有任何模糊空間。

      當然,也不能使用人類最愛的「省略號」。

      于是結果就令人咋舌:這份Lean形式化代碼長達2054行,生成耗時518分鐘!

      這并非要吐槽Lean,而是從「人類顯而易見的證明」走到「這是機器校驗過的證明」,你所必須繳納的稅。

      AI神來之筆,人類沒想到的

      AI有望破解組合數(shù)學,幾何引擎并非必需

      一直以來,大家都覺得組合題是AI的軟肋。

      事實上,這類題目「臭名昭著」到很多工程團隊直接選擇放棄。

      看看近幾年的IMO,最難的硬骨頭幾乎都是組合題。IMO 2025唯一沒做出來的題,以及IMO 2024的兩道題,全是組合。

      所以,當Axiom團隊看到Putnam的A3是一道組合博弈論,B1是一道歐式幾何時,心里的預期其實是極低的。

      畢竟,AxiomProver目前連一個完整的幾何引擎都沒有。

      然而,奇跡發(fā)生了。

      系統(tǒng)自主解出了A3和B1。那一刻,Axiom辦公室里直接有人尖叫了起來。他們根本沒想到它現(xiàn)在就夠解開這兩道題!


      Axiom團隊賽后分析,這并不意味著幾何或博弈論變?nèi)菀琢耍钦f明他們之前的悲觀判斷有點過于草率了。

      這些例子說明,這道「門檻」比他們之前判斷的更微妙、更有層次。

      A3的解決的確有點運氣成分。

      在這道題中,「后手玩家」有一個非常干凈的必勝策略,一旦看破,只需要機械執(zhí)行,不需要去探索復雜的博弈樹。這種「少狀態(tài)、無分支」的邏輯,恰好是Lean最擅長的。


      B1題可能更有趣。


      問題B1的概要

      題面涉及「外心」這個純幾何概念。系統(tǒng)給出的解法風格非常幾何,但當Axiom團隊的數(shù)學家讀的時候,如果沒有圖,根本跟不上。

      這就有點諷刺了,因為機器從頭到尾也沒畫過圖。最后,人類不得不自己畫了個草圖,才弄明白機器到底干了什么。

      機器似乎很滿足于純符號推理,它沒畫過一張圖就建立了一個「兩條圓恰好相交于兩個點」的事實。

      而人類則強烈依賴圖像。

      為了更具體地讓人感受這些機器證明如何和人類的幾何直覺對齊,這里截取了一段Lean代碼,用來建立這樣一個事實:

      在某個特定構型下,兩條圓恰好相交于兩個點(這個構型里,每個圓都經(jīng)過另一個圓的圓心,而且兩個圓心不同)。


      而對人類讀者來說,配圖能立刻把情況講清楚。

      作為對照,Axiom小組也想出了一個類似的幾何論證。


      Axiom團隊對于B1的解法

      這次AxiomProver意外搞定人們原本沒指望它能做出來的組合題,而且也證明了沒有幾何引擎也不一定不行。

      蠻力的勝利:數(shù)學家?guī)缀醵荚栽诹诉@個問題上

      Axiom團隊坦言,這次AxiomProver系統(tǒng)最終解出A6,令他們非常震驚。

      因為這道題幾乎把他們內(nèi)部的所有人都打敗了。

      他們的一位數(shù)學家認出它屬于p進算術動力系統(tǒng)的范疇,他知道處理p進冪級數(shù)展開必須非常小心,甚至他的大方向都是對的。

      但「方向對了」和「把題徹底做完」是兩碼事。在A6這場硬仗上,機器贏了。

      AxiomProver居然5小時就做完了它,而且這是12題里Token用量第二高的一題。

      而且,它在處理相關冪級數(shù)的求導上用了一種特別笨拙、但確實有效的方法——人類絕對不會這么寫,但它就是能跑通。

      有時候,我們不得不承認,蠻力本身也有一種不講道理、碾壓一切的優(yōu)雅。

      同一道題,兩條完全不同的路

      A4可能是這一批里最有故事的一題,因為它完美展示了「人類的代數(shù)直覺」與「AI的幾何視角」的碰撞。

      人類數(shù)學家看到這道題,本能地去找代數(shù)方法,靠符號推演。

      然而在競賽中,AxiomProver展示了另一種思路:它會把人類覺得「應該代數(shù)」的東西轉成幾何,把人類想用圖講清楚的內(nèi)容,變成機械化的組合核算。

      在下面兩道很有代表性題:A4和B4,人類和AxiomProver解法各有特色。

      A4:人類想推公式,AI先把它變成幾何

      A4的設定看起來就很「代數(shù)」。


      人類選手在這套題上分歧也很典型:

      有人很快給出k=3的構造,于是開始懷疑答案會隨著n以某種方式增長;另一個人從小n往上堆,排除了k=2,直覺上覺得答案應該就是3。

      兩人一起拼出了若干針對不同n的臨時構造,能支持「答案是3」這個猜測,但離「統(tǒng)一的通用構造」還有距離。

      與此同時,他們隱約覺得背后可能藏著表示論的影子:這也很符合人類的經(jīng)驗——當一個條件像「關系編碼」時,很容易聯(lián)想到群作用、表示、代數(shù)結構。

      AxiomProver的建議簡潔到有點「反常識」:讓每個A_i 都是投影到某個單位向量v_i上的秩一投影(rank-one projection)。

      驗證層面,形式化里最「重」的節(jié)點,往往集中在一件在人類眼里極其自然的事:

      認真檢查一圈n個向量的構造確實滿足要求。

      人們往往認為,「顯然相鄰垂直,其他不垂直,環(huán)狀閉合也沒問題」。

      Lean大量篇幅被花在「把直覺變成可檢驗的陳述」上,這恰好反映了形式化的性格:它不反對直覺,它拒絕用直覺替代證明文本。

      B4:人類用一張圖講完,AI直出1061行代碼

      在B4中,思路是構造一個從特殊對角線(第一條非零對角線)到取值為1的條目的單射。


      人類選手盯著圖看一會兒,函數(shù)怎么定義就很清楚了;也能看出來它為什么成立,圖自己就把話說完了。

      題在于Lean不會「看圖」。


      AxiomProver直接產(chǎn)出了1061行Lean代碼,把行列的組合性質一條條磨到結論出來。

      它能在缺乏圖像溝通的情況下,用耐心把組合性質逐格展開,把證明變成可驗證的流水線。

      奇點臨近,GPT-5.2攻克難題

      不僅如此,就連菲爾茲獎得主陶哲軒認為,AI已經(jīng)取得了重要里程碑。


      這兩天,波蘭數(shù)學家Bartosz Naskr?cki在X上發(fā)的帖把這把火點得更旺了。

      他直言,GPT-5.2 Pro在數(shù)學上的表現(xiàn)強得離譜:面對非瑣碎問題,很難找到真正能讓AI卡死的點。

      即使是高難題,一到兩小時的來回交互,模型就能把答案推出來。


      最要命的是,他還用半開玩笑的方式表達震撼:

      要么OpenAI 背后有一支「全天候的小精靈與頂尖數(shù)學家團隊」在實時代打,要么模型已經(jīng)具備非常扎實的能力。

      甚至,讓人產(chǎn)生「奇點將近」的直覺。


      這次Putnam 2025競賽的成績,對于AxiomProver團隊來說是一次重要的勝利。

      他們在博客最后總結道,「看著系統(tǒng)實時硬啃競賽數(shù)學,確實有種說不出的爽感:即使它經(jīng)常用一些我們根本想不到的方式。」

      這也引出了一個深層問題:到底是什么讓一道數(shù)學題對機器來說「難」?

      顯然,人類覺得難的,和機器覺得難的并不是一回事。

      人類怕繁瑣的枚舉,怕沒有靈感(巧妙構造)就卡死的死胡同。但對機器而言,什么才是真正的障礙?目前還是一個黑盒。

      但正因為雙方擅長和卡殼的點不一樣,「人機協(xié)作」才顯得如此合理。

      而Axiom正在構建這樣一個世界:人類直覺由機器驗證來「落地」,而機器驗證反過來激發(fā)人類直覺。

      這就好比做咖啡:機器負責磨豆子,人類負責品咖啡。

      在Axiom看來,我們不需要去硬攻數(shù)學研究每一個問題。

      正如Grothendieck所說的「漲潮的海」——我們抬高水位,直到問題被那些堅硬的陸地慢慢包圍,最終自然溶解。

      雖然目前人類還未完全到達那一步,但奇點已經(jīng)臨近。

      AxiomProver在Putnam 2025競賽中取得滿分,以及GPT-5.2 Pro在數(shù)學上的驚艷表現(xiàn),都在提醒我們:

      這個未來更近了。

      參考資料:

      https://x.com/apples_jimmy/status/2009742681166229687

      https://x.com/axiommathai/status/2009682955804045370

      https://x.com/nasqret/status/2008672809094905970

      https://jmlr.org/papers/v24/22-125.html

      文章來源:新智元。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      女子吃自助烤肉剩菜過多 被扣100元押金 投訴退費遭駁回

      女子吃自助烤肉剩菜過多 被扣100元押金 投訴退費遭駁回

      閃電新聞
      2026-02-04 15:08:17
      5年前,他靠核酸檢測設備2年狂入222億,揚言活120歲,如今咋樣

      5年前,他靠核酸檢測設備2年狂入222億,揚言活120歲,如今咋樣

      芳芳歷史燴
      2026-01-25 10:06:32
      不要再隨意猜測楊蘭蘭的身份了,釋放的信號很明顯了

      不要再隨意猜測楊蘭蘭的身份了,釋放的信號很明顯了

      李昕言溫度空間
      2025-08-20 15:01:53
      馬斯克為什么沒上蘿莉島?不是他不想,是愛潑斯坦嫌他懶得帶他玩

      馬斯克為什么沒上蘿莉島?不是他不想,是愛潑斯坦嫌他懶得帶他玩

      余鴡搞笑段子
      2026-02-04 18:39:08
      熱點城市聚焦:太突然!取消中考落地!上海風向真變了?

      熱點城市聚焦:太突然!取消中考落地!上海風向真變了?

      音樂時光的娛樂
      2026-02-05 00:26:59
      大獎賽16強出爐附賽程,趙心童、肖國棟迎戰(zhàn)強敵,8強中國鎖定2席

      大獎賽16強出爐附賽程,趙心童、肖國棟迎戰(zhàn)強敵,8強中國鎖定2席

      球場沒跑道
      2026-02-04 23:57:23
      “海后”金晨的危機:被女大佬壓制,姐弟戀不斷,肇事逃逸

      “海后”金晨的危機:被女大佬壓制,姐弟戀不斷,肇事逃逸

      紅大娘娛樂
      2026-02-04 20:48:47
      某魚驚現(xiàn)“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

      某魚驚現(xiàn)“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

      戧詞奪理
      2026-01-24 16:05:41
      乒乓亞洲杯大爆冷!日本全國冠軍2-0連丟3局,韓國隊一哥開門黑

      乒乓亞洲杯大爆冷!日本全國冠軍2-0連丟3局,韓國隊一哥開門黑

      籃球看比賽
      2026-02-04 17:25:00
      人社部傳來好消息!1.5億退休老人高興了,2026年養(yǎng)老金或再調整

      人社部傳來好消息!1.5億退休老人高興了,2026年養(yǎng)老金或再調整

      姩姩有娛
      2026-02-04 15:07:40
      春節(jié)還剩13天,社會上卻出現(xiàn)這5個反常現(xiàn)象,今年過年大變樣!

      春節(jié)還剩13天,社會上卻出現(xiàn)這5個反常現(xiàn)象,今年過年大變樣!

      前沿天地
      2026-02-04 11:14:38
      不用坐牢了?馬杜羅入獄3周后,中方斬釘截鐵,委代元首接過兵權

      不用坐牢了?馬杜羅入獄3周后,中方斬釘截鐵,委代元首接過兵權

      觀星賞月
      2026-02-05 07:57:58
      提醒大家:洗衣機里,不管有幾件衣服,千萬要記得放幾個塑料袋!

      提醒大家:洗衣機里,不管有幾件衣服,千萬要記得放幾個塑料袋!

      美食格物
      2026-02-04 22:51:09
      42歲王濛退役11年再破紀錄,李琰冰壇集體沉默

      42歲王濛退役11年再破紀錄,李琰冰壇集體沉默

      悅君兮君不知
      2026-02-02 23:01:39
      錢再多有啥用?曝朱媛媛在《小城大事》殺青后,因害怕主動求合照

      錢再多有啥用?曝朱媛媛在《小城大事》殺青后,因害怕主動求合照

      飄逸語人
      2026-02-05 01:48:42
      大反轉!上港失而復得,王燊超接班人來了,國足王牌新星正式加盟

      大反轉!上港失而復得,王燊超接班人來了,國足王牌新星正式加盟

      羅掌柜體育
      2026-02-05 06:05:03
      1-3!3送烏龍助攻 衛(wèi)冕冠軍慘淡出局 12.9億豪門時隔5年再進決賽

      1-3!3送烏龍助攻 衛(wèi)冕冠軍慘淡出局 12.9億豪門時隔5年再進決賽

      狍子歪解體壇
      2026-02-05 06:02:23
      Shams:老鷹以現(xiàn)金方式從爵士交易得到中鋒蘭代爾

      Shams:老鷹以現(xiàn)金方式從爵士交易得到中鋒蘭代爾

      懂球帝
      2026-02-05 06:07:09
      專治各種“不通”的奇穴!每天捏捏手指,作用你意想不到!

      專治各種“不通”的奇穴!每天捏捏手指,作用你意想不到!

      財經(jīng)早餐
      2026-01-15 06:26:32
      女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

      女生主動起來有多黏人?網(wǎng)友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      2026-02-05 09:35:00
      算法與數(shù)學之美 incentive-icons
      算法與數(shù)學之美
      分享知識,交流思想
      5340文章數(shù) 64601關注度
      往期回顧 全部

      科技要聞

      微信給馬化騰澆了“一盆冷水”

      頭條要聞

      伊朗被指將鈾庫存轉至俄羅斯 克宮首次回應

      頭條要聞

      伊朗被指將鈾庫存轉至俄羅斯 克宮首次回應

      體育要聞

      哈登回應交易:不想讓自己拖累快船的未來

      娛樂要聞

      春晚主持人陣容曝光,5位都是老面孔

      財經(jīng)要聞

      黃金,出現(xiàn)拐點

      汽車要聞

      綜合續(xù)航1730km 5座中級電混SUV吉利銀河M7官圖發(fā)布

      態(tài)度原創(chuàng)

      教育
      時尚
      親子
      房產(chǎn)
      公開課

      教育要聞

      2025全國畢業(yè)生薪酬百強出爐,青島大學上榜!

      60歲的劉嘉玲、章小蕙太美了!港女的魅力從不是少女感

      親子要聞

      不帶娃出門娃可憐,帶娃出門我可憐!網(wǎng)友:大家都這樣我就放心了

      房產(chǎn)要聞

      還在漲!成交量連飆四個月 海口二手房開始穩(wěn)了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版