網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

11位頂尖數(shù)學(xué)家發(fā)了篇沒結(jié)果的論文，陶哲軒推薦都關(guān)注一下

2026-02-08 12:52:46　來源: 量子位

北京舉報

分享至

獲陶哲軒轉(zhuǎn)發(fā)，arXiv上的一篇新論文正在引起巨大關(guān)注！

擠進(jìn)前排后發(fā)現(xiàn)，原來這是一項(xiàng)由11位全球頂尖數(shù)學(xué)家發(fā)起的AI實(shí)驗(yàn)——

讓AI在規(guī)定期限內(nèi)，解決他們各自在真實(shí)研究過程中產(chǎn)生的10道“研究級”難題，以此探索“AI+數(shù)學(xué)”的能力邊界。

而且走的還是高斯時代的路子——人類先證明出來，但先不公布答案和過程，等到了合適時間再公開，避免AI偷偷看答案。

以前這是一項(xiàng)為保護(hù)數(shù)學(xué)家證明自己優(yōu)先解決某道問題的做法，而在AI時代卻有了新玩法。

在陶哲軒看來，這項(xiàng)實(shí)驗(yàn)非常有意思：

當(dāng)前“一次性”AI提示似乎難以解決這些問題，但它們已被人類領(lǐng)域?qū)＜夜タ恕？梢灶A(yù)見，配備AI工具的其他領(lǐng)域?qū)＜乙材芙鉀Q其中相當(dāng)一部分。這些問題的技術(shù)門檻相當(dāng)高，非領(lǐng)域?qū)＜译y以驗(yàn)證AI生成的任何輸出結(jié)果
因此在我看來，要讓非專家解決其中任何一個問題都極具挑戰(zhàn)性——當(dāng)然，意外驚喜也并非不可能。在截止期限前，這項(xiàng)實(shí)驗(yàn)?zāi)芊癞a(chǎn)生任何顯著成果，將十分值得關(guān)注。

好好好，既然老陶如此安利了，咱這就開扒完整實(shí)驗(yàn)過程（doge）。

解完10道數(shù)學(xué)題，然后…藏起證明過程

概括而言，通過提出一套名為First Proof的實(shí)驗(yàn)方案，這群數(shù)學(xué)家想做一件事——

檢驗(yàn)當(dāng)前AI系統(tǒng)，是否具備獨(dú)立解決研究級數(shù)學(xué)問題的能力。

在這之前，雖然很多商用AI成了數(shù)學(xué)家手中的實(shí)用工具（如用于文獻(xiàn)檢索、代碼編寫、手稿校驗(yàn)等），但對于AI是否具備他們想驗(yàn)證的能力，學(xué)界始終缺乏相關(guān)清晰結(jié)論。

這背后一個很重要的原因，就是評測手段的缺失。

放眼市面上的數(shù)學(xué)AI基準(zhǔn)，目前絕大多數(shù)都聚焦于競賽題，此類題目雖然便于規(guī)模化測試，卻與真實(shí)的數(shù)學(xué)研究存在本質(zhì)差異（甚至可能存在數(shù)據(jù)污染問題）。

而數(shù)學(xué)家面對的真實(shí)情況往往是——

問題并非精確定義完成，解法也不存在明確模板，需要在大量試探、修正和結(jié)構(gòu)性判斷中逐步推進(jìn)。

基于這樣的背景，這群來自斯坦福、哥倫比亞、哈佛等高校及科研機(jī)構(gòu)的數(shù)學(xué)家們齊聚一堂，設(shè)計了10道研究級數(shù)學(xué)問題，覆蓋代數(shù)組合學(xué)、譜圖論、代數(shù)拓?fù)洹㈦S機(jī)分析、辛幾何等多個數(shù)學(xué)分支。

這里補(bǔ)充一下，一開始其實(shí)是20道題，不過按4個標(biāo)準(zhǔn)篩選后最終只留下了10道——AI能理解問題表述、無隱藏公開答案、作者同意按要求發(fā)布證明、每位團(tuán)隊(duì)成員僅貢獻(xiàn)1道題。

完整10道題目指路論文以下位置：

論文表示，F(xiàn)irst Proof區(qū)別于現(xiàn)有基準(zhǔn)的地方在于：

問題來自數(shù)學(xué)家當(dāng)前研究中發(fā)現(xiàn)的真實(shí)疑問，答案為證明過程，需人類專家評分；
問題全公開但答案無任何公開記錄，供社區(qū)驗(yàn)證但不可重復(fù)使用，同時徹底消除數(shù)據(jù)污染；
允許AI無限制使用網(wǎng)絡(luò)搜索等外部資源，貼近真實(shí)研究場景。

劃重點(diǎn)，這10道題均來自作者自身的研究過程，是未來發(fā)表成果中的小型核心引理，未在互聯(lián)網(wǎng)、會議等任何公共渠道發(fā)布，從根源避免數(shù)據(jù)污染。

每道題的人類證明不超過5頁（適配當(dāng)前AI的技術(shù)限制），且加密發(fā)表于下面的這個網(wǎng)站。

最終答案將于2026年2月13日公開，在此之前全球用戶均可以用這10道題來測試他們想要考驗(yàn)的AI。

GPT和Gemini先來挑戰(zhàn)一波

而在廣發(fā)全球英雄帖之后，這群數(shù)學(xué)家也先自己測試了一波：

邀請GPT 5.2 Pro和Gemini 3 Deepthink，對10道題進(jìn)行一次性作答測試。

他們明確表示，F(xiàn)irst Proof僅聚焦數(shù)學(xué)研究最后、也是最明確的階段——

在問題表述和研究背景已經(jīng)清晰給定的前提下，檢驗(yàn)AI是否能夠完成嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明，而不評估AI提出研究問題、構(gòu)建新理論框架或發(fā)明新定義的能力。

換言之，這是一場單純的能力邊界測試。在假設(shè)所有前期研究工作已經(jīng)完成的情況下，看看AI能否獨(dú)立走完“從命題到正確證明”的最后一公里。

而實(shí)驗(yàn)結(jié)果顯示：

在當(dāng)前公開可用的最佳AI系統(tǒng)，僅有一次作答機(jī)會的情況下，它們難以解答我們提出的多數(shù)問題

不過作者也預(yù)計，如果允許人類與AI反復(fù)對話、追問、引導(dǎo)，就很有可能讓AI給出更好的答案。

再劃重點(diǎn)，為了最大程度減少這一實(shí)驗(yàn)可能造成的數(shù)據(jù)污染問題，他們還有這樣的舉措：

我們關(guān)閉了用于訓(xùn)練和改進(jìn)模型的數(shù)據(jù)共享選項(xiàng)，但我們知曉谷歌仍會保留數(shù)據(jù)3天，而OpenAI會保留30天。
（即便如此）在整個過程中，我們始終盡力確保所提問題的答案保持私密。

未來，這群數(shù)學(xué)家也計劃在數(shù)月內(nèi)設(shè)計第二套問題集，并在實(shí)驗(yàn)設(shè)計上進(jìn)一步收緊變量——

在與相關(guān)模型方達(dá)成明確協(xié)議的前提下，先讓前沿AI系統(tǒng)完成測試，再統(tǒng)一公開問題與答案，從而將First Proof逐步發(fā)展為一個可復(fù)用、可比較的研究級數(shù)學(xué)能力基準(zhǔn)。

在此基礎(chǔ)上，實(shí)驗(yàn)設(shè)置也將逐步“去人工化”。例如，放寬當(dāng)前對證明長度、表達(dá)形式等人為限制，引入來自不同數(shù)學(xué)分支的問題，使測試不再局限于某一類技術(shù)路徑，而是覆蓋更廣泛的研究場景。

更進(jìn)一步，作者也明確表示，長期目標(biāo)并不只是評估AI在“解題”階段的表現(xiàn)，而是逐步探索更高階能力的評測方式，比如這次先忽略的提出新問題、構(gòu)建新理論框架的能力。

不得不說，以上種種也符合陶哲軒一直以來對AI的判斷——

未來的趨勢不是AI代替數(shù)學(xué)家，而是講求人機(jī)協(xié)作。

而First Proof的價值，也不在于給AI下一個“及格或不及格”的結(jié)論，而在于第一次用真實(shí)、未公開、研究級的問題，來試圖界定AI當(dāng)前所能觸及的邊界。

換言之，即使只完整解出一道題，也足以成為AI數(shù)學(xué)研究史上一個值得記錄的節(jié)點(diǎn)。

就是這時間會不會有點(diǎn)太短了？（截止到2月13日）

論文：
https://arxiv.org/abs/2602.05192
答案加密地址：
https://1stproof.org/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.