夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
AI證明數(shù)學(xué)猜想,這次來真的了。
OpenAI最新模型GPT-5.2 Pro剛剛獨(dú)立證明了一道埃爾德什猜想。
論證過程經(jīng)菲爾茲獎(jiǎng)得主陶哲軒驗(yàn)證成立,還被評(píng)價(jià)為“迄今為止最明確的第一類結(jié)果(AI主要貢獻(xiàn))”。
![]()
這道題是埃爾德什問題庫中的第281號(hào),由傳奇數(shù)學(xué)家保羅·埃爾德什(Paul Erd?s)與羅納德·格雷厄姆(Ronald Graham)于1980年共同提出,涉及同余覆蓋系統(tǒng)與自然密度的深層關(guān)系。
45年來,這道題一直靜靜躺在問題庫里,等待解答。
直到2026年1月17日,一位名叫Neel Somani的研究者把這道題扔給了GPT-5.2 Pro。
![]()
證明只用到GPT 5.2 Pro
埃爾德什問題網(wǎng)站已收錄AI證明結(jié)果。
整個(gè)論證在無窮阿德爾整數(shù)環(huán)上展開,借助哈爾測(cè)度和點(diǎn)態(tài)遍歷定理,結(jié)合緊致性論證完成了從逐點(diǎn)收斂到一致收斂的躍遷。
![]()
按陶哲軒的話說,它是“Furstenberg對(duì)應(yīng)原理”的一個(gè)變體,這是遍歷理論與組合數(shù)學(xué)交叉領(lǐng)域的標(biāo)準(zhǔn)工具。
但GPT-5.2 Pro的用法又有些不同,它比通常的論證更依賴伯克霍夫定理。
![]()
然而真正讓陶哲軒印象深刻的不是證明方法本身,而是AI沒有犯錯(cuò)。
- 讓我更驚訝的是它避免了錯(cuò)誤,比如極限交換或量詞順序的失誤,這正是這道題最容易踩的坑。前幾代大語言模型幾乎肯定會(huì)在這些微妙之處栽跟頭。
為了驗(yàn)證這份證明,陶哲軒親自動(dòng)手,把整套遍歷論論證翻譯成了組合學(xué)語言,用哈代-利特爾伍德極大不等式替代伯克霍夫定理,重新走了一遍全部推導(dǎo)。
結(jié)論:證明成立。
一個(gè)意外的發(fā)現(xiàn)
正當(dāng)大家討論GPT-5.2 Pro的證明時(shí),一位網(wǎng)名KoishiChan的用戶在評(píng)論區(qū)拋出了一個(gè)令人意外的發(fā)現(xiàn):
這道題其實(shí)有更簡(jiǎn)單的解法,而且所需的兩個(gè)定理早在1936年和1966年就已經(jīng)存在了。
第一個(gè)是達(dá)文波特(Harold Davenport)與埃爾德什本人在1936年合作證明的密度收斂定理。
第二個(gè)是羅杰斯定理,首次發(fā)表于1966年的哈爾伯斯塔姆-羅斯專著《序列》第五章。把這兩個(gè)經(jīng)典結(jié)果拼在一起,第281號(hào)問題幾乎是直接推論。
這就奇怪了。埃爾德什自己就是1936年那篇論文的合著者,而他在1980年提出這道題時(shí),都沒有意識(shí)到答案近在眼前。
![]()
陶哲軒就此事專門寫郵件請(qǐng)教了法國(guó)數(shù)學(xué)家特南鮑姆(Tenenbaum)。
特南鮑姆確認(rèn)“只要滿足你提到的兩個(gè)經(jīng)典結(jié)果(達(dá)文波特-埃爾多斯定理和羅杰斯定理),問題就能立即得到解決”,但他也猜測(cè)“問題的表述可能在某個(gè)環(huán)節(jié)被改動(dòng)過”。不過目前沒有人找到任何其他版本的表述,所以只能按原樣處理。
更有意思的是,2007年菲拉塞塔、福特、科尼亞金、波默朗斯和余等五位頂尖專家在解決另一道埃爾德什問題時(shí),同樣不知道羅杰斯定理的存在,直到特南鮑姆提醒他們才補(bǔ)上了引用。
陶哲軒感慨:“羅杰斯定理沒有得到它應(yīng)有的傳播。它只出現(xiàn)在哈爾伯斯塔姆-羅斯那本書里,沒有單獨(dú)發(fā)表,文獻(xiàn)引用寥寥無幾。或許這場(chǎng)討論能讓更多研究篩法和同余覆蓋的人注意到這個(gè)結(jié)果。”
最終現(xiàn)在這道題有了兩份證明:一份來自GPT-5.2 Pro的遍歷論路徑,一份來自KoishiChan挖出的經(jīng)典文獻(xiàn)組合。
陶哲軒確認(rèn)兩者是“不同的證明”,雖然在概念上有些重疊。
![]()
如何評(píng)估AI數(shù)學(xué)的真實(shí)成功率
消息傳開后,各路AI模型紛紛被拉來交叉驗(yàn)證。
Gemini 3 Pro表示證明沒有問題。另一位研究者用GPT-5.2 Pro反復(fù)檢查論證細(xì)節(jié),AI認(rèn)為唯一需要補(bǔ)充嚴(yán)格性的地方在第二步,可以用法圖引理繞過遍歷論直接完成。
不過陶哲軒指出這里法圖引理的方向用反:我剛教完研究生測(cè)度論,這類錯(cuò)誤見得太多了。
隨后又確認(rèn)其實(shí)是對(duì)補(bǔ)集應(yīng)用法圖引理,方向沒問題,論證成立。
但陶哲軒同時(shí)發(fā)出了冷靜的提醒。他寫道:
- 評(píng)估AI工具真實(shí)成功率時(shí),最大的統(tǒng)計(jì)偏差來自強(qiáng)烈的報(bào)告偏差,負(fù)面結(jié)果幾乎不會(huì)被披露。
- 如果某人或某AI公司把工具用在開放問題上但沒有進(jìn)展,他們沒有動(dòng)力報(bào)告這個(gè)負(fù)面結(jié)論;即使報(bào)告了,也不太可能像正面結(jié)果那樣在社交媒體上傳播開來。
- 盡管絕大多數(shù)集中在難度譜系的簡(jiǎn)單一端,遠(yuǎn)不能說明中等難度的埃爾德什問題已經(jīng)進(jìn)入AI的射程范圍。
他推薦了Paata Ivanisvili和Mehmet Mars Seven發(fā)起的一個(gè)開源項(xiàng)目,系統(tǒng)記錄前沿大語言模型在埃爾德什問題上的正面和負(fù)面結(jié)果。
![]()
數(shù)據(jù)顯示,這些工具在埃爾德什問題上的真實(shí)成功率大約只有百分之一到二。
但考慮到問題庫里有超過600道未解難題,這個(gè)比例仍然意味著一批數(shù)量可觀且非平凡的AI貢獻(xiàn)。
![]()
參考鏈接:
[1]https://www.erdosproblems.com/forum/thread/281
[2]https://x.com/neelsomani/status/2012695714187325745
[3]https://mathstodon.xyz/@tao/115911902186528812
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.