MIT科學(xué)家構(gòu)建全球最大奧林匹克級數(shù)學(xué)題庫，向全球免費(fèi)開放

2026-04-27 17:00:12　來源: 至頂頭條

北京舉報(bào)

分享至

每年，參加國際數(shù)學(xué)奧林匹克競賽（IMO）的各國代表團(tuán)都會帶來一本收錄了本國最優(yōu)秀、最具原創(chuàng)性題目的小冊子。這些小冊子在各代表團(tuán)之間傳閱后便悄然消失。多年來，從未有人系統(tǒng)地收集、整理這些資料并公開發(fā)布——無論是對于測試數(shù)學(xué)推理極限的AI研究人員，還是對于世界各地大多只能依靠自學(xué)備賽的學(xué)生來說，這都是一大缺憾。

如今，麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室（CSAIL）、阿卜杜拉國王科技大學(xué)（KAUST）以及HUMAIN公司的研究人員，共同完成了這項(xiàng)工作。

MathNet是迄今為止規(guī)模最大的高質(zhì)量證明類數(shù)學(xué)題庫，收錄了來自47個國家、覆蓋17種語言、涵蓋143項(xiàng)競賽的逾3萬道由專家撰寫的題目與解答，規(guī)模是同類數(shù)據(jù)集中次大者的五倍。相關(guān)研究成果將于本月底在巴西舉辦的國際學(xué)習(xí)表征會議（ICLR）上正式發(fā)表。

MathNet的獨(dú)特之處不僅在于其規(guī)模，更在于其廣度。以往的奧林匹克級數(shù)據(jù)集幾乎清一色來源于美國和中國的競賽題目。而MathNet橫跨六大洲數(shù)十個國家，涵蓋17種語言，包含文字與圖像兩類題目及解答，并收錄了長達(dá)四十年的競賽數(shù)學(xué)內(nèi)容。其目標(biāo)是呈現(xiàn)全球數(shù)學(xué)界在數(shù)學(xué)視角與解題傳統(tǒng)上的完整多樣性，而非只聚焦于最具知名度的少數(shù)來源。

"每個國家都會帶來一本收錄其最新穎、最具創(chuàng)意題目的小冊子，"麻省理工學(xué)院博士生、該論文第一作者沙登·阿爾沙馬里說，"各代表團(tuán)相互交換，但從沒有人費(fèi)心去收集、整理并上傳到網(wǎng)上。"

構(gòu)建MathNet是一項(xiàng)艱巨的工程，研究團(tuán)隊(duì)追蹤收集了1595冊PDF文獻(xiàn)，總頁數(shù)超過25000頁，涵蓋數(shù)字文件與數(shù)十年前的掃描件，語言多達(dá)十余種。其中相當(dāng)大一部分資料來源于一個意想不到的地方：IMO社區(qū)的長期成員、論文共同作者納維德·薩法伊自2006年起便開始親手收集和掃描這些小冊子，其個人檔案構(gòu)成了該數(shù)據(jù)集的重要基礎(chǔ)。

數(shù)據(jù)來源與規(guī)模同樣重要。現(xiàn)有大多數(shù)數(shù)學(xué)數(shù)據(jù)集從"解題藝術(shù)"（AoPS）等社區(qū)論壇抓取題目，而MathNet則專門從官方國家競賽小冊子中取材。這些小冊子中的解答均由專家撰寫并經(jīng)過同行評審，篇幅往往長達(dá)數(shù)頁，作者會詳細(xì)闡述同一題目的多種解法。這種深度為AI模型學(xué)習(xí)數(shù)學(xué)推理提供了遠(yuǎn)比社區(qū)來源的簡短非正式解答豐富得多的訓(xùn)練信號。同時，該數(shù)據(jù)集對學(xué)生同樣具有切實(shí)價(jià)值：任何備戰(zhàn)IMO或國家級競賽的學(xué)生，現(xiàn)在都能通過一個集中平臺，獲取來自世界各地優(yōu)秀傳統(tǒng)的高質(zhì)量題目與完整解答。

"我記得很多學(xué)生完全靠個人努力備賽，所在國家沒有人專門訓(xùn)練他們參加這類競賽，"曾以學(xué)生身份參加IMO的阿爾沙馬里說，"我們希望這個平臺能給他們提供一個集中的學(xué)習(xí)資源，讓他們獲得高質(zhì)量的題目和解題方法。"

研究團(tuán)隊(duì)與IMO社區(qū)有著深厚淵源。共同作者蘇丹·阿爾巴拉卡提目前擔(dān)任IMO理事會成員，研究人員也正積極推動將該數(shù)據(jù)集直接與IMO基金會共享。為驗(yàn)證數(shù)據(jù)集的質(zhì)量，團(tuán)隊(duì)召集了來自亞美尼亞、俄羅斯、烏克蘭、越南、波蘭等國的逾30名人工評審員，協(xié)同核驗(yàn)了數(shù)千道題目的解答。

"MathNet數(shù)據(jù)庫有潛力成為學(xué)生和競賽領(lǐng)隊(duì)的優(yōu)質(zhì)資源，無論是尋找新題練習(xí)，還是查找難題解答，"瑞士IMO副領(lǐng)隊(duì)塔尼什·帕蒂爾說，"盡管其他奧林匹克題目檔案庫已經(jīng)存在（尤其是AoPS上的競賽題目合集），但這些資源缺乏統(tǒng)一的格式規(guī)范、經(jīng)過驗(yàn)證的解答以及重要的題目元數(shù)據(jù)。觀察這一數(shù)據(jù)集如何推動推理模型性能提升，以及是否能夠可靠地回答創(chuàng)作新競賽題目時的一個關(guān)鍵問題——如何判斷一道題目是否真正具有原創(chuàng)性——也將是一件十分有趣的事。"

MathNet同時作為評估AI表現(xiàn)的嚴(yán)格基準(zhǔn)，其測試結(jié)果揭示了一幅比近期關(guān)于AI數(shù)學(xué)能力的媒體報(bào)道更為復(fù)雜的圖景。前沿模型取得了非凡進(jìn)展：據(jù)報(bào)道，部分模型已在IMO上達(dá)到金牌水平，在標(biāo)準(zhǔn)基準(zhǔn)測試中也能解答大多數(shù)人類束手無策的難題。然而MathNet的測試表明，這種進(jìn)步并不均衡。即便是表現(xiàn)最好的GPT-5，在MathNet包含6400道題目的主基準(zhǔn)測試中平均得分也僅約為69.3%，意味著近三分之一的奧林匹克級題目仍無法解答。而當(dāng)題目涉及圖表時，所有模型的表現(xiàn)均大幅下滑，視覺推理能力的不足成為即便是最強(qiáng)大模型的共同短板。

多個開源模型在蒙古語題目上得分為零，進(jìn)一步暴露出當(dāng)前AI系統(tǒng)盡管整體能力不弱，卻在語言覆蓋方面存在明顯盲區(qū)。

"GPT系列模型在英語和其他語言上表現(xiàn)相當(dāng)，"阿爾沙馬里說，"但許多開源模型在蒙古語等小語種上完全失效。"

MathNet數(shù)據(jù)集的多樣性設(shè)計(jì)，也旨在應(yīng)對AI模型學(xué)習(xí)數(shù)學(xué)方式的一個更深層局限。當(dāng)訓(xùn)練數(shù)據(jù)過度集中于英語和中文題目時，模型吸收的只是數(shù)學(xué)文化的一個狹窄切片。一道羅馬尼亞組合數(shù)學(xué)題或巴西數(shù)論題，可能從截然不同的角度切入同一核心概念。研究人員認(rèn)為，接觸這種多樣性，能讓人類和AI系統(tǒng)都成為更出色的數(shù)學(xué)思考者。

除解題能力外，MathNet還引入了一項(xiàng)檢索基準(zhǔn)測試，考察模型能否識別兩道題目是否共享相同的底層數(shù)學(xué)結(jié)構(gòu)。這一能力對AI研發(fā)和數(shù)學(xué)競賽界本身都具有重要意義。歷史上，IMO正式考題中曾出現(xiàn)過近似重復(fù)的題目，這是因?yàn)榭缭讲煌栿w系、語言和表達(dá)形式識別數(shù)學(xué)等價(jià)性，即便對專家評審委員會而言也是一大難題。研究人員測試了八個當(dāng)前最先進(jìn)的嵌入模型，發(fā)現(xiàn)即便是性能最強(qiáng)的模型，在首次嘗試時正確匹配的成功率也僅約為5%，且模型頻繁將結(jié)構(gòu)無關(guān)的題目評定為比真正等價(jià)題目更相似。

該數(shù)據(jù)集還包含一項(xiàng)檢索增強(qiáng)生成基準(zhǔn)測試，考察在模型解答新題之前，先提供一道結(jié)構(gòu)相近的題目能否提升模型表現(xiàn)。結(jié)果顯示確實(shí)有效，但前提是檢索到的題目具有真正的相關(guān)性。DeepSeek-V3.2-Speciale在高質(zhì)量檢索匹配條件下，性能提升幅度最高達(dá)12個百分點(diǎn)；而在約22%的情況下，無關(guān)的檢索內(nèi)容反而導(dǎo)致性能下降。

阿爾沙馬里與薩法伊、HUMAIN AI工程師阿布拉爾·扎納爾、KAUST學(xué)院院長蘇丹·阿爾巴拉卡提，以及麻省理工學(xué)院CSAIL同事——碩士生凱文·溫、微軟首席工程經(jīng)理馬克·漢密爾頓，以及弗里曼教授和托拉爾巴教授——共同完成了這篇論文。該研究部分獲得施瓦茨曼計(jì)算學(xué)院獎學(xué)金和美國國家科學(xué)基金會資助。MathNet數(shù)據(jù)集已在mathnet.csail.mit.edu公開提供。

Q&A

Q1：MathNet數(shù)據(jù)集和其他數(shù)學(xué)競賽題庫相比有哪些優(yōu)勢？

A：MathNet是目前規(guī)模最大的奧林匹克級數(shù)學(xué)題庫，收錄超過3萬道題目，覆蓋47個國家、17種語言和143項(xiàng)競賽，是同類數(shù)據(jù)集次大者的五倍。與AoPS等社區(qū)來源的數(shù)據(jù)集不同，MathNet的題目和解答全部來自官方國家競賽小冊子，經(jīng)專家撰寫和同行評審，解答詳盡、格式規(guī)范，并包含重要的題目元數(shù)據(jù)，質(zhì)量更有保障。

Q2：當(dāng)前主流AI模型在MathNet基準(zhǔn)測試上的表現(xiàn)如何？

A：即便是表現(xiàn)最好的GPT-5，在MathNet的6400道主基準(zhǔn)題目中平均得分也僅約為69.3%，近三分之一的題目無法解答。當(dāng)題目涉及圖表時，所有模型表現(xiàn)均大幅下滑，視覺推理是普遍短板。多個開源模型在蒙古語等小語種題目上得分為零，說明AI模型在語言覆蓋方面仍存在明顯不足。

Q3：MathNet對備賽數(shù)學(xué)競賽的學(xué)生有什么幫助？

A：MathNet為全球備戰(zhàn)IMO或國家級數(shù)學(xué)競賽的學(xué)生提供了一個集中、可檢索的高質(zhì)量題庫，收錄來自世界各地不同競賽傳統(tǒng)的題目與完整解答。過去這些官方競賽小冊子從未被系統(tǒng)整理并公開，學(xué)生很難獲取。現(xiàn)在任何人都可以通過mathnet.csail.mit.edu免費(fèi)訪問，極大降低了自學(xué)備賽的門檻。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.