![]()
每年,參加國際數(shù)學(xué)奧林匹克競賽(IMO)的各國代表團(tuán)都會帶來一本收錄了本國最優(yōu)秀、最具原創(chuàng)性題目的小冊子。這些小冊子在各代表團(tuán)之間傳閱后便悄然消失。多年來,從未有人系統(tǒng)地收集、整理這些資料并公開發(fā)布——無論是對于測試數(shù)學(xué)推理極限的AI研究人員,還是對于世界各地大多只能依靠自學(xué)備賽的學(xué)生來說,這都是一大缺憾。
如今,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)、阿卜杜拉國王科技大學(xué)(KAUST)以及HUMAIN公司的研究人員,共同完成了這項(xiàng)工作。
MathNet是迄今為止規(guī)模最大的高質(zhì)量證明類數(shù)學(xué)題庫,收錄了來自47個國家、覆蓋17種語言、涵蓋143項(xiàng)競賽的逾3萬道由專家撰寫的題目與解答,規(guī)模是同類數(shù)據(jù)集中次大者的五倍。相關(guān)研究成果將于本月底在巴西舉辦的國際學(xué)習(xí)表征會議(ICLR)上正式發(fā)表。
MathNet的獨(dú)特之處不僅在于其規(guī)模,更在于其廣度。以往的奧林匹克級數(shù)據(jù)集幾乎清一色來源于美國和中國的競賽題目。而MathNet橫跨六大洲數(shù)十個國家,涵蓋17種語言,包含文字與圖像兩類題目及解答,并收錄了長達(dá)四十年的競賽數(shù)學(xué)內(nèi)容。其目標(biāo)是呈現(xiàn)全球數(shù)學(xué)界在數(shù)學(xué)視角與解題傳統(tǒng)上的完整多樣性,而非只聚焦于最具知名度的少數(shù)來源。
"每個國家都會帶來一本收錄其最新穎、最具創(chuàng)意題目的小冊子,"麻省理工學(xué)院博士生、該論文第一作者沙登·阿爾沙馬里說,"各代表團(tuán)相互交換,但從沒有人費(fèi)心去收集、整理并上傳到網(wǎng)上。"
構(gòu)建MathNet是一項(xiàng)艱巨的工程,研究團(tuán)隊(duì)追蹤收集了1595冊PDF文獻(xiàn),總頁數(shù)超過25000頁,涵蓋數(shù)字文件與數(shù)十年前的掃描件,語言多達(dá)十余種。其中相當(dāng)大一部分資料來源于一個意想不到的地方:IMO社區(qū)的長期成員、論文共同作者納維德·薩法伊自2006年起便開始親手收集和掃描這些小冊子,其個人檔案構(gòu)成了該數(shù)據(jù)集的重要基礎(chǔ)。
數(shù)據(jù)來源與規(guī)模同樣重要。現(xiàn)有大多數(shù)數(shù)學(xué)數(shù)據(jù)集從"解題藝術(shù)"(AoPS)等社區(qū)論壇抓取題目,而MathNet則專門從官方國家競賽小冊子中取材。這些小冊子中的解答均由專家撰寫并經(jīng)過同行評審,篇幅往往長達(dá)數(shù)頁,作者會詳細(xì)闡述同一題目的多種解法。這種深度為AI模型學(xué)習(xí)數(shù)學(xué)推理提供了遠(yuǎn)比社區(qū)來源的簡短非正式解答豐富得多的訓(xùn)練信號。同時,該數(shù)據(jù)集對學(xué)生同樣具有切實(shí)價(jià)值:任何備戰(zhàn)IMO或國家級競賽的學(xué)生,現(xiàn)在都能通過一個集中平臺,獲取來自世界各地優(yōu)秀傳統(tǒng)的高質(zhì)量題目與完整解答。
"我記得很多學(xué)生完全靠個人努力備賽,所在國家沒有人專門訓(xùn)練他們參加這類競賽,"曾以學(xué)生身份參加IMO的阿爾沙馬里說,"我們希望這個平臺能給他們提供一個集中的學(xué)習(xí)資源,讓他們獲得高質(zhì)量的題目和解題方法。"
研究團(tuán)隊(duì)與IMO社區(qū)有著深厚淵源。共同作者蘇丹·阿爾巴拉卡提目前擔(dān)任IMO理事會成員,研究人員也正積極推動將該數(shù)據(jù)集直接與IMO基金會共享。為驗(yàn)證數(shù)據(jù)集的質(zhì)量,團(tuán)隊(duì)召集了來自亞美尼亞、俄羅斯、烏克蘭、越南、波蘭等國的逾30名人工評審員,協(xié)同核驗(yàn)了數(shù)千道題目的解答。
"MathNet數(shù)據(jù)庫有潛力成為學(xué)生和競賽領(lǐng)隊(duì)的優(yōu)質(zhì)資源,無論是尋找新題練習(xí),還是查找難題解答,"瑞士IMO副領(lǐng)隊(duì)塔尼什·帕蒂爾說,"盡管其他奧林匹克題目檔案庫已經(jīng)存在(尤其是AoPS上的競賽題目合集),但這些資源缺乏統(tǒng)一的格式規(guī)范、經(jīng)過驗(yàn)證的解答以及重要的題目元數(shù)據(jù)。觀察這一數(shù)據(jù)集如何推動推理模型性能提升,以及是否能夠可靠地回答創(chuàng)作新競賽題目時的一個關(guān)鍵問題——如何判斷一道題目是否真正具有原創(chuàng)性——也將是一件十分有趣的事。"
MathNet同時作為評估AI表現(xiàn)的嚴(yán)格基準(zhǔn),其測試結(jié)果揭示了一幅比近期關(guān)于AI數(shù)學(xué)能力的媒體報(bào)道更為復(fù)雜的圖景。前沿模型取得了非凡進(jìn)展:據(jù)報(bào)道,部分模型已在IMO上達(dá)到金牌水平,在標(biāo)準(zhǔn)基準(zhǔn)測試中也能解答大多數(shù)人類束手無策的難題。然而MathNet的測試表明,這種進(jìn)步并不均衡。即便是表現(xiàn)最好的GPT-5,在MathNet包含6400道題目的主基準(zhǔn)測試中平均得分也僅約為69.3%,意味著近三分之一的奧林匹克級題目仍無法解答。而當(dāng)題目涉及圖表時,所有模型的表現(xiàn)均大幅下滑,視覺推理能力的不足成為即便是最強(qiáng)大模型的共同短板。
多個開源模型在蒙古語題目上得分為零,進(jìn)一步暴露出當(dāng)前AI系統(tǒng)盡管整體能力不弱,卻在語言覆蓋方面存在明顯盲區(qū)。
"GPT系列模型在英語和其他語言上表現(xiàn)相當(dāng),"阿爾沙馬里說,"但許多開源模型在蒙古語等小語種上完全失效。"
MathNet數(shù)據(jù)集的多樣性設(shè)計(jì),也旨在應(yīng)對AI模型學(xué)習(xí)數(shù)學(xué)方式的一個更深層局限。當(dāng)訓(xùn)練數(shù)據(jù)過度集中于英語和中文題目時,模型吸收的只是數(shù)學(xué)文化的一個狹窄切片。一道羅馬尼亞組合數(shù)學(xué)題或巴西數(shù)論題,可能從截然不同的角度切入同一核心概念。研究人員認(rèn)為,接觸這種多樣性,能讓人類和AI系統(tǒng)都成為更出色的數(shù)學(xué)思考者。
除解題能力外,MathNet還引入了一項(xiàng)檢索基準(zhǔn)測試,考察模型能否識別兩道題目是否共享相同的底層數(shù)學(xué)結(jié)構(gòu)。這一能力對AI研發(fā)和數(shù)學(xué)競賽界本身都具有重要意義。歷史上,IMO正式考題中曾出現(xiàn)過近似重復(fù)的題目,這是因?yàn)榭缭讲煌栿w系、語言和表達(dá)形式識別數(shù)學(xué)等價(jià)性,即便對專家評審委員會而言也是一大難題。研究人員測試了八個當(dāng)前最先進(jìn)的嵌入模型,發(fā)現(xiàn)即便是性能最強(qiáng)的模型,在首次嘗試時正確匹配的成功率也僅約為5%,且模型頻繁將結(jié)構(gòu)無關(guān)的題目評定為比真正等價(jià)題目更相似。
該數(shù)據(jù)集還包含一項(xiàng)檢索增強(qiáng)生成基準(zhǔn)測試,考察在模型解答新題之前,先提供一道結(jié)構(gòu)相近的題目能否提升模型表現(xiàn)。結(jié)果顯示確實(shí)有效,但前提是檢索到的題目具有真正的相關(guān)性。DeepSeek-V3.2-Speciale在高質(zhì)量檢索匹配條件下,性能提升幅度最高達(dá)12個百分點(diǎn);而在約22%的情況下,無關(guān)的檢索內(nèi)容反而導(dǎo)致性能下降。
阿爾沙馬里與薩法伊、HUMAIN AI工程師阿布拉爾·扎納爾、KAUST學(xué)院院長蘇丹·阿爾巴拉卡提,以及麻省理工學(xué)院CSAIL同事——碩士生凱文·溫、微軟首席工程經(jīng)理馬克·漢密爾頓,以及弗里曼教授和托拉爾巴教授——共同完成了這篇論文。該研究部分獲得施瓦茨曼計(jì)算學(xué)院獎學(xué)金和美國國家科學(xué)基金會資助。MathNet數(shù)據(jù)集已在mathnet.csail.mit.edu公開提供。
Q&A
Q1:MathNet數(shù)據(jù)集和其他數(shù)學(xué)競賽題庫相比有哪些優(yōu)勢?
A:MathNet是目前規(guī)模最大的奧林匹克級數(shù)學(xué)題庫,收錄超過3萬道題目,覆蓋47個國家、17種語言和143項(xiàng)競賽,是同類數(shù)據(jù)集次大者的五倍。與AoPS等社區(qū)來源的數(shù)據(jù)集不同,MathNet的題目和解答全部來自官方國家競賽小冊子,經(jīng)專家撰寫和同行評審,解答詳盡、格式規(guī)范,并包含重要的題目元數(shù)據(jù),質(zhì)量更有保障。
Q2:當(dāng)前主流AI模型在MathNet基準(zhǔn)測試上的表現(xiàn)如何?
A:即便是表現(xiàn)最好的GPT-5,在MathNet的6400道主基準(zhǔn)題目中平均得分也僅約為69.3%,近三分之一的題目無法解答。當(dāng)題目涉及圖表時,所有模型表現(xiàn)均大幅下滑,視覺推理是普遍短板。多個開源模型在蒙古語等小語種題目上得分為零,說明AI模型在語言覆蓋方面仍存在明顯不足。
Q3:MathNet對備賽數(shù)學(xué)競賽的學(xué)生有什么幫助?
A:MathNet為全球備戰(zhàn)IMO或國家級數(shù)學(xué)競賽的學(xué)生提供了一個集中、可檢索的高質(zhì)量題庫,收錄來自世界各地不同競賽傳統(tǒng)的題目與完整解答。過去這些官方競賽小冊子從未被系統(tǒng)整理并公開,學(xué)生很難獲取。現(xiàn)在任何人都可以通過mathnet.csail.mit.edu免費(fèi)訪問,極大降低了自學(xué)備賽的門檻。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.