<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      MIT科學(xué)家構(gòu)建全球最大奧林匹克級數(shù)學(xué)題庫,向全球免費(fèi)開放

      0
      分享至


      每年,參加國際數(shù)學(xué)奧林匹克競賽(IMO)的各國代表團(tuán)都會帶來一本收錄了本國最優(yōu)秀、最具原創(chuàng)性題目的小冊子。這些小冊子在各代表團(tuán)之間傳閱后便悄然消失。多年來,從未有人系統(tǒng)地收集、整理這些資料并公開發(fā)布——無論是對于測試數(shù)學(xué)推理極限的AI研究人員,還是對于世界各地大多只能依靠自學(xué)備賽的學(xué)生來說,這都是一大缺憾。

      如今,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)、阿卜杜拉國王科技大學(xué)(KAUST)以及HUMAIN公司的研究人員,共同完成了這項(xiàng)工作。

      MathNet是迄今為止規(guī)模最大的高質(zhì)量證明類數(shù)學(xué)題庫,收錄了來自47個國家、覆蓋17種語言、涵蓋143項(xiàng)競賽的逾3萬道由專家撰寫的題目與解答,規(guī)模是同類數(shù)據(jù)集中次大者的五倍。相關(guān)研究成果將于本月底在巴西舉辦的國際學(xué)習(xí)表征會議(ICLR)上正式發(fā)表。

      MathNet的獨(dú)特之處不僅在于其規(guī)模,更在于其廣度。以往的奧林匹克級數(shù)據(jù)集幾乎清一色來源于美國和中國的競賽題目。而MathNet橫跨六大洲數(shù)十個國家,涵蓋17種語言,包含文字與圖像兩類題目及解答,并收錄了長達(dá)四十年的競賽數(shù)學(xué)內(nèi)容。其目標(biāo)是呈現(xiàn)全球數(shù)學(xué)界在數(shù)學(xué)視角與解題傳統(tǒng)上的完整多樣性,而非只聚焦于最具知名度的少數(shù)來源。

      "每個國家都會帶來一本收錄其最新穎、最具創(chuàng)意題目的小冊子,"麻省理工學(xué)院博士生、該論文第一作者沙登·阿爾沙馬里說,"各代表團(tuán)相互交換,但從沒有人費(fèi)心去收集、整理并上傳到網(wǎng)上。"

      構(gòu)建MathNet是一項(xiàng)艱巨的工程,研究團(tuán)隊(duì)追蹤收集了1595冊PDF文獻(xiàn),總頁數(shù)超過25000頁,涵蓋數(shù)字文件與數(shù)十年前的掃描件,語言多達(dá)十余種。其中相當(dāng)大一部分資料來源于一個意想不到的地方:IMO社區(qū)的長期成員、論文共同作者納維德·薩法伊自2006年起便開始親手收集和掃描這些小冊子,其個人檔案構(gòu)成了該數(shù)據(jù)集的重要基礎(chǔ)。

      數(shù)據(jù)來源與規(guī)模同樣重要。現(xiàn)有大多數(shù)數(shù)學(xué)數(shù)據(jù)集從"解題藝術(shù)"(AoPS)等社區(qū)論壇抓取題目,而MathNet則專門從官方國家競賽小冊子中取材。這些小冊子中的解答均由專家撰寫并經(jīng)過同行評審,篇幅往往長達(dá)數(shù)頁,作者會詳細(xì)闡述同一題目的多種解法。這種深度為AI模型學(xué)習(xí)數(shù)學(xué)推理提供了遠(yuǎn)比社區(qū)來源的簡短非正式解答豐富得多的訓(xùn)練信號。同時,該數(shù)據(jù)集對學(xué)生同樣具有切實(shí)價(jià)值:任何備戰(zhàn)IMO或國家級競賽的學(xué)生,現(xiàn)在都能通過一個集中平臺,獲取來自世界各地優(yōu)秀傳統(tǒng)的高質(zhì)量題目與完整解答。

      "我記得很多學(xué)生完全靠個人努力備賽,所在國家沒有人專門訓(xùn)練他們參加這類競賽,"曾以學(xué)生身份參加IMO的阿爾沙馬里說,"我們希望這個平臺能給他們提供一個集中的學(xué)習(xí)資源,讓他們獲得高質(zhì)量的題目和解題方法。"

      研究團(tuán)隊(duì)與IMO社區(qū)有著深厚淵源。共同作者蘇丹·阿爾巴拉卡提目前擔(dān)任IMO理事會成員,研究人員也正積極推動將該數(shù)據(jù)集直接與IMO基金會共享。為驗(yàn)證數(shù)據(jù)集的質(zhì)量,團(tuán)隊(duì)召集了來自亞美尼亞、俄羅斯、烏克蘭、越南、波蘭等國的逾30名人工評審員,協(xié)同核驗(yàn)了數(shù)千道題目的解答。

      "MathNet數(shù)據(jù)庫有潛力成為學(xué)生和競賽領(lǐng)隊(duì)的優(yōu)質(zhì)資源,無論是尋找新題練習(xí),還是查找難題解答,"瑞士IMO副領(lǐng)隊(duì)塔尼什·帕蒂爾說,"盡管其他奧林匹克題目檔案庫已經(jīng)存在(尤其是AoPS上的競賽題目合集),但這些資源缺乏統(tǒng)一的格式規(guī)范、經(jīng)過驗(yàn)證的解答以及重要的題目元數(shù)據(jù)。觀察這一數(shù)據(jù)集如何推動推理模型性能提升,以及是否能夠可靠地回答創(chuàng)作新競賽題目時的一個關(guān)鍵問題——如何判斷一道題目是否真正具有原創(chuàng)性——也將是一件十分有趣的事。"

      MathNet同時作為評估AI表現(xiàn)的嚴(yán)格基準(zhǔn),其測試結(jié)果揭示了一幅比近期關(guān)于AI數(shù)學(xué)能力的媒體報(bào)道更為復(fù)雜的圖景。前沿模型取得了非凡進(jìn)展:據(jù)報(bào)道,部分模型已在IMO上達(dá)到金牌水平,在標(biāo)準(zhǔn)基準(zhǔn)測試中也能解答大多數(shù)人類束手無策的難題。然而MathNet的測試表明,這種進(jìn)步并不均衡。即便是表現(xiàn)最好的GPT-5,在MathNet包含6400道題目的主基準(zhǔn)測試中平均得分也僅約為69.3%,意味著近三分之一的奧林匹克級題目仍無法解答。而當(dāng)題目涉及圖表時,所有模型的表現(xiàn)均大幅下滑,視覺推理能力的不足成為即便是最強(qiáng)大模型的共同短板。

      多個開源模型在蒙古語題目上得分為零,進(jìn)一步暴露出當(dāng)前AI系統(tǒng)盡管整體能力不弱,卻在語言覆蓋方面存在明顯盲區(qū)。

      "GPT系列模型在英語和其他語言上表現(xiàn)相當(dāng),"阿爾沙馬里說,"但許多開源模型在蒙古語等小語種上完全失效。"

      MathNet數(shù)據(jù)集的多樣性設(shè)計(jì),也旨在應(yīng)對AI模型學(xué)習(xí)數(shù)學(xué)方式的一個更深層局限。當(dāng)訓(xùn)練數(shù)據(jù)過度集中于英語和中文題目時,模型吸收的只是數(shù)學(xué)文化的一個狹窄切片。一道羅馬尼亞組合數(shù)學(xué)題或巴西數(shù)論題,可能從截然不同的角度切入同一核心概念。研究人員認(rèn)為,接觸這種多樣性,能讓人類和AI系統(tǒng)都成為更出色的數(shù)學(xué)思考者。

      除解題能力外,MathNet還引入了一項(xiàng)檢索基準(zhǔn)測試,考察模型能否識別兩道題目是否共享相同的底層數(shù)學(xué)結(jié)構(gòu)。這一能力對AI研發(fā)和數(shù)學(xué)競賽界本身都具有重要意義。歷史上,IMO正式考題中曾出現(xiàn)過近似重復(fù)的題目,這是因?yàn)榭缭讲煌栿w系、語言和表達(dá)形式識別數(shù)學(xué)等價(jià)性,即便對專家評審委員會而言也是一大難題。研究人員測試了八個當(dāng)前最先進(jìn)的嵌入模型,發(fā)現(xiàn)即便是性能最強(qiáng)的模型,在首次嘗試時正確匹配的成功率也僅約為5%,且模型頻繁將結(jié)構(gòu)無關(guān)的題目評定為比真正等價(jià)題目更相似。

      該數(shù)據(jù)集還包含一項(xiàng)檢索增強(qiáng)生成基準(zhǔn)測試,考察在模型解答新題之前,先提供一道結(jié)構(gòu)相近的題目能否提升模型表現(xiàn)。結(jié)果顯示確實(shí)有效,但前提是檢索到的題目具有真正的相關(guān)性。DeepSeek-V3.2-Speciale在高質(zhì)量檢索匹配條件下,性能提升幅度最高達(dá)12個百分點(diǎn);而在約22%的情況下,無關(guān)的檢索內(nèi)容反而導(dǎo)致性能下降。

      阿爾沙馬里與薩法伊、HUMAIN AI工程師阿布拉爾·扎納爾、KAUST學(xué)院院長蘇丹·阿爾巴拉卡提,以及麻省理工學(xué)院CSAIL同事——碩士生凱文·溫、微軟首席工程經(jīng)理馬克·漢密爾頓,以及弗里曼教授和托拉爾巴教授——共同完成了這篇論文。該研究部分獲得施瓦茨曼計(jì)算學(xué)院獎學(xué)金和美國國家科學(xué)基金會資助。MathNet數(shù)據(jù)集已在mathnet.csail.mit.edu公開提供。

      Q&A

      Q1:MathNet數(shù)據(jù)集和其他數(shù)學(xué)競賽題庫相比有哪些優(yōu)勢?

      A:MathNet是目前規(guī)模最大的奧林匹克級數(shù)學(xué)題庫,收錄超過3萬道題目,覆蓋47個國家、17種語言和143項(xiàng)競賽,是同類數(shù)據(jù)集次大者的五倍。與AoPS等社區(qū)來源的數(shù)據(jù)集不同,MathNet的題目和解答全部來自官方國家競賽小冊子,經(jīng)專家撰寫和同行評審,解答詳盡、格式規(guī)范,并包含重要的題目元數(shù)據(jù),質(zhì)量更有保障。

      Q2:當(dāng)前主流AI模型在MathNet基準(zhǔn)測試上的表現(xiàn)如何?

      A:即便是表現(xiàn)最好的GPT-5,在MathNet的6400道主基準(zhǔn)題目中平均得分也僅約為69.3%,近三分之一的題目無法解答。當(dāng)題目涉及圖表時,所有模型表現(xiàn)均大幅下滑,視覺推理是普遍短板。多個開源模型在蒙古語等小語種題目上得分為零,說明AI模型在語言覆蓋方面仍存在明顯不足。

      Q3:MathNet對備賽數(shù)學(xué)競賽的學(xué)生有什么幫助?

      A:MathNet為全球備戰(zhàn)IMO或國家級數(shù)學(xué)競賽的學(xué)生提供了一個集中、可檢索的高質(zhì)量題庫,收錄來自世界各地不同競賽傳統(tǒng)的題目與完整解答。過去這些官方競賽小冊子從未被系統(tǒng)整理并公開,學(xué)生很難獲取。現(xiàn)在任何人都可以通過mathnet.csail.mit.edu免費(fèi)訪問,極大降低了自學(xué)備賽的門檻。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      19歲男孩喝百草枯苦熬18天,逼在外打工母親回家,母親:你放心去

      19歲男孩喝百草枯苦熬18天,逼在外打工母親回家,母親:你放心去

      哄動一時啊
      2026-03-15 11:29:43
      3-1!貝恩22+5魔術(shù)滅活塞奪賽點(diǎn),瓦格納19+5坎寧安25+9+6

      3-1!貝恩22+5魔術(shù)滅活塞奪賽點(diǎn),瓦格納19+5坎寧安25+9+6

      湖人崛起
      2026-04-28 10:57:21
      67艘驅(qū)逐艦,52艘護(hù)衛(wèi)艦,6304部垂發(fā),亞洲最強(qiáng)海軍浮出水面!

      67艘驅(qū)逐艦,52艘護(hù)衛(wèi)艦,6304部垂發(fā),亞洲最強(qiáng)海軍浮出水面!

      鋒芒點(diǎn)兵
      2026-04-26 13:44:00
      35歲女子去做私處緊縮,縫針斷在肉里,醫(yī)生徒手掏了半小時沒找著

      35歲女子去做私處緊縮,縫針斷在肉里,醫(yī)生徒手掏了半小時沒找著

      離離言幾許
      2026-04-21 19:53:18
      美國現(xiàn)任防長曾談中美開戰(zhàn):11艘航母打擊中國,20分鐘后1艘不剩

      美國現(xiàn)任防長曾談中美開戰(zhàn):11艘航母打擊中國,20分鐘后1艘不剩

      蜉蝣說
      2026-04-28 11:14:47
      上海地鐵互毆后續(xù):央媒發(fā)聲定調(diào),女子工作恐不保,知情人曝更多

      上海地鐵互毆后續(xù):央媒發(fā)聲定調(diào),女子工作恐不保,知情人曝更多

      以茶帶書
      2026-04-27 19:23:12
      歷史上最被低估的一場起義,走出6位稱霸一方梟雄,影響中國400年

      歷史上最被低估的一場起義,走出6位稱霸一方梟雄,影響中國400年

      文史道
      2026-04-28 12:04:47
      公安部回應(yīng),紅綠燈7月1日起全國取消?不要再被帶偏了!

      公安部回應(yīng),紅綠燈7月1日起全國取消?不要再被帶偏了!

      牛鍋巴小釩
      2026-04-28 11:36:03
      哈佛教授揭開7個健康謊言:你越努力鍛煉,可能越走在錯誤的路上

      哈佛教授揭開7個健康謊言:你越努力鍛煉,可能越走在錯誤的路上

      真相Truth
      2026-04-26 21:51:51
      美空襲伊朗關(guān)鍵基地突發(fā)火災(zāi)

      美空襲伊朗關(guān)鍵基地突發(fā)火災(zāi)

      環(huán)球時報(bào)國際
      2026-04-28 14:08:41
      今天我們講現(xiàn)代社會中最畸形的制度——勞務(wù)派遣。

      今天我們講現(xiàn)代社會中最畸形的制度——勞務(wù)派遣。

      流蘇晚晴
      2026-04-21 20:48:42
      伊朗動蕩:軍閥割據(jù)的前兆出現(xiàn)

      伊朗動蕩:軍閥割據(jù)的前兆出現(xiàn)

      高博新視野
      2026-04-26 07:30:11
      最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      撒貝寧獲全國五一勞動獎?wù)?>
    </a>
        <h3>
      <a href=閃電新聞
      2026-04-28 16:25:55
      附加賽故意輸球挑對手!沒想到還真賭對了,有望黑八,藝高人膽大

      附加賽故意輸球挑對手!沒想到還真賭對了,有望黑八,藝高人膽大

      你的籃球頻道
      2026-04-28 12:08:15
      還沒開賽先起火!王楚欽不哭,孫穎莎挺住!當(dāng)隊(duì)友拿起“學(xué)術(shù)手術(shù)刀”,國乒的體面誰來守護(hù)?

      還沒開賽先起火!王楚欽不哭,孫穎莎挺住!當(dāng)隊(duì)友拿起“學(xué)術(shù)手術(shù)刀”,國乒的體面誰來守護(hù)?

      最愛乒乓球
      2026-04-28 00:03:59
      轟的一聲!國防部長被炸身亡,俄外交雪上加霜,普京沉默了

      轟的一聲!國防部長被炸身亡,俄外交雪上加霜,普京沉默了

      音樂時光的娛樂
      2026-04-28 12:03:52
      哈登季后賽第一!這數(shù)據(jù)沒人敢信啊!!

      哈登季后賽第一!這數(shù)據(jù)沒人敢信啊!!

      柚子說球
      2026-04-28 21:26:41
      最高可判死刑!奧巴馬結(jié)局已定?美國司法部介入,特朗普準(zhǔn)備收網(wǎng)

      最高可判死刑!奧巴馬結(jié)局已定?美國司法部介入,特朗普準(zhǔn)備收網(wǎng)

      書紀(jì)文譚
      2026-04-27 19:15:34
      原來紅脖子真是紅脖子呀,我還以為是個形容詞

      原來紅脖子真是紅脖子呀,我還以為是個形容詞

      喜歡歷史的阿繁
      2026-04-28 13:54:56
      2026-04-28 21:55:00
      至頂頭條 incentive-icons
      至頂頭條
      記錄和推動數(shù)字化創(chuàng)新
      18066文章數(shù) 49700關(guān)注度
      往期回顧 全部

      科技要聞

      10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

      頭條要聞

      女子花4080元買演唱會門票 想退退不了票還被他人用了

      頭條要聞

      女子花4080元買演唱會門票 想退退不了票還被他人用了

      體育要聞

      季后賽最新局勢:雷霆4-0晉級首隊(duì) 4隊(duì)3-1

      娛樂要聞

      蔡卓妍官宣結(jié)婚,老公比她小10歲

      財(cái)經(jīng)要聞

      中央政治局會議定調(diào),八大看點(diǎn)速覽!

      汽車要聞

      拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

      態(tài)度原創(chuàng)

      親子
      游戲
      旅游
      健康
      房產(chǎn)

      親子要聞

      拍了幾年的急救視頻,模特小朋友長大了!拍到異物卡喉氣道梗阻的急救方法更新了,氣道完全梗阻五次拍背+五...

      不被定義的“猛攻”,不被設(shè)限的狂歡

      旅游要聞

      河北豐南:春日采摘正當(dāng)時 農(nóng)旅融合“果”香濃

      干細(xì)胞治療燒燙傷三大優(yōu)勢!

      房產(chǎn)要聞

      紅利爆發(fā)!海南,沖到全國人口增量第4省!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 起碰免费公开97在线视频| 美女91美女视频网站| 精品国产中文字幕av| 熟妇无码熟妇毛片| 亚洲Va中文字幕久久无码一区| 精品无码专区毛片| 南部县| 久久精品女人天堂av| 日韩AV导航| 四虎Av| 国产一区二区三区色噜噜| 久久精品国产亚洲AV麻豆网站| 91色色网| 贵南县| 久久66热人妻偷产精品| 亚洲色情在线播放| 亚洲色鬼| 亚洲综合91社区精品福利| 夜夜爽夜夜叫夜夜高潮漏水| 一区二区三区放荡人妻| 欧美国产日产一区二区| 丝袜天堂| 日本五区在线不卡精品| 漂亮人妻被黑人久久精品| 国产成人A片| 特黄大片又粗又大又暴| 夜夜夜夜撸| 无码福利一区二区三区| 欧美3p视频在线观看| 欧美目本| 99亚洲精品| 无码精品久久一区二区三区| 伊人久久大香线蕉av色婷婷色 | 色亚洲日韩| 口爆少妇在线视频免费观看| 人人妻久久人人澡人人爽人人精品| 国产成人一区二区三区在线| 国产精品你懂得| 最近免费中文字幕mv在线视频3| 国品精品一区二区在线观看| 国产成人久久|