<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      在未受污染的數(shù)學(xué)競賽中評(píng)估大語言模型

      0
      分享至

      MathArena:在未受污染的數(shù)學(xué)競賽中評(píng)估大語言模型

      MathArena: Evaluating LLMs on Uncontaminated Math Competitions

      https://arxiv.org/pdf/2505.23281



      摘要

      大語言模型(LLMs)推理能力的快速進(jìn)步使其在數(shù)學(xué)基準(zhǔn)測試中取得了顯著提升。然而,許多最常用的評(píng)估數(shù)據(jù)集(例如 AIME 2024)在網(wǎng)上廣泛公開,使得難以區(qū)分模型的真實(shí)推理能力與潛在的記憶化行為。此外,這些基準(zhǔn)并未評(píng)估證明書寫能力——而這對(duì)許多數(shù)學(xué)任務(wù)至關(guān)重要。為解決這一問題,我們提出 MATHARENA,一個(gè)基于以下關(guān)鍵洞察的新基準(zhǔn):周期性舉辦的數(shù)學(xué)競賽提供了一連串高質(zhì)量、高難度的問題,可用于對(duì) LLM 進(jìn)行實(shí)時(shí)評(píng)估。通過在新題目發(fā)布后立即對(duì)模型進(jìn)行評(píng)估,我們有效消除了數(shù)據(jù)污染的風(fēng)險(xiǎn)。利用該框架,我們發(fā)現(xiàn) AIME 2024 存在明顯的污染跡象。盡管如此,在更難的競賽(如 CMIMC 2025)上的評(píng)估表明,頂尖模型展現(xiàn)出令人印象深刻的推理能力。MATHARENA 也是首個(gè)評(píng)估證明書寫能力的基準(zhǔn)。在 IMO 2025 上,頂尖模型的得分略低于 40%,既顯示出顯著進(jìn)展,也表明仍有巨大提升空間。迄今為止,我們已在七項(xiàng)競賽中評(píng)估了超過 50 個(gè)模型,共計(jì) 162 道題目。作為一個(gè)持續(xù)演進(jìn)的基準(zhǔn),MATHARENA 將繼續(xù)追蹤 LLM 在新發(fā)布競賽中的表現(xiàn),確保對(duì)數(shù)學(xué)推理能力進(jìn)行嚴(yán)格且及時(shí)的評(píng)估。

      1 引言

      近期大語言模型(LLMs)在數(shù)學(xué)推理能力方面的進(jìn)展 [20, 7] 引發(fā)了對(duì)現(xiàn)有數(shù)學(xué)基準(zhǔn)充分性的以下三個(gè)擔(dān)憂:

      1. 污染風(fēng)險(xiǎn):許多基準(zhǔn)源自公開可用的數(shù)學(xué)競賽,這些題目在網(wǎng)上廣泛傳播,常被用于訓(xùn)練 LLM,因此容易受到數(shù)據(jù)污染,難以準(zhǔn)確衡量進(jìn)展。數(shù)據(jù)污染可能源于基準(zhǔn)題目間接包含在訓(xùn)練數(shù)據(jù)中,或通過使用基準(zhǔn)性能進(jìn)行超參數(shù)調(diào)優(yōu)或模型選擇。例如,我們發(fā)現(xiàn)流行的 AIME 2024 數(shù)據(jù)集已被大多數(shù)主流 LLM 顯著污染,使其不再適合作為評(píng)估模型能力的基準(zhǔn)。
      2. 高成本、私有基準(zhǔn):為緩解污染問題,一些領(lǐng)先基準(zhǔn)(如 FrontierMath [15] 和 HLE [29])采用了私有、人工策劃的方法。雖然這種方法能有效避免數(shù)據(jù)泄露,但也帶來若干重大問題。首先,其私有性質(zhì)引發(fā)了可復(fù)現(xiàn)性與透明度方面的擔(dān)憂,使得無法準(zhǔn)確驗(yàn)證結(jié)果。

      此外,基準(zhǔn)創(chuàng)建者可能選擇性地向某些機(jī)構(gòu)授予訪問權(quán)限 [10],造成不公平的競爭環(huán)境。最后,開發(fā)此類數(shù)據(jù)集的高昂成本令人望而卻步。例如,HLE 為激勵(lì)貢獻(xiàn)設(shè)立了 50 萬美元的獎(jiǎng)金池。

      1. 側(cè)重最終答案:大多數(shù)現(xiàn)有基準(zhǔn)(包括 HLE 和 FrontierMath)主要評(píng)估具有單一最終答案的問題。這可能產(chǎn)生誤導(dǎo),因?yàn)槟P涂赡芡ㄟ^模式識(shí)別或暴力枚舉得到正確答案,而非依靠真正的數(shù)學(xué)推理。這類基準(zhǔn)無法充分反映數(shù)學(xué)奧林匹克競賽中問題所需的深度與嚴(yán)謹(jǐn)性——后者通常要求詳細(xì)的證明和多步驟邏輯。此外,LLM 在數(shù)學(xué)中的大多數(shù)實(shí)際應(yīng)用場景涉及生成證明或解釋,而不僅僅是提供最終答案。

      MATHARENA:面向數(shù)學(xué)推理的新基準(zhǔn)
      我們提出 MATHARENA——一個(gè)動(dòng)態(tài)、公開可用的基準(zhǔn),通過在新發(fā)布的數(shù)學(xué)競賽上進(jìn)行評(píng)估來解決上述局限(見圖 1)。我們的核心洞察是:周期性舉辦的數(shù)學(xué)競賽提供了豐富且高質(zhì)量、未受污染的問題來源。這些問題由競賽組織方預(yù)先審核其原創(chuàng)性,確保此前未出現(xiàn)過類似題目,從而降低污染風(fēng)險(xiǎn)。通過在模型發(fā)布之后舉行的競賽上評(píng)估模型,MATHARENA 消除了數(shù)據(jù)污染的可能性,并提供了一種清晰、前瞻性的進(jìn)展度量方式。此外,所包含的部分競賽(如 IMO 2025)包含其他基準(zhǔn)所缺乏的證明類題目。與私有或靜態(tài)基準(zhǔn)不同,MATHARENA 完全透明、可復(fù)現(xiàn),并在全年隨著新題目的發(fā)布持續(xù)更新。這使其能夠不斷適應(yīng)數(shù)學(xué)推理能力評(píng)估的演進(jìn)格局,確保所含競賽始終保持相關(guān)性和挑戰(zhàn)性。


      我們實(shí)現(xiàn)了完整的 MATHARENA 流水線,用于解析、求解和驗(yàn)證問題解答,并將代碼、數(shù)據(jù)和模型響應(yīng)以開源形式發(fā)布。

      迄今為止,我們已在七項(xiàng)競賽中評(píng)估了超過 50 個(gè)模型,共計(jì) 162 道題目。結(jié)果表明,GPT-5、GROK 4 和 GEMINI-2.5-PRO 是所涵蓋競賽中表現(xiàn)最佳的模型,其成績超越了人類參賽者的前 1%。然而,我們?cè)谧C明類競賽上也發(fā)現(xiàn)了改進(jìn)空間:模型在 IMO 2025 上的得分低于 40%。這凸顯了該領(lǐng)域仍需進(jìn)一步研究。

      主要貢獻(xiàn)
      綜上所述,我們的主要貢獻(xiàn)如下:
      ? 我們提出 MATHARENA 基準(zhǔn),利用新發(fā)布的競賽評(píng)估 LLM,在完全透明且可復(fù)現(xiàn)的前提下消除數(shù)據(jù)污染風(fēng)險(xiǎn)。
      ? 我們?cè)O(shè)計(jì)了一個(gè)可擴(kuò)展的評(píng)估流水線,用于解析、求解和驗(yàn)證來自多種競賽格式的問題,包括最終答案型和證明型題目。
      ? 我們對(duì)當(dāng)前最先進(jìn)模型在這些競賽中的表現(xiàn)進(jìn)行了比較和深入分析,揭示了過去一年取得的顯著進(jìn)展。

      2 相關(guān)工作

      在本節(jié)中,我們討論評(píng)估數(shù)學(xué)推理能力的關(guān)鍵先前方法。

      公開的、基于答案的基準(zhǔn)最廣泛使用的基準(zhǔn)通過將模型輸出與固定的標(biāo)準(zhǔn)答案(通常是數(shù)值或閉式表達(dá)式)進(jìn)行比較來評(píng)估模型。早期的基準(zhǔn)如 GSM8K [6] 和 MATH [17] 已被近期的語言模型基本飽和。即使是更具挑戰(zhàn)性的競賽,如 AIME 2024,也呈現(xiàn)出類似進(jìn)展并接近飽和。Omni-MATH [14]、OlympiadBench [16]、HARP [36] 和 OlymMATH [30] 通過引入來自奧林匹克競賽的更難題目來提升難度。然而,這些題目源自多年前就已在網(wǎng)上公開的過往競賽,由于存在數(shù)據(jù)污染風(fēng)險(xiǎn),難以準(zhǔn)確追蹤進(jìn)展。GSM8K 中已有證據(jù)支持這一擔(dān)憂 [37],我們?cè)诘?4 節(jié)中也確認(rèn)了 AIME 2024 存在污染。

      私有的、基于答案的基準(zhǔn)FrontierMath [15] 是最近引入的一個(gè)私有基準(zhǔn),其設(shè)計(jì)顯著更具挑戰(zhàn)性,題目要求結(jié)合數(shù)學(xué)推理與研究級(jí)數(shù)學(xué)的深厚背景。類似地,Humanity’s Last Exam [29] 收集了涵蓋數(shù)十個(gè)學(xué)科的大量私有高難度題目。盡管其極高難度為前沿模型提供了有趣的測試目標(biāo),但這些基準(zhǔn)的私有性質(zhì)使得標(biāo)準(zhǔn)化評(píng)估和公平的模型比較變得困難。此外,這種難度水平使得追蹤進(jìn)展極具挑戰(zhàn)性,尤其對(duì)開源模型和處于成本-性能帕累托前沿的模型而言。最后,基準(zhǔn)的私有性質(zhì)引發(fā)了可復(fù)現(xiàn)性與透明度方面的擔(dān)憂,因?yàn)檫@些基準(zhǔn)的訪問權(quán)限曾被選擇性地授予某些機(jī)構(gòu) [10]。

      基于證明的基準(zhǔn)另一類評(píng)估聚焦于驗(yàn)證推理軌跡的正確性,而非僅關(guān)注最終答案。一種常見策略是要求 LLM 在 Lean、Coq 或 Isabelle 等系統(tǒng)中生成形式化證明,從而實(shí)現(xiàn)自動(dòng)驗(yàn)證。此類基準(zhǔn)和數(shù)據(jù)集包括 miniF2F [39]、FIMO [21]、PutnamBench [32] 和 LeanWorkbook [35]。然而,這些方法往往未能充分利用 LLM 的自然語言能力,并受限于模型生成正確形式化代碼的能力。同期工作 [22] 表明,模型通常無法在自然語言中生成完全嚴(yán)謹(jǐn)?shù)淖C明。即使對(duì)于已正確解決的問題,由于包含 IMO 短名單題目,很可能存在顯著污染;且基準(zhǔn)規(guī)模過大,使得在所有題目上評(píng)估新模型變得不可行。GHOSTS [13] 對(duì) GPT-4 的證明書寫能力進(jìn)行了人工評(píng)估,但其基準(zhǔn)僅限于兩個(gè)較舊的模型,且自 2023 年以來未再更新。

      動(dòng)態(tài)基準(zhǔn)為應(yīng)對(duì)污染問題并適應(yīng)不斷演進(jìn)的能力,一些基準(zhǔn)被設(shè)計(jì)為持續(xù)更新新題目。例如,LiveBench [33] 在包括編程、數(shù)據(jù)分析和數(shù)學(xué)等多個(gè)領(lǐng)域評(píng)估 LLM。其數(shù)學(xué)部分包含略難于 MATH 水平的題目,以及填空式的證明類任務(wù),整體難度低于 MATHARENA,且未評(píng)估嚴(yán)格的證明能力。另一項(xiàng)與我們工作類似的是 LiveAoPSBench [23],它允許在特定時(shí)間點(diǎn)的問題快照上評(píng)估模型。這可視為對(duì) MATHARENA 所采用的實(shí)時(shí)評(píng)估的一種回溯性模擬。然而,該基準(zhǔn)未持續(xù)更新,且不包含 2025 年的題目,因此無法評(píng)估近期的前沿模型。

      基于擾動(dòng)的基準(zhǔn)緩解污染風(fēng)險(xiǎn)的另一種方法是通過對(duì)現(xiàn)有題目進(jìn)行擾動(dòng)生成新題目 [19, 24, 40]。盡管該策略減少了重疊,但并未完全消除污染:擾動(dòng)后的題目仍依賴相同的底層推理模式。相比之下,我們的方法引入的是全新的題目,需要全新的高層推理策略。

      其他基準(zhǔn)最后,一些基準(zhǔn)采用非常規(guī)方法評(píng)估數(shù)學(xué)推理能力。例如,MathTrap [38] 評(píng)估模型回答中的邏輯一致性,而 MathConstruct [8] 聚焦于需要構(gòu)造性證明的問題。這些方法為模型的數(shù)學(xué)推理能力提供了更多樣化的視角。然而,這類基準(zhǔn)通常需要昂貴的人工數(shù)據(jù)策劃,限制了可擴(kuò)展的評(píng)估。

      3 MATHARENA

      在本節(jié)中,我們描述用于構(gòu)建 MATHARENA 的流水線,如圖 2 所示。該流程首先選擇一個(gè)足夠具有挑戰(zhàn)性且聲譽(yù)良好的競賽,并從中提取題目與解答(第 3.1 節(jié))。接著,我們?cè)谶@些題目上評(píng)估一組選定的模型,確保公平比較并避免數(shù)據(jù)泄露(第 3.2 節(jié))。根據(jù)題目的類型(最終答案型或證明型),我們采用不同的解析與評(píng)估方法(第 3.3 節(jié)):對(duì)于最終答案型題目,我們使用自動(dòng)化的基于規(guī)則的解析器提取答案;對(duì)于證明型題目,則由人工評(píng)分員評(píng)估模型輸出。最后,我們計(jì)算排行榜排名,并進(jìn)行統(tǒng)計(jì)后處理以確保結(jié)果的準(zhǔn)確性與可靠性(第 3.4 節(jié))。


      3.1 競賽選擇與題目提取

      競賽選擇
      為了有效將高質(zhì)量數(shù)學(xué)競賽重新用于大語言模型(LLM)評(píng)估,我們仔細(xì)選擇納入 MATHARENA 的競賽,并確保每道題目的格式準(zhǔn)確。表 1 展示了當(dāng)前已納入 MATHARENA 的競賽日歷,以及我們計(jì)劃未來加入的其他競賽。目前,MATHARENA 包含七項(xiàng)競賽,共計(jì) 162 道題目。我們根據(jù)競賽題目類型將其分為兩類:最終答案型(final-answer)或證明型(proof-based)。


      最終答案型競賽更容易評(píng)估,但通常挑戰(zhàn)性較低。對(duì)此類競賽,我們聚焦于高難度賽事,例如 AIME(美國數(shù)學(xué)奧林匹克 USAMO 的資格賽)以及若干更難的大學(xué)主辦錦標(biāo)賽。我們?cè)鴩L試納入其他知名競賽(如 Kangaroo),但因其題目已被現(xiàn)有模型基本飽和而予以排除。

      證明型競賽更具挑戰(zhàn)性,也更能代表深層次的數(shù)學(xué)推理。然而,它們也需要人工評(píng)估,因?yàn)榭蓴U(kuò)展的自動(dòng)化證明評(píng)分仍是一個(gè)未解決的問題。為確保評(píng)估質(zhì)量,我們采用人工評(píng)分員對(duì)證明進(jìn)行評(píng)判,并聚焦于一小套核心競賽:USAMO(美國高中數(shù)學(xué)奧林匹克)、IMO(國際數(shù)學(xué)奧林匹克)和 Putnam 競賽(美國本科生級(jí)別)。

      除標(biāo)準(zhǔn)數(shù)學(xué)競賽外,我們還納入了來自 Project Euler [11] 的題目。Project Euler 是一個(gè)廣受歡迎的在線平臺(tái),強(qiáng)調(diào)通過代碼實(shí)現(xiàn)進(jìn)行數(shù)學(xué)問題求解。與傳統(tǒng)競賽不同,Project Euler 沒有固定的賽程或題集,而是持續(xù)擴(kuò)充其題目庫。在評(píng)估中,我們僅關(guān)注最新發(fā)布的題目,并計(jì)劃在新題發(fā)布后定期更新該子集。

      題目提取
      選定競賽后,我們從原始來源中提取題目,并將其格式化為標(biāo)準(zhǔn)化模板。我們對(duì)每道題目進(jìn)行人工核查,以確保無拼寫錯(cuò)誤、內(nèi)容不一致或格式問題。

      3.2 模型選擇與解答生成

      模型選擇
      MATHARENA 會(huì)持續(xù)納入新發(fā)布的模型。為避免排行榜過于雜亂,我們僅選擇滿足以下至少一項(xiàng)標(biāo)準(zhǔn)的模型:
      (i) 該模型在某項(xiàng)競賽中競爭最高分(例如 GPT-5、GEMINI-2.5-PRO、GROK 4);
      (ii) 該模型是表現(xiàn)最佳的開源權(quán)重模型之一(例如 DEEPSEEK-R1、QWEN3);
      (iii) 該模型在成本-性能權(quán)衡曲線上占據(jù)帕累托最優(yōu)位置(例如 GROK 4 FAST、GPT-OSS-20B)。

      我們排除非推理型模型,因?yàn)樗鼈冊(cè)谒星闆r下均顯著弱于推理型模型,且不滿足上述任一選擇標(biāo)準(zhǔn)。

      解答生成
      每個(gè)模型在每項(xiàng)競賽中僅評(píng)估一次,使用模型提供方推薦的超參數(shù),不做進(jìn)一步調(diào)優(yōu)。此舉可避免過擬合并降低信息泄露風(fēng)險(xiǎn)。對(duì)于答案型競賽,我們提示模型將其答案置于 \boxed{} 環(huán)境中;對(duì)于證明型競賽,則提示模型輸出完整證明。附錄 D 提供了各競賽所用的具體提示詞。為考慮隨機(jī)性,每個(gè)模型對(duì)每道題生成四次回答,最終報(bào)告這四次運(yùn)行的平均得分。模型評(píng)估時(shí)間盡量接近競賽舉辦日期,以最小化污染風(fēng)險(xiǎn)。若某模型發(fā)布時(shí)間晚于競賽日期,排行榜中將明確標(biāo)注。模型輸出與題目示例見附錄 E。

      Project Euler 工具支持
      對(duì)于 Project Euler,我們?cè)试S模型使用工具執(zhí)行代碼,因?yàn)榻鉀Q此類問題通常需要編程。為此,我們提供了 Python 和 C++ 解釋器。模型可生成代碼片段,在安全沙箱環(huán)境中執(zhí)行,其輸出可用于后續(xù)推理步驟。每道題最多允許 20 次代碼執(zhí)行。

      3.3 解答評(píng)分

      我們的評(píng)分策略在最終答案型與證明型題目之間存在顯著差異。以下分別詳述兩種方法。這些方法在圖 2 中分別以“Parse(答案型)”和“Human(證明型)”分支表示。

      答案型競賽
      答案型競賽通??赏ㄟ^從 \boxed{} 中提取最終答案并對(duì)其字符串進(jìn)行基于規(guī)則的解析,實(shí)現(xiàn)較為準(zhǔn)確的自動(dòng)評(píng)分。然而,鑒于此類競賽題目數(shù)量較少,即使微小的解析錯(cuò)誤也可能造成不成比例的影響。為此,我們開發(fā)了一個(gè)定制的基于規(guī)則的解析器,能將任意 LaTeX 字符串轉(zhuǎn)換為結(jié)構(gòu)化的 SymPy 表達(dá)式,可處理分?jǐn)?shù)、列表、根式等復(fù)雜數(shù)學(xué)對(duì)象。隨后,使用 SymPy 判斷這些表達(dá)式是否與標(biāo)準(zhǔn)答案等價(jià)。由于模型輸出格式多變,解析器的魯棒性至關(guān)重要。我們采取兩項(xiàng)措施確保正確性:

      第一,我們開發(fā)了一個(gè)圖形用戶界面(GUI),用于人工復(fù)核模型答案,重點(diǎn)標(biāo)出:(i) 異常簡短的輸出(可能因 token 限制被截?cái)啵?ii) 解析錯(cuò)誤;(iii) 正確答案出現(xiàn)在推理過程中但未被成功提取的情況。對(duì)于第一類情況,若某模型頻繁出現(xiàn)此問題,我們會(huì)考慮更換 API 提供商重新運(yùn)行(因當(dāng)前提供商可能限制了每次生成的 token 數(shù)量);對(duì)于后兩類情況,我們對(duì)所有標(biāo)記問題進(jìn)行人工驗(yàn)證。

      第二,我們引入一個(gè)基于 LLM 的評(píng)判器,使用 GEMINI-2.5-FLASH 模型判斷模型的最終答案是否與標(biāo)準(zhǔn)答案語義等價(jià)。若解析器與 LLM 評(píng)判器結(jié)果不一致,我們會(huì)人工檢查模型響應(yīng),并按需更新解析器。

      證明型競賽
      目前,自動(dòng)化評(píng)分尚不足以應(yīng)對(duì)證明型題目,因此我們依賴專家人工評(píng)分員進(jìn)行精確評(píng)分。首先,由于競賽通常不公開其評(píng)分細(xì)則,專家評(píng)分員會(huì)制定一套結(jié)構(gòu)化評(píng)分方案,力求貼近實(shí)際競賽所用標(biāo)準(zhǔn)(例如,對(duì)部分進(jìn)展給予分?jǐn)?shù))。隨后,評(píng)分員接收匿名化的模型解答,并依據(jù)前述方案進(jìn)行評(píng)分。每份解答由兩名獨(dú)立評(píng)分員評(píng)判,不僅給出最終分?jǐn)?shù),還提供評(píng)分理由。更多流程細(xì)節(jié)參見 [28]。

      3.4 排行榜與后處理

      在模型輸出完成評(píng)估后,我們執(zhí)行若干后處理步驟,以確保報(bào)告結(jié)果的可靠性。這些步驟包括排行榜構(gòu)建與統(tǒng)計(jì)方差估計(jì)。

      排行榜
      結(jié)果發(fā)布于公開排行榜 https://matharena.ai。該界面設(shè)計(jì)便于使用,允許用戶瀏覽結(jié)果、檢查各模型的輸出,并驗(yàn)證解析與評(píng)分決策。這使用戶能夠定性分析模型表現(xiàn),并驗(yàn)證我們解析器與評(píng)分流程的正確性。


      4 評(píng)估

      在本節(jié)中,我們展示了在 MATHARENA 上對(duì)主流大語言模型(LLMs)的評(píng)估結(jié)果。我們還對(duì)結(jié)果進(jìn)行分析,以調(diào)查數(shù)據(jù)污染問題、性能隨時(shí)間的變化趨勢以及置信區(qū)間。有關(guān)實(shí)驗(yàn)所用數(shù)據(jù)與代碼的獲取方式及許可證信息,詳見附錄 A。為促進(jìn)開放研究,我們?cè)诰W(wǎng)站 https://matharena.ai 上公開了所有結(jié)果和原始模型響應(yīng)。

      實(shí)驗(yàn)設(shè)置
      我們?cè)谝韵?2025 年舉辦的競賽上評(píng)估了模型:AIME [2, 3]、HMMT [18]、BRUMO [4]、CMIMC [5]、USAMO [26]、IMO [12] 和 Project Euler [11]。這些競賽共包含 162 道題目,涵蓋代數(shù)、組合數(shù)學(xué)、幾何和數(shù)論。其中,USAMO 和 IMO 為證明型競賽,其余競賽要求提供數(shù)值型最終答案。我們?cè)谒懈傎愔性u(píng)估了超過 50 個(gè) LLM,本文所述實(shí)驗(yàn)產(chǎn)生的 API 查詢費(fèi)用約為 2,000 美元(不含開發(fā)成本)。

      4.1 數(shù)值答案型競賽

      我們基于最終答案的評(píng)估(不含 Project Euler)包含四項(xiàng)競賽,共計(jì) 130 道題目。本節(jié)聚焦于未被棄用的模型,完整結(jié)果見附錄 B。當(dāng)同一提供商發(fā)布了一個(gè)嚴(yán)格更優(yōu)的新版本后,舊模型即被視為棄用(例如,O3-MINI 在 O4-MINI 發(fā)布后即被棄用),此后不再納入后續(xù)評(píng)估。

      主要結(jié)果表 2 報(bào)告了截至本文撰寫時(shí)表現(xiàn)最佳的未被棄用模型的結(jié)果。根據(jù)第 3 節(jié)所述的評(píng)估協(xié)議,每個(gè)模型對(duì)每道題目評(píng)估四次,準(zhǔn)確率采用 pass@1 指標(biāo)計(jì)算,且未使用任何額外的推理時(shí)策略(例如多數(shù)投票)??傮w而言,最新模型展現(xiàn)出極強(qiáng)的性能。表現(xiàn)最佳的模型——GPT-5、GROK 4 和 GROK 4 FAST——分別達(dá)到 91.3%、90.6% 和 90.4% 的準(zhǔn)確率,其中 GROK 4 FAST 的成本顯著更低。這些模型在 AIME 和 HMMT 上的表現(xiàn)遠(yuǎn)超人類參賽者的前 1%,表明其能夠正確解決大多數(shù)問題,并與頂尖人類選手競爭。在開源模型中,GPT-OSS-120B 領(lǐng)先,緊隨其后的是 DEEPSEEK-V3.2(THINK)。


      成本-準(zhǔn)確率帕累托前沿圖 3a 展示了所有競賽中的成本-準(zhǔn)確率帕累托前沿。成本反映的是在單個(gè)完整競賽上運(yùn)行一個(gè)模型所需的平均美元費(fèi)用(對(duì)所有競賽取平均)。目前該前沿僅包含來自 XAI 和 OPENAI 的三個(gè)模型。

      性能隨時(shí)間的變化圖 3b 展示了模型在 HMMT 2025 上的得分隨時(shí)間的變化情況。每個(gè)點(diǎn)代表一個(gè)模型的發(fā)布時(shí)間,紅線表示隨時(shí)間演進(jìn)的準(zhǔn)確率帕累托前沿。虛線垂直線標(biāo)記了競賽舉辦日期,意味著位于該線左側(cè)的模型可確保未受污染。我們?cè)诟戒?B 中展示了其他競賽的類似圖表。我們觀察到,2024 年 9 月之前發(fā)布的模型準(zhǔn)確率低于 10%(例如 GPT-4o)。隨著 O1 等具備思維鏈推理能力的模型發(fā)布,性能顯著提升,并在后續(xù)迭代中持續(xù)提高。


      過往競賽的數(shù)據(jù)污染問題本研究的一個(gè)關(guān)鍵目標(biāo)是評(píng)估模型在舊競賽(尤其是 AIME 2024)上表現(xiàn)的可靠性,因?yàn)檫@些競賽可能存在數(shù)據(jù)污染。圖 4a 和圖 4b 比較了模型在 AIME 與 HMMT 的 2024 版和 2025 版上的得分。橫軸表示 2025 版的表現(xiàn),縱軸表示 2024 版的表現(xiàn)。虛線代表人類參賽者的分位數(shù),使我們能夠校正年度間題目難度的變化——因?yàn)橥蝗祟惙治粩?shù)在不同年份應(yīng)產(chǎn)生相近的表現(xiàn)。在 AIME 上,大多數(shù)模型位于該線之上,超出幅度達(dá) 10%–20%,表明 AIME 2024 的表現(xiàn)因數(shù)據(jù)污染而被夸大。QWQ-PREVIEW-32B 是一個(gè)顯著異常值,其表現(xiàn)比預(yù)期的人類對(duì)齊水平高出近 60%,表明存在嚴(yán)重污染。相比之下,HMMT 的偏差要小得多,說明其結(jié)果更可信——可能是因?yàn)?HMMT 知名度較低,不太可能被納入訓(xùn)練數(shù)據(jù)集。

      新競賽污染的另一個(gè)可能來源是:新競賽中的題目版本可能已提前在線上出現(xiàn),例如出現(xiàn)在往屆比賽或網(wǎng)絡(luò)論壇中。我們使用 DeepResearch [27] 對(duì) AIME 2025 和 HMMT 2025 進(jìn)行了調(diào)查,發(fā)現(xiàn) AIME 2025 中有 8 道題、HMMT 2025 中有 1 道題以相似形式在線上存在。我們發(fā)現(xiàn)這些題目大多較為簡單,不影響整體結(jié)果,但這也突顯了一個(gè)有趣的警示:即便評(píng)估未來競賽,仍需警惕潛在的提前泄露。詳細(xì)信息見附錄 B。

      置信區(qū)間
      目前大多數(shù)大語言模型基準(zhǔn)依賴大型數(shù)據(jù)集,這引發(fā)了一種擔(dān)憂:單個(gè)競賽的方差可能過高,難以得出有意義的結(jié)論。相比之下,小型競賽常被用于評(píng)估人類參賽者,表明它們?nèi)钥删邆淇煽啃浴?

      我們采用第 3.4 節(jié)所述方法,計(jì)算了所有競賽中模型排名和準(zhǔn)確率的 95% 置信區(qū)間。表 3 展示了這些置信區(qū)間在各競賽上的平均值,各競賽單獨(dú)的置信區(qū)間見附錄 B。盡管競賽規(guī)模較小,MATHARENA 仍能可靠地區(qū)分大多數(shù)模型。特別是,排名的置信區(qū)間相對(duì)較小:前三名模型為 GPT-5、GROK 4 FAST 和 GROK 4,彼此之間差距均在 1% 以內(nèi)。



      重復(fù)運(yùn)行作為一種更直觀理解方差的方法,我們遵循 Abdin 等人 [1] 的做法,進(jìn)行重復(fù)評(píng)估。具體而言,我們選取若干代表性模型(O4-MINI (MEDIUM)、QWEN3-30B-A3B、DEEPSEEK-R1-DISTILL-32B 和 DEEPSEEK-R1-DISTILL-14B),對(duì)每道題目采樣 100 次解答,并按照第 3.4 節(jié)所述方法(每次使用每題 4 個(gè)樣本)生成每個(gè)模型的 25 個(gè)得分估計(jì)值。隨后,我們對(duì)這些得分分布擬合核密度估計(jì)(KDE)。結(jié)果表明,得分分布非常集中(sharp),驗(yàn)證了我們采用四次運(yùn)行取平均準(zhǔn)確率的方法是合理的。

      跨競賽相關(guān)性我們還計(jì)算了不同競賽之間的斯皮爾曼(Spearman)相關(guān)系數(shù)。高相關(guān)性表明模型排名具有一致性,說明單個(gè)競賽的結(jié)果能夠代表整體性能。AIME、HMMT 和 CMIMC 之間的相關(guān)性均超過 80%,明確表明某一競賽的結(jié)果可很好地推廣到其他類似競賽。這種高度的整體相關(guān)性支持了以下結(jié)論:基于單個(gè)競賽的評(píng)估通常是穩(wěn)健的。

      4.2 Project Euler

      實(shí)驗(yàn)設(shè)置

      我們?cè)?Project Euler 上評(píng)估了六個(gè)最先進(jìn)模型:GPT-5、O4-MINI、GROK 4、GROK 4 FAST、GEMINI-2.5-PRO 和 CLAUDE-SONNET-4.5。這些模型是根據(jù)其在 MATHARENA 中其他競賽中的優(yōu)異表現(xiàn)而選定的。由于這些問題通常需要編程求解,我們?cè)试S模型使用工具執(zhí)行代碼,如第 3 節(jié)所述。

      結(jié)果
      如表 4 所示,GPT-5 取得了最高的準(zhǔn)確率(55%),其次是 GROK 4 及其更快、更便宜的變體(47.5%)。CLAUDE-SONNET-4.5 和 GEMINI-2.5-PRO 表現(xiàn)落后,準(zhǔn)確率分別為 16.25% 和 12.5%。


      4.3 自然語言證明評(píng)估

      MATHARENA 的核心目標(biāo)之一是在證明型數(shù)學(xué)競賽上評(píng)估模型,尤其是 USAMO [26]、IMO [12] 和 Putnam [25]。截至本文撰寫時(shí),USAMO 2025 和 IMO 2025 已經(jīng)舉行。我們?cè)陬}目發(fā)布后立即按照第 3 節(jié)所述流程進(jìn)行了評(píng)估。有關(guān) USAMO 2025 評(píng)估的更多細(xì)節(jié)可參見我們此前的報(bào)告 [28]。本節(jié)重點(diǎn)討論 IMO 2025 的結(jié)果。

      模型選擇與評(píng)估
      我們?cè)u(píng)估了六個(gè)最先進(jìn)模型:GPT-5、O3、O4-MINI、GEMINI-2.5-PRO、GROK 4 和 DEEPSEEK-R1-0528。我們采用了 Dekoninck 等人 [9] 提出的 best-of-n 選擇策略,對(duì)每道題從 32 個(gè)生成樣本中選出最佳證明。在此過程中,模型自身作為評(píng)判者,在生成的證明之間進(jìn)行淘汰賽(bracket tournament),逐輪選出勝者,直至選出最終證明。該流程所用提示詞見附錄 D。

      結(jié)果
      GPT-5 取得最高分,平均得分為 38%(16 分)。盡管這一結(jié)果看似 modest(尤其考慮到僅生成 24 個(gè)答案就花費(fèi)了 200 美元),但鑒于 IMO 題目極高的難度,這仍代表了強(qiáng)勁的表現(xiàn)。然而,16 分仍未達(dá)到獲得銅牌所需的 19 分(滿分 42 分)。完整結(jié)果可在我們的排行榜上查看,其中可詳細(xì)瀏覽各模型回答及評(píng)分員反饋。附錄 E 提供了若干模型回答示例。由于題目數(shù)量較少,排名的置信區(qū)間比數(shù)值型競賽更寬。因此,我們建議在解讀結(jié)果時(shí)保持謹(jǐn)慎,尤其是在比較得分相近的模型時(shí)。

      定性分析
      我們從評(píng)估中總結(jié)出若干定性發(fā)現(xiàn)。首先,GROK 4 的表現(xiàn)遠(yuǎn)低于預(yù)期。其許多初始回答極為簡短,常常僅提供最終答案而無任何解釋。類似模式也出現(xiàn)在 MATHARENA 的其他基準(zhǔn)中,GROK 4 經(jīng)常生成缺乏深度或論證的回答。相比之下,GEMINI-2.5-PRO 表現(xiàn)出另一種問題:當(dāng)無法找到有效證明時(shí),它常引用不存在的定理。這種行為尤其成問題,因?yàn)樗ㄟ^虛假權(quán)威誤導(dǎo)用戶,從而削弱對(duì)其推理能力的信任。盡管在 IMO 回答中此類行為比在 USAMO [28] 中少見,但仍值得關(guān)注。

      積極的一面是,與早期評(píng)估 [28] 相比,我們觀察到更少的格式錯(cuò)誤,以及更少模型過度優(yōu)化“最終答案”風(fēng)格的情況(例如將整個(gè)證明放入 \boxed{} 中,或假設(shè)所有回答都必須是數(shù)值)。這表明模型在處理開放式數(shù)學(xué)推理任務(wù)方面正變得更加可靠。

      最后,一位評(píng)分員在 best-of-n 選擇前簡要審閱了模型生成的 32 個(gè)原始回答的一個(gè)子集。他指出,許多原始回答非常薄弱,并估計(jì)若不經(jīng)過篩選,模型得分可能降至 10% 以下。有趣的是,該評(píng)分員還注意到,一些未被選中的回答在連貫性上甚至優(yōu)于被選中的回答,但卻包含更多事實(shí)性錯(cuò)誤。

      5 討論

      我們簡要描述本工作的局限性與更廣泛的影響。


      局限性每年僅有數(shù)量有限的競賽足夠具有挑戰(zhàn)性,可作為評(píng)估最先進(jìn)大語言模型(LLMs)的有效基準(zhǔn)。因此,MATHARENA 的規(guī)模仍然較小,導(dǎo)致結(jié)果的置信區(qū)間相對(duì)較寬。然而,我們預(yù)計(jì)隨著更多競賽的加入,這一情況將隨時(shí)間逐步改善,不確定性也將逐漸降低。此外,當(dāng)前最先進(jìn)的模型已能解決幾乎所有答案型競賽中除最難題目以外的所有問題。這表明此類基準(zhǔn)可能很快趨于飽和,甚至可能早在 2026 年就會(huì)發(fā)生。為維持有意義的評(píng)估,我們預(yù)計(jì)需要識(shí)別或設(shè)計(jì)更具挑戰(zhàn)性的競賽。不過,與靜態(tài)基準(zhǔn)不同,MATHARENA 的動(dòng)態(tài)特性使其能夠隨模型能力同步演進(jìn),確保在領(lǐng)域發(fā)展中持續(xù)保持相關(guān)性。

      此外,還存在一些關(guān)于殘余數(shù)據(jù)污染的潛在擔(dān)憂,源于模型發(fā)布時(shí)間與競賽舉辦日期之間的時(shí)間差。在我們的排行榜上,我們明確標(biāo)注了在競賽日期之后發(fā)布的模型。然而,由于競賽公開發(fā)布與我們?cè)u(píng)估之間存在一定時(shí)間窗口,理論上閉源模型有可能在我們?cè)u(píng)估前就已用新競賽數(shù)據(jù)進(jìn)行了更新。但在實(shí)踐中,我們的評(píng)估通常在競賽結(jié)束后幾小時(shí)至最多幾天內(nèi)完成,而當(dāng)前的訓(xùn)練流程需要更長時(shí)間才能整合新數(shù)據(jù)。因此,我們認(rèn)為在我們的設(shè)定下,污染風(fēng)險(xiǎn)極低。

      更廣泛的影響MATHARENA 已對(duì)領(lǐng)域產(chǎn)生顯著影響。若干主要模型提供商已在發(fā)布說明中引用 MATHARENA 的結(jié)果,包括 PHI-4-REASONING [1]、GEMINI-2.5-PRO [31] 和 GROK-3 [34]。今年二月,我們首次證明:專注于推理的 LLM 在舊數(shù)學(xué)競賽上的表現(xiàn)可很好地泛化到新競賽。我們的工作已引起社區(qū)廣泛關(guān)注,我們預(yù)期 MATHARENA 將繼續(xù)作為一個(gè)有價(jià)值且具備適應(yīng)性的資源,通過使基準(zhǔn)始終保持挑戰(zhàn)性并與模型能力前沿同步,支持對(duì) LLM 的持續(xù)評(píng)估。

      6 結(jié)論

      我們提出了 MATHARENA——一個(gè)旨在利用人類數(shù)學(xué)競賽中未受污染的題目來評(píng)估大語言模型(LLM)數(shù)學(xué)能力的基準(zhǔn)。其核心洞見在于:這類競賽天然生成一系列多樣化、高難度且未受污染的問題,非常適合進(jìn)行嚴(yán)格評(píng)估。為此,我們開發(fā)了一個(gè)可擴(kuò)展的流水線,用于解析題目與答案、采樣模型解答、提取最終答案并驗(yàn)證其正確性。基于該框架,我們?cè)?2025 年舉辦的七項(xiàng)數(shù)學(xué)競賽共 162 道題目上評(píng)估了超過 50 個(gè) LLM。結(jié)果既顯示出 LLM 數(shù)學(xué)能力的顯著進(jìn)步,也證實(shí)了先前基準(zhǔn)中數(shù)據(jù)污染問題的實(shí)際影響。

      原文鏈接:https://arxiv.org/pdf/2505.23281

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      男子在路上看見陌生阿姨穿著印有寓意“死亡”字母的衣服便善意提醒,男子:“我們的父母可能也不認(rèn)識(shí)英文”

      男子在路上看見陌生阿姨穿著印有寓意“死亡”字母的衣服便善意提醒,男子:“我們的父母可能也不認(rèn)識(shí)英文”

      觀威海
      2026-01-27 17:18:20
      希望我國出手相助?計(jì)劃在中國建廠,還承諾將整條生產(chǎn)線搬來我國

      希望我國出手相助?計(jì)劃在中國建廠,還承諾將整條生產(chǎn)線搬來我國

      芳芳?xì)v史燴
      2026-01-27 20:55:04
      風(fēng)水輪流轉(zhuǎn)!44歲郭晶晶的首次“翻車”,給所有藝人敲響了警鐘

      風(fēng)水輪流轉(zhuǎn)!44歲郭晶晶的首次“翻車”,給所有藝人敲響了警鐘

      科學(xué)發(fā)掘
      2026-01-27 11:50:51
      非法收受請(qǐng)托人送給的財(cái)物,數(shù)額巨大!曲靖市財(cái)政局原黨組成員、副局長朱江被“雙開”

      非法收受請(qǐng)托人送給的財(cái)物,數(shù)額巨大!曲靖市財(cái)政局原黨組成員、副局長朱江被“雙開”

      瀟湘晨報(bào)
      2026-01-27 17:37:16
      1977年,萬毅寫信尋求工作安排,鄧小平作出指示:若無政治歷史問題,便該做妥當(dāng)安置

      1977年,萬毅寫信尋求工作安排,鄧小平作出指示:若無政治歷史問題,便該做妥當(dāng)安置

      史海孤雁
      2026-01-27 18:33:14
      北京局地將再飄雪,具體時(shí)間——

      北京局地將再飄雪,具體時(shí)間——

      首都之窗
      2026-01-27 17:09:21
      中央定調(diào),延遲退休實(shí)施后,晚退休1個(gè)月,養(yǎng)老金待遇能多1%嗎?

      中央定調(diào),延遲退休實(shí)施后,晚退休1個(gè)月,養(yǎng)老金待遇能多1%嗎?

      另子維愛讀史
      2026-01-17 20:18:37
      奧巴馬、克林頓,發(fā)表聲明

      奧巴馬、克林頓,發(fā)表聲明

      新京報(bào)
      2026-01-26 20:31:07
      庫頁島有“三不”:不屬于中國、不像俄羅斯、不承認(rèn)過去

      庫頁島有“三不”:不屬于中國、不像俄羅斯、不承認(rèn)過去

      壹知眠羊
      2026-01-13 07:14:17
      西甲瘋狂夜!巴薩反超皇馬登頂,馬競連勝?zèng)_刺榜首!

      西甲瘋狂夜!巴薩反超皇馬登頂,馬競連勝?zèng)_刺榜首!

      籃球看比賽
      2026-01-27 12:50:14
      前蘇聯(lián)中將揭秘:56 萬中國兵猛攻,越軍無力招架敗退

      前蘇聯(lián)中將揭秘:56 萬中國兵猛攻,越軍無力招架敗退

      嘮叨說歷史
      2026-01-27 14:03:23
      曼城再見!8000萬“永動(dòng)機(jī)”火速轉(zhuǎn)會(huì)!再截利物浦,搶6000萬獵物

      曼城再見!8000萬“永動(dòng)機(jī)”火速轉(zhuǎn)會(huì)!再截利物浦,搶6000萬獵物

      頭狼追球
      2026-01-27 11:39:01
      貝克漢姆的二兒子羅密歐,發(fā)文譴責(zé)大哥大嫂是惡人,力挺媽媽貝嫂

      貝克漢姆的二兒子羅密歐,發(fā)文譴責(zé)大哥大嫂是惡人,力挺媽媽貝嫂

      阿纂看事
      2026-01-27 15:03:31
      美軍航母卡在800公里外不敢動(dòng),到底在怕伊朗什么?

      美軍航母卡在800公里外不敢動(dòng),到底在怕伊朗什么?

      趣生活
      2026-01-27 20:42:10
      豬蹄被關(guān)注!調(diào)查發(fā)現(xiàn):高血脂患者吃豬蹄,不過多久或有這5變化

      豬蹄被關(guān)注!調(diào)查發(fā)現(xiàn):高血脂患者吃豬蹄,不過多久或有這5變化

      路醫(yī)生健康科普
      2026-01-26 12:10:02
      4加時(shí)!兩人打滿60分鐘!有人打出41分23板6助數(shù)據(jù)!

      4加時(shí)!兩人打滿60分鐘!有人打出41分23板6助數(shù)據(jù)!

      籃球大圖
      2026-01-27 10:24:14
      杜蘭特33分8籃板火箭擊敗灰熊2連勝,申京33分9板6助攻

      杜蘭特33分8籃板火箭擊敗灰熊2連勝,申京33分9板6助攻

      湖人崛起
      2026-01-27 11:26:19
      被張坤拋棄,又一巨頭跌懵了!

      被張坤拋棄,又一巨頭跌懵了!

      財(cái)經(jīng)銳眼
      2026-01-27 18:07:59
      曾澤生長春起義后家屬被捕,警備司令周體仁硬闖憲兵團(tuán)救人

      曾澤生長春起義后家屬被捕,警備司令周體仁硬闖憲兵團(tuán)救人

      芳芳?xì)v史燴
      2026-01-27 10:57:47
      新址被否,搬遷無望?嫣然醫(yī)院又被大佬盯上,李亞鵬真正難題降臨

      新址被否,搬遷無望?嫣然醫(yī)院又被大佬盯上,李亞鵬真正難題降臨

      離離言幾許
      2026-01-26 16:44:47
      2026-01-27 21:39:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1181文章數(shù) 18關(guān)注度
      往期回顧 全部

      教育要聞

      樊登:從小被忽視的孩子,一輩子都在補(bǔ)資格感

      頭條要聞

      國科大星際航行學(xué)院正式成立 官網(wǎng)發(fā)文誠聘海外英才

      頭條要聞

      國科大星際航行學(xué)院正式成立 官網(wǎng)發(fā)文誠聘海外英才

      體育要聞

      冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

      娛樂要聞

      張雨綺被曝代孕,春晚被拒,代言跑路

      財(cái)經(jīng)要聞

      多地對(duì)壟斷行業(yè)"近親繁殖"出手了

      科技要聞

      馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

      汽車要聞

      標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

      態(tài)度原創(chuàng)

      本地
      房產(chǎn)
      家居
      教育
      公開課

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      房產(chǎn)要聞

      實(shí)景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

      家居要聞

      現(xiàn)代古典 中性又顯韻味

      教育要聞

      慈濟(jì)、綿外實(shí)驗(yàn)、一中.....綿陽多所初中設(shè)立綿中貫培創(chuàng)新班、南山創(chuàng)新班

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版