大模型數學推理魯棒性研究:基于高級數學問題等價變換的基準測試
AN INVESTIGATION OF ROBUSTNESS OF LLMS INMATHEMATICAL REASONING: BENCHMARKING WITHMATHEMATICALLY-EQUIVALENT TRANSFORMATION OF ADVANCED MATHEMATICAL PROBLEMS
https://arxiv.org/pdf/2508.08833v2
![]()
摘要
在本文中,我們引入了一個超越傳統方法的系統框架,通過對數學上等價但具有語言和參數變化的高級數學問題進行壓力測試,來評估大語言模型(LLM)的數學推理魯棒性。這些變換使我們能夠衡量 LLM 對非數學擾動的敏感性,從而能夠更準確地評估它們的數學推理能力。使用這種新的評估方法,我們創建了 PutnamGAP,這是一個新的基準數據集,包含競賽級數學問題的多個數學等價變體。使用新數據集,我們評估了多個代表性 LLM 家族并檢查了它們的魯棒性。在 18 個商業和開源模型中,我們觀察到在變體上性能急劇下降。OpenAI 的旗艦推理模型 O3 在原始問題上得分為 51.5%,但在表面重命名變體上下降了 4.7 個百分點,在參數變體上下降了 12.9 個百分點,而較小的模型表現更差。總體而言,結果表明,提出的新評估方法對于加深我們對 LLM 魯棒性的理解以及為進一步提高其數學推理能力產生新見解是有效的。
1 引言
動機。現代 AI 系統越來越多地被委托給依賴于魯棒推理而非模式匹配的任務。因此,精確測量 LLM 的推理能力及其超越記憶文本表面形式的泛化能力很重要。然而,現有的數學推理基準表現出兩個關鍵弱點:(i) 泄漏導致的分數膨脹,因為基準項目迅速滲入預訓練語料庫,以及 (ii) 魯棒性覆蓋有限,因為今天的數據集太小或缺乏探測真正泛化的受控變換。如果我們旨在以醫療或網絡安全等安全關鍵領域所要求的同樣嚴謹性來基準化推理,解決這些弱點是緊迫的。
通過訓練泄漏導致的基準膨脹。最近的研究表明,包括 GSM8K (Cobbe 等人,2021) 和 MATH (Hendrycks 等人,2021) 在內的公共數據集已經泄漏到用于預訓練大語言模型 (LLM) 的網絡規模語料庫中,人為地抬高了測試時準確率。因此,排行榜分數不再保證真正的推理能力;它可能僅僅反映了對基準項目或其解決方案的記憶。簡單地發布另一個數據集只是推遲了問題:一旦其項目進入未來的訓練語料庫,分數就會上升而沒有真正的進步。需要的是一個系統方法,該方法 (i) 測量模型超越逐字記憶的泛化能力,以及 (ii) 可以生成無限的評估項目供應,限制未來的泄漏。
競賽數學揭示了下一個魯棒性瓶頸。大語言模型 (LLM) 現在在廣泛使用的基準測試(如 GSM8K 和 MATH)上準確率超過 90%, prompting 聲稱“接近人類”的數值推理,但在交織多個領域的奧林匹克風格或 Putnam 級別問題上仍然失敗。現有的 Putnam 衍生數據集太小,無法暴露這一差距:PUTNAM-AXIOM(236 個原始 + 52 個變體)(Huang 等人,2025) 和 PUTNAMBENCH(640 個形式化定理)(Tsoukalas 等人,2024) 仍保持在數百個,且沒有一個提供系統的泛化和擾動。這些事實暴露了現有評估中的弱點 (i) 規模不足和弱點 (ii) 缺乏受控的、系統的變換。
![]()
泛化與擾動 (GAP),一種新穎的評估策略。我們用一個新想法來解決泄漏和魯棒性問題:在同一問題的數學等價版本上對模型進行壓力測試。對于具有解集 S(x) 的問題 x 和 LLM f,魯棒性是當 x 被等價保持算子族 T 變換時的期望準確率。我們將 T 劃分為 Tsurf(改變符號顯著性的表面重命名)和 Tpara(在改變場景和參數的同時保留相同證明步驟的核心重寫)。這個 GAP 框架 (i) 創建了無限的未見測試項目流,減輕未來的污染,以及 (ii) 量化模型可以超越記憶表面形式泛化多遠。它為分析和量化 LLM 數學推理能力的魯棒性提供了一種新的通用診斷評估方法。
PutnamGAP:在 85 年的問題上實例化 GAP。我們在 1938-2024 年的每個 William Lowell Putnam 競賽問題(1,051 個原始問題)上實例化 GAP,并將每個項目擴展為五個變體——四個表面重命名和一個核心重寫——獲得 6,306 個壓力測試問題。兩輪 QA 通行證——15 輪 O3 自我審查加上 10% 的抽查——未發現實質性錯誤。
頭條結果。如圖 4 所示,在 18 個模型中,所有模型都遭受簡單重命名和基于步驟的重寫的影響。OpenAI 的 O3 在原始陳述上得分為 51.5%,但在表面重命名下損失 4.7 個百分點 (9.12%),在參數重寫下損失 12.9 個百分點 (25.22%)。這些下降證實了當應用表面性或結構擾動時,高排行榜分數可能會崩潰——這正是數據泄漏掩蓋的效果。
![]()
貢獻。(1) 我們提出了 GAP,一個通過數學等價變換測量魯棒性的新穎通用框架,克服了當前評估方法的兩個常見缺陷(即數據泄漏和缺乏魯棒性測量)。(2) 我們發布了 PutnamGAP,這是第一個 6k 規模的競賽基準,系統地區分了表面級別和結構泛化,同時限制未來泄漏。(3) 我們提供了跨越 17 個 LLM 的第一個綜合魯棒性基線,以及一個開源評估堆棧。
2 泛化與擾動 (GAP) 框架
2.1 評估模型
![]()
2.2 變換族
提出的通用魯棒性度量可以適用于任何變化。作為探索這種新評估方法的第一步,我們提出并研究了五個對齊的變體——四個僅擾動符號名稱的表面重命名,以及一個在保留推理鏈的同時擾動數字槽的核心步驟實例。本節詳細介紹了合成管道。詳細描述也可以在附錄 A 中找到。
2.2.1 表面重命名變體族
我們想知道模型識別一個論證是因為它真正抽象了模式,還是僅僅因為它記憶了具有暗示性的標識符字符串。因此,我們系統地替換每個標記為 var 或 param 的 token;所有類別為 sci const 的常數保持不動。
自動化管道。
- 提議。單次調用 O3 接收 token 角色(“自由變量”或“固定參數”)和周圍的文本上下文,并返回一個候選替換。
- 沖突檢查。一個確定性后驗證器拒絕與問題中任何預先存在的標識符沖突的名稱。
- 族標記。該字符串被標記為屬于下面描述的四個族之一。
我們使用四種類型的表面變體:描述性長(DL),帶有一個單一的描述性短語;描述性長混淆(DLC),帶有 2–5 個隨機無關名詞;描述性長誤導(DLM),帶有一個數學上具有暗示性但誤導性的術語;亂碼字符串(GS),帶有 4–16 個字符的哈希,如圖 2 所示,其中'Q'代表問題題干,'A'代表官方解答。
![]()
因此,每個源項目產生 4 個表面變體;每個族的準確率 delta 出現在結果與分析部分。
2.2.2 參數變體族
![]()
符號重命名僅探測詞法軸。為了探測結構遷移,我們重采樣數值常數,但強制解決方案復用原始的高層步驟。在這項工作中,我們稱之為 Kernel_Variant (KV)。我們通過一個四階段管道將每個項目轉換為語義等價的變體:(1) 槽位發現 (slot discovery);(2) 模板反向合成 (template back-synthesis);(3) 問題逆向工程 (question reverse-engineering);以及 (4) 雙重驗證器篩選 (dual-verifier screening)(連續兩次規則)。該管道使用 OpenAI o3 API 在通用硬件上在幾小時內為每個問題生成有界數量的已驗證變體。關于我們實現的實證界限和細節請參見附錄 A。
2.3 實現概覽
![]()
3 PutnamGAP 數據集
3.1 數據來源、提取與標注
我們的基準測試包含了 1938–2024 年的所有 Putnam 問題(去重后 N = 1 , 051 項)。有關來源的詳細信息請參見附錄 E。
原始掃描件通過一個三階段的 OCR(光學字符識別)流程進行處理:(i) 對每個問答對進行手動分割。(ii) 使用 MathPix 進行感知公式的 PDF 到 LaTeX 轉換,隨后是 (iii) 自定義后過濾器,用于合并多行表達式并修復 4.2% 的殘留符號錯誤。在生成變體之前,對每個項目進行人工抽查(每個問題 ≤ 2
分鐘)以確保語義保真度。完整的語料庫列表、OCR 準確率研究和清洗腳本見附錄 E。
3.2 數據集統計
整體規模與平衡。該基準測試包含 1938–2024 年的 1,051 個原始 Putnam 問題和五個數學等價的變換,總共產生 6,306 個項目。部分分布是平衡的(527 個 A 卷 vs. 524 個 B 卷),且規范標識符 ? year , part { A , B } , index ?提供了難度代理。使用索引 1–2 作為簡單 (Easy),3–4 作為中等 (Medium),5–6 作為困難 (Hard),語料庫包含 32.3% 的簡單題,32.3% 的中等題,32.2% 的困難題,外加 3.0% 的超難尾部(索引 7–8)。
主題覆蓋與質量控制 _meta.tag 中的自動標簽指示了廣泛的數學覆蓋范圍——代數 (641),分析 (521),數論 (392),組合數學 (286),以及幾何 (239)。803 個問題是證明題,其中 248 個是計算題。同時,每個項目都經過了單次人工驗證。
4 實驗設置
構建的 PutnamGAP 數據集首次使得對大語言模型(LLM)推理能力的魯棒性分析成為可能。在本節中,我們描述如何設置實驗以評估 18 個代表性模型的魯棒性。
4.1 模型池與提示
![]()
4.2 評分與自動評分器
我們將任務劃分為**計算(computation)和證明(proof)**兩類,并使用不同的評分器進行評估。
計算 每個候選答案經過標準化(處理空白符、單位、LaTeX 宏)后,進入兩條評分路徑:(i) 與參考答案進行嚴格字符串匹配;(ii) 潛在評分器(latent grader)——這是一個被提示根據參考答案和評分標準(不允許部分得分)返回 CORRECT'' 或 INCORRECT'' 的 LLM。我們采用路徑 (ii) 以減輕格式瑕疵的影響;如果兩條路徑結果不一致,我們將該項目標記為需人工審計(約 1% 的案例)。
證明 我們為評分器提供對齊的、分步的參考證明,并要求其分配一個二元評分(binary grade)加上自然語言的理由。任何跳過的邏輯步驟或缺失的引用都會觸發失敗判定。隨機抽取 10% 的樣本由獨立志愿者進行雙重檢查;評分器的精確率/召回率(precision/recall)大于 97%。
5 結果與分析
5.1 魯棒性
我們在這個基準上評估了 18 個不同的大語言模型,結果總結在表 1 中。對于模型的每個變體,我們在匹配的問題對上使用了配對設計(McNemar 精確檢驗),以測試準確率相比原始問題是否顯著下降。統計顯著性差異使用標準符號表示(p < 0.1, p < 0.05, p < 0.01)。我們還計算了 95% 置信區間(見附錄 D 圖 4)和魯棒性指標 R(見附錄 D 圖 9),所有模型,尤其是那些在原始集合上表現良好的模型,都得到了較低的魯棒性分數。
![]()
![]()
我們觀察到幾乎所有變體都導致模型準確率下降,即使變換僅僅是更改變量的名稱。這表明明顯缺乏魯棒性:模型通常缺乏在數學上相同但表面修改過的表示下保持其準確率的能力。特別是,依賴于變量名推理的變換(如誤導性或亂碼字符串)往往最嚴重地干擾模型的數學準確率。
![]()
![]()
![]()
另一個觀察結果是,如果一個模型在一個變體上不魯棒,它往往在其他變體上也不魯棒。顯著的例子包括 kimi-k2、claude-opus-4 和 gemini-2.5-pro。
5.2 按變換類型細分
描述性長命名 (Descriptive Long, DL) 總體而言,這種變換的影響最小:下降幅度微小且大多不顯著。一些模型,如 o3 (+1.3)、o4-mini (+1.5) 和 Qwen3-235B (+1.1),甚至略有提升。這表明描述性重命名能夠保持準確性。
混淆性長命名 (Confusing, DLC) 冗長且語義無意義的變量名適度降低了準確率。像 Claude-opus-4 (–4.3***) 和 GPT-4o-mini (–1.8***) 這樣的模型顯示出顯著下降。
誤導性命名 (Misleading, DLM) 用誤導性字符串替換變量嚴重損害了數學準確率。幾乎所有模型都經歷了顯著下降。值得注意的是,Claude-Opus-4 (–4.8***)、Gemini-2.5-pro (–5.6***) 和 Claude-Sonnet-4 (–4.4***) 是受影響最嚴重的模型。
亂碼字符串 (Garbled String, GS) 隨機字符串一致地降低了性能:每個模型的準確率都有損失,其中超過一半是顯著的。諸如 Gemini-2.5-pro (–5.4***)、Claude-Sonnet-4 (–4.9***) 和 Gemini-2.5-flash-lite (–4.7***) 等模型遭受了最大的降幅。
核心變體 (Kernel Variant, KV) 核心變體——即保持每個問題的數學結構但用不同的值替換常數和表達式——導致了總體上最急劇的下降。所有模型都經歷了大幅下降,通常在 –5 到 –15 分之間,其中 Grok4 (–14.6***)、Gemini-2.5-flash (–15.2***) 和 Gemini-2.5-pro (–14.9***) 顯示出最陡峭的下降。
總體而言,最先進的大語言模型 (LLMs) 在語義保持變換下表現出不一致的性能,并且似乎對表面線索敏感。這與以下可能性一致:它們的部分收益反映了與數據泄漏相關的記憶,而非穩定的數學推理。這種模式在不同主題和問題類別中持續存在:帶有 95% 置信區間 (CIs) 的條形圖(附錄 D,圖 4)以及按主題/按類別的細分(附錄 D,圖 7-8)顯示,在代數/分析/數論/組合數學/幾何以及證明題和計算題中,都存在類似的魯棒性差距。
![]()
![]()
5.3 錯誤分類法
我們的評分腳本會對每一個錯誤答案返回簡短的評語。利用這些評語,我們將錯誤歸為四類:符號混淆(Symbol Confusion)、步驟遺漏(Step Omission)、算術錯誤(Arithmetic)和邏輯幻覺(Logic Hallucination)。附錄 D 中的圖 5 顯示,這些錯誤類型的相對頻率在不同變體間幾乎完全一致;邏輯幻覺占據主導地位,無論提示詞的措辭如何,約占所有錯誤答案的五分之三。因此,準確率的下降分布在所有類別中,而非由單一類別驅動,這證實了數學上等價的擾動會持續降低大語言模型(LLM)的性能。
![]()
5.4 外部驗證
我們將表面重命名協議——DLC 和 GS——應用到了 ALG514 (kus, 2014) 數據集上。準確率從基準(Base)的 93.6% 下降至 DLC 的 90.9%(Δ = ?2.7 個百分點)和 GS 的 89.3%(Δ = ?4.3 個百分點);McNemar 檢驗結果顯示(Base vs DLC: b=24, c=10, p=0.024; Base vs GS: b=35, c=13, p=0.002)。這些統計上顯著的下降表明,GAP 的表面重命名壓力測試可以泛化到其他數學數據集,并揭示了對變量重命名存在實質性的敏感性。
![]()
6 討論
6.1 主要發現
提出的 GAP 框架使我們能夠關于大語言模型(LLM)在執行數學推理時的行為得出以下新發現:
符號級擾動導致顯著下降。 在四種表面變體——DL、DLC、DLM 和 GS——中,僅僅重命名變量平均就會使準確率降低 3–5 個百分點;例如,GEMINI-2.5-PRO 從 78.3% 下降到 72.9%(–5.4 個百分點;見表 1)。這表明當今的最先進(SOTA)模型仍然依賴于詞匯層面的“語義錨點”,而非完全抽象的證明結構。
保持結構但重采樣參數則更為嚴苛。 核心變體(KV)在保留原始推理骨架的同時,重采樣了所有可變常數。準確率損失達到約 10 個百分點;OPENAI O3 從 48.8% 下降到 38.5%(–10.3 個百分點),這表明掌握解題模式并不會自動轉化為參數不變的推理能力。
![]()
6.2 啟示
一種新穎的評估方法論: GAP 框架提供了一種新穎的方法論,用于通過生成(原則上)無限的語義等價測試項目來分析和評估 LLM 推理能力的魯棒性,這可以限制未來的基準泄漏并緩解排行榜膨脹。
通過課程微調提高魯棒性: 我們的結果表明,課程微調應顯式地隨機化 (i) 符號身份和 (ii) 數值參數,而不是簡單地擴大預訓練語料庫。也就是說,我們可以利用 GAP 框架來增強數據,用于微調模型以提高魯棒性。
檢測潛在的安全隱患: 表面層面的脆弱性意味著生產系統可能會被數學上無害的重命名進行提示注入(prompt-injected)——這凸顯了將魯棒性檢查集成到紅隊(red-team)流程中的必要性。我們的評估框架使得在部署任何生產系統之前進行此類風險分析成為可能。
![]()
7 相關工作
已經有多個基準測試用于評估大語言模型(LLM)的數學推理能力。早期的數學推理基準測試,如 MATH(1.25k 問題)(Hendrycks 等人,2021) 和 GSM8K(8.5k 問題)(Cobbe 等人,2021),揭示了基本的算術/代數技能。但隨著 LLM 規模的擴大,它們的難度現在已經飽和了。例如,使用諸如 DUP 之類的提示策略,GPT-4 在 GSM8K 上達到了 97.1% 的準確率 (Zhong 等人,2025)。這種高中競賽水平的天花板激發了新一代更困難基準測試的創建。
隨后的基準測試針對更難的問題。OMNI-MATH 貢獻了 4,428 個嚴格標注的奧林匹克級別問題 (Gao 等人,2024)。同樣,OLYMPIADBENCH 提供了一個雙語、多模態的基準測試,包含 8,476 個奧林匹克級別的數學和物理問題,并附有專家分步解答 (He 等人,2024)。跨學科基準測試 ARB 包含數學、物理、生物、化學和法律領域的問題,采用基于評分標準的自評分協議 (Sawada 等人,2023)。一些其他基準測試專門關注形式化證明。MINIF2F 提供了 488 個在多種證明助手中形式化的奧林匹克級別問題 (Zheng 等人,2022)。PUTNAMBENCH 提供了 1,692 個嚴格手工制作的 Putnam 競賽問題形式化版本 (Tsoukalas 等人,2024)。
然而,最近的研究警告說,當 LLM 在基準測試問題上進行訓練時,許多 NLP 基準測試的分數可能會因數據污染而被人為夸大。Sainz 等人 (2023) 指出,許多基準測試可能會被夸大,因為大語言模型經常記憶預訓練期間看到的測試數據。Balloccu 等人 (2024) 對閉源 LLM 的數據泄漏進行了系統審計,并估計來自 263 個數據集的大約 470 萬個測試示例可能暴露給了模型。
為了獲得對 LLM 推理能力更魯棒的評估,防止數據泄漏很重要。一種方法是創建原創問題。例如,FRONTIERMATH 通過一個嚴格策劃的基準測試解決了這個問題,該基準測試包含數百個原創的、專家級別的數學問題,涵蓋從數論到代數幾何的領域 (Glazer 等人,2024)。PUTNAM-AXIOM 采用了這種方法,包含 522 個來自 William Lowell Putnam 競賽的挑戰性問題,加上 100 個程序化生成的功能變體,提供了一個抗污染的基準測試 (Gulati 等人,2025)。
另一種處理數據泄漏的方法是引入對比集——現有測試實例的微小、改變標簽的擾動——以探測模型的局部決策邊界 (Gardner 等人,2020)。Huang 等人 (2025) 構建了 MATH-PERTURB,對 279 個 5 級 MATH 問題應用簡單和困難擾動,并發現模型在困難變體上遭受 12–16 個百分點的下降。Shalyt 等人 (2025) 用 ASYMOB 補充了這條工作線,這是一個 17k 問題的基準測試,其專注于代數的數值和符號擾動揭示了高達 70 個百分點的性能下降,突出了模型在這種壓力測試下的脆弱性。同樣,Yu 等人 (2025) 提出了 MATH-ROB,這是一個合成基準測試,通過基于指令的方法實現針對數據污染的魯棒性評估。這些努力要么專注于限制泛化性的特定方面,要么基于對當前模型來說太簡單的基準測試,要么引入數學上不等價的變換,從而混淆了真正的魯棒性評估。
在這些先前努力的基礎上,我們的工作引入了 GENERALIZATION-AND-PERTURBATION (GAP),這是一個統一的框架,通過生成復雜問題的數學等價變體來解決數據泄漏和魯棒性問題,顯著擴展了現有基準測試的評估深度。該框架可應用于現有和未來的基準測試,以及所有類型的問題,以加強其可靠性。為解決準確率分數飽和的問題,我們將框架應用于具有挑戰性的大學級別競賽數學問題。我們在 1938–2024 年的每個 William Lowell Putnam 競賽問題(1,051 個原始問題)上實例化 GAP,將每個項目擴展為五個數學等價變體,從而產生 PUTNAM-GAP,一個包含 6,306 個壓力測試問題的語料庫。最后,我們發布了一個開源評估堆棧,嚴格地分步評分解決方案,使評估完全自動化、透明且可復現。
8 結論與未來工作
魯棒推理在大語言模型(LLM)的許多應用中都是必需的。在本文中,我們提出了一種新穎的泛化與擾動(GAP)框架,用于分析和評估大語言模型推理能力的魯棒性。通過在全部 1,051 個 Putnam 競賽問題上實例化 GAP,我們產生了擁有 6,306 個問題的 PUTNAMGAP 基準。對 18 個商業和開源大語言模型的零樣本評估揭示了急劇且一致的準確率下降。這些結果暴露了一個明顯的魯棒性差距,這是迄今為止未擾動數據集上的排行榜分數所未能顯示的。
我們的發現突出了三個可操作的方向。
? 基準測試:GAP 提供了抗污染測試項目的無限制供應,限制了未來的數據泄漏和分數膨脹。
? 訓練:在微調期間隨機化符號身份和數值參數的課程應該成為針對形式推理領域模型的標準做法。
? 安全:損害準確率的相同表面級脆弱性可以被武器化用于提示注入攻擊,因此 GAP 風格的突變應該被構建到紅隊流程中。
基于我們的工作有多個有趣的未來研究方向:
(i) 用符號證明器和異構大語言模型多樣化驗證器集合,以排除共謀盲點,(ii) 將 GAP 移植到應用數學、物理和多模態 STEM 語料庫,以及 (iii) 將即時 GAP 變換集成到訓練中,以便對符號和參數變化的不變性是被學習而來的,而不僅僅是被測試的。PUTNAMGAP 使一個教訓變得明確無誤:數學 AI 的真正進步將不是由越來越高的原始分數來衡量,而是由模型跨越符號與實質之間隱藏鴻溝的能力來衡量。下一代頂級系統只有通過拒絕在 GAPs 上被甩在后面才能贏得它們的地位。
原文鏈接:https://arxiv.org/pdf/2508.08833v2
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.