![]()
這項由德國圖賓根大學、圖賓根AI中心和馬克斯·普朗克智能系統研究所的Prasanna Mayilvahanan、Ricardo Dominguez-Olmedo、Thaddaus Wiedemer和Wieland Brendel等研究者共同完成的研究發表于2025年1月,論文編號為arXiv:2510.11653v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當我們談論人工智能的數學推理能力時,經常聽到一些令人振奮的消息:某個AI模型在數學競賽中取得了突破性成績,或者某種新的訓練方法讓機器的解題能力大幅提升。然而,這些看似輝煌的進步背后,可能隱藏著一個令人不安的真相。
研究團隊發現了一個有趣的現象:當我們給現有的AI模型足夠多的嘗試機會時,比如讓它們對同一道數學題嘗試1024次,許多基礎模型其實已經能夠解決幾乎所有常用數學基準測試中的問題。這就像一個學生雖然第一次考試可能只考60分,但如果允許他考試1000多次,幾乎每道題他最終都能做對。
這個發現揭示了當前AI數學推理領域的一個尷尬現實:那些被廣泛使用的強化學習訓練方法,實際上并沒有教會AI新的解題思路,而只是讓它們更善于找到那些本來就知道的答案。用一個形象的比喻來說,這就像一個木匠本來就有一把好刀,強化學習訓練只是讓他把刀磨得更鋒利,而不是教會他使用新的工具。
為了驗證這個假設并推動真正的進步,研究團隊創建了一個名為MATH-Beyond(簡稱MATH-B)的全新數學基準測試。這個測試的設計理念很巧妙:它專門收集那些即使給現有開源模型1024次嘗試機會,它們依然無法解決的數學問題。
構建這樣一個測試并不簡單。研究團隊首先從DAPO-Math-17K和DeepScaleR等數據集中篩選出53,682個候選問題。然后,他們像珠寶商挑選鉆石一樣,對這些問題進行了嚴格的質量篩選。他們去除了多項選擇題,清理了含有中文字符的問題,移除了需要參考外部圖像的題目,確保每個問題都是完整的、自包含的數學題。
在篩選過程中,研究團隊還發現了數學驗證系統中的一些有趣問題。比如,有些驗證程序只會讀取答案中第一個或最后一個數字,而忽略了其他可能正確的答案;有些程序無法正確處理學生在解題過程中的修正,比如學生先寫了一個錯誤答案,然后改正了,但驗證程序可能仍然認為第一個答案是最終答案。這些看似微小的技術細節,實際上可能嚴重影響對AI數學能力的準確評估。
為了確保問題的正確性,研究團隊還請來了"專家級裁判"——GPT-5-Mini和o4-mini-high這些頂級AI模型來驗證答案。只有當至少一個專家級模型能夠正確解答時,這道題才會被納入最終的測試集。
經過層層篩選,最終的MATH-B測試包含了181個問題。這些問題在主題上與普通高中數學完全一致,涵蓋幾何、數論、代數等各個領域,但它們的特殊之處在于:即使是目前最強的開源基礎模型,在給予1024次嘗試機會的情況下,通過率也接近于零。
研究團隊還從這181個問題中挑選出41個"終極難題",這些問題連所有被測試的基礎模型都無法解決。可以說,這41個問題代表了當前開源AI數學推理能力的絕對邊界。
有趣的是,這些讓AI頭疼不已的問題,從人類的角度來看并不一定特別困難。研究團隊對問題進行了難度評估,發現大多數問題的人類難度評級只有4分(滿分10分),即使是那41個"終極難題",最高難度也只有6.5分。這揭示了一個重要現象:AI的困難和人類的困難是完全不同的概念。
接下來,研究團隊用這個新的測試基準來評估各種經過強化學習訓練的AI模型。結果令人深思:那些在傳統基準測試中表現優異的強化學習模型,在MATH-B上的表現都相當糟糕。
具體來說,基于DeepSeek-R1-Distill-Qwen2.5-1.5B訓練的三個強化學習模型,即使在1024次嘗試的情況下,也只能解決不到10%的測試問題。這就像一個在標準化考試中表現優秀的學生,面對稍微超出常規范圍的題目時就束手無策。
不過,也有一些例外。Skywork-OR1-7B模型達到了21%的解題率,表現相對較好。研究團隊分析認為,這可能是因為該模型在訓練過程中采用了自適應熵控制和較高的溫度參數,這些技術手段鼓勵了更多的探索行為,而不是簡單地強化已有的解題模式。
最令人印象深刻的對比來自Qwen3系列模型。Qwen3-4B和Qwen3-8B這兩個模型通過長推理鏈蒸餾訓練,在MATH-B上分別達到了58.93%和66.38%的解題率。這個結果特別有啟發性,因為它表明當AI模型能夠接觸到正確的推理步驟分布時,確實可以實現顯著的能力擴展。
這就好比教一個學生解題:傳統的強化學習方法更像是告訴學生"這個答案對,那個答案錯",但沒有教會他新的解題思路;而長推理鏈蒸餾則像是讓學生觀看優秀教師的詳細解題過程,從中學習新的思維方法。
研究團隊還深入分析了為什么選擇1024次嘗試作為評估標準。他們發現,雖然隨著嘗試次數增加,模型的整體成功率會持續提升,但邊際收益遞減效應非常明顯。到了1024次嘗試時,大多數模型的表現已經接近平臺期,繼續增加嘗試次數帶來的改進微乎其微。這說明1024次嘗試已經足夠充分地探索模型的能力邊界。
這項研究對當前AI數學推理領域的發展具有重要意義。它揭示了一個不舒服的真相:許多看似先進的強化學習方法,實際上只是在優化已有能力的表達方式,而沒有真正擴展AI的推理邊界。這就像是把一個會騎自行車的人訓練得騎得更穩,而不是教會他開汽車。
研究團隊認為,要實現真正的進步,AI研究需要從"強化已知"轉向"探索未知"。傳統的強化學習往往會讓模型在已知的解題路徑上越走越深,而真正需要的是鼓勵模型探索全新的推理方式。
這種觀點挑戰了當前主流的研究方向。許多研究團隊專注于在現有基準測試上提升性能,但如果這些基準本身已經被現有模型"飽和",那么這種提升可能只是表面文章。MATH-B的出現,為研究者提供了一個真正具有挑戰性的測試平臺,迫使他們開發能夠突破現有邊界的新方法。
從更廣泛的角度來看,這項研究也反映了人工智能發展中的一個普遍問題:如何區分真正的能力提升和表面的性能優化。在AI的許多應用領域,我們都可能面臨類似的困境:一個模型在訓練數據上表現優秀,但面對真正新穎的挑戰時卻顯得力不從心。
研究團隊的工作還揭示了AI能力評估中的一些微妙之處。他們發現,不同的驗證方法可能導致完全不同的結論。一些看似嚴格的測試實際上可能存在系統性偏差,導致高估或低估模型的真實能力。這提醒我們,在評估AI系統時需要更加審慎和全面。
值得注意的是,MATH-B雖然專門設計來"刁難"當前的AI模型,但它收錄的問題都是標準的高中數學內容,在主題和形式上與常見的數學競賽題目沒有本質區別。這說明真正的挑戰不在于問題的復雜性,而在于AI系統是否具備靈活應對變化的能力。
這項研究的另一個重要貢獻是提出了一個明確的評估框架。研究團隊定義了"擴展率"這個概念,專門衡量一個經過訓練的模型相比其基礎版本究竟獲得了多少新能力。這個指標的價值在于,它能夠區分真正的能力擴展和簡單的性能優化。
在傳統評估中,如果一個模型的整體準確率從70%提升到80%,我們可能會認為這是一個顯著的進步。但擴展率指標會進一步詢問:這10%的提升中,有多少來自于解決新問題的能力,有多少只是在原來能解決的問題上表現更穩定?這種細致的分析有助于研究者更準確地理解模型改進的本質。
研究團隊也承認他們工作的一些局限性。MATH-B目前專門針對參數量在8B以下的開源模型設計,對于更大規模的模型可能不夠具有挑戰性。此外,數學推理只是AI能力的一個方面,在其他領域(如常識推理、創意寫作等)可能需要不同的評估方法。
然而,這些局限性并不削弱這項工作的價值。相反,它為AI研究社區提供了一個重要的思考框架:我們究竟想要什么樣的AI進步?是滿足于在現有基準上的數字游戲,還是追求真正突破邊界的創新?
從實際應用的角度來看,這項研究的啟示也很明確。如果我們希望AI系統能夠在現實世界中處理真正新穎的問題,就必須在訓練過程中引入真正的探索機制,而不是簡單地強化已有的模式。這可能需要重新思考強化學習的目標函數,或者開發全新的訓練范式。
研究團隊已經將MATH-B公開發布,供全球研究者使用。他們希望這個工具能夠推動AI數學推理領域的真正進步,鼓勵研究者開發更具探索性的方法。正如科學研究中常見的情況,一個好的問題往往比答案更重要,而MATH-B正是這樣一個"好問題"的集合。
說到底,這項研究提醒我們,在AI快速發展的時代,我們需要保持冷靜的判斷力。表面的性能提升并不總是意味著真正的進步,而真正的突破往往需要我們跳出舒適圈,面對那些讓我們感到不適的挑戰。MATH-B就是這樣一個不讓任何人舒適的挑戰,但正因如此,它可能成為推動AI數學推理真正進步的催化劑。對于那些真正關心AI發展方向的研究者和觀察者來說,關注這個領域如何回應MATH-B的挑戰,將是一件極有意義的事情。
Q&A
Q1:MATH-Beyond測試和普通數學測試有什么區別?
A:MATH-Beyond專門收集了那些即使給AI模型1024次嘗試機會依然無法解決的數學問題。雖然這些題目在內容上都是標準的高中數學,但它們能夠暴露現有AI模型的真實能力邊界,而不像傳統測試那樣容易被現有模型"刷分"。
Q2:為什么現有的強化學習方法在MATH-Beyond上表現這么差?
A:研究發現,目前主流的強化學習方法主要是在"磨刀"而不是"換刀",也就是說它們只是讓AI在已知的解題思路上表現更好,而沒有教會AI新的推理方式。當面對超出原有能力范圍的問題時,這些方法就顯得力不從心了。
Q3:這項研究對AI數學推理的發展有什么意義?
A:這項研究揭示了當前AI數學推理領域的一個重要盲點,并提供了一個真正具有挑戰性的測試平臺。它推動研究者從追求表面的性能提升轉向開發能夠真正擴展AI推理邊界的新方法,這對整個領域的健康發展具有重要意義。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.