網易首頁 > 網易號 > 正文申請入駐

再創歷史！DeepSeek最新開源模型Math-V2實現IMO金牌水準，提出可自驗證的數學推理

2025-12-01 19:51:35　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自頭部科技

文丨譚梓馨

繼OpenAI發布GPT-5.1、谷歌推出Gemini 3、Anthropic迭代Claude Opus 4.5之后。

11月27日晚間， DeepSeek團隊在開源社區低調發布了一款新模型DeepSeekMath-V2，該模型展現出強大的定理證明能力，在IMO 2025和CMO 2024上取得了金牌水平成績，并在Putnam 2024上取得接近完美的118分（滿分是120分，人類選手的歷史最高分為90分）。

值得關注的是，這也是首個在IMO競賽中達到金牌水準的開源模型，今年7月份，谷歌DeepMind的“Gemini Deep Think”曾斬獲IMO 2025金牌。
網友們稱贊：大藍鯨又回來了！

讓AI推理過程像數學家一樣嚴謹

DeepSeek這篇新模型論文講了什么？簡單來說，其改變了AI數學推理的既有路徑：從傳統的“結果導向”(只關注答案是否正確) 轉向“過程導向”(重視推理過程的嚴謹性和可驗證性)。

核心創新是一種自驗證架構：首先訓練一個基于LLM的精準且可信的定理證明驗證器；隨后以該驗證器作為獎勵模型，訓練一個證明生成器，并激勵生成器在最終定稿前，自主識別并修正自身證明過程中的盡可能多的問題。

這一架構使模型能像數學家一樣思考：自己寫證明→自己挑毛病→自己改到無懈可擊，實現了AI推理的“自我反思”能力。

DeepSeek團隊在論文中表示，大語言模型（LLMs）在數學推理領域已取得顯著進展，若能進一步突破，有望對科學研究產生深遠影響。

通過強化學習放大推理能力（該方法以最終答案的正確性為獎勵導向），LLMs在一年內實現了性能跨越式提升，然而，這種方法存在根本性局限：一味追求更高的最終答案準確率，無法解決一個核心問題——正確答案并不等同于嚴謹的推理過程。

為突破深度推理的邊界，DeepSeek團隊認為有必要對數學推理的完整性與嚴謹性進行驗證，尤其在測試階段計算量擴容場景下（例如面對無已知解的開放性問題時），自驗證能力至關重要。

為避免生成器性能提升后出現“生成-驗證能力差距”擴大的問題，團隊還提出通過擴容驗證計算量，自動標記新增的高難度驗證樣本，進而生成訓練數據以持續優化驗證器。

最終，DeepSeekMath-V2 展現出卓越的定理證明能力：在2025年國際數學奧林匹克（IMO）、2024年中國數學奧林匹克（CMO）中均斬獲金牌級得分，且在2024年普特南數學競賽（Putnam）中，通過擴容測試階段計算量，取得了118/120的近乎滿分成績，超越了人類參賽者90分的最高紀錄。

研究結果表明，可自驗證數學推理是一條切實可行的研究路徑，有望助力研發出能力更強大的數學AI系統。

人類即便在沒有參考解法的情況下，也能識別證明中的問題——這是解決開放性問題時的關鍵能力。DeepSeek團隊認為，LLMs能夠通過訓練獲得“無參考解法下識別證明問題”的能力。

利用“自我認知”系統性提升數學推理

DeepSeekMath-V2的證明驗證器與生成器構成協同循環：驗證器助力生成器優化，而生成器性能提升后，會產出挑戰驗證器當前能力邊界的新證明。

這些挑戰性樣本（即驗證器單次驗證可能無法識別問題的證明），將成為提升驗證器自身性能的寶貴訓練數據。

在DeepSeek自研的CNML級別題目集中包含91道定理證明題，涵蓋代數（13道）、幾何（24道）、數論（19道）、組合數學（24道）和不等式（11道）五大類別，難度與中國全國高中數學聯賽（CNML）題目相當，各模型在不同類別CNML級別題目上的得分顯示，DeepSeekMath-V2的性能持續優于Gemini2.5-pro和GPT5-Thinking-High，展現出跨領域的卓越定理證明能力。

在2024年國際數學奧林匹克預選題（IMO Shortlist 2024）上，研究人員通過序貫優化實現證明質量提升。

針對每道題目啟動了32條獨立的優化線程，并通過最終驗證器產出的32份驗證分析報告進行多數投票，判定證明的正確性。

結果顯示，模型自主篩選的最優證明獲得了顯著高于線程平均水平的驗證得分，這表明模型的生成器具備準確評估證明質量的能力；此外，隨著最大序貫嘗試次數的增加，單次通過率實現了實質性提升，證明自驗證機制能有效引導迭代優化過程。

這些結果證實：DeepSeekMath-V2生成器能夠可靠區分高質量證明與有缺陷證明，并利用這種自我認知能力，系統性地提升其數學推理水平。

DeepSeek團隊在論文總結中表示，推進自然語言定理證明的發展將為形式化推理帶來顯著助力。期望通過本研究，為構建真正可靠的數學推理系統做出貢獻——這類系統能夠同時借助非形式化洞察與形式化保障，推動數學研究的進步。

開源AI進入中國主導階段

盡管不是科技巨頭，但DeepSeek一直是全球開源模型的創新探索引領者。

日前，麻省理工學院（MIT）和開源平臺Hugging Face合作的一項“開放智能經濟”研究發現，過去一年中，中國開發的新型開源模型的下載總量占比上升至17%，在全球開源AI模型市場中比美國占據了更多關鍵優勢。

研究還發現，美國、中國、英國的開發力量嚴重偏向產業端；而德國、法國及歐洲其他地區與線上開發力量則更均衡，涵蓋非營利機構、高校及社區貢獻者。

行業權力格局正發生根本性重構：谷歌、Meta和OpenAI主導的美國開源權重產業優勢已大幅下滑，非關聯開發者、社區組織以及2025年崛起的中國產業力量逐漸崛起。
隨著DeepSeek、Qwen、Hunyuan、GLM、Kimi、MiniMax、ERNIE等多家開源模型的持續滲透，且不斷拉近與封閉模型之間的差距，或將開啟由中國開發者主導的新一輪市場權力整合。

注：頭圖AI生成

作者長期關注 AI 產業與學術，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業動態與技術趨勢！

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.