網易首頁 > 網易號 > 正文申請入駐

DeepSeek強勢回歸，開源IMO金牌級數學模型

2025-11-28 08:55:08　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

突破級推理模型來了，DeepSeek 打開了自我驗證的數學推理方向。

The whale is back!

就在剛剛，DeepSeek 又悄咪咪在 Hugging Face 上傳了一個新模型：DeepSeek-Math-V2。

顧名思義，這是一個數學方面的模型。它的上一個版本 ——DeepSeek-Math-7b 還是一年多以前發的。當時，這個模型只用 7B 參數量，就達到了 GPT-4 和 Gemini-Ultra 性能相當的水平。相關論文還首次引入了 GRPO，顯著提升了數學推理能力。

那時隔一年半，這個基于 DeepSeek-V3.2-Exp-Base 開發的 DeepSeek-Math-V2 又帶來了哪些驚喜？

DeepSeek 表示，它的性能優于 Gemini DeepThink，實現了 IMO 金牌級的水平。

論文標題：DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
模型地址：https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
論文地址：https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
核心作者：邵智宏、Yuxiang Luo、Chengda Lu、Z.Z. Ren

論文開篇，DeepSeek 就指出了當前 AI 在數學推理方面的研究局限：以正確的最終答案作為獎勵，過于追求最終答案準確度。

這種做法雖然能讓推理模型在 AIME 和 HMMT 等基準上達到更高水平，乃至達到飽和，但 DeepSeek 表示這并不能解決核心問題：正確答案并不保證推理過程正確。此外，許多數學任務（如定理證明）需要嚴謹的逐步推導，而不僅僅是數值答案，這使得基于最終答案的獎勵方法不適用。

為了推動深度推理的極限，DeepSeek 認為有必要驗證數學推理的全面性和嚴謹性。

他們指出：「自我驗證在擴展測試時的計算規模時尤為重要，特別是對于沒有已知解的開放性問題?！?/p>

為了實現可自我驗證的數學推理，DeepSeek 研究了如何訓練一個準確且可信賴的基于 LLM 的定理證明驗證器。然后，他們使用該驗證器作為獎勵模型來訓練證明生成器，并激勵生成器在最終完成證明前盡可能發現并解決自身證明中的問題。

為了在生成器能力增強時保持生成 - 驗證差距，DeepSeek 提出擴展驗證計算能力，以自動標注新的難以驗證的證明，從而生成訓練數據進一步提升驗證器性能。

簡單來說，DeepSeek 這篇論文的核心目標不僅僅是讓 AI 做對題，而是讓 AI 「不僅會做，還能自己檢查，甚至能誠實地承認自己哪里做錯了」。

為了實現這一點，他們設計了一套由三個關鍵角色組成的系統，我們可以用一個「學生 — 老師 — 督導」的類比來理解：

首先，培養合格的「閱卷老師」（Proof Verification）。

過去訓練 AI 數學模型，通常只看最后的答案對不對。但在高等數學證明題（如奧數）中，過程嚴謹比答案更重要。因此，DeepSeek 團隊首先訓練了一個專門的驗證器（Verifier），也就是「閱卷老師」。這個老師不只是打鉤打叉，而是學會了像人類專家一樣把證明過程分為三檔：

1 分：完美，邏輯嚴密。
0.5 分：大體正確，但有小瑕疵或細節遺漏。
0 分：有根本性的邏輯錯誤或嚴重缺失。

不僅給分，還要寫評語：模型被要求在打分前，先寫一段分析，指出哪里好、哪里有問題。

接下來，給老師配個「督導」（Meta-Verification）。

DeepSeek 發現了一個問題：閱卷老師有時候會胡亂扣分，它可能給了個低分，但指出的錯誤其實根本不存在（也就是產生了幻覺）。

為了解決這個問題，他們引入了元驗證（Meta-Verification）機制，相當于給老師配了個「督導」。督導的任務不是看考卷，而是專門檢查老師寫的「評語」是否合理。這樣可以雙重確認：督導會檢查老師指出的錯誤是否真實存在，以及扣分是否符合邏輯。效果上，通過訓練模型既能當老師又能當督導，AI 評估證明的準確性和可信度大幅提升。

然后，培養會「自省」的學生（Proof Generation with Self-Verification）。

有了好的閱卷系統，接下來就是訓練做題的「學生」（生成器）。這里有一個非常關鍵的創新：誠實獎勵機制。也就是說，它不僅做題，還要自評：模型在輸出解題過程后，必須馬上跟上一段「自我評價」，自己給自己打分（0、0.5 或 1）。

它會對誠實進行獎勵：

如果模型做錯了，但它在自評中誠實地指出了自己的錯誤，它會得到獎勵。
相反，如果它做錯了卻硬說自己是對的（盲目自信），或者試圖「蒙混過關」，就會受到懲罰（得不到高獎勵）。

這樣做的目的是可以迫使 AI 在輸出答案前進行深度思考，試圖發現并修正自己的錯誤，直到它認為自己真的做對了為止。

最后，形成自動化閉環（Synergy）。

人類專家沒法給成千上萬道奧數題寫詳細的步驟評分，所以 DeepSeek 設計了一套自動化流程，讓系統「左右互搏」來自我進化：

海量生成：讓「學生」對同一道題生成很多種解法。
集體投票：讓「老師」對這些解法進行多次評估。如果大多數評估都認為某個解法有問題，那就判定為有問題；如果沒有發現任何漏洞，才判定為正確。
以戰養戰：通過這種方式，系統自動篩選出那些很難判卷或很難做對的題目，變成新的教材，重新訓練「老師」和「學生」。這樣，隨著「學生」解題能力變強，「老師」的眼光也越來越毒辣。

總之，DeepSeekMath-V2 的方法本質上是從「結果導向」轉向了「過程導向」。它不依賴大量的數學題答案數據，而是通過教會 AI 如何像數學家一樣嚴謹地審查證明過程（包括審查它自己），從而在沒有人類干預的情況下，也能不斷提升解決高難度數學證明題的能力。

最終，他們得到了 DeepSeekMath-V2 模型，其展現出了強大的定理證明能力：在 IMO 2025 和 CMO 2024 上取得金牌級成績，并在 Putnam 2024 中以擴展測試計算實現了接近滿分的 118/120。

下圖展示了 DeepSeekMath-V2 在 IMO-ProofBench 基準（這是 IMO Bench 的一個子集，其中包含 60 道證明題）上的表現，可以看到，在其中的 Basic 基準上，DeepSeekMath-V2 不僅遠勝過其它模型，甚至達到了近 99% 的驚人高分。而在更難的 Advanced 子集上，DeepSeekMath-V2 略遜于 Gemini Deep Think (IMO Gold)。

DeepSeek 表示：「雖然仍有大量工作需要推進，但這些結果表明，可自我驗證的數學推理是一個可行的研究方向，有望推動更強大數學 AI 系統的發展?！?/p>

這一自我驗證的數學推理框架可以說突破了傳統強化學習（RL）的限制，讓模型不再依賴最終答案正確性作為唯一獎勵，而是關注推理過程的嚴謹性。此外，DeepSeekMath-V2 中的驗證器 - 生成器協同的雙向改進循環帶來了全面和嚴謹的數學推理能力，大幅減少了大模型幻覺。

在論文中，DeepSeek 介紹了更多技術細節，感興趣的同學可以去仔細閱讀。返回

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.