網易首頁 > 網易號 > 正文申請入駐

“在數學上，中國模型沒輸過”！DeepSeek 深夜屠榜，Math V2 以碾壓姿態終結“最強數學模型”之爭

2025-11-28 13:35:05　來源: InfoQ

北京舉報

分享至

整理｜冬梅

11 月 27 日晚，DeepSeek 在毫無預告的情況下，于 Hugging Face 和 GitHub 上開源了全新數學推理模型 DeepSeek-Math-V2，685B 參數，從模型名稱就可以直接分辨出這是一款專注于數學方面的模型。這是業內首個達到國際奧林匹克數學競賽（IMO）金牌水平且全面開源的數學模型，一經發布便引發全球學界與開發者的高度關注。

它的上一個版本 ——DeepSeek-Math-7B 還是一年多以前發的。當時，這個模型只用 7B 參數量，就達到了 GPT-4 和 Gemini-Ultra 性能相當的水平。

模型地址：

https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

https://github.com/deepseek-ai/DeepSeek-Math-V2

1 數學能力擊敗 Gemini DeepThink

那么，這款模型性能到底如何？

據 DeepSeek 官方介紹，在性能方面，DeepSeek-Math-V2 在權威基準 IMO-ProofBench 中表現突出。

在 Basic 子集上，該模型拿下近 99% 的高分，領先第二名 Gemini DeepThink（IMO Gold）的 89%；在更具挑戰的 Advanced 子集上，Math-V2 取得 61.9%，略低于 Gemini DeepThink 的 65.7%。

更具標志性的是，在真實競賽題上的表現：Math-V2 在 IMO 2025、CMO 2024 上達到金牌水平，并在 Putnam 2024 以擴展測試算力獲得 118 分（滿分 120），顯示出強勁的定理證明能力，而這一成績是在未依賴大規模“題庫答案”訓練的前提下取得的。

伴隨模型同步亮相的技術論文《DeepSeek Math-V2：邁向可自驗證的數學推理》顯示，該模型在數學推理嚴謹度、定理證明能力以及多項權威基準上均取得顯著突破，部分能力超越了谷歌旗下的 Gemini DeepThink（IMO Gold）。

論文地址：

https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

論文指出，過去一年，隨著強化學習技術將“最終答案正確率”作為獎勵信號，大語言模型在數學推理任務上的表現快速提升，從較低水平躍升至接近占滿 AIME、HMMT 等高中難度競賽榜單。

然而，這類方法的根本缺陷也逐漸暴露：正確答案并不等同于正確推理，而定理證明等數學核心任務依賴嚴謹的逐步邏輯推導，無法用“答案對錯”簡單衡量。對于沒有標準答案的開放問題而言，更無法根據“最終答案”獎勵模型。因此，要想推動數學推理能力真正突破，需要驗證推理鏈條的完整性與嚴謹性，而“自驗證機制”成為關鍵。

這種自驗證機制也正是這款 DeepSeekMath-V2 模型的核心突破。

這種自驗證機制為什么很重要？因為它正面解決了數學 AI 長期存在的核心問題：算對答案，并不意味著真正懂得推理。

數學尤其強調推導過程的嚴謹性，任何一步出現跳躍或漏洞，最終結論都不成立。因此，如果只依據“答案是否正確”來訓練模型，AI 頂多學會更準確地“猜結果”，卻無法保證推理過程本身是可信的。

自驗證機制的重要性在于，它讓模型具備“檢查自己”的能力。

一方面，它能判斷自己的推理鏈是否完整、邏輯是否自洽，從而避免“答案對了但過程錯了”的常見問題；另一方面，對于那些沒有標準答案的開放難題，自驗證使得模型能夠在沒有人工標注的情況下繼續提升能力，這對于真正推動數學研究至關重要。

此外，自驗證還讓模型在推理過程中能夠多次檢查和修正自己的思路，讓它在使用更多算力時獲得更高的正確率——這與人類數學家反復核查草稿的習慣非常相似。

基于這一判斷，DeepSeek 在 Math-V2 的研發中將重點從“結果導向”轉向“過程導向”。團隊首先訓練出一個基于大模型的高精度驗證器，用于檢查定理證明的邏輯正確性；隨后再利用該驗證器作為獎勵模型訓練證明生成器，促使模型在提交最終證明前主動發現并修正推理中的漏洞，以提升推理的真實性與可靠性。

為保持驗證器的領先性，團隊進一步引入“擴展驗證算力”，自動標注復雜、難驗證的推理樣本并用于迭代訓練，使驗證器與生成器形成持續進化的閉環。

DeepSeek 在論文中強調，自我驗證的數學推理不僅適用于標準化競賽任務，更重要的是，它為處理“無標準答案的開放問題”提供了路線圖，使數學 AI 不再局限于“算對題”，而向“像數學家一樣思考”邁進。盡管距離真正強大的數學推理系統仍有距離，但 Math-V2 的成果表明，自我驗證機制是可行且具有重大潛力的研究方向。

2 網友怎么看？

值得注意的是，Reddit、Hacker News 等海外開發者社區對這次開源給出了強烈反響，不少人稱“DeepSeek 這頭鯨魚終于回來了”。

有網友驚嘆，Math-V2 在 Basic 基準上以 10 個百分點的優勢擊敗谷歌 Gemini DeepThink（IMO Gold），遠超市場預期；還有人表示，“如果他們稍后發布編程模型，我敢打賭那會更加震撼。”

有 Reddit 用戶表示，一直在悶聲干大事，因為數學就是大事。

“沒有數學，我們不可能達到奇點。隨便翻開一篇人工智能論文，你會發現里面全是數學。”

還有用戶希望 DeepSeek 能將強大的數學能力用戶代碼編寫上。該用戶表示：

“它能夠編寫代碼嗎？我希望能有一個數學能力強大的大語言模型來生成我那些復雜且數學性強的代碼。雖然不同的模型或許都能寫出不錯的代碼，但在數學軟件領域，數學上的正確性至關重要。我已經注意到，針對我感興趣的一些問題，不同模型在數學正確性上存在分歧。”

還有國外用戶表示，其實中國的模型在數學方面的能力都很強，DeepSeek 如此，Qwen 也是這樣。

在 X 上，有用戶表示，V1 已經發布近兩年了，在大家以為數學產品線已經被放棄時，DeepSeek 一直沒有放棄，并且一出手性能就很強大。

在國內社區知乎平臺上，也有用戶表示，DeepSeek 里面搞數學推理的團隊可能是最有潛力的一張王牌。

因為數學推理是所有 AI 推理任務里最苛刻的那一個。沒有情緒、沒有模糊答案、沒有‘差不多就行’，每一步都是嚴格邏輯鏈，一處錯誤會全盤報廢。

隨著 DeepSeek-Math-V2 的開源，大模型數學推理研究的競爭格局正在被重新定義，而“可自驗證推理”也正成為推動下一代數學型 AI 的關鍵技術路徑。

https://github.com/deepseek-ai/DeepSeek-Math-V2

https://www.reddit.com/r/singularity/comments/1p7ztyj/deepseek_released_deepseekmathv2/

https://x.com/search?q=DeepSeek-Math-V2%20&src=typed_query

聲明：本文為 AI 前線整理，不代表平臺觀點，未經許可禁止轉載。

InfoQ 2025年終榜單以“洞察 AI 變革，見證智能未來”為主題，我們誠邀各企業和團隊分享自己在 AI 領域的最新成果和杰出項目。無論是在AI基礎設施的搭建，工程與部署的創新，還是智能體生產力的提升與行業應用的拓展，我們期待與您共同展現AI技術與產業結合的無限可能。如有興趣，歡迎掃描下方二維碼積極提報！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.