網易首頁 > 網易號 > 正文申請入駐

DeepSeek最新發布再放大招，DeepSeekMath-V2背后的認知

2025-11-30 11:58:24　來源: AI變革

黑龍江舉報

分享至

DeepSeekMath-V2：當AI學會自我懷疑，數學競賽金牌只是開始

我們似乎已經習慣了AI在計算上的無所不能，但內心深處總有一個疑問：它真的懂數學嗎？

還是只是一個更快的計算器？

過去，AI在數學領域的表現，常常像一個自信的騙子，它可能通過暴力搜索或純粹的運氣，猜中正確答案，但推理過程卻漏洞百出。

這種模式在需要嚴謹證明的數學領域，幾乎是死路一條。

因為對于真正的數學，尤其是定理證明，答案正確不等于推理正確。過程的嚴謹性，才是靈魂所在。

傳統依賴最終答案獎勵的訓練方法，無法教會AI這一點。

它只會鼓勵模型不擇手段地得到那個數字，哪怕邏輯鏈條早已斷裂。

就在最近DeepSeek團隊發布的DeepSeekMath-V2，似乎徹底改變了這一切。

它不再滿足于給出答案，而是學會了像人類數學家一樣，審視、懷疑并修正自己的證明過程。

這不僅僅是一次技術迭代，更像是一場AI思維方式的革命。

核心突破：從自信的騙子到嚴謹的數學家

DeepSeekMath-V2最引人注目的地方，不是它又刷新了多少榜單，而是它采用了一種全新的方法論：自驗證數學推理。

簡單來說，它不再盲目自信，而是學會了自我懷疑。

生成器驗證器雙模型博弈

這個系統的核心，是一個精妙的生成器驗證器雙模型架構。

你可以把它想象成一個學生和一個極其嚴苛的教授之間的互動：

生成器(TheProofGenerator)：扮演著學生的角色，它的任務是產出解題步驟和證明過程。

驗證器(TheVerifier)：扮演著教授的角色，它不關心最終答案是否正確，而是逐行審查學生的證明，尋找邏輯上的任何瑕疵、跳躍或不嚴謹之處。

這個過程形成了一個閉環：生成器提交證明，驗證器進行嚴格評審并打分（例如，1分代表嚴謹，0.5分代表思路對但有瑕疵，0分代表存在致命錯誤）。

如果驗證器不滿意，生成器就必須根據反饋進行修改，直到證明過程無懈可擊。

這就像我們上學時，把作業交給老師批改，再訂正，直到完美為止。

這種機制，迫使AI從一個猜答案的機器，轉變為一個構造論證的思想者。

永不滿足的老師：動態能力差距的奧秘

這里有一個更巧妙的設計。

如果學生進步太快，超過了老師的水平怎么辦？

系統就會失去自我糾錯的能力。

為了解決這個問題，DeepSeek團隊引入了動態能力差距機制。

當生成器變得越來越強，能寫出更復雜、更精妙的證明時，驗證器也會隨之進化。

系統會自動識別出那些驗證器難以判斷的硬骨頭樣本，然后投入更多的計算資源（相當于讓教授花更多時間、查更多資料）去進行深度分析和標注。

這些被強化審閱過的數據，又會反過來用于訓練，讓驗證器變得更加火眼金睛。

這種生成器和驗證器之間的協同進化，就像一場永不休止的軍備競賽。

驗證器始終保持著對生成器的微弱優勢，迫使后者不斷突破自我，攀登更高的邏輯高峰。

這正是DeepSeekMath-V2能夠持續進步的動力源泉。

驚人的成績單：AI如何碾壓人類頂級數學競賽

理論說得再好，終究要靠實力說話。

DeepSeekMath-V2的表現在各大頂級數學競賽和基準測試中，只能用驚人來形容。

在被譽為數學世界杯的國際數學奧林匹克競賽（IMO）2025年的測試中，它取得了金牌水平的成績。

在中國數學奧林匹克（CMO）2024和美國最難的大學生數學競賽普特南（Putnam）2024的測試中，它同樣表現出色，尤其是在普特南競賽中取得了近乎滿分的118/120分。

要知道，這項競賽的人類中位數分數常常接近于零。

這些成績的取得，并非簡單的單次運行，而是通過測試時計算擴展（scaledtest-timecompute）實現的，即讓模型有更多時間去思考、生成多種解法并進行自我驗證，最終選出最優解。

這更接近人類頂尖高手解決難題時的狀態。

在由GoogleDeepMind團隊開發的定理證明基準測試IMO-ProofBench上，DeepSeekMath-V2的表現更是直接挑戰了此前的王者，GeminiDeepThink。

在基礎證明集（ProofBench-Basic）上，DeepSeekMath-V2達到了驚人的99%準確率，超越了GeminiDeepThink的89%。

在更困難的高級證明集（ProofBench-Advanced）上，兩者雖互有勝負（61.9%vs65.7%），但DeepSeekMath-V2已經穩穩地站在了第一梯隊，并將GPT-4o、Claude3.5Sonnet等通用模型遠遠甩在身后。

不只是刷分：為什么說這改變了游戲規則？

如果僅僅將DeepSeekMath-V2的成就看作是刷分能力的又一次提升，那就太小看它了。

它的出現，至少在兩個層面上改變了AI領域的游戲規則。

開源的力量：打破巨頭壟斷的神話

過去幾年，一個普遍的看法是，只有像Google、OpenAI這樣的巨頭，憑借其海量的計算資源和封閉的數據，才有可能在自動定理證明這樣的前沿領域取得突破。DeepSeekMath-V2的成功，以及其基于Apache2.0協議的完全開源，有力地打破了這一神話。

超越數學：一種全新的AI思維范式

生成器-驗證器的架構，其意義遠不止于數學。它為構建更可靠、更具邏輯性的AI智能體（Agent）提供了一個全新的藍圖。這種先生成、再批判的模式，可以被廣泛應用于：

代碼生成：AI不僅寫代碼，還能自我審查代碼的邏輯漏洞和潛在bug。

法律分析：AI在起草合同時，能自我檢查條款是否存在矛盾或法律風險。

科學研究：AI在提出科學假說后，能自我評估其與現有證據的邏輯一致性。

我們正在從依賴人類反饋進行強化學習（RLHF）的時代，邁向一個依賴AI自身邏輯反饋進行學習（RLAIF）的新時代。

這標志著AI從一個聽話的模仿者，開始向一個獨立的思考者轉變。

如何馴服這只數學猛獸？

DeepSeekMath-V2基于DeepSeek-V3.2-Exp-Base構建，可以通過HuggingFace的transformers庫進行調用。但需要注意的是，這是一個擁有6850億參數的龐然大物（盡管采用了MoE架構，每次推理激活的參數較少），對硬件要求極高，通常需要企業級的GPU集群才能流暢運行。對于普通用戶和研究者來說，等待社區推出輕量化的量化版本可能是更現實的選擇。

更重要的是，要發揮其最大威力，不能簡單地進行一次性提問。最佳實踐是采用一種智能體模式（Agent Mode）進行序貫優化：

1.生成初步證明：向模型提出問題。

2.獲取自我評估：模型在輸出證明的同時，會給出一個自我評估分數。

3.循環優化：如果分數不完美，將帶有問題的證明連同反饋再次輸入模型，并提示它：請根據你發現的問題優化你的證明。

通過這種方式，你可以引導模型進行多次迭代，模擬其訓練時的自我驗證過程，從而獲得遠超單次提問的推理深度和準確性。

比奶茶更精彩的，是AI學會了思考

AI行業已經很久沒有出現真正讓人眼前一亮、心跳加速的新事物了。我們看了太多的參數競賽和性能刷榜，卻很少看到思維方式的根本性變革。

DeepSeekMath-V2的出現它讓我們看到，AI的發展路徑并非只有更大、更快這一條路。

通過教會AI自我懷疑，我們或許能打開一扇更智能的大門。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.