![]()
↑閱讀之前記得關注+星標??,,每天才能第一時間接收到更新
DeepSeek王者歸來!剛剛發布了DeepSeekMath-V2
在IMO 2025和 CMO(中國數學奧林匹克) 2024 中,DeepSeekMath-V2均達到了金牌水平。
在 Putnam(普特南數學競賽。地位:北美地區「美國和加拿大」最頂尖、最負盛名的大學本科生數學競賽) 2024 競賽中,更是隨著測試時計算量(test-time compute)的擴展,拿下了 118/120 的幾近滿分成績。
這一成果表明,自驗證數學推理(Self-Verifiable Mathematical Reasoning)是一條可行的研究路徑
核心要點如下
為什么需要自驗證?
過去一年,大語言模型通過基于最終答案正確性的強化學習,在AIME和HMMT等定量推理競賽中取得了長足進步,甚至達到飽和
但這種方法面臨根本性局限:
答案對 推理對:追求更高的答案準確率,并不能解決推理過程中的核心問題。
非數值任務失效:許多數學任務(如定理證明)需要嚴謹的逐步推導,而非簡單的數值答案,無法應用基于最終答案的獎勵機制
為了突破深度推理的極限,驗證數學推理的全面性和嚴謹性至關重要。
特別是對于沒有已知解決方案的開放性問題,自驗證是擴展測試時計算量(scaling test-time compute)的關鍵
DeepSeekMath-V2 是怎么做的?
DeepSeek團隊通過以下步驟實現自驗證數學推理:
1.訓練驗證器:訓練一個準確且忠實的大模型驗證器(Verifier),專門用于定理證明。
2.訓練生成器:將上述驗證器作為獎勵模型(Reward Model)來訓練證明生成器
3.自我糾錯:激勵生成器在最終定稿前,主動識別并解決自身證明中的問題
4.動態進化:為了在生成器變強時保持“生成-驗證”的差距,通過擴展驗證計算來自動標注難以驗證的新證明,生成訓練數據以進一步提升驗證器
評測結果
DeepSeekMath-V2在IMO-ProofBench(由DeepThink IMO-Gold背后的谷歌DeepMind團隊開發)展現了強大的定理證明能力:
IMO 2025:達到金牌水平
CMO 2024:達到金牌水平。
Putnam 2024:取得118/120的超高分
![]()
![]()
快速上手
DeepSeekMath-V2建立在 DeepSeek-V3.2-Exp-Base 之上。
如需推理支持,可參考 DeepSeek-V3.2-Exp 的 GitHub 倉庫
參考:
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2-v2-towards-self-verifiable-mathematical-reasoning
--end--
最后記得??我,這對我非常重要,每天都在更新:
歡迎點贊轉發推薦評論,別忘了關注我
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.