網易首頁 > 網易號 > 正文申請入駐

GPT-5危了！DeepSeek開源世界首個奧數金牌AI，正面硬剛谷歌

2025-11-28 00:08:11　來源: 新智元

北京舉報

分享至

新智元報道

編輯：編輯部

【新智元導讀】沉寂許久的DeepSeek又回來了！今天，DeepSeekMath-V2重磅登場，一舉奪下IMO 2025金牌，實力媲美甚至超越了谷歌的IMO金牌模型，開源AI再次扳回一局。

DeepSeek再次歸來！

剛剛，DeepSeek重磅發布DeepSeekMath-V2新模型，一舉奪下IMO 2025金牌。

最關鍵的是，這是首款「開源的IMO金牌模型」。

基于DeepSeek V3.2 Exp Base構建

當前，已官宣拿下金牌的兩大模型，一款來自谷歌Gemini Deep Think，另一款便來自OpenAI的內部模型。

在IMO-ProofBench中，DeepSeekMath-V2展現出強大的定理證明能力：

IMO 2025：破解5題（共6題），達到了金牌水平；

CMO 2024（中國數學奧林匹克）：達到金牌水平；

Putnam 2024：得分118接近滿分（120分），超越人類參賽者最高分（90分）。

不僅如此，在ProofBench-Basic上，DeepSeekMath-V2的實力碾壓谷歌金牌模型——Gemini Deep Think；在ProofBench-Advanced上直追谷歌。

論文中，團隊訓練了一個基于LLM驗證器（Verifier）作為獎勵函數，并以此訓練模型以自主解決問題。

而且，他們還Scaling了驗證器算力，來標注更復雜的證明，進一步優化了驗證器本身。

這種方法非常巧妙，能有效彌合生成與驗證之間的差距。

結果實證「可驗證的數學推理」，是未來一條可行的研究方向。

DeepSeekMath-V2

讓「自驗證」成最強武器

DeepSeekMath-V2的論文也于GitHub同步放出了。

DeepSeek最新發布的DeepSeekMath-V2帶來的核心突破就是：自驗證（Self-Verification）。

這不僅讓它在最難的數學競賽中橫掃人類頂尖選手，更重要的是，它揭示了通往更高級AI的一條必經之路——學會自我反思。

為什么只看結果是不夠的

在過去，訓練AI做數學題的方法很簡單：給它一道題，如果它算出的答案和標準答案一致，就給它獎勵。

這在簡單的計算題（如AIME競賽）中很有效。

但到了數學皇冠上的明珠——國際數學奧林匹克（IMO）這個級別，這種方法就徹底失效了。

因為IMO的題目往往沒有簡單的數值答案，而是要求你寫出一段邏輯無懈可擊的證明過程。

以前的AI在這里經常是個「大忽悠」，它能胡編亂造一通看起來很專業的數學黑話，最后強行得出一個結論。雖然它可能蒙對了結果，但過程全是漏洞。

DeepSeekMath-V2決定從根本上改變規則，不僅要獎勵正確的答案，更要獎勵嚴謹的「自我找茬」過程。

秘密武器：左右互搏的三位一體

為了實現這種「自我反思」，DeepSeek設計了一套精妙的「左右互搏」系統，就像在AI的大腦里住了三個人：

1.「做題家」（Generator，證明生成器）：

負責解題和寫證明。

但與以往不同，它被訓練成不僅要寫答案，還要寫一段「自我評價」。它必須誠實地說：「這步我有點不確定，可能是錯的。」

研究團隊巧妙設計了獎勵，帶來了下列激勵效果：

誠實面對錯誤，比「硬說自己是對的」更有利。
寫出真正正確的證明，并準確識別其嚴謹程度，可以獲得最高獎勵。
對生成器來說，最優策略是：在最終回答前，發現并修正盡可能多的問題。

2.「鐵面判官」（Verifier，證明驗證器）：

這是DeepSeek專門訓練的一個評分模型。它不看答案對不對，而是專門盯著證明過程挑刺。它會像閱卷老師一樣，給證明打分（0分、0.5分、1分），并指出具體的邏輯漏洞。

1分：證明完整且嚴謹，所有關鍵推理步驟都有清晰、充分的論證；
0.5分：整體思路正確，但在細節上存在輕微錯誤或略去部分論證；
0分：存在致命邏輯錯誤或關鍵缺口，導致證明在本質上不成立。

3.「判官的審計員」（Meta-Verifier，元驗證器）：

這是最絕的一步。因為「判官」也可能犯錯，或者為了省事偷懶瞎判。

于是DeepSeek又引入了一個「元驗證」機制，專門檢查「判官」是不是在胡亂挑刺。如果「判官」指出了一個不存在的錯誤，它會被「審計員」打手板。

「元驗證器」來檢查驗證器給出的分析，包括：

1. 驗證器指出的問題是否真實存在于原證明中；

2. 這些問題是否足以合理支撐它給出的得分，且符合原有的評分細則。

用元驗證器來評估驗證器輸出分析的平均質量分數，從0.85提升到了0.96，同時保持了原有的打分準確率。

在這三者的配合下，DeepSeekMath-V2甚至能做到在沒有標準答案的情況下，自己給自己出題、自己做、自己批改、自己重做。

首先，證明驗證器與證明生成器之間形成了良性的「閉環」：

驗證器為生成器提供獎勵信號，從而不斷提高生成器的證明能力；
隨著生成器水平提升，它會產生越來越「刁鉆」的新證明，這些證明反過來又會暴露出驗證器尚未覆蓋的薄弱點。

尤其是那些「驗證器第一次嘗試沒能抓出問題」的證明樣本，對進一步訓練驗證器來說價值極高。

為了高效獲取新證明的正確性標簽，研究團隊設計了自動化標簽生成流程：

在最后兩輪訓練迭代中，這條全自動標注流水線已經完全替代了人工標注。后續的質量檢查表明，自動生成的標簽與人類專家的判斷高度一致。

巔峰對決：DeepSeek vs Gemini

在這個領域，DeepSeek并不孤單。

谷歌DeepMind的Gemini Deep Think也是剛達到IMO金牌水平的頂尖選手。

兩者的對比非常有意思：

DeepMind像是擁有無盡資源的貴族，其實力毋庸置疑，在某些高級基準測試（如IMO-ProofBench Advanced）上依然保持領先。

DeepSeek則像是半路殺出的天才少年。根據DeepSeek的論文，他們的V2模型在基礎測試集（ProofBench Basic）上已經反超了Gemini Deep Think，并且在公開的競賽題目上展現出了驚人的統治力。

更重要的是，DeepSeek將這一技術路徑開源并詳細披露了訓練方法。

這為全世界的AI研究者提了個醒：通往AGI的路上，自驗證可能比單純堆算力更重要。

直追谷歌OpenAI，開源IMO模型贏了

這一令人驚嘆的成績背后，是DeepSeekMath-V2在實驗中展現出的某種「反直覺」的進化特征。

「一次做對」的能力：全方位碾壓GPT-5和Gemini

如果剝離掉所有復雜的反復思考和驗證過程，只看模型的「第一直覺」——也就是所謂的One-Shot能力，DeepSeekMath-V2依然表現出了統治級的實力。

研究團隊構建了一個包含代數、幾何、數論、組合和不等式五大類難題的內部測試集CNML（難度對標中國高中數學聯賽）。

在這個競技場上，DeepSeekMath-V2與目前市面上最強的兩大推理模型——OpenAI的GPT-5-Thinking-High和谷歌DeepMind的Gemini 2.5-Pro進行了正面硬剛。

結果如圖所示：

DeepSeekMath-V2并不是險勝，而是完全勝利：

代數：遠超GPT-5和Gemini；
幾何：得分幾乎是Gemini 2.5-Pro的三倍；
數論與組合：同樣穩穩占據第一梯隊。

這說明，即使不給模型「多想一會兒」的機會，它的底座能力已經極其強悍。

進化的關鍵：讓模型「多想幾次」

真正讓DeepSeekMath-V2與眾不同的，是它在連續修正實驗中的表現。

在面對IMO候選題（Shortlist）這種級別的難題時，模型往往無法一次性寫出完美的證明。

實驗顯示，如果允許模型進行「自我驗證」——即生成答案后，自己挑毛病，然后帶著問題重新生成，奇跡就發生了：

初始狀態（迭代1次）：模型的平均得分為0.15。
反復思考（迭代8次）：當允許模型最多進行8次「自我修正」后，證明的質量分數飆升到了0.27。

更有趣的是，如果讓模型從自己生成的32個解法中挑一個最好的（Best@32），它的評分準確度極高，得分直接躍升至0.42。

這證實了一個關鍵點：模型不僅能改錯，而且非常有自知之明，它清楚地知道自己哪個答案是最好的。

暴力美學與智慧的結晶：高算力搜索

前文提到的普特南數學競賽118分（接近滿分）的「神跡」，并非僅靠運氣，而是得益于一種「高算力搜索」（High-Compute Search）策略。

DeepSeek團隊在實驗中采用了一種極端嚴苛的測試方式：

1.海量候選：對每道題初始生成64個候選證明。

2.地獄級驗證：為每一個證明生成64個獨立的驗證分析。

3.優勝劣汰：只有那些能通過所有64次驗證的證明，才會被認為是「完全可信」的。

正是這種「千錘百煉」的策略，讓模型解決了IMO 2025中6道題里的5道，以及在CMO 2024中拿下金牌水平。

實驗數據還揭示了一個有趣的現象：對于那些它沒做出來的題，模型通常能準確地找出自己證明中的漏洞；而對于做出來的題，則是真真切切地通過了所有考驗。

這是「LLM可以被訓練成可靠的數學驗證者」這一假設的有力實證。

DeepSeekMath-V2意味著什么

DeepSeekMath-V2的成功告訴我們，AI正在從「模仿人類說話」進化到「模仿人類思考」。

真正的思考，往往伴隨著自我懷疑。

當我們看到AI開始在輸出最終結果前，懂得停下來，對自己說一句「這看起來不太對，我再算一遍」時，那才是它真正超越工具屬性的時刻。

真正的智慧，不僅在于瞬間給出答案，更在于擁有推翻自己的勇氣與能力。

參考資料：

https://github.com/deepseek-ai/DeepSeek-Math-V2

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

DeepSeek V3到V3.2的進化之路，一文看全

機器之心Pro 2025-12-08 14:07:45
0 跟貼 0
谷歌HOPE架構來了！突破大模型長期記憶難題，智能體要爆發？

雷科技 2025-12-08 21:13:58
0 跟貼 0

大模型碰到真難題了，測了500道，o3 Pro僅通過15%

機器之心Pro 2025-09-15 10:45:10
0 跟貼 0

Codeforces難題不夠刷？謝賽寧等造了AI出題機，能生成原創編程題

機器之心Pro 2025-10-20 14:17:05
0 跟貼 0
通過視覺安全提示與深度對齊實現大型視覺語言模型的安全對齊

機器之心Pro 2025-11-24 16:37:06
0 跟貼 0

AI也邪修！Qwen3改Bug測試直接搜GitHub，太擬人了

量子位 2025-09-04 14:49:30
8 跟貼 8

又一推理新范式：將LLM自身視作改進操作符，突破長思維鏈極限

機器之心Pro 2025-10-04 18:35:49
0 跟貼 0
當Search Agent遇上不靠譜搜索結果，清華團隊祭出自動化紅隊框架

機器之心Pro 2025-10-16 16:00:02
0 跟貼 0

DeepSeek、Gemini誰更能提供情感支持？趣丸×北大來了波動態評估

機器之心Pro 2025-12-08 16:08:38
0 跟貼 0
GMI Cloud：出海是AI企業釋放產能、獲取新生的最佳途徑｜WISE 2025

36氪 2025-12-08 18:50:09
0 跟貼 0
全球唯一達到國際物理奧賽金牌線的開源AI來自上海AILab

量子位 2025-12-06 22:21:55
0 跟貼 0
地平線余凱：共赴物理AI高境，同立普惠生態基石

雷科技 2025-12-08 21:53:35
0 跟貼 0
一個叫高斯的AI，只用了三周完成強素數定理

量子位 2025-09-20 00:57:38
0 跟貼 0
不止于炫技，普渡如何引領機器狗成為具身智能商業化最佳物種？

智東西 2025-12-08 21:43:08
0 跟貼 0
物流業deepseek時刻，中國無人車火爆全球

華商韜略 2025-06-17 10:58:23
0 跟貼 0
全球市值最高電力股同日官宣谷歌、Meta新合作

財聯社 2025-12-08 22:06:12
0 跟貼 0
光入柜內要來，通信ETF能破前高么？——通信ETF（515880）大漲點評

每日經濟新聞 2025-12-08 16:10:05
0 跟貼 0
NextEra Energy將與谷歌云合作在美國新建多個吉瓦級數據中心園區

財聯社 2025-12-08 20:16:14
0 跟貼 0
黃仁勛：中國的AI市場無論有沒有英偉達都會進步與華為是競爭對手不是敵人

財聯社 2025-07-21 10:22:14
7 跟貼 7
真是邏輯詭才啊，這么刁鉆的角度他是咋想到的

天才設計師 2025-12-06 23:22:23
3 跟貼 3
Waymo發布自愿召回，將進行軟件更新

界面新聞 2025-12-06 16:09:31
0 跟貼 0
為什么對罪犯“越狠”，可能害處越大？——刑罰計算的底層邏輯

周兆成律師 2025-12-06 10:00:00
26 跟貼 26
B社總監陶德?霍華德：AI只是工具，人類創造力不可替代

IT之家 2025-12-08 15:57:29
0 跟貼 0
蘋果高管團隊動蕩！庫克將卸任，接班問題迫在眉睫

雷科技 2025-12-08 18:14:33
1 跟貼 1
在星巴克和瑞幸店里“枯坐”一整天，我們發現了咖啡的資本密碼

飯統戴老板 2025-09-10 19:37:27
0 跟貼 0
日流水再創新高，騰訊《三角洲行動》僅谷歌蘋果端狂賺超30億 | 游戲干線

游戲干線 2025-12-08 21:09:07
1 跟貼 1
新國標電動自行車陸續到店開售價格如何？

新京報 2025-12-08 07:19:40
8568 跟貼 8568
比亞迪王傳福：做大產業，做出中國制造業應有的位置

每日經濟新聞 2025-07-22 17:51:59
12 跟貼 12
清華團隊：1.5B 模型新基線！用「最笨」的 RL 配方達到頂尖性能

機器之心Pro 2025-11-13 14:56:23
0 跟貼 0
深度長文：人類數學史上的三次危機，第三次至今仍沒有解決！

宇宙時空 2025-12-07 16:52:26
46 跟貼 46
架構解耦是統一多模態模型所必須的嗎？全新AIA損失：No

機器之心Pro 2025-12-02 14:25:38
0 跟貼 0
余承東：我有一個夢想馬路上的所有車里都有華為的技術

每日經濟新聞 2025-07-23 17:06:16
266 跟貼 266
美國主持人，花式夸DeepSeek：中國連取名字都完爆美國

幽默大聯盟 2025-12-04 14:43:14
1 跟貼 1
已正式啟動福建適齡男子必須全部進行兵役登記

漳視新聞 2025-12-08 10:52:49
2314 跟貼 2314
罕見！遼寧艦沿琉球群島北上

揚子晚報 2025-12-08 12:37:37
3002 跟貼 3002
Nano Banana終于不是文盲了，但我可能會變「傻」

愛范兒 2025-11-24 14:33:39
0 跟貼 0
“凡我子孫，務要忠心報國”，明代沐氏遺記金牌！

大夏遺風 2025-12-05 14:51:37
0 跟貼 0
問界M9無人駕駛，這么窄也能停進去，一年技術迭代速度太快了！

奇葩旅行者 2025-12-07 09:28:20
0 跟貼 0
蔚來李斌：讓每一個蔚來車主都覺得購買蔚來的車是正確選擇

每日經濟新聞 2025-07-07 17:30:53
0 跟貼 0
正面硬剛BBA：12月10日嵐圖追光L攜800V、空懸和后輪轉向登場

瀟湘晨報 2025-12-08 14:51:11
65 跟貼 65

浙大1999年出生的研究員任博導，本科畢業才4年，學院回應

極目新聞

2025-12-08 11:50:36

多項數據創生涯新低！恩比德未老先衰或被掃地出門

體壇周報

2025-12-08 17:22:18

被拐30年兒子認親14小時就走，全程冷臉，網友：窮家標簽太刺眼

老特有話說

2025-12-06 17:31:27

海川品車｜用技術打開140周年的序幕奔馳XX科技創新日有感

路邊停車場

2025-12-08 18:22:00

綠帽哥：皇馬為克洛普開出令人瞠目結舌的報價

懂球帝

2025-12-08 21:13:07

突然，崩了！剛剛，緊急“救市”！

證券時報

2025-12-08 20:12:03

最新朱孝天回應：拒絕他們三個要求被退出！喊話經紀人高抬貴手

丁丁鯉史紀

2025-12-08 18:27:16

多少人靠超市300塊羽絨服體面過冬？山姆們賣衣服比始祖鳥更能拿捏返貧中產

Vista氫商業

2025-12-08 14:55:05

27萬人看過，訂婚三天遭退，婚后要每3天有400元水果吃，網友吵翻

凡知

2025-12-07 14:37:32

郭德綱被約談的傳聞出來后，段子比他的相聲還搞笑

雷斯林

2025-12-08 19:14:36

幫人擔保貸30萬，還款時借款人舉家消失，他被迫還50余萬還留案底；監管認定銀行違規

大風新聞

2025-12-08 19:43:04

北京朝陽法院對馬航MH370航班部分失聯乘客家屬索賠案一審宣判

新京報

2025-12-08 17:09:05

帶魚：明明出身深海，為什么卻成了中國最平民的海鮮？

半解智士

2025-12-06 11:52:06

突發！42歲西安和典老夏去世，一年喝酒130次，辦公室內擺滿茅臺

裕豐娛間說

2025-12-08 14:19:08

北京市第十六屆人大城市建設環境保護委員會原委員賀江川接受審查調查

界面新聞

2025-12-08 20:35:09

馬斯克「開顱插針」首破1.5秒！上萬人擠爆，爭當賽博格

新智元

2025-12-08 12:24:12

深度睡眠增加100%！北大找到失眠根源，改善方法就在腸道中

梁佇愛玩車

2025-12-07 16:37:33

山東跑友張素梅車禍去世，月跑量300多公里，開奔馳，顏值身材好

180視角

2025-12-08 12:09:15

雷軍放話：小米YU7在隔音上打敗邁巴赫，網友炸了

熱點菌本君

2025-12-08 20:04:03

蘋果iPhone 18系列全新曝光，等等黨有福了！

科技堡壘

2025-12-08 11:15:49

新智元

AI產業主平臺領航智能+時代

14051文章數 66358關注度

往期回顧全部

科技要聞

外面有人挖，家里有人跑:蘋果亂成了一鍋粥

頭條要聞

"00后"在上海跑外賣5年攢112萬:除了吃飯睡覺都在接單

頭條要聞

"00后"在上海跑外賣5年攢112萬:除了吃飯睡覺都在接單

體育要聞

一位大學美術生，如何用4年成為頂級跑者？

娛樂要聞

章子怡被說拜高踩低主動和卡梅隆熱聊

財經要聞

百億金融爆雷浙商大佬"朋友圈"也不靈了

汽車要聞

純電全尺寸大六座凱迪拉克"小凱雷德"申報圖曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

藝術

旅游

游戲

家居

手機要聞

澎湃OS進展通報引熱議：十個問題，為何僅修復一項？

藝術要聞

一棵樹的力量

旅游要聞

“春運都沒這么多人”！深圳知名景區刷屏，網友紛紛“勸退”

德杯爆改！全新賽制曝光：盲選模式回歸，教練可實時“打電話”

家居要聞

手機 / 數碼

房產 / 家居

GPT-5危了！DeepSeek開源世界首個奧數金牌AI，正面硬剛谷歌

外面有人挖，家里有人跑:蘋果亂成了一鍋粥

"00后"在上海跑外賣5年攢112萬:除了吃飯睡覺都在接單

"00后"在上海跑外賣5年攢112萬:除了吃飯睡覺都在接單

一位大學美術生，如何用4年成為頂級跑者？

章子怡被說拜高踩低 主動和卡梅隆熱聊

百億金融爆雷 浙商大佬"朋友圈"也不靈了

純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

態度原創

澎湃OS進展通報引熱議：十個問題，為何僅修復一項？

一棵樹的力量

“春運都沒這么多人”！深圳知名景區刷屏，網友紛紛“勸退”

德杯爆改！全新賽制曝光：盲選模式回歸，教練可實時“打電話”

有限無界 打破慣有思維

章子怡被說拜高踩低主動和卡梅隆熱聊

百億金融爆雷浙商大佬"朋友圈"也不靈了

純電全尺寸大六座凱迪拉克"小凱雷德"申報圖曝光

有限無界打破慣有思維