網易首頁 > 網易號 > 正文申請入駐

DeepSeek的模型，讓AI第一次學會了反思。

2025-12-05 12:09:29　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自數字生命卡茲克

作者：卡茲克

昨天有一個有趣的事，真的太魔幻了，感覺劇本都不會寫的這么巧。

就在昨天晚上，DeepSeek悄悄地上了一個新模型，DeepSeekMath-V2。

一個基于DeepSeek-V3.2-Exp-Base構建的685B的數學專用模型。

這個模型特殊的點，說人話就是，它不僅能給出答案，還能自己檢查自己的解題步驟，自己給自己挑錯，自己跟自己辯論，直到它自己覺得自己整個推理過程，完美無瑕。

而且，能力上，達到了奧林匹克金牌水平。

并在 IMO 2025（解決了 5/6 道題）和 Putnam 2024（接近滿分 118/120 分）等競賽中表現出色。

同時，按照DeepSeek傳統，直接開源+送論文。

論文名字很直接：《DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning》。

而我之所以說魔幻的原因在于。

就在2天前，大洋彼岸，被譽為AI教父之一、前OpenAI首席科學家Ilya Sutskever，剛剛出來發聲，錄了一期播客。

在這期播客里，他拋出了一個非常有意思的擔憂。

就是，現在的AI模型很奇怪。

一方面，它們在各種評測集上刷出了逆天的分數，什么考試、什么競賽，都能名列前茅。

但另一方面，你把它扔到真實世界里去解決實際問題，它又蠢得讓人想砸電腦。

他舉了個例子，特別寫實：

就是你讓AI幫你修一個代碼里的bug A，它說“好嘞”，然后給你引入了一個新的bug B。

你再讓它修bug B，它又說“沒問題”，然后轉身就把bug A又給改回來了。

就這么來來回回，修了半天修不好，我相信大家玩vibe coding的人，都遇到過這個問題。

Ilya自己一直在思考，為什么會這樣？為什么評測表現和真實世界表現之間，有這么大的鴻溝？

他在這個播客里面，給出了一個非常深刻的類比。

他說，現在的AI模型，就像一個特長生A，這個學生的目標呢，就是成為最牛逼的算法競賽選手。

于是他花了一萬個小時，刷遍了所有競賽題，背熟了所有解題技巧。最后，他確實成了這個領域的王者。

但還有一個通才生B。他對競賽也感興趣，但只花了100個小時去練習，成績也不錯。

但他把更多的時間，花在了理解世界、廣泛閱讀、與人交流這些務虛的事情上。

Ilya問：這兩個學生，誰未來的職業發展會更好？

答案不言而喻，是學生B。

因為學生A的強大，是一種應試的強大。

他的所有能力，都是為了在評測中拿高分這個單一目標而優化的。這種訓練，就像把一個人的視野強行壓縮成一根針，他在這根針里能看到原子，但在針以外的世界，他是個盲人。

而學生B，他擁有一種更可貴的東西，Ilya也不知道該怎么描述，所以他的原話就是“那股勁兒”（the "it"），一種更深刻的、更具泛化性的理解力。

所以，最后就會導致，經過重度 RL 對齊的模型往往顯得更笨或更缺乏創造力，RL強行讓 AI 去討好人類的某個單一指標，卻可能犧牲了它原本寬廣的通用智力。

其實最近一些大模型，比如GPT-5、Gemini 3 Pro在寫作能力上的下降，我覺得就能看出一些端倪了。

Ilya的這段話，還是引起了非常大的反響的。

然后，就在這個問題還余音繞梁的時候，DeepSeekMath-V2來了。

直接說，我搞定了。

特別有意思。

可以說，DeepSeekMath-V2，已經開始解決Ilya的一些擔憂了。

在講DeepSeekMath-V2之前，我覺得還是先有必要，來聊聊以前的AI是怎么做數學題的。超級簡單，也超級粗暴。

就是，結果導向。

就像一個公司的銷售，老板只看你月底的業績報表，不管你這單子是怎么簽下來的。你用盡九牛二虎之力，還是用了一些骯臟的手段，還是瞎貓碰上死耗子，無所謂，只要最后那個數字是對的，模型就能得到獎勵。

這種模式，在做一些簡單的計算題時，問題不大。

但一旦涉及到復雜的證明題，就徹底廢了。

我相信大家上學時肯定也都被數學老師折磨過，我自己最常聽到的一句話，就是。。。

“答題是看過程的！你的過程呢？！”

一道大題15分，答案可能只占2分，剩下13分，全在過程里。

你就算最后答案蒙對了，過程一塌糊涂，照樣拉跨。

因為數學這門學科，從本質上來說，它追求的就不是那個最終的答案，而是那個無懈可擊、一步一響的邏輯鏈。

是從公理這個地基開始，一磚一瓦，蓋起一座真理的大廈。

中間任何一環有瑕疵，整個大廈都會崩塌。

之前的AI，就是這樣的，你讓他寫出答案，他可能還真的沒啥問題，但是你讓他寫證明過程，那就完特么蛋了，經常給你生編硬造。

甚至有時候，它給你的最終答案，是靠著某個計算失誤+另一個邏輯錯誤負負得正，最后歪打正著搞出來的。

這就是過去AI的通病，你說他對了吧，他也真對了，但是你要是跟他在過程中較個真吧，那也經常錯的離譜。

本質上，還是模型沒有反思能力。

雖然模型有所謂的思維鏈，但是這個思維鏈，或者說這個邏輯，也分幾個級別。

第一個級別，我稱之為Prompt級cosplay反思。

就是你跟他說你要好好想一想，其實就是多寫幾句CoT，訓練時根本沒強約束它真的檢查過，這個就不說了，純文案。

第二個級別，就是OpenAI o1、DeepSeek R1等等，有自己的思維鏈的，這種其實可以稱為，答案導向的反思。

這類所謂的“reasoning model”的典型套路其實就是，用RL來獎勵最后答案對不對，可以允許模型在中間多想、多分支、自己評估幾個方案，再選一個。

這套模式你不能說他不行，確實很強，通過獎勵最終答案的正確，一年內，確實把AIME、HMMT這種只看答案的競賽打滿分。

但有兩個硬傷。

1. 正確答案 ≠ 推理真的對，中間瞎算、走錯路、蒙對都算贏。

2. 像定理證明這種題，根本沒有單一數值答案可以獎勵，所以也就容易拉了。

而第三個級別，就是這次的DeepSeekMath-V2，真正把過程當任務的反思。

這個點，也是源于DeepSeek對人的觀察。

DeepSeekMath-V2的做法，也很有意思，甚至有點精神分裂的哲學味。

他們其實搞了兩個AI出來。

一個叫生成器（Generator）。這哥們兒就是那個天馬行空、才華橫溢的學生。你把題給他，他奮筆疾書，洋洋灑灑，給你寫出一套解題過程。

另一個叫驗證器（Verifier）。這哥們兒是個極其刻薄、吹毛求疵、毫無感情的老師。生成器寫完的每一個字，都要經過它的審判。它就像拿著放大鏡一樣，逐行檢查，尋找任何可能的邏輯漏洞、計算錯誤、概念不清。

然后，他們讓驗證器去當生成器的老師。生成器每寫完一步，驗證器就在旁邊打分：

“你這里邏輯不嚴謹，扣分。”，“你這個公式用錯了，扣分。”，“你這里跳步了，扣分。”

“生成器”為了得到老師也就是驗證器的表揚，就必須不斷地修改、完善自己的證明過程。

它慢慢地就學會了，不能只圖快，每一步都得想清楚，都得有理有據。

經過這種反復的自我搏斗，AI就不再是一個只會輸出答案的機器了。

它開始擁有了一種真正的最寶貴的能力：

“反思”。

這個能力，也讓DeepSeekMath-V2在證明題的能力上，薄紗同行。

它不再盲目地相信自己的第一直覺。

在這個過程中，它學會了懷疑，學會了審視，學會了批判性思維。

而且，這還沒完。

DeepSeek覺得，這還不夠精神分裂。所以，他們又來了一個更狠的：

元驗證（Meta-Verification）。

大概就是，就是他們又搞了個總教導主任，這個主任不去看學生的卷子，而是去看老師批改的卷子有沒有問題。

畢竟有時候，驗證器這個老師也會犯錯。

比如它可能會冤枉一個好學生，把對的步驟判成錯的，或者自己老眼昏花，沒發現學生隱藏得很深的錯誤。

元驗證器的作用，就是確保驗證器的每一次評判都是公平、準確、有效的。

這套組合拳下來，就形成了一個極其強大的正向循環：

1. 生成器努力寫出更完美的證明。

2. 驗證器在元驗證器的監督下，變得越來越準確。

3. 更強的驗證器又能反過來訓練出更強的生成器。

左腳蹬右腳，螺旋登天。

最終，他們把這兩種能力，合二為一，注入到了同一個AI的身體里。于是，DeepSeekMath-V2誕生了。

再看看它的成績。

IMO（國際數學奧林匹克競賽）：這是全世界高中生的最高殿堂。DeepSeekMath-V2在2025年的模擬賽里，6道題解出了5道。金牌水平。

CMO（中國數學奧林匹克競賽）：中國最頂尖的數學競賽。它也拿到了金牌水平的成績。

最恐怖的是這個：Putnam Competition（普特南數學競賽）。

這個競賽，是全世界大學生數學競賽里，公認的地獄難度。

它的題目，出的極其刁鉆、深刻，因為難度過大，所以中位數得分通常為0或1分，而滿分，是120分。。。。

說實話，在這種競賽里，能考個十幾二十分，就已經是人中龍鳳了。

而去年的人類最高分，是90分。

而DeepSeekMath-V2的得分。

118分。

在12道題里，它完整、嚴謹地解出了11道，還有1道也拿到了大部分分數。

太離譜了。

這就是知道學會反思，學會過程以后的，真正的AI的實力。

不知道為什么，讓我想起了Alpha GO。。。

DeepSeek這篇論文，實際上是給Ilya的問題，提供了一個可能的答案：

也許，要彌合評測與現實的鴻溝，我們不應該再給AI增加更多的外部RL環境去刷題，而是應該教會AI一種向內看的能力。

讓它從追求讓別人滿意（獲得獎勵），轉變為追求讓自己滿意（邏輯自洽）。

王陽明的心學，其實很早就提過這個觀點。

心即理，真理不在外部，而在我們每個人的內心。

真正的學習，不是向外尋求標準答案，而是向內致良知，達到一種內在的和諧與通透。

DeepSeekMath-V2，就是AI領域的一次非常有趣的，“致良知”。

有的時候我經常在想，人類的理性，到底是什么？

康德覺得，理性是人類為自然立法的能力。我們通過先驗的邏輯框架去理解、整理這個混亂的世界。

我感覺，DeepSeekMath-V2，有一點像。

過去我們總覺得，AI的智能和人類的智能，隔著一道鴻溝。

我們的智能里，有靈感、有頓悟、有情感、有那些說不清道不明的“Aha Moment”。

可也許，人類的靈感，只是我們大腦在算力不足的情況下，為了走捷徑而產生的一種邏輯的跳躍。

而AI，正在用我們無法想象的算力，把我們跳過的每一步，都踏踏實實地走一遍。

它走的，是一條更慢、更笨，但可能也更接近本質的道路。

我們，這些習慣于跳躍的物種，站在AI這條堅實的邏輯長梯面前，難免會感到一絲震撼，和一絲……迷茫。

那我們未來的位置。

又在哪里呢？

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

驚魂一夜！特朗普俯身撤離，魯比奧趴到桌子底

中國新聞周刊

2026-04-26 12:35:35

87歲劉詩昆：住美國600平豪宅，和三婚妻子兒女雙全，享天倫之樂

白面書誏

2026-04-22 14:46:57

70歲老人哭訴：請親戚當住家保姆，本以為很靠譜，結果卻很窩火

烙任情感

2026-04-25 11:41:04

成龍和克里斯·塔克因不滿片酬，已拒絕《尖峰時刻4》的初步邀約；特朗普曾催拍《尖峰時刻4》，渴望讓傳統男子氣概在好萊塢文化中重現光彩

魯中晨報

2026-04-25 15:48:13

CBA最新消息！沈梓捷或離開北控男籃，郭昊文合同到期

體壇瞎白話

2026-04-26 09:53:56

98年我在東莞當保安，一個舞女為躲追殺藏我宿舍，竟是臥底女警

千秋文化

2026-04-22 20:17:38

1.9秒一單狂破世界紀錄！安徽小縣城憑三樣小吃，火遍整個長三角

青眼財經

2026-04-25 23:05:36

大學“倒閉潮”倒計時？7年后你的文憑，或許還不如一張電工證

小談食刻美食

2026-04-25 09:37:54

“骨盆前傾成這樣，還不去醫院？”家長曬一年級女兒體態，被群嘲

妍妍教育日記

2026-04-24 11:15:25

華晨宇演唱會延期哭了，撫仙湖居民發聲：那我們之前的犧牲算什么

離離言幾許

2026-04-23 20:05:27

劉曉慶 75 歲聚餐照曝光！耳垂垂到嘴角，網友吵翻

南萬說娛26

2026-04-26 10:26:45

20年代，林徽因與冰心郊游的唯一合影，這是他們的真實容顏

以茶帶書

2026-04-25 19:22:44

香港明明是中國的領土，為何他們回歸多年，依然還在使用港幣？

抽象派大師

2026-04-25 18:47:51

豪門闊太只拍一部戲就隱退，獲演員丈夫寵愛30年

眼底星碎

2026-04-25 11:35:30

賴清德或將被彈劾下臺！這一票，即將改寫臺灣的命運

命運自認幽默

2026-04-25 16:33:34

G3裁判報告：漏吹斯馬特進線+詹姆斯出界火箭本該不打加時贏球？

羅說NBA

2026-04-26 05:02:11

被許家印坑慘的8位大佬！損失超2000億，從巔峰跌回塵埃

洞見小能手

2026-04-24 10:21:16

鄭州一村吃席只有3個菜！煙酒不超40,每桌140,網友：請全國推廣

小秋情感說

2026-04-26 09:35:44

18歲康克清嫁43歲朱德，沒生半個親骨肉，晚年究竟憑啥讓十幾個子孫承歡膝下？

歷史回憶室

2026-04-23 22:43:15

笑不活了！女孩把雞畫得圓肥被判不合格，家長把雞的照片發給老師

夜深愛雜談

2026-04-25 07:33:34

大數據文摘

專注大數據，每日有分享！

6853文章數 94542關注度

往期回顧全部

科技要聞

漲價浪潮下，DeepSeek推動AI“價格戰”

頭條要聞

白宮槍手系教師兼游戲開發者曾向哈里斯總統競選捐款

頭條要聞

白宮槍手系教師兼游戲開發者曾向哈里斯總統競選捐款

體育要聞

那一刻開始，兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后，梁文鋒的轉身

汽車要聞

預售19.38萬元起哈弗猛龍PLUS七座版亮相

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

游戲

親子

旅游

公開課

藝術要聞

鄭麗文訪問清華附中引發熱議，蔣中正信札字跡真實性遭質疑

《光與影：33號遠征隊》迎來發售一周年紀念

親子要聞

媽媽記錄下寶寶的第一次擁抱，最幸福的瞬間

旅游要聞

春光正好迎假期文旅消費暖意濃多元“微度假”體驗解鎖小城引流密碼

公開課

手機 / 數碼

房產 / 家居

DeepSeek的模型，讓AI第一次學會了反思。

漲價浪潮下，DeepSeek推動AI“價格戰”

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

那一刻開始，兩支球隊的命運悄然改變了

《八千里路云和月》大結局意難平

DeepSeek V4背后，梁文鋒的轉身

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

鄭麗文訪問清華附中引發熱議，蔣中正信札字跡真實性遭質疑

《光與影：33號遠征隊》迎來發售一周年紀念

媽媽記錄下寶寶的第一次擁抱，最幸福的瞬間

春光正好迎假期 文旅消費暖意濃 多元“微度假”體驗解鎖小城引流密碼

白宮槍手系教師兼游戲開發者曾向哈里斯總統競選捐款

白宮槍手系教師兼游戲開發者曾向哈里斯總統競選捐款

預售19.38萬元起哈弗猛龍PLUS七座版亮相

春光正好迎假期文旅消費暖意濃多元“微度假”體驗解鎖小城引流密碼