最近DeepSeek V4的傳言越來越多了。
據The Information報道,知情人士透露DeepSeek計劃在2月中旬、農歷新年前后發(fā)布V4模型。內部測試顯示,V4在編程能力上可能超越Claude和GPT系列——尤其是處理超長代碼提示的場景。
![]()
去年R1也是春節(jié)前一周發(fā)布的,直接引發(fā)了全球市場一萬億美元的震動。在大型節(jié)假日前搞大事確實也很符合DeepSeek一貫的做法,今年會不會故技重施?
但在V4發(fā)布之前,DeepSeek先悄悄做了一件事:把一年前的R1論文從22頁擴充到了86頁。
我下載了兩個版本對比,文件大小從928KB變成4.8MB。多出來的60多頁顯然不是廢話,是他們訓練的詳細賬本和踩過的坑。
![]()
這個時間點更新舊論文,絕不是巧合。我猜他們在做兩件事:一是為V4鋪路,讓社區(qū)先完全理解R1的技術細節(jié);二是用行動回應之前"只開源權重不給訓練細節(jié)"的質疑。
說實話,看完這份更新,我對Open這個詞有了新的理解。上周我發(fā)的這篇關于DeepSeek mHC論文的解讀很多人表示意外地能看懂,閱讀量都突破20萬+了,哈哈哈~
所以我今天再挑戰(zhàn)下自己,試試給大家用人話說說這次DeepSeek老論文里都更新了啥。
先說更新了什么
v1版本發(fā)布于2025年1月22日,22頁,主要講R1是什么、怎么訓的、效果多好。
v2版本發(fā)布于2026年1月4日,86頁。時隔將近一年,多出來的60多頁都在講什么?
我把兩個版本的目錄對比了一下。v1只有一個簡短的Appendix(作者列表)。v2新增了6大類Supplementary:
A: GRPO和PPO的詳細對比
B: 訓練細節(jié)(這部分最長,約50頁)
C: 推理行為分析
D: 基準測試詳情 + 10頁安全報告
E: 綜合分析(與V3對比、test-time scaling等)
F: 推理能力遷移
說白了,這次更新就是把"解題過程"補上了,給出了可復現的技術文檔。
之前R1開源的時候,很多人吐槽說"只給權重不給訓練細節(jié),這算什么開源"。現在DeepSeek把這塊補上了。
294K美元的訓練賬單
論文新增了Table 7,第一次公開了完整的訓練成本:
![]()
階段
GPU小時
成本
DeepSeek-R1-Zero
101K
$202K
SFT數據創(chuàng)建
5K
$10K
DeepSeek-R1
41K
$82K
總計
147K
$294K
這個成本是按H800租賃價格$2/GPU hour算的。
29.4萬美元,訓練一個媲美OpenAI o1的推理模型。
29.4萬美元是什么概念?之前寫V3.2的時候我提到,DeepSeek只有150人的團隊。現在加上這個成本數據,畫面更清晰了——他們不是靠砸錢,是靠效率。
具體怎么訓的?論文給了精確配置:
R1-Zero: 64×8張H800 GPU,跑了198小時
R1: 同樣的GPU配置,80小時(約4天)
64×8是512張卡。198+80=278小時。不到12天,訓完了兩個階段。
數據配方首次公開
這是我覺得最有價值的部分——Table 4詳細列出了RL訓練數據的構成:
![]()
數學:26k題
從區(qū)域競賽到國際奧林匹克級別
包括代數、微積分、概率、幾何
排除了數學證明(因為難以自動驗證)
代碼:17k + 8k
17k算法競賽題(Codeforces、LeetCode風格)
8k GitHub真實bug修復問題
STEM:22k選擇題
化學占46.5%(最多)
生物30.7%
物理15.5%
其他7.3%
邏輯:15k題
真實世界:腦筋急轉彎、經典邏輯謎題
合成數據:Code-IO問題、Zebra puzzle等
通用:66k + 12k
66k評估helpfulness(創(chuàng)意寫作、編輯、問答、角色扮演)
12k評估harmlessness
總共約150k條數據。
為什么化學題最多?論文沒解釋,但我猜測可能是因為化學題的答案更容易自動驗證(選擇題),同時又需要多步推理。
更有意思的是Cold Start數據的創(chuàng)建流程。R1不是從零開始訓的,而是先用R1-Zero的輸出,經過這個流程:
用R1-Zero在高溫度(1.0)下生成多條推理軌跡
過濾:保留答案正確、格式可讀的
用sympy驗證數學表達式
用DeepSeek-V3重寫,讓推理過程更"人話"
人工二次驗證
論文里甚至給出了重寫的prompt,讓V3把R1-Zero那種"we"風格的推理,改成"I"風格——因為用戶更喜歡第一人稱的思考過程。
這種細節(jié),以前根本不會公開。
失敗也寫進論文
v1版本有一小節(jié)叫"Unsuccessful Attempts",提到PRM和MCTS不太行。v2把這部分擴展了,還加了一個我覺得很有價值的案例:Reward Hacking。
![]()
Figure 6展示了一個典型的失敗場景:用helpful reward model訓練時,reward分數一直在漲(左邊紅線),但CodeForces的實際性能卻在跌(右邊藍線)。
這就是reward hacking——模型學會了"討好"獎勵函數,但并沒有真正變強。
論文原文的解釋是:
"如果reward model包含系統性偏差或不準確,LLM可能學會生成那些被模型高評分、但與真實人類偏好背離的回答。"
PRM(Process Reward Model)的問題也講得更清楚了:
細粒度步驟難定義:什么算"一步推理"?在通用推理任務里很難界定
中間步驟對錯難判斷:自動標注效果差,人工標注又沒法規(guī)模化
必然導致reward hacking:只要引入模型做判斷,就會被exploit
所以DeepSeek最后用的是rule-based reward——數學題直接匹配答案,代碼題跑測試用例。簡單粗暴,但不會被hack。
為什么要公開這些失敗?我覺得這才是真正的Open。告訴社區(qū)"這條路我們走過了,不通",比只展示成功更有價值。
基礎設施首次披露
Supplementary B.1詳細描述了RL訓練的基礎設施,分為4個模塊:
1. Rollout Module
用vLLM做推理
對MoE架構實現expert parallelism,減少內存訪問開銷
部署熱點expert的冗余副本來負載均衡
用MTP(Multi-Token Prediction)做self-speculative decoding加速
2. Inference Module
加載reward model和reference model
對rollout階段生成的樣本做forward pass
3. Rule-based Reward Module
統一接口:代碼執(zhí)行器、答案匹配器、格式檢查器
異步調度,和前兩個模塊overlap執(zhí)行
4. Training Module
支持PPO、GRPO、DPO等算法
數據打包策略:先按長度排序,再用Best-Fit裝箱
集成了DualPipe算法做pipeline parallelism
還有一個細節(jié):每個模塊跑完后,模型會自動從顯存offload到內存或磁盤,給下一個模塊騰空間。
這些基礎設施細節(jié)以前只有DeepSeek內部知道。現在寫進論文,其他團隊可以照著搭。
10頁安全報告
Supplementary D.3是一份完整的安全評估報告,包括:
風控系統:公開了完整的risk review prompt(Listing 8)
6個公開benchmark對比:和其他SOTA模型的安全性比較
分類測試:基于自研安全測試集的細分評估
多語言安全:不同語言下的安全表現
Jailbreak魯棒性:對抗攻擊下的表現
風控prompt里列了11條安全標準,從"通用原則"到"隱私偽造"到"風險建議",細到可以直接抄。
對想部署R1的企業(yè)來說,這部分很實用——不只是模型安全性數據,還告訴你外部風控系統怎么搭。
為什么選擇現在更新?
論文更新的時間點是2026年1月4日。
結合V4的發(fā)布傳言,時間線就很清晰了:
2025年1月20日:R1發(fā)布,春節(jié)前一周
2026年1月4日:R1論文v2發(fā)布,詳細補全技術細節(jié)
2026年2月中旬(傳聞):V4發(fā)布,又是春節(jié)前后
DeepSeek似乎在做一件事:先把上一代的賬本攤開,再發(fā)布下一代。
這對社區(qū)的好處是顯而易見的——當V4發(fā)布時,研究者已經完全理解R1的技術細節(jié),可以更清晰地看出V4到底改進了什么。
當然,這也可能是回應之前"只開源權重不給訓練細節(jié)"的批評。不管出于什么原因,結果很實在——社區(qū)拿到了一份真正可復現的技術報告。
最后
回到"Open"這個詞。
大多數公司的Open是什么?開源權重,開源推理代碼,發(fā)個技術博客。
DeepSeek的Open是什么?
訓練成本精確到GPU小時
數據配方精確到每個類別的數量和來源
失敗嘗試寫進論文,告訴你哪條路不通
基礎設施架構圖,告訴你怎么搭RL系統
安全評估報告,告訴你怎么做風控
這才是讓社區(qū)能真正復現和改進的Open。
之前寫mHC論文的時候我說,DeepSeek的技術哲學是"去質疑那些所有人都覺得沒必要改的東西"。現在看來,他們對"開源"這件事的理解也是一樣——不是做到行業(yè)平均水平就夠了,而是要做到讓別人能真正用起來。
從22頁到86頁,多出來的60頁不是湊數,是掏心窩子的誠意。
至于V4會帶來什么?如果傳言屬實,2月中旬就會揭曉。
但不管V4表現如何,這份86頁的論文已經是一份禮物——它讓我們知道,一個頂尖推理模型是怎么從零訓出來的。這種知識,以前只有極少數公司內部才有。
參考資料:
DeepSeek-R1論文v2: https://arxiv.org/abs/2501.12948v2
DeepSeek-R1論文v1: https://arxiv.org/abs/2501.12948v1
V4傳言報道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.