2025 年 9 月,DeepSeek-R1 論文以封面文章的形式登上 Nature 雜志,成為全球首個通過頂級期刊獨立同行評審的主流大語言模型。從 2 月 14 日投稿到 9 月 17 日正式發(fā)表,8 位外部專家歷時 5 個月對論文的原創(chuàng)性、方法論和穩(wěn)健性進行了嚴格審查。Nature 在編輯評論中直言:幾乎所有主流大模型都未曾經歷過獨立同行評審,而 DeepSeek 打破了這一空白。
讓人沒想到的是,最近 DeepSeek 還能把這種透明再向前推一步。1 月 4 日,DeepSeek 在 arXiv 上突然更新了這篇論文的第二版,頁數從 22 頁暴增至 86 頁,把此前藏在黑箱里的訓練流程、基礎設施、消融實驗、中間檢查點,乃至失敗嘗試,統(tǒng)統(tǒng)向外界進行了展示。
![]()
圖丨相關論文(來源:arXiv)
那么,這 86 頁究竟比原來的 22 頁多出了什么?(關于基準測試結果等初版論文已涉及的部分,我們不再贅述)
GRPO 算法與 RL 基礎設施
初版論文對 Group Relative Policy Optimization(GRPO,群組相對策略優(yōu)化)的介紹相當克制,僅給出核心公式。新版用數頁篇幅展開對比分析,解釋 GRPO 何以能替代傳統(tǒng)的 Proximal Policy Optimization(PPO,近端策略優(yōu)化)。
PPO 在大模型強化學習中應用廣泛,但有個麻煩:它需要訓練一個與策略模型規(guī)模相當的價值模型來估計優(yōu)勢函數,計算開銷很大。更棘手的是,價值模型要根據已生成的部分內容預測最終累積獎勵,這對長鏈推理來說幾乎不可行——模型可能在生成過程中反復修正、自我否定,早期內容和最終答案之間的關聯(lián)性很弱。
GRPO 的做法是干脆不要價值模型。對每個問題采樣 16 個輸出,用組內獎勵的均值和標準差做歸一化,得到每個輸出相對于同組其他輸出的優(yōu)勢估計。這種“組內排名”的思路規(guī)避了跨時間步的價值預測,既節(jié)省內存,又適配長鏈推理場景。論文給出的對比實驗顯示,在 MATH 任務上,PPO 需要仔細調參(特別是 GAE 中的 λ 系數)才能接近 GRPO 的效果,而 GRPO 開箱即用。
![]()
圖丨 PPO 與 GRPO 的演示(來源:arXiv)
新版論文還首次披露了 RL 訓練基礎設施的完整架構。系統(tǒng)分為四個模塊:Rollout 模塊用 vLLM 工作節(jié)點批量采樣響應;Inference 模塊加載獎勵模型和參考模型做前向推理;Rule-based Reward 模塊計算代碼執(zhí)行、答案匹配等規(guī)則獎勵;Training 模塊完成策略更新。四個模塊之間采用異步調度和顯存動態(tài)卸載策略。
為加速采樣,Rollout 模塊還用了 Multi-Token Prediction(MTP,多 token 預測)組件做自投機解碼,縮短最長樣本的生成耗時。考慮到 DeepSeek-R1-Zero 訓練時每個問題要采樣 16 個輸出、單次訓練步包含 32 個獨立問題,這種工程優(yōu)化對整體效率的提升不小。
訓練成本方面,新版終于給出了明確數字:DeepSeek-R1 的增量訓練成本約 29.4 萬美元。R1-Zero 訓練使用 648 塊 H800 GPU,耗時約 198 小時,成本約 20.2 萬美元;SFT 數據創(chuàng)建約 1 萬美元;R1 后續(xù)訓練約 8.2 萬美元。這不包含 DeepSeek-V3-Base 基座模型的訓練成本(約 556.6 萬美元),但即便全部加總,也遠低于行業(yè)認為的頂級模型訓練動輒數千萬美元的門檻。
![]()
圖丨DeepSeek-R1 的訓練成本(來源:arXiv)
四階段訓練流水線與中間檢查點
初版論文只描述了從 DeepSeek-R1-Zero 到 DeepSeek-R1 的跨越,中間過程語焉不詳。新版引入了 Dev1、Dev2、Dev3 三個中間檢查點,完整呈現(xiàn)了四階段訓練流水線。
![]()
圖丨DeepSeek-R1 的多階段流程。(來源:arXiv)
第一階段是 R1-Zero 的純 RL 訓練。基于 DeepSeek-V3-Base,完全不用監(jiān)督微調(SFT,Supervised Fine-Tuning),僅依靠正確性獎勵和格式獎勵引導模型自主探索推理策略。這一階段的核心發(fā)現(xiàn)是所謂的“Aha Moment”:在某個訓練節(jié)點,模型突然大量使用“wait”這個詞進行自我反思。
論文統(tǒng)計了 10 個代表性反思詞匯(wait,mistake,however,but,retry,error,verify,wrong,evaluate,check)的出現(xiàn)頻率,發(fā)現(xiàn)這些詞匯在訓練過程中增長了 5 到 7 倍。“wait”的變化尤其有意思:訓練早期幾乎不出現(xiàn),4,000 到 7,000 步偶爾使用,8,000 步之后顯著躍升。
![]()
(來源:arXiv)
第二階段是冷啟動 SFT 加第一輪 RL。團隊收集了數千條展示對話式、人類友好思考過程的冷啟動數據,解決 R1-Zero 可讀性差、語言混雜的問題。RL 訓練時引入了語言一致性獎勵,計算目標語言詞匯在思維鏈中的占比。消融實驗表明,這個獎勵會導致推理性能輕微下降(特別是在代碼任務上),但顯著改善了輸出可讀性。
第三階段是拒絕采樣與大規(guī)模 SFT。從第一輪 RL 的檢查點進行拒絕采樣,生成約 60 萬條推理數據,加上約 20 萬條來自 DeepSeek-V3 流水線的非推理數據(寫作、問答、角色扮演等),組成 80 萬樣本的 SFT 數據集。這一階段的關鍵在于平衡推理能力和通用能力,單純的推理 RL 會讓模型在寫作、開放域問答上表現(xiàn)欠佳。
第四階段是全場景 RL,整合基于規(guī)則的推理獎勵和基于偏好模型的通用獎勵。論文提醒,基于偏好模型的獎勵只在最后 400 步引入,過早或過長使用會導致獎勵作弊(reward hacking)現(xiàn)象。
性能對比顯示,從 R1-Zero 到 Dev1,指令遵循能力(IF-Eval、Arena-Hard)顯著提升,但 AIME 數學競賽分數有所下降,這是冷啟動數據規(guī)模有限的代價;從 Dev1 到 Dev2,推理性能恢復并超越 R1-Zero;到 Dev3 和最終版本,各維度都達到最優(yōu)。
蒸餾與強化學習的對比,以及一些關鍵發(fā)現(xiàn)
新版論文最核心的補充之一,是關于蒸餾與強化學習的對比實驗。
團隊在 Qwen2.5-32B-Base 上進行了超過 10,000 步的大規(guī)模 RL 訓練,得到 Qwen2.5-32B-Zero。這個模型的性能與 QwQ-32B-Preview 相當,但顯著落后于從 DeepSeek-R1 蒸餾而來的 DeepSeek-R1-Distill-Qwen-32B。以 AIME 2024 為例,蒸餾模型的 Pass@1 達到 72.6%,RL 訓練模型只有 47.0%。
結論顯示,對于中小規(guī)模模型,蒸餾比從頭 RL 訓練更具性價比。論文的原話是,蒸餾策略既經濟又有效,但要突破人類智能的邊界,可能仍需要更強大的基座模型和更大規(guī)模的強化學習。
另一組實驗在 Qwen2-Math-7B 上進行。這個模型在 2024 年 8 月發(fā)布,早于 OpenAI o1,確保基座沒接觸過任何推理軌跡數據。經過約 10,000 步策略梯度更新后,Qwen2-Math-7B-Zero 在 AIME 2024 上的表現(xiàn)(22.3%)顯著超過 Qwen2-Math-7B-Instruct(7.9%)和 GPT-4o(9.3%)。這說明純 RL 確實能讓模型自主發(fā)展出高級推理策略,而非簡單模仿人類示范。
新版論文還披露了幾條早期的關鍵發(fā)現(xiàn)。團隊嘗試過 7B Dense 和 16B MoE 模型作為 RL 訓練基礎,但這些配置在 AIME 上始終無法取得有意義的提升。小模型在響應長度增加時表現(xiàn)出強烈的重復傾向,無法有效利用長鏈推理。直到切換到 32B Dense、230B MoE 和 671B MoE 等更大規(guī)模架構,才觀察到實質性提升。這暗示推理能力的涌現(xiàn)可能存在某種規(guī)模門檻。
關于數據來源,論文在同行評審文檔中回應了“蒸餾 OpenAI”的質疑:DeepSeek-V3-Base 的預訓練數據完全來自互聯(lián)網,沒有刻意使用合成數據。某些網頁可能包含 GPT-4 生成的答案,但這不是有意為之。為防止基準污染,團隊過濾掉了任何與評測問題存在 10-gram 匹配的文本片段,僅數學領域就移除了約 600 萬條文本。論文也坦承,n-gram 方法無法防止測試集改寫版本混入,2024 年之前發(fā)布的基準仍可能有污染風險。
新版論文詳細記錄了團隊在 Process Reward Model(PRM , 過程獎勵模型 )上的探索。這本是一個直覺上很合理的方向:不只給最終答案打分,而是對推理過程的每一步提供反饋,把“怎么想”也納入優(yōu)化目標。
但落到實踐里,它很快撞上了三道坎:第一,“一步”到底怎么切分并沒有統(tǒng)一標準,邊界劃得粗細不同,獎勵信號就會變形;第二,要判斷某一步是否正確并不容易,模型自標注的可靠性有限,而人工逐步標注又幾乎不可能規(guī)模化;第三,一旦引入基于模型的 PRM 作為獎勵來源,策略模型就不可避免地會學會“迎合評分器”,獎勵作弊(reward hacking)風險隨之上升。
DeepSeek 的結論是:PRM 用來對 Top-N 候選響應做重排序時確實有效,但放到大規(guī)模強化學習訓練里,帶來的增益不足以覆蓋額外的復雜度與計算開銷。
他們也嘗試過 Monte Carlo Tree Search(MCTS,Monte Carlo Tree Search,蒙特卡洛樹搜索)。受 AlphaGo 思路啟發(fā),團隊設想把答案拆成更細的片段,用預訓練的價值模型來引導搜索路徑。
然而在語言生成里,token 級的搜索空間呈指數級膨脹:擴展得更廣會迅速失控,設置擴展上限又容易過早收斂到局部最優(yōu);更要命的是,細粒度價值模型本身就難訓練,AlphaGo 那種價值模型漸進提升的閉環(huán)機制,在這里很難復現(xiàn)。
論文也特意強調,分享這些失敗經驗并不等于否定 PRM 或 MCTS 的潛力,只是它們在 R1 的具體開發(fā)路徑上沒有走通。
安全評估與結論
安全是新版論文著重補充的另一個維度。此前有部分人士對 DeepSeek-R1 的安全性表示了質疑,團隊這次也算是對這些聲音進行了回應。
在訓練層面,團隊構建了 Safety Reward Model(安全獎勵模型)。與采用成對比較的有用性獎勵模型不同,安全獎勵模型使用逐點方法訓練,基于 106,000 條標注為“安全”或“不安全”的樣本,學習區(qū)分有害與無害響應。在第二階段 RL 中,安全獎勵與有用性獎勵、規(guī)則獎勵共同作用,評估范圍覆蓋整個響應(包括思維鏈和最終答案),以識別生成過程中可能出現(xiàn)的風險內容。
在部署層面,官方服務配備了外部風險控制系統(tǒng)。系統(tǒng)分兩步工作:首先對用戶查詢進行關鍵詞匹配,標記潛在風險對話;隨后將標記內容與預設的風險審核提示拼接,送入 DeepSeek-V3 進行判斷。審核提示覆蓋 11 類安全標準,包括違法活動建議、隱私捏造、高風險投資指導等。論文建議部署 R1 的開發(fā)者實施類似機制。
評估方面,團隊在 6 個公開安全基準(SST、BBQ、ART、XSTest、Do-Not-Answer、HarmBench)上與 Claude-3.7-Sonnet、o1、GPT-4o 等模型對比測試。結果顯示 R1 在歧視偏見、暴力極端主義、隱私侵犯等類別上表現(xiàn)穩(wěn)健,平均安全分達 95.0%。
但在 HarmBench 的版權相關測試中表現(xiàn)較弱,例如被要求生成歌詞時未能拒絕,導致被判定為不安全。團隊還構建了內部安全測試集,按統(tǒng)一分類標準覆蓋 4 大類 28 個子類的安全場景,并針對多語言安全和越獄攻擊魯棒性進行了額外評估。
![]()
圖丨6 個公開安全基準的測試結果(來源:arXiv)
論文坦承,開源模型的安全風險客觀存在。風險控制系統(tǒng)能顯著提升服務安全性,特別是應對越獄攻擊時效果明顯,但模型本身在某些邊界場景仍有改進空間。
論文最后總結了幾點核心發(fā)現(xiàn)和局限。核心發(fā)現(xiàn)是:預訓練檢查點本身就具備復雜推理的潛力,釋放這種潛力的關鍵不在于大規(guī)模人工標注,而在于三個要素:困難的推理問題、可靠的驗證器、充足的 RL 計算資源。自我驗證、反思等復雜推理行為會在 RL 過程中自然涌現(xiàn)。
同時,團隊也指出 DeepSeek-R1 還存在一些局限性,比如結構化輸出和工具調用能力仍不及現(xiàn)有模型;token 效率有待優(yōu)化,簡單問題存在過度推理現(xiàn)象;非中英文查詢會出現(xiàn)語言混雜;對 prompt 敏感,few-shot 反而降低性能;軟件工程任務因評估耗時長,未能充分進行大規(guī)模 RL,相比 V3 提升有限。
更根本的挑戰(zhàn)在于純 RL 方法本身:它依賴可靠的獎勵信號,而寫作等任務很難用規(guī)則定義獎勵,用模型打分又容易被策略模型鉆空子。對于無法有效評估的任務,如何擴展純 RL 方法仍是開放問題。論文的判斷是,任何能被驗證器有效評估的任務,機器都有望通過 RL 超越人類;但對于難以構建可靠獎勵模型的任務,進展可能會慢一些。
![]()
參考資料:
1.https://arxiv.org/abs/2501.12948
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.