網易首頁 > 網易號 > 正文申請入駐

DeepSeek突然更新R1論文：暴增64頁，能公開的全公開了

2026-01-08 17:10:32　來源: DeepTech深科技

北京舉報

分享至

2025 年 9 月，DeepSeek－R1 論文以封面文章的形式登上 Nature 雜志，成為全球首個通過頂級期刊獨立同行評審的主流大語言模型。從 2 月 14 日投稿到 9 月 17 日正式發(fā)表，8 位外部專家歷時 5 個月對論文的原創(chuàng)性、方法論和穩(wěn)健性進行了嚴格審查。Nature 在編輯評論中直言：幾乎所有主流大模型都未曾經歷過獨立同行評審，而 DeepSeek 打破了這一空白。

讓人沒想到的是，最近 DeepSeek 還能把這種透明再向前推一步。1 月 4 日，DeepSeek 在 arXiv 上突然更新了這篇論文的第二版，頁數從 22 頁暴增至 86 頁，把此前藏在黑箱里的訓練流程、基礎設施、消融實驗、中間檢查點，乃至失敗嘗試，統(tǒng)統(tǒng)向外界進行了展示。

圖丨相關論文（來源：arXiv）

那么，這 86 頁究竟比原來的 22 頁多出了什么？（關于基準測試結果等初版論文已涉及的部分，我們不再贅述）

GRPO 算法與 RL 基礎設施

初版論文對 Group Relative Policy Optimization（GRPO，群組相對策略優(yōu)化）的介紹相當克制，僅給出核心公式。新版用數頁篇幅展開對比分析，解釋 GRPO 何以能替代傳統(tǒng)的 Proximal Policy Optimization（PPO，近端策略優(yōu)化）。

PPO 在大模型強化學習中應用廣泛，但有個麻煩：它需要訓練一個與策略模型規(guī)模相當的價值模型來估計優(yōu)勢函數，計算開銷很大。更棘手的是，價值模型要根據已生成的部分內容預測最終累積獎勵，這對長鏈推理來說幾乎不可行——模型可能在生成過程中反復修正、自我否定，早期內容和最終答案之間的關聯(lián)性很弱。

GRPO 的做法是干脆不要價值模型。對每個問題采樣 16 個輸出，用組內獎勵的均值和標準差做歸一化，得到每個輸出相對于同組其他輸出的優(yōu)勢估計。這種“組內排名”的思路規(guī)避了跨時間步的價值預測，既節(jié)省內存，又適配長鏈推理場景。論文給出的對比實驗顯示，在 MATH 任務上，PPO 需要仔細調參（特別是 GAE 中的 λ 系數）才能接近 GRPO 的效果，而 GRPO 開箱即用。

圖丨 PPO 與 GRPO 的演示（來源：arXiv）

新版論文還首次披露了 RL 訓練基礎設施的完整架構。系統(tǒng)分為四個模塊：Rollout 模塊用 vLLM 工作節(jié)點批量采樣響應；Inference 模塊加載獎勵模型和參考模型做前向推理；Rule－based Reward 模塊計算代碼執(zhí)行、答案匹配等規(guī)則獎勵；Training 模塊完成策略更新。四個模塊之間采用異步調度和顯存動態(tài)卸載策略。

為加速采樣，Rollout 模塊還用了 Multi－Token Prediction（MTP，多 token 預測）組件做自投機解碼，縮短最長樣本的生成耗時。考慮到 DeepSeek－R1－Zero 訓練時每個問題要采樣 16 個輸出、單次訓練步包含 32 個獨立問題，這種工程優(yōu)化對整體效率的提升不小。

訓練成本方面，新版終于給出了明確數字：DeepSeek－R1 的增量訓練成本約 29.4 萬美元。R1－Zero 訓練使用 648 塊 H800 GPU，耗時約 198 小時，成本約 20.2 萬美元；SFT 數據創(chuàng)建約 1 萬美元；R1 后續(xù)訓練約 8.2 萬美元。這不包含 DeepSeek－V3－Base 基座模型的訓練成本（約 556.6 萬美元），但即便全部加總，也遠低于行業(yè)認為的頂級模型訓練動輒數千萬美元的門檻。

圖丨DeepSeek－R1 的訓練成本（來源：arXiv）

四階段訓練流水線與中間檢查點

初版論文只描述了從 DeepSeek－R1－Zero 到 DeepSeek－R1 的跨越，中間過程語焉不詳。新版引入了 Dev1、Dev2、Dev3 三個中間檢查點，完整呈現(xiàn)了四階段訓練流水線。

圖丨DeepSeek-R1 的多階段流程。（來源：arXiv）

第一階段是 R1－Zero 的純 RL 訓練。基于 DeepSeek－V3－Base，完全不用監(jiān)督微調（SFT，Supervised Fine－Tuning），僅依靠正確性獎勵和格式獎勵引導模型自主探索推理策略。這一階段的核心發(fā)現(xiàn)是所謂的“Aha Moment”：在某個訓練節(jié)點，模型突然大量使用“wait”這個詞進行自我反思。

論文統(tǒng)計了 10 個代表性反思詞匯（wait，mistake，however，but，retry，error，verify，wrong，evaluate，check）的出現(xiàn)頻率，發(fā)現(xiàn)這些詞匯在訓練過程中增長了 5 到 7 倍。“wait”的變化尤其有意思：訓練早期幾乎不出現(xiàn)，4,000 到 7,000 步偶爾使用，8,000 步之后顯著躍升。

（來源：arXiv）

第二階段是冷啟動 SFT 加第一輪 RL。團隊收集了數千條展示對話式、人類友好思考過程的冷啟動數據，解決 R1－Zero 可讀性差、語言混雜的問題。RL 訓練時引入了語言一致性獎勵，計算目標語言詞匯在思維鏈中的占比。消融實驗表明，這個獎勵會導致推理性能輕微下降（特別是在代碼任務上），但顯著改善了輸出可讀性。

第三階段是拒絕采樣與大規(guī)模 SFT。從第一輪 RL 的檢查點進行拒絕采樣，生成約 60 萬條推理數據，加上約 20 萬條來自 DeepSeek－V3 流水線的非推理數據（寫作、問答、角色扮演等），組成 80 萬樣本的 SFT 數據集。這一階段的關鍵在于平衡推理能力和通用能力，單純的推理 RL 會讓模型在寫作、開放域問答上表現(xiàn)欠佳。

第四階段是全場景 RL，整合基于規(guī)則的推理獎勵和基于偏好模型的通用獎勵。論文提醒，基于偏好模型的獎勵只在最后 400 步引入，過早或過長使用會導致獎勵作弊（reward hacking）現(xiàn)象。

性能對比顯示，從 R1－Zero 到 Dev1，指令遵循能力（IF－Eval、Arena－Hard）顯著提升，但 AIME 數學競賽分數有所下降，這是冷啟動數據規(guī)模有限的代價；從 Dev1 到 Dev2，推理性能恢復并超越 R1－Zero；到 Dev3 和最終版本，各維度都達到最優(yōu)。

蒸餾與強化學習的對比，以及一些關鍵發(fā)現(xiàn)

新版論文最核心的補充之一，是關于蒸餾與強化學習的對比實驗。

團隊在 Qwen2.5－32B－Base 上進行了超過 10,000 步的大規(guī)模 RL 訓練，得到 Qwen2.5－32B－Zero。這個模型的性能與 QwQ－32B－Preview 相當，但顯著落后于從 DeepSeek－R1 蒸餾而來的 DeepSeek－R1－Distill－Qwen－32B。以 AIME 2024 為例，蒸餾模型的 Pass＠1 達到 72.6％，RL 訓練模型只有 47.0％。

結論顯示，對于中小規(guī)模模型，蒸餾比從頭 RL 訓練更具性價比。論文的原話是，蒸餾策略既經濟又有效，但要突破人類智能的邊界，可能仍需要更強大的基座模型和更大規(guī)模的強化學習。

另一組實驗在 Qwen2－Math－7B 上進行。這個模型在 2024 年 8 月發(fā)布，早于 OpenAI o1，確保基座沒接觸過任何推理軌跡數據。經過約 10,000 步策略梯度更新后，Qwen2－Math－7B－Zero 在 AIME 2024 上的表現(xiàn)（22.3％）顯著超過 Qwen2－Math－7B－Instruct（7.9％）和 GPT－4o（9.3％）。這說明純 RL 確實能讓模型自主發(fā)展出高級推理策略，而非簡單模仿人類示范。

新版論文還披露了幾條早期的關鍵發(fā)現(xiàn)。團隊嘗試過 7B Dense 和 16B MoE 模型作為 RL 訓練基礎，但這些配置在 AIME 上始終無法取得有意義的提升。小模型在響應長度增加時表現(xiàn)出強烈的重復傾向，無法有效利用長鏈推理。直到切換到 32B Dense、230B MoE 和 671B MoE 等更大規(guī)模架構，才觀察到實質性提升。這暗示推理能力的涌現(xiàn)可能存在某種規(guī)模門檻。

關于數據來源，論文在同行評審文檔中回應了“蒸餾 OpenAI”的質疑：DeepSeek－V3－Base 的預訓練數據完全來自互聯(lián)網，沒有刻意使用合成數據。某些網頁可能包含 GPT－4 生成的答案，但這不是有意為之。為防止基準污染，團隊過濾掉了任何與評測問題存在 10－gram 匹配的文本片段，僅數學領域就移除了約 600 萬條文本。論文也坦承，n－gram 方法無法防止測試集改寫版本混入，2024 年之前發(fā)布的基準仍可能有污染風險。

新版論文詳細記錄了團隊在 Process Reward Model（PRM ，過程獎勵模型）上的探索。這本是一個直覺上很合理的方向：不只給最終答案打分，而是對推理過程的每一步提供反饋，把“怎么想”也納入優(yōu)化目標。

但落到實踐里，它很快撞上了三道坎：第一，“一步”到底怎么切分并沒有統(tǒng)一標準，邊界劃得粗細不同，獎勵信號就會變形；第二，要判斷某一步是否正確并不容易，模型自標注的可靠性有限，而人工逐步標注又幾乎不可能規(guī)模化；第三，一旦引入基于模型的 PRM 作為獎勵來源，策略模型就不可避免地會學會“迎合評分器”，獎勵作弊（reward hacking）風險隨之上升。

DeepSeek 的結論是：PRM 用來對 Top－N 候選響應做重排序時確實有效，但放到大規(guī)模強化學習訓練里，帶來的增益不足以覆蓋額外的復雜度與計算開銷。

他們也嘗試過 Monte Carlo Tree Search（MCTS，Monte Carlo Tree Search，蒙特卡洛樹搜索）。受 AlphaGo 思路啟發(fā)，團隊設想把答案拆成更細的片段，用預訓練的價值模型來引導搜索路徑。

然而在語言生成里，token 級的搜索空間呈指數級膨脹：擴展得更廣會迅速失控，設置擴展上限又容易過早收斂到局部最優(yōu)；更要命的是，細粒度價值模型本身就難訓練，AlphaGo 那種價值模型漸進提升的閉環(huán)機制，在這里很難復現(xiàn)。

論文也特意強調，分享這些失敗經驗并不等于否定 PRM 或 MCTS 的潛力，只是它們在 R1 的具體開發(fā)路徑上沒有走通。

安全評估與結論

安全是新版論文著重補充的另一個維度。此前有部分人士對 DeepSeek-R1 的安全性表示了質疑，團隊這次也算是對這些聲音進行了回應。

在訓練層面，團隊構建了 Safety Reward Model（安全獎勵模型）。與采用成對比較的有用性獎勵模型不同，安全獎勵模型使用逐點方法訓練，基于 106,000 條標注為“安全”或“不安全”的樣本，學習區(qū)分有害與無害響應。在第二階段 RL 中，安全獎勵與有用性獎勵、規(guī)則獎勵共同作用，評估范圍覆蓋整個響應（包括思維鏈和最終答案），以識別生成過程中可能出現(xiàn)的風險內容。

在部署層面，官方服務配備了外部風險控制系統(tǒng)。系統(tǒng)分兩步工作：首先對用戶查詢進行關鍵詞匹配，標記潛在風險對話；隨后將標記內容與預設的風險審核提示拼接，送入 DeepSeek-V3 進行判斷。審核提示覆蓋 11 類安全標準，包括違法活動建議、隱私捏造、高風險投資指導等。論文建議部署 R1 的開發(fā)者實施類似機制。

評估方面，團隊在 6 個公開安全基準（SST、BBQ、ART、XSTest、Do-Not-Answer、HarmBench）上與 Claude-3.7-Sonnet、o1、GPT-4o 等模型對比測試。結果顯示 R1 在歧視偏見、暴力極端主義、隱私侵犯等類別上表現(xiàn)穩(wěn)健，平均安全分達 95.0%。

但在 HarmBench 的版權相關測試中表現(xiàn)較弱，例如被要求生成歌詞時未能拒絕，導致被判定為不安全。團隊還構建了內部安全測試集，按統(tǒng)一分類標準覆蓋 4 大類 28 個子類的安全場景，并針對多語言安全和越獄攻擊魯棒性進行了額外評估。

圖丨6 個公開安全基準的測試結果（來源：arXiv）

論文坦承，開源模型的安全風險客觀存在。風險控制系統(tǒng)能顯著提升服務安全性，特別是應對越獄攻擊時效果明顯，但模型本身在某些邊界場景仍有改進空間。

論文最后總結了幾點核心發(fā)現(xiàn)和局限。核心發(fā)現(xiàn)是：預訓練檢查點本身就具備復雜推理的潛力，釋放這種潛力的關鍵不在于大規(guī)模人工標注，而在于三個要素：困難的推理問題、可靠的驗證器、充足的 RL 計算資源。自我驗證、反思等復雜推理行為會在 RL 過程中自然涌現(xiàn)。

同時，團隊也指出 DeepSeek-R1 還存在一些局限性，比如結構化輸出和工具調用能力仍不及現(xiàn)有模型；token 效率有待優(yōu)化，簡單問題存在過度推理現(xiàn)象；非中英文查詢會出現(xiàn)語言混雜；對 prompt 敏感，few-shot 反而降低性能；軟件工程任務因評估耗時長，未能充分進行大規(guī)模 RL，相比 V3 提升有限。

更根本的挑戰(zhàn)在于純 RL 方法本身：它依賴可靠的獎勵信號，而寫作等任務很難用規(guī)則定義獎勵，用模型打分又容易被策略模型鉆空子。對于無法有效評估的任務，如何擴展純 RL 方法仍是開放問題。論文的判斷是，任何能被驗證器有效評估的任務，機器都有望通過 RL 超越人類；但對于難以構建可靠獎勵模型的任務，進展可能會慢一些。

參考資料：

1.https://arxiv.org/abs/2501.12948

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.