網易首頁 > 網易號 > 正文申請入駐

DeepSeek 把R1論文又更新了60多頁，V4呼之欲出了吧

2026-01-09 12:32:12　來源: 硅星人

北京舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

1月4日，DeepSeek在arXiv上更新了R1論文。

沒有官宣，沒有推文，只是版本號從v1變成了v2。但打開PDF的人都會發現一個變化，頁數從22頁膨脹到了86頁，文件大小從928KB漲到1562KB。

新增內容包括完整的訓練管線拆解、20多個評測基準的詳細數據、以及長達數十頁的技術附錄，近乎重寫的大手術。

時間點也有些微妙。1月20日是R1發布一周年，再往后推一個月，2月17日是農歷春節，而DeepSeek有在春節前放大招的傳統，去年的V3和R1都是在春節窗口期發布的。

一篇“舊”論文的大更新，會是新動作的前奏嗎？要回答這個問題，我們先來看看這86頁里到底寫了什么。

一篇論文的“三生三世”

要理解這次更新的意義，需要先回顧R1論文的完整旅程。

2025年1月20日，22頁預印本發布。DeepSeek在arXiv發布R1論文，核心結論是：純強化學習可以讓大模型自己“學會”推理，不需要人類標注的思維鏈數據。論文開源、模型開源、方法開源，直接引爆全球AI社區。

2025年9月17日，R1論文登上Nature封面，梁文鋒署名通訊作者。這是全球首個通過頂級學術期刊同行評審的主流大模型，8位專家審稿，逐條質疑，逐條回應。審稿人關注的問題包括，R1是否使用了OpenAI模型的輸出來訓練（即“蒸餾”質疑）、訓練數據的具體來源、以及安全性細節。DeepSeek在回應中明確否認了蒸餾指控，并首次公開了訓練成本，從V3-Base訓練到R1，只花了29.4萬美元。

Nature為此專門撰寫社論，指出主流大模型公司發布模型時通常不經過獨立評審，“這一空白隨著Nature發表DeepSeek-R1的細節而改變”。

2026年1月4日，86頁完整版上線。最新版本把Nature版的技術細節同步回arXiv。Dev1、Dev2、Dev3訓練階段的完整拆解、擴展后的評測數據、以及附錄A-F的技術文檔，現在免費向所有人開放。

期刊發表后同步更新預印本，在學術界是常規操作。但從22頁擴到86頁、內容量翻近四倍，這種幅度的更新相當罕見。某種程度上，DeepSeek把一篇論文做成了一份技術全書，它想讓所有人都能復現R1，而不只是讀懂R1。

新增了什么？拆解64頁“增量”

訓練“黑箱”打開：Dev1、Dev2、Dev3首次曝光

原版論文對訓練過程的描述相當克制：冷啟動SFT → 強化學習 → 最終SFT，三步走完，細節從略。新版則把這個管線徹底拆開，引入了三個中間檢查點：Dev1、Dev2、Dev3。

R1完整訓練管線

Dev1是冷啟動階段的產物。模型在這個階段學會了聽話（指令遵循能力大幅提升），但代價是推理能力反而下滑。論文披露的數據顯示，Dev1在AIME數學競賽上的表現比基座模型還要差。

Dev2專門用來“搶救”推理能力。這個階段只做reasoning-oriented RL，把數學和代碼能力拉回來，同時保持住指令遵循的水平。

Dev3是最終打磨。通過拒絕采樣生成高質量數據，再做一輪SFT，讓模型在推理任務和通用任務上都能穩定輸出。

這套先教規矩、再練內功、最后調形態的三段式流程，解釋了一個很多人關心的問題，為什么R1既能做長鏈推理，又不會像R1-Zero那樣輸出混亂、中英混雜。

從5個benchmark到20+：評估體系全面擴展

原版論文的評測集中在幾個核心指標，AIME數學競賽、Codeforces編程、MATH數據集。新版大幅擴展了評測范圍，涵蓋MMLU、MMLU-Pro、DROP、GPQA Diamond、IFEval、Arena-Hard、SWE-bench Verified、LiveCodeBench等20多個基準。

R1-Zero訓練曲線：準確率從15.6%漲到77.9%，超過人類水平（綠色虛線）

更值得關注的是人類baseline的引入。新版論文直接把R1的AIME成績和人類參賽者的平均分放在一起比較。R1-Zero在訓練過程中，pass@1從15.6%一路漲到71.0%，使用多數投票后達到86.7%，超過了人類平均水平。

這種和人比的評測方式，比單純刷榜更能說明問題。

RL煉丹手冊：附錄A-F中的“秘籍”

對于想復現R1的研究者來說，新增的附錄可能是最有價值的部分。

附錄A詳解了GRPO（Group Relative Policy Optimization）的實現細節，包括學習率、KL系數、采樣溫度等關鍵超參數。附錄B-F則覆蓋了獎勵函數設計、數據構造策略、評測細節等。原版論文的"方法論"色彩濃厚，新版則更像一本操作手冊，參數寫死、流程寫清、坑也標出來。

正如一篇技術解讀所說，與原版聚焦高層方法論和結果不同，新版的附錄為任何想了解模型工作原理的人提供了完整透明的指南。

被寫進論文的失敗嘗試

新版論文還有一個容易被忽略的章節：Unsuccessful Attempts（失敗的嘗試）。

DeepSeek坦承，他們試過MCTS（蒙特卡洛樹搜索）和PRM（過程獎勵模型）m這兩條路線是過去一年業界最熱門的研究方向，不少頂級實驗室都在重注押寶。結果是：走不通，至少在通用推理任務上走不通。

論文的解釋是，這類方法對“步驟顆粒度”要求太高，適合數學證明這種每一步都能清晰驗證的場景，但很難泛化到更開放的推理任務。這和開發者社區的討論不謀而合，PRM和MCTS可能會限制強化學習的探索空間，只適合那些邊界清晰的問題。

把失敗寫進論文，在學術界并不罕見，但在工業界主導的大模型研究中相當少見。某種程度上，DeepSeek幫整個行業做了一次祛魅，巨頭們死磕的方向，未必是對的方向。

從22頁到86頁，DeepSeek補上的是可復現性。這也引出了一個問題，為什么選擇在這個時間點做這件事？

為什么是現在？

期刊發表后把內容同步回預印本，學術界司空見慣。但R1的這次的論文更新，還是有幾個值得玩味的地方。

首先是時間節點。1月4日論文更新，1月20日R1發布一周年，2月17日農歷春節，三個日期串在一起，很難不讓人聯想。去年V3和R1都是在春節窗口期發布的，DeepSeek似乎形成了某種“年貨”傳統。X上已經有不少人在問：“我們會很快聽到鯨魚的消息嗎？”

其次是更新本身的反常。大多數論文發布后就不再改動，最多修修勘誤。一次性補上60多頁，把內部積累的實現細節、消融實驗、甚至失敗嘗試全部公開，這在追求護城河的AI行業相當少見。

怎么理解這種“反?！?？一種解讀是這些技術對DeepSeek的當前研究已經不再構成競爭優勢，他們已經轉向了更新的方向。結合1月1日剛發布的mHC架構論文，下一代模型的輪廓似乎正在浮現。

另一種解讀是防御性的開源策略，把一年前的技術細節徹底公開，使其變成公共知識，可以防止競爭對手將類似技術申請專利或構建壁壘。與其讓R1的技術在閉源競爭中被逐漸稀釋，不如主動釋放，拉高整個開源社區的水位。

還有一個容易被忽略的細節是作者名單。論文用星號標注已離職人員，但在100多位貢獻者中只有5位帶星號，18位核心作者一年后全部還在。更有意思的是，一位曾經帶星號的研究員這次星號消失了，似乎重新回到了團隊。核心班底幾乎零流失，在人才爭奪白熱化的AI行業也相當罕見。

回看過去一年，DeepSeek的節奏始終是先發論文，再發模型。V3論文詳解了MoE架構和MLA注意力機制，R1論文拆解了純RL訓練框架，mHC論文優化訓練穩定性問題。每一篇都不是事后總結，而是提前鋪路。這次86頁的更新，某種意義上也是同樣的邏輯，在下一個大動作之前，把上一個階段的技術債徹底清完。

至于那個“大動作”是什么、什么時候來，答案或許很快會揭曉。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.