<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek 把R1論文又更新了60多頁,V4呼之欲出了吧

      0
      分享至


      作者 | 周一笑
      郵箱 | zhouyixiao@pingwest.com

      1月4日,DeepSeek在arXiv上更新了R1論文。

      沒有官宣,沒有推文,只是版本號從v1變成了v2。但打開PDF的人都會發現一個變化,頁數從22頁膨脹到了86頁,文件大小從928KB漲到1562KB。


      新增內容包括完整的訓練管線拆解、20多個評測基準的詳細數據、以及長達數十頁的技術附錄,近乎重寫的大手術。

      時間點也有些微妙。1月20日是R1發布一周年,再往后推一個月,2月17日是農歷春節,而DeepSeek有在春節前放大招的傳統,去年的V3和R1都是在春節窗口期發布的。

      一篇“舊”論文的大更新,會是新動作的前奏嗎?要回答這個問題,我們先來看看這86頁里到底寫了什么。

      1

      一篇論文的“三生三世”

      要理解這次更新的意義,需要先回顧R1論文的完整旅程。

      2025年1月20日,22頁預印本發布。DeepSeek在arXiv發布R1論文,核心結論是:純強化學習可以讓大模型自己“學會”推理,不需要人類標注的思維鏈數據。論文開源、模型開源、方法開源,直接引爆全球AI社區。

      2025年9月17日,R1論文登上Nature封面,梁文鋒署名通訊作者。這是全球首個通過頂級學術期刊同行評審的主流大模型,8位專家審稿,逐條質疑,逐條回應。審稿人關注的問題包括,R1是否使用了OpenAI模型的輸出來訓練(即“蒸餾”質疑)、訓練數據的具體來源、以及安全性細節。DeepSeek在回應中明確否認了蒸餾指控,并首次公開了訓練成本,從V3-Base訓練到R1,只花了29.4萬美元。


      Nature為此專門撰寫社論,指出主流大模型公司發布模型時通常不經過獨立評審,“這一空白隨著Nature發表DeepSeek-R1的細節而改變”。

      2026年1月4日,86頁完整版上線。最新版本把Nature版的技術細節同步回arXiv。Dev1、Dev2、Dev3訓練階段的完整拆解、擴展后的評測數據、以及附錄A-F的技術文檔,現在免費向所有人開放。

      期刊發表后同步更新預印本,在學術界是常規操作。但從22頁擴到86頁、內容量翻近四倍,這種幅度的更新相當罕見。某種程度上,DeepSeek把一篇論文做成了一份技術全書,它想讓所有人都能復現R1,而不只是讀懂R1。

      1

      新增了什么?拆解64頁“增量”

      訓練“黑箱”打開:Dev1、Dev2、Dev3首次曝光

      原版論文對訓練過程的描述相當克制:冷啟動SFT → 強化學習 → 最終SFT,三步走完,細節從略。新版則把這個管線徹底拆開,引入了三個中間檢查點:Dev1、Dev2、Dev3。


      R1完整訓練管線

      Dev1是冷啟動階段的產物。模型在這個階段學會了聽話(指令遵循能力大幅提升),但代價是推理能力反而下滑。論文披露的數據顯示,Dev1在AIME數學競賽上的表現比基座模型還要差。

      Dev2專門用來“搶救”推理能力。這個階段只做reasoning-oriented RL,把數學和代碼能力拉回來,同時保持住指令遵循的水平。

      Dev3是最終打磨。通過拒絕采樣生成高質量數據,再做一輪SFT,讓模型在推理任務和通用任務上都能穩定輸出。

      這套先教規矩、再練內功、最后調形態的三段式流程,解釋了一個很多人關心的問題,為什么R1既能做長鏈推理,又不會像R1-Zero那樣輸出混亂、中英混雜。

      從5個benchmark到20+:評估體系全面擴展

      原版論文的評測集中在幾個核心指標,AIME數學競賽、Codeforces編程、MATH數據集。新版大幅擴展了評測范圍,涵蓋MMLU、MMLU-Pro、DROP、GPQA Diamond、IFEval、Arena-Hard、SWE-bench Verified、LiveCodeBench等20多個基準。


      R1-Zero訓練曲線:準確率從15.6%漲到77.9%,超過人類水平(綠色虛線)

      更值得關注的是人類baseline的引入。新版論文直接把R1的AIME成績和人類參賽者的平均分放在一起比較。R1-Zero在訓練過程中,pass@1從15.6%一路漲到71.0%,使用多數投票后達到86.7%,超過了人類平均水平。

      這種和人比的評測方式,比單純刷榜更能說明問題。

      RL煉丹手冊:附錄A-F中的“秘籍”

      對于想復現R1的研究者來說,新增的附錄可能是最有價值的部分。

      附錄A詳解了GRPO(Group Relative Policy Optimization)的實現細節,包括學習率、KL系數、采樣溫度等關鍵超參數。附錄B-F則覆蓋了獎勵函數設計、數據構造策略、評測細節等。原版論文的"方法論"色彩濃厚,新版則更像一本操作手冊,參數寫死、流程寫清、坑也標出來。

      正如一篇技術解讀所說,與原版聚焦高層方法論和結果不同,新版的附錄為任何想了解模型工作原理的人提供了完整透明的指南。

      被寫進論文的失敗嘗試

      新版論文還有一個容易被忽略的章節:Unsuccessful Attempts(失敗的嘗試)。

      DeepSeek坦承,他們試過MCTS(蒙特卡洛樹搜索)和PRM(過程獎勵模型)m這兩條路線是過去一年業界最熱門的研究方向,不少頂級實驗室都在重注押寶。結果是:走不通,至少在通用推理任務上走不通。

      論文的解釋是,這類方法對“步驟顆粒度”要求太高,適合數學證明這種每一步都能清晰驗證的場景,但很難泛化到更開放的推理任務。這和開發者社區的討論不謀而合,PRM和MCTS可能會限制強化學習的探索空間,只適合那些邊界清晰的問題。

      把失敗寫進論文,在學術界并不罕見,但在工業界主導的大模型研究中相當少見。某種程度上,DeepSeek幫整個行業做了一次祛魅,巨頭們死磕的方向,未必是對的方向。

      從22頁到86頁,DeepSeek補上的是可復現性。這也引出了一個問題,為什么選擇在這個時間點做這件事?

      1

      為什么是現在?

      期刊發表后把內容同步回預印本,學術界司空見慣。但R1的這次的論文更新,還是有幾個值得玩味的地方。

      首先是時間節點。1月4日論文更新,1月20日R1發布一周年,2月17日農歷春節,三個日期串在一起,很難不讓人聯想。去年V3和R1都是在春節窗口期發布的,DeepSeek似乎形成了某種“年貨”傳統。X上已經有不少人在問:“我們會很快聽到鯨魚的消息嗎?”

      其次是更新本身的反常。大多數論文發布后就不再改動,最多修修勘誤。一次性補上60多頁,把內部積累的實現細節、消融實驗、甚至失敗嘗試全部公開,這在追求護城河的AI行業相當少見。

      怎么理解這種“反?!??一種解讀是這些技術對DeepSeek的當前研究已經不再構成競爭優勢,他們已經轉向了更新的方向。結合1月1日剛發布的mHC架構論文,下一代模型的輪廓似乎正在浮現。

      另一種解讀是防御性的開源策略,把一年前的技術細節徹底公開,使其變成公共知識,可以防止競爭對手將類似技術申請專利或構建壁壘。與其讓R1的技術在閉源競爭中被逐漸稀釋,不如主動釋放,拉高整個開源社區的水位。


      還有一個容易被忽略的細節是作者名單。論文用星號標注已離職人員,但在100多位貢獻者中只有5位帶星號,18位核心作者一年后全部還在。更有意思的是,一位曾經帶星號的研究員這次星號消失了,似乎重新回到了團隊。核心班底幾乎零流失,在人才爭奪白熱化的AI行業也相當罕見。

      回看過去一年,DeepSeek的節奏始終是先發論文,再發模型。V3論文詳解了MoE架構和MLA注意力機制,R1論文拆解了純RL訓練框架,mHC論文優化訓練穩定性問題。每一篇都不是事后總結,而是提前鋪路。這次86頁的更新,某種意義上也是同樣的邏輯,在下一個大動作之前,把上一個階段的技術債徹底清完。

      至于那個“大動作”是什么、什么時候來,答案或許很快會揭曉。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      歷史上只有五個球員踢皇馬有滿分10分!梅西領銜!

      歷史上只有五個球員踢皇馬有滿分10分!梅西領銜!

      氧氣是個地鐵
      2026-01-29 23:34:57
      個人股東分紅,不用繳個稅了!

      個人股東分紅,不用繳個稅了!

      審計之家
      2026-01-28 19:58:41
      風向變了,委代總統軍權到手,美國立即歸還油輪,馬杜羅有救了?

      風向變了,委代總統軍權到手,美國立即歸還油輪,馬杜羅有救了?

      墨山看客
      2026-01-30 11:00:38
      不等春節?美航母或1天內開戰,中方不許3事發生,俄英法已選邊站

      不等春節?美航母或1天內開戰,中方不許3事發生,俄英法已選邊站

      阿傖說事
      2026-01-28 15:22:57
      伊朗國際互聯網服務已恢復

      伊朗國際互聯網服務已恢復

      財聯社
      2026-01-29 00:05:46
      立政客:中國必須明白,立陶宛經濟離不開中國,中立關系必須恢復

      立政客:中國必須明白,立陶宛經濟離不開中國,中立關系必須恢復

      知法而形
      2026-01-03 10:40:12
      和訊投顧鄭鎮華:突發大跌,發生了什么?調整目標在哪里?市場將有新主線!

      和訊投顧鄭鎮華:突發大跌,發生了什么?調整目標在哪里?市場將有新主線!

      和訊網
      2026-01-30 11:51:07
      那黃金有沒有可能突然有一天暴跌,然后一下套你30年呢?

      那黃金有沒有可能突然有一天暴跌,然后一下套你30年呢?

      流蘇晚晴
      2025-11-12 19:04:01
      張雨綺大瓜爆出!

      張雨綺大瓜爆出!

      微微熱評
      2026-01-27 00:09:43
      紫光國微:暫無收購英偉達的計劃

      紫光國微:暫無收購英偉達的計劃

      映射生活的身影
      2026-01-30 00:34:31
      中國陸軍火力要變天,電磁火箭炮千公里打擊真的要來了?

      中國陸軍火力要變天,電磁火箭炮千公里打擊真的要來了?

      楊風
      2026-01-28 22:30:13
      法國貓徒步5個月從西班牙回家!只為再蹭蹭主人的手

      法國貓徒步5個月從西班牙回家!只為再蹭蹭主人的手

      新歐洲
      2026-01-28 21:37:40
      新華社消息|伊朗最高領袖顧問:美若動武 伊朗將打擊“特拉維夫的心臟”

      新華社消息|伊朗最高領袖顧問:美若動武 伊朗將打擊“特拉維夫的心臟”

      新華社
      2026-01-29 09:24:27
      導彈還沒等點火,幾萬公里外的屏幕上,紅點就亮了“目標已鎖定”

      導彈還沒等點火,幾萬公里外的屏幕上,紅點就亮了“目標已鎖定”

      南權先生
      2026-01-28 15:54:10
      趙本山沒想到,愛徒宋曉峰因為女兒閨蜜的爆料,體面被撕得粉碎!

      趙本山沒想到,愛徒宋曉峰因為女兒閨蜜的爆料,體面被撕得粉碎!

      叨嘮
      2026-01-29 02:13:44
      被禁足球員李帥發文后刪除:贏球去看守所,中國足球太找樂

      被禁足球員李帥發文后刪除:贏球去看守所,中國足球太找樂

      懂球帝
      2026-01-29 13:13:07
      德央行行長:別和中國人講仁義,我們對中國仁慈,就是對歐洲殘忍

      德央行行長:別和中國人講仁義,我們對中國仁慈,就是對歐洲殘忍

      探史
      2026-01-30 11:17:25
      吉林省副省長楊安娣任吉林省政協副主席

      吉林省副省長楊安娣任吉林省政協副主席

      澎湃新聞
      2026-01-29 19:33:09
      現貨黃金日內漲幅擴大至1%,突破5440美元/盎司

      現貨黃金日內漲幅擴大至1%,突破5440美元/盎司

      每日經濟新聞
      2026-01-30 07:16:04
      中子彈有多厲害?連美國都承認它是中國殺手锏,殺傷比氫彈還強

      中子彈有多厲害?連美國都承認它是中國殺手锏,殺傷比氫彈還強

      千秋文化
      2026-01-29 21:28:25
      2026-01-30 13:11:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2830文章數 10432關注度
      往期回顧 全部

      科技要聞

      單季狂賺3000億;iPhone 17 全球賣瘋了!

      頭條要聞

      英國、法國、加拿大、日本等11國聯合發聲:強烈譴責

      頭條要聞

      英國、法國、加拿大、日本等11國聯合發聲:強烈譴責

      體育要聞

      敢揍多爾特,此子必成大器?

      娛樂要聞

      金晨出事前 曾靈魂發問未收到春晚邀請

      財經要聞

      血鉛超標工人,擋在“勞動關系”門檻外

      汽車要聞

      全面科技化 新款梅賽德斯-奔馳S級發布

      態度原創

      本地
      數碼
      游戲
      公開課
      軍事航空

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      數碼要聞

      英偉達GeForce NOW云游戲服務正式推出Linux原生應用

      我榮集合!《榮耀戰魂》廣州線下賽事即將火熱開啟!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      中方被指支持俄生產武器 外交部回應

      無障礙瀏覽 進入關懷版