<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4即將發布?先讀懂梁文峰這份86頁的技術底牌

      0
      分享至

      最近DeepSeek V4的傳言越來越多了。

      據The Information報道,知情人士透露DeepSeek計劃在2月中旬、農歷新年前后發布V4模型。內部測試顯示,V4在編程能力上可能超越Claude和GPT系列——尤其是處理超長代碼提示的場景。


      去年R1也是春節前一周發布的,直接引發了全球市場一萬億美元的震動。在大型節假日前搞大事確實也很符合DeepSeek一貫的做法,今年會不會故技重施?

      但在V4發布之前,DeepSeek先悄悄做了一件事:把一年前的R1論文從22頁擴充到了86頁

      我下載了兩個版本對比,文件大小從928KB變成4.8MB。多出來的60多頁顯然不是廢話,是他們訓練的詳細賬本和踩過的坑。


      這個時間點更新舊論文,絕不是巧合。我猜他們在做兩件事:一是為V4鋪路,讓社區先完全理解R1的技術細節;二是用行動回應之前"只開源權重不給訓練細節"的質疑。

      說實話,看完這份更新,我對Open這個詞有了新的理解。上周我發的這篇關于DeepSeek mHC論文的解讀很多人表示意外地能看懂,閱讀量都突破20萬+了,哈哈哈~

      所以我今天再挑戰下自己,試試給大家用人話說說這次DeepSeek老論文里都更新了啥。

      先說更新了什么

      v1版本發布于2025年1月22日,22頁,主要講R1是什么、怎么訓的、效果多好。

      v2版本發布于2026年1月4日,86頁。時隔將近一年,多出來的60多頁都在講什么?

      我把兩個版本的目錄對比了一下。v1只有一個簡短的Appendix(作者列表)。v2新增了6大類Supplementary:

      • A: GRPO和PPO的詳細對比

      • B: 訓練細節(這部分最長,約50頁)

      • C: 推理行為分析

      • D: 基準測試詳情 + 10頁安全報告

      • E: 綜合分析(與V3對比、test-time scaling等)

      • F: 推理能力遷移

      說白了,這次更新就是把"解題過程"補上了,給出了可復現的技術文檔。

      之前R1開源的時候,很多人吐槽說"只給權重不給訓練細節,這算什么開源"?,F在DeepSeek把這塊補上了。

      294K美元的訓練賬單

      論文新增了Table 7,第一次公開了完整的訓練成本:


      階段

      GPU小時

      成本

      DeepSeek-R1-Zero

      101K

      $202K

      SFT數據創建

      5K

      $10K

      DeepSeek-R1

      41K

      $82K

      總計

      147K

      $294K

      這個成本是按H800租賃價格$2/GPU hour算的。

      29.4萬美元,訓練一個媲美OpenAI o1的推理模型。

      29.4萬美元是什么概念?之前寫V3.2的時候我提到,DeepSeek只有150人的團隊?,F在加上這個成本數據,畫面更清晰了——他們不是靠砸錢,是靠效率。

      具體怎么訓的?論文給了精確配置:

      • R1-Zero: 64×8張H800 GPU,跑了198小時

      • R1: 同樣的GPU配置,80小時(約4天)

      64×8是512張卡。198+80=278小時。不到12天,訓完了兩個階段。

      數據配方首次公開

      這是我覺得最有價值的部分——Table 4詳細列出了RL訓練數據的構成:


      數學:26k題

      • 從區域競賽到國際奧林匹克級別

      • 包括代數、微積分、概率、幾何

      • 排除了數學證明(因為難以自動驗證)

      代碼:17k + 8k

      • 17k算法競賽題(Codeforces、LeetCode風格)

      • 8k GitHub真實bug修復問題

      STEM:22k選擇題

      • 化學占46.5%(最多)

      • 生物30.7%

      • 物理15.5%

      • 其他7.3%

      邏輯:15k題

      • 真實世界:腦筋急轉彎、經典邏輯謎題

      • 合成數據:Code-IO問題、Zebra puzzle等

      通用:66k + 12k

      • 66k評估helpfulness(創意寫作、編輯、問答、角色扮演)

      • 12k評估harmlessness

      總共約150k條數據。

      為什么化學題最多?論文沒解釋,但我猜測可能是因為化學題的答案更容易自動驗證(選擇題),同時又需要多步推理。

      更有意思的是Cold Start數據的創建流程。R1不是從零開始訓的,而是先用R1-Zero的輸出,經過這個流程:

      1. 用R1-Zero在高溫度(1.0)下生成多條推理軌跡

      2. 過濾:保留答案正確、格式可讀的

      3. 用sympy驗證數學表達式

      4. 用DeepSeek-V3重寫,讓推理過程更"人話"

      5. 人工二次驗證

      論文里甚至給出了重寫的prompt,讓V3把R1-Zero那種"we"風格的推理,改成"I"風格——因為用戶更喜歡第一人稱的思考過程。

      這種細節,以前根本不會公開。

      失敗也寫進論文

      v1版本有一小節叫"Unsuccessful Attempts",提到PRM和MCTS不太行。v2把這部分擴展了,還加了一個我覺得很有價值的案例:Reward Hacking。


      Figure 6展示了一個典型的失敗場景:用helpful reward model訓練時,reward分數一直在漲(左邊紅線),但CodeForces的實際性能卻在跌(右邊藍線)。

      這就是reward hacking——模型學會了"討好"獎勵函數,但并沒有真正變強。

      論文原文的解釋是:

      "如果reward model包含系統性偏差或不準確,LLM可能學會生成那些被模型高評分、但與真實人類偏好背離的回答。"

      PRM(Process Reward Model)的問題也講得更清楚了:

      1. 細粒度步驟難定義:什么算"一步推理"?在通用推理任務里很難界定

      2. 中間步驟對錯難判斷:自動標注效果差,人工標注又沒法規模化

      3. 必然導致reward hacking:只要引入模型做判斷,就會被exploit

      所以DeepSeek最后用的是rule-based reward——數學題直接匹配答案,代碼題跑測試用例。簡單粗暴,但不會被hack。

      為什么要公開這些失敗?我覺得這才是真正的Open。告訴社區"這條路我們走過了,不通",比只展示成功更有價值。

      基礎設施首次披露

      Supplementary B.1詳細描述了RL訓練的基礎設施,分為4個模塊:

      1. Rollout Module

      • 用vLLM做推理

      • 對MoE架構實現expert parallelism,減少內存訪問開銷

      • 部署熱點expert的冗余副本來負載均衡

      • 用MTP(Multi-Token Prediction)做self-speculative decoding加速

      2. Inference Module

      • 加載reward model和reference model

      • 對rollout階段生成的樣本做forward pass

      3. Rule-based Reward Module

      • 統一接口:代碼執行器、答案匹配器、格式檢查器

      • 異步調度,和前兩個模塊overlap執行

      4. Training Module

      • 支持PPO、GRPO、DPO等算法

      • 數據打包策略:先按長度排序,再用Best-Fit裝箱

      • 集成了DualPipe算法做pipeline parallelism

      還有一個細節:每個模塊跑完后,模型會自動從顯存offload到內存或磁盤,給下一個模塊騰空間。

      這些基礎設施細節以前只有DeepSeek內部知道?,F在寫進論文,其他團隊可以照著搭。

      10頁安全報告

      Supplementary D.3是一份完整的安全評估報告,包括:

      1. 風控系統:公開了完整的risk review prompt(Listing 8)

      2. 6個公開benchmark對比:和其他SOTA模型的安全性比較

      3. 分類測試:基于自研安全測試集的細分評估

      4. 多語言安全:不同語言下的安全表現

      5. Jailbreak魯棒性:對抗攻擊下的表現

      風控prompt里列了11條安全標準,從"通用原則"到"隱私偽造"到"風險建議",細到可以直接抄。

      對想部署R1的企業來說,這部分很實用——不只是模型安全性數據,還告訴你外部風控系統怎么搭。

      為什么選擇現在更新?

      論文更新的時間點是2026年1月4日。

      結合V4的發布傳言,時間線就很清晰了:

      • 2025年1月20日:R1發布,春節前一周

      • 2026年1月4日:R1論文v2發布,詳細補全技術細節

      • 2026年2月中旬(傳聞):V4發布,又是春節前后

      DeepSeek似乎在做一件事:先把上一代的賬本攤開,再發布下一代。

      這對社區的好處是顯而易見的——當V4發布時,研究者已經完全理解R1的技術細節,可以更清晰地看出V4到底改進了什么。

      當然,這也可能是回應之前"只開源權重不給訓練細節"的批評。不管出于什么原因,結果很實在——社區拿到了一份真正可復現的技術報告。

      最后

      回到"Open"這個詞。

      大多數公司的Open是什么?開源權重,開源推理代碼,發個技術博客。

      DeepSeek的Open是什么?

      • 訓練成本精確到GPU小時

      • 數據配方精確到每個類別的數量和來源

      • 失敗嘗試寫進論文,告訴你哪條路不通

      • 基礎設施架構圖,告訴你怎么搭RL系統

      • 安全評估報告,告訴你怎么做風控

      這才是讓社區能真正復現和改進的Open。

      之前寫mHC論文的時候我說,DeepSeek的技術哲學是"去質疑那些所有人都覺得沒必要改的東西"?,F在看來,他們對"開源"這件事的理解也是一樣——不是做到行業平均水平就夠了,而是要做到讓別人能真正用起來。

      從22頁到86頁,多出來的60頁不是湊數,是掏心窩子的誠意。

      至于V4會帶來什么?如果傳言屬實,2月中旬就會揭曉。

      但不管V4表現如何,這份86頁的論文已經是一份禮物——它讓我們知道,一個頂尖推理模型是怎么從零訓出來的。這種知識,以前只有極少數公司內部才有。

      參考資料

      • DeepSeek-R1論文v2: https://arxiv.org/abs/2501.12948v2

      • DeepSeek-R1論文v1: https://arxiv.org/abs/2501.12948v1

      • V4傳言報道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2012年,用U型鎖砸日系車并重傷車主的蔡洋早已出獄,如今怎樣了

      2012年,用U型鎖砸日系車并重傷車主的蔡洋早已出獄,如今怎樣了

      談史論天地
      2026-03-25 09:57:09
      不想贏球!反超比分卻換下主力!騎士逃過一劫,哈登又送14助攻

      不想贏球!反超比分卻換下主力!騎士逃過一劫,哈登又送14助攻

      體壇小李
      2026-03-31 11:49:25
      中國移動原董事長楊杰出任要職

      中國移動原董事長楊杰出任要職

      最通信
      2026-03-31 09:37:16
      里子面子都丟了!這一次,“不偷不搶”的王菲給單依純上了一課

      里子面子都丟了!這一次,“不偷不搶”的王菲給單依純上了一課

      阿淫記錄生活日常
      2026-03-30 14:18:44
      突發!又一艘油輪遭襲

      突發!又一艘油輪遭襲

      數據寶
      2026-03-31 12:34:17
      退休不是“自由身”!2026嚴管:機關事業單位退休人員兼職紅線

      退休不是“自由身”!2026嚴管:機關事業單位退休人員兼職紅線

      今日搞笑分享
      2026-03-30 12:04:20
      坦格西里身亡

      坦格西里身亡

      南方都市報
      2026-03-30 16:02:16
      為何慈禧一死,清朝的北洋軍連皇帝都指揮不動了?原因其實很簡單

      為何慈禧一死,清朝的北洋軍連皇帝都指揮不動了?原因其實很簡單

      老達子
      2026-03-31 06:55:03
      同學聚會,班長讓我給遲到的鎮長讓座,下一秒,縣長向我道歉

      同學聚會,班長讓我給遲到的鎮長讓座,下一秒,縣長向我道歉

      農村情感故事
      2026-03-23 07:31:39
      RAC1:巴薩將向萊萬提供一份低薪合同,頭號目標是阿爾瓦雷斯

      RAC1:巴薩將向萊萬提供一份低薪合同,頭號目標是阿爾瓦雷斯

      懂球帝
      2026-03-31 05:50:27
      張本智和父親怒了:請中國人別罵我兒子,他比你們99%的人都優秀

      張本智和父親怒了:請中國人別罵我兒子,他比你們99%的人都優秀

      拳擊時空
      2026-03-31 06:22:23
      爆冷掀翻衛冕冠軍!中國女籃26歲2米王牌閃耀:無懼3大內線名將

      爆冷掀翻衛冕冠軍!中國女籃26歲2米王牌閃耀:無懼3大內線名將

      李喜林籃球絕殺
      2026-03-31 10:41:53
      賴昌星前妻近狀曝光:拒絕政府安置,獨居3000平老宅,只做一件事

      賴昌星前妻近狀曝光:拒絕政府安置,獨居3000平老宅,只做一件事

      芳芳歷史燴
      2026-03-23 03:53:23
      伊朗譴責以色列襲擊科威特海水淡化廠

      伊朗譴責以色列襲擊科威特海水淡化廠

      看看新聞Knews
      2026-03-30 23:51:05
      恒大集團許家印坑的最慘的9位大佬

      恒大集團許家印坑的最慘的9位大佬

      地產微資訊
      2026-03-29 19:08:15
      國歌中一句話引發爭議,建國以來被反復修改,其中一版本只用四年

      國歌中一句話引發爭議,建國以來被反復修改,其中一版本只用四年

      顧秋韻
      2026-03-30 14:39:53
      柯藍坦言自己今年53歲,前陣子還在清邁和瞿穎一起過了春節

      柯藍坦言自己今年53歲,前陣子還在清邁和瞿穎一起過了春節

      小光侃娛樂
      2026-03-31 07:10:08
      遺產爭議僅三天,75歲劉曉慶就宣布了新的好消息

      遺產爭議僅三天,75歲劉曉慶就宣布了新的好消息

      手工制作阿殲
      2026-03-31 06:48:11
      斯諾克重大變革:世錦賽母球變綠,威爾遜點贊討論

      斯諾克重大變革:世錦賽母球變綠,威爾遜點贊討論

      譚顳愛搞笑
      2026-03-31 09:32:50
      連央視都報道了!PS5徹底打破“越放越貶值”定律

      連央視都報道了!PS5徹底打破“越放越貶值”定律

      游民星空
      2026-03-30 17:15:44
      2026-03-31 12:51:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      169文章數 83關注度
      往期回顧 全部

      科技要聞

      尚未正式宣發,國行蘋果AI半夜"意外閃現"

      頭條要聞

      牛彈琴:中東新的大麻煩來了 特朗普又盯上了新目標

      頭條要聞

      牛彈琴:中東新的大麻煩來了 特朗普又盯上了新目標

      體育要聞

      縣城修車工,用20年成為世界冠軍

      娛樂要聞

      絲芭傳媒舉報鞠婧祎:瞞報收入竟達85%

      財經要聞

      高薪內推藏陷阱!"招轉培"騙局盯上求職者

      汽車要聞

      16萬級最強2.0T 全新一代瑞虎9來了

      態度原創

      手機
      教育
      房產
      公開課
      軍事航空

      手機要聞

      4月1日服務升級 realme將全面接入OPPO售后服務

      教育要聞

      守護孩子眼里的光——劉發云家教好故事

      房產要聞

      14億!電競巨頭出手,海棠灣“超級運動綜合體”來了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

      無障礙瀏覽 進入關懷版