<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4即將發(fā)布?先讀懂梁文峰這份86頁的技術底牌

      0
      分享至

      最近DeepSeek V4的傳言越來越多了。

      據The Information報道,知情人士透露DeepSeek計劃在2月中旬、農歷新年前后發(fā)布V4模型。內部測試顯示,V4在編程能力上可能超越Claude和GPT系列——尤其是處理超長代碼提示的場景。


      去年R1也是春節(jié)前一周發(fā)布的,直接引發(fā)了全球市場一萬億美元的震動。在大型節(jié)假日前搞大事確實也很符合DeepSeek一貫的做法,今年會不會故技重施?

      但在V4發(fā)布之前,DeepSeek先悄悄做了一件事:把一年前的R1論文從22頁擴充到了86頁

      我下載了兩個版本對比,文件大小從928KB變成4.8MB。多出來的60多頁顯然不是廢話,是他們訓練的詳細賬本和踩過的坑。


      這個時間點更新舊論文,絕不是巧合。我猜他們在做兩件事:一是為V4鋪路,讓社區(qū)先完全理解R1的技術細節(jié);二是用行動回應之前"只開源權重不給訓練細節(jié)"的質疑。

      說實話,看完這份更新,我對Open這個詞有了新的理解。上周我發(fā)的這篇關于DeepSeek mHC論文的解讀很多人表示意外地能看懂,閱讀量都突破20萬+了,哈哈哈~

      所以我今天再挑戰(zhàn)下自己,試試給大家用人話說說這次DeepSeek老論文里都更新了啥。

      先說更新了什么

      v1版本發(fā)布于2025年1月22日,22頁,主要講R1是什么、怎么訓的、效果多好。

      v2版本發(fā)布于2026年1月4日,86頁。時隔將近一年,多出來的60多頁都在講什么?

      我把兩個版本的目錄對比了一下。v1只有一個簡短的Appendix(作者列表)。v2新增了6大類Supplementary:

      • A: GRPO和PPO的詳細對比

      • B: 訓練細節(jié)(這部分最長,約50頁)

      • C: 推理行為分析

      • D: 基準測試詳情 + 10頁安全報告

      • E: 綜合分析(與V3對比、test-time scaling等)

      • F: 推理能力遷移

      說白了,這次更新就是把"解題過程"補上了,給出了可復現的技術文檔。

      之前R1開源的時候,很多人吐槽說"只給權重不給訓練細節(jié),這算什么開源"。現在DeepSeek把這塊補上了。

      294K美元的訓練賬單

      論文新增了Table 7,第一次公開了完整的訓練成本:


      階段

      GPU小時

      成本

      DeepSeek-R1-Zero

      101K

      $202K

      SFT數據創(chuàng)建

      5K

      $10K

      DeepSeek-R1

      41K

      $82K

      總計

      147K

      $294K

      這個成本是按H800租賃價格$2/GPU hour算的。

      29.4萬美元,訓練一個媲美OpenAI o1的推理模型。

      29.4萬美元是什么概念?之前寫V3.2的時候我提到,DeepSeek只有150人的團隊。現在加上這個成本數據,畫面更清晰了——他們不是靠砸錢,是靠效率。

      具體怎么訓的?論文給了精確配置:

      • R1-Zero: 64×8張H800 GPU,跑了198小時

      • R1: 同樣的GPU配置,80小時(約4天)

      64×8是512張卡。198+80=278小時。不到12天,訓完了兩個階段。

      數據配方首次公開

      這是我覺得最有價值的部分——Table 4詳細列出了RL訓練數據的構成:


      數學:26k題

      • 從區(qū)域競賽到國際奧林匹克級別

      • 包括代數、微積分、概率、幾何

      • 排除了數學證明(因為難以自動驗證)

      代碼:17k + 8k

      • 17k算法競賽題(Codeforces、LeetCode風格)

      • 8k GitHub真實bug修復問題

      STEM:22k選擇題

      • 化學占46.5%(最多)

      • 生物30.7%

      • 物理15.5%

      • 其他7.3%

      邏輯:15k題

      • 真實世界:腦筋急轉彎、經典邏輯謎題

      • 合成數據:Code-IO問題、Zebra puzzle等

      通用:66k + 12k

      • 66k評估helpfulness(創(chuàng)意寫作、編輯、問答、角色扮演)

      • 12k評估harmlessness

      總共約150k條數據。

      為什么化學題最多?論文沒解釋,但我猜測可能是因為化學題的答案更容易自動驗證(選擇題),同時又需要多步推理。

      更有意思的是Cold Start數據的創(chuàng)建流程。R1不是從零開始訓的,而是先用R1-Zero的輸出,經過這個流程:

      1. 用R1-Zero在高溫度(1.0)下生成多條推理軌跡

      2. 過濾:保留答案正確、格式可讀的

      3. 用sympy驗證數學表達式

      4. 用DeepSeek-V3重寫,讓推理過程更"人話"

      5. 人工二次驗證

      論文里甚至給出了重寫的prompt,讓V3把R1-Zero那種"we"風格的推理,改成"I"風格——因為用戶更喜歡第一人稱的思考過程。

      這種細節(jié),以前根本不會公開。

      失敗也寫進論文

      v1版本有一小節(jié)叫"Unsuccessful Attempts",提到PRM和MCTS不太行。v2把這部分擴展了,還加了一個我覺得很有價值的案例:Reward Hacking。


      Figure 6展示了一個典型的失敗場景:用helpful reward model訓練時,reward分數一直在漲(左邊紅線),但CodeForces的實際性能卻在跌(右邊藍線)。

      這就是reward hacking——模型學會了"討好"獎勵函數,但并沒有真正變強。

      論文原文的解釋是:

      "如果reward model包含系統性偏差或不準確,LLM可能學會生成那些被模型高評分、但與真實人類偏好背離的回答。"

      PRM(Process Reward Model)的問題也講得更清楚了:

      1. 細粒度步驟難定義:什么算"一步推理"?在通用推理任務里很難界定

      2. 中間步驟對錯難判斷:自動標注效果差,人工標注又沒法規(guī)模化

      3. 必然導致reward hacking:只要引入模型做判斷,就會被exploit

      所以DeepSeek最后用的是rule-based reward——數學題直接匹配答案,代碼題跑測試用例。簡單粗暴,但不會被hack。

      為什么要公開這些失敗?我覺得這才是真正的Open。告訴社區(qū)"這條路我們走過了,不通",比只展示成功更有價值。

      基礎設施首次披露

      Supplementary B.1詳細描述了RL訓練的基礎設施,分為4個模塊:

      1. Rollout Module

      • 用vLLM做推理

      • 對MoE架構實現expert parallelism,減少內存訪問開銷

      • 部署熱點expert的冗余副本來負載均衡

      • 用MTP(Multi-Token Prediction)做self-speculative decoding加速

      2. Inference Module

      • 加載reward model和reference model

      • 對rollout階段生成的樣本做forward pass

      3. Rule-based Reward Module

      • 統一接口:代碼執(zhí)行器、答案匹配器、格式檢查器

      • 異步調度,和前兩個模塊overlap執(zhí)行

      4. Training Module

      • 支持PPO、GRPO、DPO等算法

      • 數據打包策略:先按長度排序,再用Best-Fit裝箱

      • 集成了DualPipe算法做pipeline parallelism

      還有一個細節(jié):每個模塊跑完后,模型會自動從顯存offload到內存或磁盤,給下一個模塊騰空間。

      這些基礎設施細節(jié)以前只有DeepSeek內部知道。現在寫進論文,其他團隊可以照著搭。

      10頁安全報告

      Supplementary D.3是一份完整的安全評估報告,包括:

      1. 風控系統:公開了完整的risk review prompt(Listing 8)

      2. 6個公開benchmark對比:和其他SOTA模型的安全性比較

      3. 分類測試:基于自研安全測試集的細分評估

      4. 多語言安全:不同語言下的安全表現

      5. Jailbreak魯棒性:對抗攻擊下的表現

      風控prompt里列了11條安全標準,從"通用原則"到"隱私偽造"到"風險建議",細到可以直接抄。

      對想部署R1的企業(yè)來說,這部分很實用——不只是模型安全性數據,還告訴你外部風控系統怎么搭。

      為什么選擇現在更新?

      論文更新的時間點是2026年1月4日。

      結合V4的發(fā)布傳言,時間線就很清晰了:

      • 2025年1月20日:R1發(fā)布,春節(jié)前一周

      • 2026年1月4日:R1論文v2發(fā)布,詳細補全技術細節(jié)

      • 2026年2月中旬(傳聞):V4發(fā)布,又是春節(jié)前后

      DeepSeek似乎在做一件事:先把上一代的賬本攤開,再發(fā)布下一代

      這對社區(qū)的好處是顯而易見的——當V4發(fā)布時,研究者已經完全理解R1的技術細節(jié),可以更清晰地看出V4到底改進了什么。

      當然,這也可能是回應之前"只開源權重不給訓練細節(jié)"的批評。不管出于什么原因,結果很實在——社區(qū)拿到了一份真正可復現的技術報告。

      最后

      回到"Open"這個詞。

      大多數公司的Open是什么?開源權重,開源推理代碼,發(fā)個技術博客。

      DeepSeek的Open是什么?

      • 訓練成本精確到GPU小時

      • 數據配方精確到每個類別的數量和來源

      • 失敗嘗試寫進論文,告訴你哪條路不通

      • 基礎設施架構圖,告訴你怎么搭RL系統

      • 安全評估報告,告訴你怎么做風控

      這才是讓社區(qū)能真正復現和改進的Open。

      之前寫mHC論文的時候我說,DeepSeek的技術哲學是"去質疑那些所有人都覺得沒必要改的東西"。現在看來,他們對"開源"這件事的理解也是一樣——不是做到行業(yè)平均水平就夠了,而是要做到讓別人能真正用起來。

      從22頁到86頁,多出來的60頁不是湊數,是掏心窩子的誠意。

      至于V4會帶來什么?如果傳言屬實,2月中旬就會揭曉。

      但不管V4表現如何,這份86頁的論文已經是一份禮物——它讓我們知道,一個頂尖推理模型是怎么從零訓出來的。這種知識,以前只有極少數公司內部才有。

      參考資料

      • DeepSeek-R1論文v2: https://arxiv.org/abs/2501.12948v2

      • DeepSeek-R1論文v1: https://arxiv.org/abs/2501.12948v1

      • V4傳言報道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      高鐵時代,綠皮車卻火了,大巴車都要起死回生了

      高鐵時代,綠皮車卻火了,大巴車都要起死回生了

      歷史總在押韻
      2026-02-12 23:53:10
      李亞鵬突然提到十年前最難時給黃曉明發(fā)短信,不到一分鐘收到回復

      李亞鵬突然提到十年前最難時給黃曉明發(fā)短信,不到一分鐘收到回復

      百態(tài)人間
      2026-02-10 15:25:10
      浙江省稅務局黨委書記、局長孟軍:堅定扛起經濟大省挑大梁的稅務擔當

      浙江省稅務局黨委書記、局長孟軍:堅定扛起經濟大省挑大梁的稅務擔當

      新浪財經
      2026-02-13 11:11:38
      不能錯過!2月13日晚19:00比賽!中央5套CCTV5、CCTV5+直播節(jié)目表

      不能錯過!2月13日晚19:00比賽!中央5套CCTV5、CCTV5+直播節(jié)目表

      林子說事
      2026-02-13 14:54:46
      中央軍委全力反腐敗,說明中國人民解放軍將要擔大任,干大事!

      中央軍委全力反腐敗,說明中國人民解放軍將要擔大任,干大事!

      安安說
      2026-01-29 09:33:17
      大年三十除夕必吃的3道菜,好吃吉利,吃完馬年旺,快收藏起來!

      大年三十除夕必吃的3道菜,好吃吉利,吃完馬年旺,快收藏起來!

      江江食研社
      2026-02-12 18:30:07
      恒基太子爺李家誠入稟高等法院,控告藝人周秀娜誹謗及騷擾

      恒基太子爺李家誠入稟高等法院,控告藝人周秀娜誹謗及騷擾

      TVB劇評社
      2026-02-13 16:22:16
      金融戰(zhàn)已經打響

      金融戰(zhàn)已經打響

      白淺娛樂聊
      2026-02-12 19:39:55
      退休14年被查!中國人壽原總裁楊超案:投資領域腐敗典型,退休非安全港

      退休14年被查!中國人壽原總裁楊超案:投資領域腐敗典型,退休非安全港

      聽楓觀瀾
      2025-12-28 23:13:23
      霍勒迪31分9板7助開拓者戰(zhàn)勝爵士,克林根23分18板楊瀚森2分

      霍勒迪31分9板7助開拓者戰(zhàn)勝爵士,克林根23分18板楊瀚森2分

      湖人崛起
      2026-02-13 12:33:42
      慘敗仍有收獲!U18國青2將被張博源主帥看中 除張懿趙杰還有1人

      慘敗仍有收獲!U18國青2將被張博源主帥看中 除張懿趙杰還有1人

      大嘴爵爺侃球
      2026-02-13 18:21:14
      消失的彭加木:一場精心計劃的逃亡?隱藏在羅布泊中的離奇秘密

      消失的彭加木:一場精心計劃的逃亡?隱藏在羅布泊中的離奇秘密

      史之銘
      2026-02-10 15:35:39
      媽媽嫁給爸爸的理由有多簡單粗暴?網友:我爹圖我姥爺是縣委書記

      媽媽嫁給爸爸的理由有多簡單粗暴?網友:我爹圖我姥爺是縣委書記

      帶你感受人間冷暖
      2026-02-11 12:27:35
      當第一次帶對象回山里老家時!我要笑死在評論區(qū)

      當第一次帶對象回山里老家時!我要笑死在評論區(qū)

      另子維愛讀史
      2026-02-13 19:35:51
      震撼!國家投超3000億建新藏鐵路,1980公里每公里造價近2億

      震撼!國家投超3000億建新藏鐵路,1980公里每公里造價近2億

      有書
      2026-02-12 21:00:08
      Coco直播自曝經濟不好,謝賢沒給她2000萬分手費,遺憾沒能結婚

      Coco直播自曝經濟不好,謝賢沒給她2000萬分手費,遺憾沒能結婚

      離離言幾許
      2026-02-11 12:44:06
      驚喜連連!18歲全紅嬋強勢歸隊,4大好消息藏不住了

      驚喜連連!18歲全紅嬋強勢歸隊,4大好消息藏不住了

      卿子書
      2026-02-12 08:15:51
      《生命樹》大結局:邵云飛被逼跳樓,馮克清入獄,孟耀輝中槍身亡

      《生命樹》大結局:邵云飛被逼跳樓,馮克清入獄,孟耀輝中槍身亡

      小娛樂悠悠
      2026-02-13 13:22:35
      男子辭北京公務員,照顧非親非故老太太9年,網友:報恩還是犯傻

      男子辭北京公務員,照顧非親非故老太太9年,網友:報恩還是犯傻

      一絲不茍的法律人
      2026-02-13 13:29:56
      印度2nm成功流片!

      印度2nm成功流片!

      中國半導體論壇
      2026-02-11 22:26:02
      2026-02-13 22:23:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發(fā)者
      140文章數 61關注度
      往期回顧 全部

      科技要聞

      獨家探訪蔡磊:答不完的卷子 死磕最后一程

      頭條要聞

      浙江"一人公司"興起 前大廠程序員靠AI直接月入200萬

      頭條要聞

      浙江"一人公司"興起 前大廠程序員靠AI直接月入200萬

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      大衣哥女兒風光出嫁,農村婚禮超樸素

      財經要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個畫風!

      態(tài)度原創(chuàng)

      家居
      教育
      親子
      游戲
      時尚

      家居要聞

      中古雅韻 樂韻伴日常

      教育要聞

      希望這位寶媽想明白后,可以再回來找我!

      親子要聞

      看看后媽是怎么做的

      LCK第一階段:世界冠軍亦有差距,DK五局擊敗DRX,許秀笑了

      穿上這些鞋擁抱春天

      無障礙瀏覽 進入關懷版