<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4來了:在喧嘩眾聲中,按自己的節奏講開源故事

      0
      分享至



      4 月 24 日,DeepSeek 在 Hugging Face 上傳了 V4 系列的預覽版本。這一代分兩個型號,旗艦 V4-Pro 總參數 1.6 萬億、激活 490 億,V4-Flash 總參數 2,840 億、激活 130 億,兩款均支持 100 萬 tokens 上下文,均為 MoE 架構、純文本模型。與模型一同放出的還有 58 頁的技術報告,標題為《DeepSeek V4:邁向高效的百萬 token 上下文智能》。

      1.6T 的參數規模比年初泄露的 1T 傳聞高出 60%,一周前 DeepGEMM 算子庫的更新放出時,社區就已經反推出了這個數字。技術報告里還有一個此前沒有的細節:V4-Flash 訓練了 32T tokens,V4-Pro 訓練了 33T tokens,都比 V3 的 14.8T 高了一倍多。

      把賬算在注意力機制上

      V4 最核心的架構改動是一個分層的混合注意力機制。DeepSeek 這次設計了兩個模塊:Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA),在各層之間交替使用。CSA 先把每 4 個 token 的 KV cache 壓成 1 個 entry,再在壓縮后的序列上跑稀疏注意力(V3.2 引入的 DSA 機制的延續),每個查詢只和 top-k 個壓縮塊做注意力;HCA 則更激進,直接把每 128 個 token 壓成 1 個 entry,但保持稠密注意力。


      圖丨DeepSeek-V4 系列的整體架構(來源:DeepSeek)

      兩者配合的結果是:在 100 萬 tokens 上下文下,V4-Pro 的單 token 推理 FLOPs 只有 V3.2 的 27%,KV cache 只有 10%;V4-Flash 更極端,FLOPs 是 V3.2 的約 10%,KV cache 是 7%。和傳統 BF16 GQA8 的基線對比,V4 在 1M 場景下的 KV cache 可以壓到基線的約 2%。

      這條路線和 V3.2 是一脈相承的。V3.2-Exp 去年 9 月第一次引入 DSA 的時候就把推理成本腰斬過一次,并且當時 DeepSeek 就明確說這是“面向下一代架構的中間步驟”?,F在我們終于看到了那個“下一代”是什么樣子:不是把稀疏換成別的激進方案(比如此前外界廣泛押注的 Engram 條件記憶),而是把稀疏和壓縮再組合一層。

      不走運的訓練,和兩個救命的土辦法

      DeepSeek 在技術報告里花了不短的篇幅承認 V4 訓練并不順利。萬億參數 MoE 有經典的 loss spike 問題,簡單回滾救不回來。團隊最后找到兩個經驗性的技巧把訓練壓住了,而且在報告里直說“它們背后的原理目前還不清楚,公開出來希望社區一起研究”。

      第一個叫 Anticipatory Routing(預測性路由)。常規做法是每一步訓練時主干網絡和路由網絡同步更新;DeepSeek 發現把這兩者解耦能顯著壓住 loss spike,做法是在第 t 步用當前參數做前向計算,但路由決策用歷史參數 θ_{t-Δt}。為了不讓這個設計拖慢訓練,他們還加了一個自動檢測機制,只在真的出現 loss spike 的時候才切到這個模式,整體額外開銷被控制在訓練時間的 20% 以內。

      第二個更簡單粗暴,叫 SwiGLU Clamping:直接把 SwiGLU 的線性輸出鉗制到 [?10, 10]、門控上界也限到 10。這個 trick 最早出現在 OpenAI 今年的 gpt-oss 技術報告里,DeepSeek 發現它能有效抑制 MoE 層里出現的 outliers,就直接用了。

      除此之外,V4 用 Muon 替代了 AdamW 作為主優化器(embedding、prediction head、RMSNorm 仍用 AdamW),并設計了一套 hybrid Newton-Schulz 迭代來做權重正交化。另一項底層改動是流形約束超連接(mHC),把殘差映射矩陣約束在 Birkhoff 多面體上,保證它的譜范數不超過 1,從而讓信號在深層傳播時不會爆炸。在工程側,mHC 的 wall-time 開銷被控制在 1F1B 流水線階段的 6.7%。

      Post-training:放棄 mixed RL,換成多教師蒸餾

      真正讓 V4 和 V3.2 在方法論上分岔的,是 post-training。技術報告中提到,V3.2 的 mixed RL 階段在 V4 被整體替換成了 On-Policy Distillation(OPD)。

      新的流水線分兩段。先分別訓練幾十個領域專家模型,覆蓋數學、代碼、Agent、指令跟隨,每個專家都跑一遍 SFT + GRPO 強化學習,產出一個在自己領域內極強的“偏科生”。

      然后在第二階段,把十幾個 teacher 模型的 logits 蒸餾到一個 student 模型里,學生在自己產生的 trajectory 上對每個 teacher 優化 reverse KL loss。這種“先分頭培養專家、再合并成通才”的路線,DeepSeek 在報告里直接點名參考了 Thinking Machines Lab 今年 10 月的 on-policy distillation 工作。

      為了繞開 mixed RL 常見的能力沖突和權重合并時的性能退化,OPD 把各領域的專業能力在 logits 空間對齊到同一組參數里。配套的工程細節是:teacher 模型權重全部卸載到分布式存儲按需加載,每個 teacher 的 last-layer hidden states 單獨緩存,訓練時再投一次 prediction head 重構 logits,從而規避 100k+ 詞表直接物化 logits 的顯存災難。

      另外,V4 引入了新的工具調用 schema,用特殊 token |DSML| 配 XML 格式替代 V3.2 的 JSON,技術報告里的原話是 XML 能“有效減少轉義錯誤和調用失敗”。

      還有一個不起眼但對實際產品有用的改動叫 Quick Instruction:在輸入序列里追加若干特殊 token,讓 intent 識別、搜索查詢生成、是否需要讀 URL 等輔助任務直接復用已經算好的 KV cache,不用再起一個小模型做前置判斷,這對 TTFT(首 token 延遲)有直接影響。

      跑分:代碼登頂,知識仍差一截

      V4-Pro-Max(V4-Pro 的 Max reasoning 模式)和當前第一梯隊的 Claude Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1-Pro High 對比,優勢集中在代碼和數學,短板集中在純知識。

      代碼和數學競賽是 V4 的主場:Codeforces 3206 Elo,超過 GPT-5.4 的 3,168 和 Gemini 3.1-Pro 的 3052,在真實 Codeforces 人類選手排行榜上相當于第 23 名;LiveCodeBench Pass@1 93.5,領先 Gemini 的 91.7;Apex Shortlist 90.2、HMMT 2026 Feb 95.2 也都拿下第一。形式化數學上,V4 在 Putnam-2025 上以 120/120 達成完美證明,追平 Axiom,超越 Aristotle 和 Seed-Prover。


      圖丨基準測試結果(來源:DeepSeek)

      但純知識和最難的通用推理,V4 離前沿閉源還有明顯距離。SimpleQA-Verified 57.9% 相對 Gemini 3.1-Pro 的 75.6% 差了 17 個百分點;HLE(Humanity's Last Exam)Pass@1 只有 37.7%,落后 Gemini 的 44.4。團隊在 Summary 部分很坦誠地表示:V4-Pro-Max 的推理能力“超過 GPT-5.2 和 Gemini-3.0-Pro,但略低于 GPT-5.4 和 Gemini-3.1-Pro,對應大約 3 到 6 個月的發展差距”。

      V4-Flash-Max 的定位也被明確:推理任務上能打到 V4-Pro-Max 的水準,但知識密度和最復雜的 agentic workflow 上,小尺寸依然吃虧,這本來也是 MoE 結構的預期表現。

      真實任務:超 Sonnet 4.5,追 Opus 4.5

      技術報告還專門評測了幾項 DeepSeek 自己用戶最常用的真實場景。

      中文寫作測試里,V4-Pro 在功能性寫作上以 62.7% 對 34.1% 勝 Gemini 3.1-Pro(理由是 Gemini“經常用自己的風格偏好覆蓋用戶要求”);創意寫作的指令跟隨 60% 對 40%、寫作質量 77.5% 對 22.5% 也都壓過 Gemini。但換到最難的任務,比如高復雜度約束、多輪對話,Claude Opus 4.5 還是以 52.0% 對 45.9% 反超 V4-Pro。

      內部的 30 個中文白領任務評測里,V4-Pro-Max 整體非輸率 63%,單項得分在任務完成和內容質量上顯著高于 Opus-4.6-Max,但在格式審美和指令遵循上略輸。報告給出的解釋是 V4 更擅長長段敘事和主動補全用戶潛在意圖,而 Opus 更擅長精確執行具體格式約束和簡潔摘要。

      在代碼 Agent 方面,DeepSeek 從 50 多位內部工程師那里收集了 200 多個真實 R&D 任務,篩選出 30 個作為評測集,覆蓋 PyTorch、CUDA、Rust、C++ 的功能開發、bug 修復、重構等場景。

      通過率分布如下:Claude Haiku 4.5 13%、Sonnet 4.5 47%、V4-Pro-Max 67%、Opus 4.5 70%、Opus 4.5 Thinking 73%、Opus 4.6 Thinking 80%。V4 把 Sonnet 4.5 甩開 20 個百分點,但還差 Opus 系列一個身位。配套的 85 人內部調研里,52% 的開發者說 V4-Pro 可以作為日常編程的主力模型,另有 39% 表示“傾向于可以”。

      率道而行

      一個禮拜前,X 平臺上普林斯頓博士生 Yifan Zhang 放出的 V4 完整規格單和今天的報告大部分對得上:Muon 優化器、純文本、每層 384 個專家激活 6 個(Pro 版配置)、GRPO。但兩個關鍵點和爆料有偏差。一是 DeepSeek 最終把注意力機制命名成了 CSA + HCA 混合,而不是此前流傳的 “DSA2(NSA + DSA)”。二是此前多個爆料反復暗示的"原生多模態"并沒有出現,V4 依舊是純文本,略有遺憾。

      另一個被傳了很久但沒出現的是 Engram 條件記憶。去年底到今年初,中文圈普遍押注 V4 會引入 Engram 作為核心,把靜態知識檢索從 attention 里獨立出去。

      V4 最終沒走這條路,而是在既有的稀疏注意力框架內做得更深:CSA 的壓縮+稀疏兩步組合,是對 V3.2 DSA 的連續演進。值得一提的是,DeepSeek 在報告最后的 Future Directions 里留了一手,下一步要探索“更稀疏的 embedding 模塊”,并點名引用了 2026 年 1 月的 Conditional Memory via Scalable Lookup 論文。

      過去幾個月,關于 DeepSeek 的敘事從“神話”滑到“跌下神壇”再到“已經掉隊”;關于 V4 的技術猜測從 1T 到 1.6T、從 DSA2 到 Engram、從原生多模態到純文本之間來回切換。V4 發布這天,官方推文沒有回應這些猜測中的任何一條,沒有反駁,也沒有比較,只引了一句《荀子·修身》:“不誘于譽,不恐于誹,率道而行,端然正己。”

      參考資料:

      1.https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

      運營/排版:何晨龍

      注:封面/首圖由 AI 輔助生成

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      山東新娘輸液昏迷92天初現意識,當地啟動鑒定程序,丈夫:她沖我笑了,但仍是“睜眼昏迷”狀態;其稱妻子是班里最漂亮女生,正籌備婚禮

      山東新娘輸液昏迷92天初現意識,當地啟動鑒定程序,丈夫:她沖我笑了,但仍是“睜眼昏迷”狀態;其稱妻子是班里最漂亮女生,正籌備婚禮

      大風新聞
      2026-04-24 12:03:15
      江西小伙被天價彩禮拆散姻緣,娶良人后,前任悔不當初,崩潰痛哭

      江西小伙被天價彩禮拆散姻緣,娶良人后,前任悔不當初,崩潰痛哭

      搗蛋窩
      2026-04-22 03:09:35
      后悔都沒用,H200芯片在中國翻車,美商務部長:想賣都賣不出去了

      后悔都沒用,H200芯片在中國翻車,美商務部長:想賣都賣不出去了

      史料布籍
      2026-04-24 14:24:08
      王健林近照,又瘦了,臉都瘦脫相了,看著令人心疼!

      王健林近照,又瘦了,臉都瘦脫相了,看著令人心疼!

      老吳教育課堂
      2026-04-23 21:57:29
      網傳孫吉被前妻實名舉報:騙婚、出軌、海外擁有巨額不明資產

      網傳孫吉被前妻實名舉報:騙婚、出軌、海外擁有巨額不明資產

      懂球帝
      2026-04-22 12:46:51
      美司令已有預感,中美一旦開戰,擺在美軍面前只有兩個選擇

      美司令已有預感,中美一旦開戰,擺在美軍面前只有兩個選擇

      混沌錄
      2026-03-12 19:40:12
      雷神山醫院原院長栽了,王行環的事有了新消息

      雷神山醫院原院長栽了,王行環的事有了新消息

      張嘴說財經
      2026-04-24 12:15:47
      40000 人陣亡,100 艘戰艦會被擊沉?

      40000 人陣亡,100 艘戰艦會被擊沉?

      小馬姨
      2026-04-21 09:49:45
      烏度卡:G3要打出更快節奏,要讓對手瘋狂包夾杜蘭特付出代價

      烏度卡:G3要打出更快節奏,要讓對手瘋狂包夾杜蘭特付出代價

      懂球帝
      2026-04-24 13:40:08
      當不成總統了?美國四大前總統已聯手,打響扳倒特朗普的第一槍

      當不成總統了?美國四大前總統已聯手,打響扳倒特朗普的第一槍

      生活魔術專家
      2026-04-23 18:20:58
      傅首爾曬照片,狀態引熱議

      傅首爾曬照片,狀態引熱議

      都市快報橙柿互動
      2026-04-24 14:37:14
      張敬軒被抵制原因被扒!“反骨”言論僅冰山一角,謝霆鋒也被牽連

      張敬軒被抵制原因被扒!“反骨”言論僅冰山一角,謝霆鋒也被牽連

      以茶帶書
      2026-04-23 14:11:56
      賭狗的話能信嗎網友說早些年百度貼吧有個戒賭吧是最大的一個貼吧

      賭狗的話能信嗎網友說早些年百度貼吧有個戒賭吧是最大的一個貼吧

      侃神評故事
      2026-04-22 17:25:03
      94年我送師長時路遇自己家,師長讓我探親,誰知門開后師長竟哭了

      94年我送師長時路遇自己家,師長讓我探親,誰知門開后師長竟哭了

      紅豆講堂
      2025-04-07 10:23:17
      青年演員陳麗君晉升副主任

      青年演員陳麗君晉升副主任

      看看新聞Knews
      2026-04-24 14:44:08
      我挨了小姑子三巴掌后,全家才想起她老公的工作是我求來的

      我挨了小姑子三巴掌后,全家才想起她老公的工作是我求來的

      曉艾故事匯
      2026-04-20 08:17:42
      收拾完伊朗,下一個輪到中國?以色列發戰爭威脅,中方送出5個字

      收拾完伊朗,下一個輪到中國?以色列發戰爭威脅,中方送出5個字

      混沌錄
      2026-04-20 17:10:08
      青島一大廈外墻現刺眼強光被指光污染,當地:天氣所致,持續不到半小時,此前未出現過

      青島一大廈外墻現刺眼強光被指光污染,當地:天氣所致,持續不到半小時,此前未出現過

      瀟湘晨報
      2026-04-23 18:00:40
      女性私處的“尷尬”時刻,多數女人都表示經歷過,男人盡量也看看

      女性私處的“尷尬”時刻,多數女人都表示經歷過,男人盡量也看看

      熊貓醫學社
      2026-04-21 10:54:56
      第5架!德國專機將抵華,事情發展超出預期,特朗普幫了中國的忙

      第5架!德國專機將抵華,事情發展超出預期,特朗普幫了中國的忙

      杰絲聊古今
      2026-04-24 13:20:16
      2026-04-24 15:15:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16619文章數 514898關注度
      往期回顧 全部

      科技要聞

      剛剛,DeepSeek-V4 預覽版發布 百萬上下文

      頭條要聞

      女子乘高鐵被掉落行李箱砸到 向箱子主人索賠6百無果

      頭條要聞

      女子乘高鐵被掉落行李箱砸到 向箱子主人索賠6百無果

      體育要聞

      里程碑之戰拖后腿,哈登18分8失誤

      娛樂要聞

      王思聰被綠!戀愛期間女友被金主包養

      財經要聞

      19家企業要"鋁代銅",格力偏不

      汽車要聞

      全景iDrive 續航近800km 新款寶馬7系/i7亮相

      態度原創

      游戲
      手機
      時尚
      數碼
      軍事航空

      黑旗RE畫面原地踏步?博主曬圖怒懟:陋室變豪宅!

      手機要聞

      媒體稱OPPO云臺相機項目啟動,預計今年四季度上市

      襯衫+半裙,比別人好看不止一點點

      數碼要聞

      SSD全系上調10%!三星金士頓同時出手:4月第二波漲價潮殺到

      軍事要聞

      美伊陷入互相封鎖僵局

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产人妻精品无码av在线| 亚洲国产成人av毛片大全| 久久九九兔免费精品6| 久久久久久亚洲精品成人| 亚洲熟妇色xxxxx亚洲| 丝袜-91Porn| 五月丁香影院| 闽侯县| 亚洲av有码在线天堂| 国产伦精品一区二区三区免费迷| 精品在免费线中文字幕久久| 国产360激情盗摄全集| 国产精品理论片在线观看| 日韩无码一卡二卡| 国产伦精品一区二区三区免费迷| 最近最好的中文字幕2019免费| 18禁国产一区二区三区| 亚洲天堂高清| 色狠狠久久av五月综合| 国产精品手机免费| 亚洲第一成人会所| 午夜天堂精品久久久久| 欧美亚洲一区二区三区在线| 狠狠?亚洲?一区| 亚洲va中文字幕无码久久| 国产女人被狂躁到高潮小说| 她也色tayese在线视频| 中文字幕精品人妻在线 | 69堂在线观看线无码视频一| 亚洲精品免费视频| 免费看韩国黄a片在线观看| 亚洲の无码国产の无码步美| 亚洲毛多水多男女| 国产又粗又猛又黄又爽无遮挡| 日韩无码一区二区三区四区| 黑人又大又粗免费视频| 人人澡人摸人人添| 国产91人妻人伦a8198v久| 少妇高潮喷水久久久影院| 丰满熟女人妻一区二区三| 中文字幕+乱码+中文乱码91|