<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4還是神:架構極度聰明,昇騰“原生”,接下來和華為一起讓token大降價

      0
      分享至


      作者:王兆洋 + DeepSeek V4 專家模式

      V4 終于終于終于終于是來了。

      而且它不在假期,不在深夜,而是突然就發(fā)了。模型,開源權重,技術報告和官方的文章同時發(fā)給所有人。

      官方給出的亮點是“百萬上下文的普惠”。但顯然,這個模型里DeepSeek做的創(chuàng)新工作還是非常的多。


      一如既往的,它的技術報告是今天比讀任何新聞都過癮的存在。

      這一次V4最讓人欣喜的是,它的架構依然在進化,且依然極度聰明。它告訴整個 AI 圈一件事:不用堆參數(shù),不用買更多卡,僅靠對注意力機制和訓練方式的重新發(fā)明,就能把百萬 token 長文本的門檻踩到地板上。

      而且,外界一直在關注的用“華為芯片”訓練的問題,也終于有所揭曉:這次華為昇騰的名字,是和 NVIDIA 并列寫在驗證平臺里的。雖然從技術報告來看,訓練部分依然大概率用的英偉達芯片,但在與昇騰的適配上,它顯然達到了前所未有的“原生”水平。這后面的意味,比跑分更有意思。

      而在官方文檔里,API價格的地方有一行小字:

      受限于高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節(jié)點批量上市后,Pro的價格會大幅下調。


      這同樣讓人浮想聯(lián)翩,且讓人對未來更加期待。

      27% 和 10%,這兩個數(shù)字定義了什么叫“效率革命”

      看看技術報告里的硬數(shù)據(jù)。基準是 DeepSeek-V3.2——本身已經是一個效率很高的模型。

      在 100 萬 token 上下文下(大約能裝三部《三體》),DeepSeek-V4-Pro——1.6 萬億參數(shù),激活 49B——處理一個新 token 需要的算力只有 V3.2 的 27%,KV 緩存只占 10%

      而小杯 DeepSeek-V4-Flash:284B 參數(shù),激活僅 13B,算力只要 10%,緩存只要 7%。

      一個容易被忽略的細節(jié):報告明確標注,單 token 推理算力的單位是等效 FP8 FLOPs。這不是拿低精度取巧,而是已經換算到和 V3.2 相同的精度標準去比。而且,V4 系列的路由專家權重還用了 FP4 精度,報告特別指出,現(xiàn)有硬件上 FP4 和 FP8 的峰值算力相同,但未來硬件上 FP4 可以再高出三分之一的效率。換句話說,現(xiàn)在的數(shù)字還不是天花板,等昇騰 950 這類新硬件到位,還有一波可挖的潛力。

      長上下文,正在從奢侈品變成日用品。


      憑什么能做到?兩大壓縮注意力,從根源上做手術

      傳統(tǒng) Transformer 處理長文本的死穴:序列長度加 N 倍,注意力計算量平方級爆炸,KV 緩存線性膨脹。這個瓶頸不破,百萬 token 就只是論文里的數(shù)字。

      DeepSeek V4 的辦法不是湊合,而是直接改造注意力機制本身。總體架構上,注意力層采用 CSA 和 HCA 交錯配置,前饋層沿用 DeepSeekMoE,殘差連接用 mHC 加強。核心是兩種新注意力。

      CSA——壓縮稀疏注意力

      CSA 的數(shù)據(jù)流分三路并行。KV token 的隱藏狀態(tài)同時進入三個模塊:一個 Token-Level Compressor 負責把每 4 個 token 的 KV 緩存壓縮成一個條目;一個 Lightning Indexer 生成“索引鍵”,用于后續(xù)的匹配打分;同一個索引器還生成“索引分數(shù)”。查詢 token 的隱藏狀態(tài)則單獨進入 Lightning Indexer,生成查詢側的索引分數(shù)。兩邊一合,送入 Top-k 選擇器,從所有壓縮塊中只挑出最相關的 512 個(Pro 版是 1024 個)。最后,這些選中的壓縮塊和滑動窗口里保留的 128 個原始 token 拼在一起,送進核心的多查詢注意力計算。


      索引器的實現(xiàn)細節(jié):查詢端先降維到 dc=1024,減少參數(shù)量,再升維到多頭索引查詢,配合 ReLU 激活后與壓縮索引鍵計算分數(shù)。這一整套不是簡單的“截斷”,是學出來的動態(tài)篩選——哪些信息重要、哪些可以忽略,由模型自己在訓練中決定。

      HCA——重度壓縮注意力

      和 CSA 不同,HCA 去掉了整個稀疏選擇鏈路——沒有 Lightning Indexer,沒有 Top-k Selector。數(shù)據(jù)流非常直接:KV token 隱藏狀態(tài)經過 Token-Level Compressor 壓縮(壓縮比 m'=128,遠大于 CSA 的 4),得到的壓縮條目直接與滑動窗口 KV 拼在一起,送進 MQA。因為每條目覆蓋 128 個 token,條目總量已經很少,全量算也不貴,省掉了篩選環(huán)節(jié)。這是為了抓全局結構,避免模型“只見樹木不見森林”。

      兩種注意力都額外配了一個滑動窗口,保留最近 128 個 token 的原始 KV 不壓縮,確保局部依賴沒有精度損失。同時還用了注意力沉降技術——給每個頭一個可學習的 sink logit,加到注意力的分母里,讓每個頭可以選擇“什么都不關注”。


      另外,報告透露了一個重要的工程決定:CSA 和 HCA 在 Query 和 KV 上只對最后 64 個維度施加 RoPE 位置編碼,其他維度不編碼。同時 KV 緩存采用混合精度存儲——RoPE 維度用 BF16,其余維度用 FP8——又把緩存砍掉近一半。

      而這套注意力架構要真正落地,緩存管理也必須重新設計。V4 的 KV 緩存被拆成兩大塊:一塊是“狀態(tài)緩存”,每個請求分一個固定大小的區(qū)域,存滑動窗口最近 128 個 token 的 KV,以及 CSA/HCA 中還沒攢夠 4 個或 128 個 token、暫時無法壓縮的“尾料”。


      另一塊是“經典緩存”,存已經壓縮好的條目。經典緩存里,每個塊覆蓋的原始 token 數(shù)是兩種壓縮比(4 和 128)的最小公倍數(shù),這樣同一塊里 CSA 和 HCA 的壓縮結果都能對齊——CSA 產 32 個壓縮條目,HCA 產 1 個——不會因為兩種壓縮率不一致導致碎片化管理。這套緩存布局,是百萬上下文能從實驗室走進生產環(huán)境的關鍵工程基礎設施。


      所以這套方案是壓縮、稀疏化、混合精度、滑動窗口、注意力沉降、精細緩存管理多管齊下。局部細節(jié)、中段關聯(lián)、全局脈絡,全抓住了,算力開銷斷崖式下降。

      也就是說, 傳統(tǒng)注意力機制要求每個 token 和歷史上所有 token 都做一次交互,歷史多長,活兒就多沉。DeepSeek V4 做的,是把“記憶”本身先整理成層次化的摘要——有些是每一小段的凝練,有些是每一章的概括,再加上眼前幾句話的原文。需要調用哪一層、哪一段,由模型自己根據(jù)當前要解決的問題即場判斷。內存里不再存一座山,算力不用翻整座山,百萬上下文的成本自然下來了。

      Muon 和 mHC:訓練上的降本增效

      架構的聰明不止在推理側。報告用專門章節(jié)講了兩項訓練優(yōu)化。

      一個是此前已經被放出來過的 Muon 優(yōu)化器。

      大多數(shù)優(yōu)化器拿到梯度,一個參數(shù)一個參數(shù)地調。Muon 不這么干。它把整個梯度矩陣做一步“捋正”運算,讓各行更新方向相互獨立、不打架。效果就是每次更新都踩在最干凈的方向上,同樣步數(shù)學到更多,變相省算力。為了配合 Muon,分布式策略也改了:稠密參數(shù)限制切分,每個 GPU 最多管五個完整矩陣;MoE 參數(shù)直接拼成大向量等分,不切單個矩陣。梯度通信還做了 BF16 量化,砍掉一半通信量。

      另一個是 mHC——流形約束超連接。

      深層網絡的老大難是信號穿幾十層,要么逐層放大到溢出,要么衰減到消失。mHC 的解法是給殘差連接加個數(shù)學籠子——強制每層的混合矩陣滿足“每行每列和為 1,元素非負”。這保證了無論怎么傳,幅度不發(fā)散。

      實現(xiàn)上,DeepSeek V4 拿到參數(shù)后,做 20 次交替的行歸一化和列歸一化,硬把矩陣拉回約束集合。報告承認萬億參數(shù)訓練遇到了損失尖峰,但用兩招解決了:“預判路由”打破路由和主網絡的同步更新循環(huán),“SwiGLU 截斷”把激活值鉗在 [-10,10]。

      一如既往的,數(shù)學上很干凈,工程上訓練不崩。

      后訓練更絕:分頭訓專才,再無損蒸餾

      DeepSeek V4 的后訓練流程也很有想法,報告用第五章詳述了這套“先分后合”的工藝。

      第一步,分別對代碼、數(shù)學、智能體、指令遵循等方向獨立訓練專家模型。每個專家都先做 SFT 打底,再用 GRPO 強化學習,配合領域專屬的獎勵模型。連獎勵模型本身也是生成式的——讓模型同時學會“判卷”和“答卷”,減少對人類標注的依賴。

      報告中很有意思的一點是為不同推理模式設了三種檔位:Non-think(無思考標簽,快速回答)、Think High(顯式思維鏈但受控長度)、Think Max(極限思維模式,給特殊系統(tǒng)提示同時放寬長度懲罰)。三種模式在 RL 訓練時分別用不同的上下文窗口和懲罰系數(shù),讓同一套權重能根據(jù)場景切推理深度。

      第二步,用在策略蒸餾把所有專才的知識融合到一個統(tǒng)一模型里。關鍵是,他們做的不是 token 級近似,而是全詞表級別的反向 KL 散度——保持教師完整的 logit 分布。這帶來了巨大的計算壓力:詞表 128K,十多個老師,每個都是萬億參數(shù)級別。報告給出的解決路徑是:教師權重從中心化存儲按需加載;不存完整 logits,只緩最后一層隱藏狀態(tài),訓練時即時重算;按教師索引排序樣本,保證同一時刻 GPU 上只有一個教師頭。這些都是生產環(huán)境才會碰到的硬問題。

      效果直接反映在基準上。Pro Max 在知識基準 SimpleQA 拿下 57.9,比開源最佳高出 20 個點;數(shù)學 Putnam 2025 做到 120/120 滿分;Codeforces 評分在人類選手中排第 23。這三個分屬不同類型的任務同時沖頂,背后的路線選擇是被驗證了的。


      “細粒度通信-計算重疊”和昇騰“原生”

      報告里另一個讓所有人都非常關注的事情,就是:它和華為昇騰到底是什么關系。

      報告 3.1 節(jié)原文是:“我們在 NVIDIA GPU 和華為昇騰 NPU 兩個平臺上驗證了這個細粒度的專家并行方案。”兩個平臺并列,寫在驗證結論里。


      這套方案的核心是把 MoE 的通信和計算切成更細的顆粒,按“波”調度。每個波只含一小部分專家,這個波的通信一完成立刻開始計算,同一時刻,下一個波的通信和上一個波的結果回傳同步進行。報告里的加速比數(shù)據(jù)是:通用推理 1.50–1.73 倍,RL 長尾小批次最高 1.96 倍。


      報告還給了硬件設計公式:每 GBps 通信帶寬對應 6.1 TFLOP/s 算力,通信就能被完全隱藏。這意味著 DeepSeek 在用架構告訴硬件廠商:不用卷帶寬,按這個比例配算力就行。這比適配某個具體型號高一個維度——是定義需求。昇騰 950 如果按這個配比來設計,跑 V4 就能把利用率拉到滿。

      你可以這樣理解,MoE 每次計算都要在不同 GPU 之間搬運中間結果,以前是搬完才算,搬運時長全在等。現(xiàn)在是把搬運拆碎,搬一小批就算一小批,算的同時繼續(xù)搬下一批。結果就是搬運時間被計算時間吃掉了,用戶感覺不到等。這套機制不挑硬件,只要算力和帶寬的比例到位,NVIDIA 還是昇騰都能跑出高利用率。

      報告也提到了用 TileLang 做算子開發(fā),配合 Z3 SMT 求解器自動驗證和優(yōu)化;同時要求訓練推理“批次不變”和“確定性”——同一個 token 無論和誰一批、在什么硬件上,輸出比特級一致。這對昇騰這種新硬件的調試和部署是基礎設施級的支持。

      雖然開源 MegaMoE 內核還是 CUDA 版,主力訓練集群大概率仍是 NVIDIA,但架構上已經把適配昇騰的土壤翻松了、路鋪平了。

      加上報告公開說 FP4 在未來硬件上還能再提效三分之一,以及官方文檔里那句“預計下半年昇騰 950 超節(jié)點批量上市后 Pro 價格大幅下調”,信號已經不能更明確了。

      看完V4的報告,感觸它想得夠清楚。

      過去兩年,行業(yè)解決長文本問題的主流思路本質上是在堆資源。要么堆顯存,把KV緩存硬塞進去;要么堆算力,讓芯片更快一點。這條路走到現(xiàn)在,邊際效益已經很明顯了。

      DeepSeek V4換了一個完全不同的方向——不再追著“怎么能扛住”不放,而是問“這東西真的需要全記住嗎”。CSA和HCA本質上是讓模型在記憶的時候就有了層次感,細顆粒的、粗顆粒的、最近的原文,各存各的。這不再是工程上的妥協(xié),而是架構層面對“什么值得記住”這個問題的重新回答。思路一旦轉過來了,效率的提升就是數(shù)量級的。

      而這套東西還有一個容易被低估的價值,就是它讓硬件的選擇權回到了算法這邊。

      過去芯片決定模型能跑多長的上下文,帶寬不夠就不行。V4這套壓縮加波浪調度的方案出來后,算和搬的比例被一個公式定義清楚了。這意味著不是算法去適配硬件,而是算法在告訴硬件應該怎么設計。昇騰被寫進驗證平臺、FP4留出三分之一效率冗余,這些細節(jié)放在一起看,就知道它從一開始就沒打算綁定某一家。這種獨立性,在現(xiàn)在這個時間點,比性能本身更有分量。

      V4的神就在這里。

      它再次給大家提供了一個更聰明的選擇。

      「不誘于譽,不恐于誹,率道而行,端然正己。」這是DeepSeek官方公告里的一句與其他內容都不同的話,這句話也幾乎是V4的特質,它讓人繼續(xù)對DeepSeek接下來的目標充滿期待。

      點擊關注我哦

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      驚天內幕!1984年中美黑鷹交易只交付24架,真相竟是戰(zhàn)略失誤!

      驚天內幕!1984年中美黑鷹交易只交付24架,真相竟是戰(zhàn)略失誤!

      人生錄
      2026-04-25 15:13:17
      正式簽約!加盟雄鹿!字母哥被孤立

      正式簽約!加盟雄鹿!字母哥被孤立

      籃球教學論壇
      2026-04-25 16:29:48
      羅翔:如果一個人突然努力工作,業(yè)余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

      羅翔:如果一個人突然努力工作,業(yè)余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

      譚老師地理大課堂
      2026-04-22 00:03:57
      炸鍋!全國充電樁集體漲價!每度電狂漲,電車省錢神話徹底破滅?

      炸鍋!全國充電樁集體漲價!每度電狂漲,電車省錢神話徹底破滅?

      藍色海邊
      2026-04-24 08:08:58
      凈利暴增68902%!多家A股公司,一季度盈利翻倍

      凈利暴增68902%!多家A股公司,一季度盈利翻倍

      21世紀經濟報道
      2026-04-25 20:13:35
      女大學生“受邀”去泰國潑水節(jié)被轉賣到緬甸,父親稱報道發(fā)出后,園區(qū)老板感到了壓力,讓刪除新聞報道,揚言“警方也拿他們沒辦法”

      女大學生“受邀”去泰國潑水節(jié)被轉賣到緬甸,父親稱報道發(fā)出后,園區(qū)老板感到了壓力,讓刪除新聞報道,揚言“警方也拿他們沒辦法”

      揚子晚報
      2026-04-24 12:06:30
      歐美著名大碼模特,這是歐美最受歡迎的身材

      歐美著名大碼模特,這是歐美最受歡迎的身材

      TVB的四小花
      2026-04-25 16:31:58
      今年,很多公司,已經發(fā)不下來工資了

      今年,很多公司,已經發(fā)不下來工資了

      細說職場
      2026-04-25 18:12:10
      埃梅里:丟球后球隊逐漸找到節(jié)奏,但有機會就必須把握住

      埃梅里:丟球后球隊逐漸找到節(jié)奏,但有機會就必須把握住

      懂球帝
      2026-04-26 01:13:29
      鈉電池即將量產!社保基金年報重倉6家鈉電,全都有關鍵材料供應

      鈉電池即將量產!社保基金年報重倉6家鈉電,全都有關鍵材料供應

      長風價值掘金
      2026-04-25 22:29:54
      曼城票價三連凍:瓜帥為何說這是"特殊"信號

      曼城票價三連凍:瓜帥為何說這是"特殊"信號

      體壇觀察猿
      2026-04-25 00:22:34
      外交部一錘定音!賴清德沒資格,鄭麗文就算贏了選舉也不認!

      外交部一錘定音!賴清德沒資格,鄭麗文就算贏了選舉也不認!

      果媽聊娛樂
      2026-04-25 13:48:35
      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      夜深愛雜談
      2026-04-25 20:37:19
      老鷹隊丹尼爾斯談防守尼克斯隊杰倫·布倫森:他幾乎沒有弱點

      老鷹隊丹尼爾斯談防守尼克斯隊杰倫·布倫森:他幾乎沒有弱點

      好火子
      2026-04-26 00:54:37
      他娶了女富商,婚后生下2子,低調又幸福

      他娶了女富商,婚后生下2子,低調又幸福

      可愛小菜
      2026-04-25 19:08:23
      中國國安部:稀土公司副總向境外泄露7項國家秘密受嚴懲

      中國國安部:稀土公司副總向境外泄露7項國家秘密受嚴懲

      俄羅斯衛(wèi)星通訊社
      2026-04-24 15:07:08
      曼聯(lián)止損!曝熱刺保級成功簽拉什福德,周薪32.5萬鎊,巴薩買不起

      曼聯(lián)止損!曝熱刺保級成功簽拉什福德,周薪32.5萬鎊,巴薩買不起

      夏侯看英超
      2026-04-26 00:28:11
      世界冠軍1球不進!80后名將12-9奪賽點,羅伯遜3-1逆轉韋克林!

      世界冠軍1球不進!80后名將12-9奪賽點,羅伯遜3-1逆轉韋克林!

      劉姚堯的文字城堡
      2026-04-25 19:23:27
      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      川渝視覺
      2026-04-17 22:13:14
      花唄、白條、月付等面臨重大調整

      花唄、白條、月付等面臨重大調整

      第一財經資訊
      2026-04-25 12:45:38
      2026-04-26 01:52:49
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      274文章數(shù) 38關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發(fā)布!黃仁勛預言的"災難"降臨

      頭條要聞

      媒體:美軍在中東罕見高密度集結 伊朗開始調整戰(zhàn)術

      頭條要聞

      媒體:美軍在中東罕見高密度集結 伊朗開始調整戰(zhàn)術

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《我們的爸爸2》第一季完美爸爸翻車了

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態(tài)度原創(chuàng)

      游戲
      藝術
      親子
      旅游
      公開課

      金發(fā)美少女魔王和我是鄰居!新游首曝美女角色太吸睛

      藝術要聞

      最適合作為抖音總部的大樓,它在福建莆田!

      親子要聞

      發(fā)生率僅十萬分之一!這種稀有血型跨省緊急調配,只為守護母嬰安全

      旅游要聞

      美猴王VS水蜜桃,連云港、無錫文旅“雙向奔赴”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲欧美一区二区成人片| 性男女做视频观看网站| 欧美一区二区三区性视频| 开心激情站开心激情网六月婷婷| 中文无码久久精品| 足交在线观看| 久久精品成人无码观看免费| 亚洲色大成网站www久久九九| 亚洲av无码一区二区三区网站| 日韩A视频| 日本精品αv中文字幕| 大地资源在线高清| 偷看少妇自慰xxxx| 肉色欧美久久久久久久免费看| 人妻少妇精品无码专区二区| 国产精品无码永久免费A片| 亚洲日韩中文在线精品第一| 国产精品综合久久久久久久免费| 精品国产乱| 亚洲爆乳精品无码一区二区| 久久精品免费观看国产| 男人天堂一区| 国产成人久久777777| 永久免费AV无码网站YY| 好男人视频免费| 日本熟妇人妻xxxxx-欢迎您| 99re视频在线| 东京热一本无码av| 亚洲国产在一区二区三区| 亚洲日韩欧洲乱码av夜夜摸 | 亚洲av午夜福利精品一区二区| 日韩人妻OL丝袜AV一二区| 野花韩国高清电影| 日本精品人妻在线观看| 亚洲精品无码永久在线观看性色 | 淄博市| 人妻无码中文字幕免费视频蜜桃| 91色拍| 日韩少妇内射免费播放| 综合福利导航| 国产亚洲中文|