<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4還是神:架構極度聰明,昇騰“原生”,接下來和華為一起讓token大降價

      0
      分享至


      作者:王兆洋 + DeepSeek V4 專家模式

      V4 終于終于終于終于是來了。

      而且它不在假期,不在深夜,而是突然就發了。模型,開源權重,技術報告和官方的文章同時發給所有人。

      官方給出的亮點是“百萬上下文的普惠”。但顯然,這個模型里DeepSeek做的創新工作還是非常的多。


      一如既往的,它的技術報告是今天比讀任何新聞都過癮的存在。

      這一次V4最讓人欣喜的是,它的架構依然在進化,且依然極度聰明。它告訴整個 AI 圈一件事:不用堆參數,不用買更多卡,僅靠對注意力機制和訓練方式的重新發明,就能把百萬 token 長文本的門檻踩到地板上。

      而且,外界一直在關注的用“華為芯片”訓練的問題,也終于有所揭曉:這次華為昇騰的名字,是和 NVIDIA 并列寫在驗證平臺里的。雖然從技術報告來看,訓練部分依然大概率用的英偉達芯片,但在與昇騰的適配上,它顯然達到了前所未有的“原生”水平。這后面的意味,比跑分更有意思。

      而在官方文檔里,API價格的地方有一行小字:

      受限于高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節點批量上市后,Pro的價格會大幅下調。


      這同樣讓人浮想聯翩,且讓人對未來更加期待。

      27% 和 10%,這兩個數字定義了什么叫“效率革命”

      看看技術報告里的硬數據。基準是 DeepSeek-V3.2——本身已經是一個效率很高的模型。

      在 100 萬 token 上下文下(大約能裝三部《三體》),DeepSeek-V4-Pro——1.6 萬億參數,激活 49B——處理一個新 token 需要的算力只有 V3.2 的 27%,KV 緩存只占 10%

      而小杯 DeepSeek-V4-Flash:284B 參數,激活僅 13B,算力只要 10%,緩存只要 7%。

      一個容易被忽略的細節:報告明確標注,單 token 推理算力的單位是等效 FP8 FLOPs。這不是拿低精度取巧,而是已經換算到和 V3.2 相同的精度標準去比。而且,V4 系列的路由專家權重還用了 FP4 精度,報告特別指出,現有硬件上 FP4 和 FP8 的峰值算力相同,但未來硬件上 FP4 可以再高出三分之一的效率。換句話說,現在的數字還不是天花板,等昇騰 950 這類新硬件到位,還有一波可挖的潛力。

      長上下文,正在從奢侈品變成日用品。


      憑什么能做到?兩大壓縮注意力,從根源上做手術

      傳統 Transformer 處理長文本的死穴:序列長度加 N 倍,注意力計算量平方級爆炸,KV 緩存線性膨脹。這個瓶頸不破,百萬 token 就只是論文里的數字。

      DeepSeek V4 的辦法不是湊合,而是直接改造注意力機制本身。總體架構上,注意力層采用 CSA 和 HCA 交錯配置,前饋層沿用 DeepSeekMoE,殘差連接用 mHC 加強。核心是兩種新注意力。

      CSA——壓縮稀疏注意力

      CSA 的數據流分三路并行。KV token 的隱藏狀態同時進入三個模塊:一個 Token-Level Compressor 負責把每 4 個 token 的 KV 緩存壓縮成一個條目;一個 Lightning Indexer 生成“索引鍵”,用于后續的匹配打分;同一個索引器還生成“索引分數”。查詢 token 的隱藏狀態則單獨進入 Lightning Indexer,生成查詢側的索引分數。兩邊一合,送入 Top-k 選擇器,從所有壓縮塊中只挑出最相關的 512 個(Pro 版是 1024 個)。最后,這些選中的壓縮塊和滑動窗口里保留的 128 個原始 token 拼在一起,送進核心的多查詢注意力計算。


      索引器的實現細節:查詢端先降維到 dc=1024,減少參數量,再升維到多頭索引查詢,配合 ReLU 激活后與壓縮索引鍵計算分數。這一整套不是簡單的“截斷”,是學出來的動態篩選——哪些信息重要、哪些可以忽略,由模型自己在訓練中決定。

      HCA——重度壓縮注意力

      和 CSA 不同,HCA 去掉了整個稀疏選擇鏈路——沒有 Lightning Indexer,沒有 Top-k Selector。數據流非常直接:KV token 隱藏狀態經過 Token-Level Compressor 壓縮(壓縮比 m'=128,遠大于 CSA 的 4),得到的壓縮條目直接與滑動窗口 KV 拼在一起,送進 MQA。因為每條目覆蓋 128 個 token,條目總量已經很少,全量算也不貴,省掉了篩選環節。這是為了抓全局結構,避免模型“只見樹木不見森林”。

      兩種注意力都額外配了一個滑動窗口,保留最近 128 個 token 的原始 KV 不壓縮,確保局部依賴沒有精度損失。同時還用了注意力沉降技術——給每個頭一個可學習的 sink logit,加到注意力的分母里,讓每個頭可以選擇“什么都不關注”。


      另外,報告透露了一個重要的工程決定:CSA 和 HCA 在 Query 和 KV 上只對最后 64 個維度施加 RoPE 位置編碼,其他維度不編碼。同時 KV 緩存采用混合精度存儲——RoPE 維度用 BF16,其余維度用 FP8——又把緩存砍掉近一半。

      而這套注意力架構要真正落地,緩存管理也必須重新設計。V4 的 KV 緩存被拆成兩大塊:一塊是“狀態緩存”,每個請求分一個固定大小的區域,存滑動窗口最近 128 個 token 的 KV,以及 CSA/HCA 中還沒攢夠 4 個或 128 個 token、暫時無法壓縮的“尾料”。


      另一塊是“經典緩存”,存已經壓縮好的條目。經典緩存里,每個塊覆蓋的原始 token 數是兩種壓縮比(4 和 128)的最小公倍數,這樣同一塊里 CSA 和 HCA 的壓縮結果都能對齊——CSA 產 32 個壓縮條目,HCA 產 1 個——不會因為兩種壓縮率不一致導致碎片化管理。這套緩存布局,是百萬上下文能從實驗室走進生產環境的關鍵工程基礎設施。


      所以這套方案是壓縮、稀疏化、混合精度、滑動窗口、注意力沉降、精細緩存管理多管齊下。局部細節、中段關聯、全局脈絡,全抓住了,算力開銷斷崖式下降。

      也就是說, 傳統注意力機制要求每個 token 和歷史上所有 token 都做一次交互,歷史多長,活兒就多沉。DeepSeek V4 做的,是把“記憶”本身先整理成層次化的摘要——有些是每一小段的凝練,有些是每一章的概括,再加上眼前幾句話的原文。需要調用哪一層、哪一段,由模型自己根據當前要解決的問題即場判斷。內存里不再存一座山,算力不用翻整座山,百萬上下文的成本自然下來了。

      Muon 和 mHC:訓練上的降本增效

      架構的聰明不止在推理側。報告用專門章節講了兩項訓練優化。

      一個是此前已經被放出來過的 Muon 優化器。

      大多數優化器拿到梯度,一個參數一個參數地調。Muon 不這么干。它把整個梯度矩陣做一步“捋正”運算,讓各行更新方向相互獨立、不打架。效果就是每次更新都踩在最干凈的方向上,同樣步數學到更多,變相省算力。為了配合 Muon,分布式策略也改了:稠密參數限制切分,每個 GPU 最多管五個完整矩陣;MoE 參數直接拼成大向量等分,不切單個矩陣。梯度通信還做了 BF16 量化,砍掉一半通信量。

      另一個是 mHC——流形約束超連接。

      深層網絡的老大難是信號穿幾十層,要么逐層放大到溢出,要么衰減到消失。mHC 的解法是給殘差連接加個數學籠子——強制每層的混合矩陣滿足“每行每列和為 1,元素非負”。這保證了無論怎么傳,幅度不發散。

      實現上,DeepSeek V4 拿到參數后,做 20 次交替的行歸一化和列歸一化,硬把矩陣拉回約束集合。報告承認萬億參數訓練遇到了損失尖峰,但用兩招解決了:“預判路由”打破路由和主網絡的同步更新循環,“SwiGLU 截斷”把激活值鉗在 [-10,10]。

      一如既往的,數學上很干凈,工程上訓練不崩。

      后訓練更絕:分頭訓專才,再無損蒸餾

      DeepSeek V4 的后訓練流程也很有想法,報告用第五章詳述了這套“先分后合”的工藝。

      第一步,分別對代碼、數學、智能體、指令遵循等方向獨立訓練專家模型。每個專家都先做 SFT 打底,再用 GRPO 強化學習,配合領域專屬的獎勵模型。連獎勵模型本身也是生成式的——讓模型同時學會“判卷”和“答卷”,減少對人類標注的依賴。

      報告中很有意思的一點是為不同推理模式設了三種檔位:Non-think(無思考標簽,快速回答)、Think High(顯式思維鏈但受控長度)、Think Max(極限思維模式,給特殊系統提示同時放寬長度懲罰)。三種模式在 RL 訓練時分別用不同的上下文窗口和懲罰系數,讓同一套權重能根據場景切推理深度。

      第二步,用在策略蒸餾把所有專才的知識融合到一個統一模型里。關鍵是,他們做的不是 token 級近似,而是全詞表級別的反向 KL 散度——保持教師完整的 logit 分布。這帶來了巨大的計算壓力:詞表 128K,十多個老師,每個都是萬億參數級別。報告給出的解決路徑是:教師權重從中心化存儲按需加載;不存完整 logits,只緩最后一層隱藏狀態,訓練時即時重算;按教師索引排序樣本,保證同一時刻 GPU 上只有一個教師頭。這些都是生產環境才會碰到的硬問題。

      效果直接反映在基準上。Pro Max 在知識基準 SimpleQA 拿下 57.9,比開源最佳高出 20 個點;數學 Putnam 2025 做到 120/120 滿分;Codeforces 評分在人類選手中排第 23。這三個分屬不同類型的任務同時沖頂,背后的路線選擇是被驗證了的。


      “細粒度通信-計算重疊”和昇騰“原生”

      報告里另一個讓所有人都非常關注的事情,就是:它和華為昇騰到底是什么關系。

      報告 3.1 節原文是:“我們在 NVIDIA GPU 和華為昇騰 NPU 兩個平臺上驗證了這個細粒度的專家并行方案。”兩個平臺并列,寫在驗證結論里。


      這套方案的核心是把 MoE 的通信和計算切成更細的顆粒,按“波”調度。每個波只含一小部分專家,這個波的通信一完成立刻開始計算,同一時刻,下一個波的通信和上一個波的結果回傳同步進行。報告里的加速比數據是:通用推理 1.50–1.73 倍,RL 長尾小批次最高 1.96 倍。


      報告還給了硬件設計公式:每 GBps 通信帶寬對應 6.1 TFLOP/s 算力,通信就能被完全隱藏。這意味著 DeepSeek 在用架構告訴硬件廠商:不用卷帶寬,按這個比例配算力就行。這比適配某個具體型號高一個維度——是定義需求。昇騰 950 如果按這個配比來設計,跑 V4 就能把利用率拉到滿。

      你可以這樣理解,MoE 每次計算都要在不同 GPU 之間搬運中間結果,以前是搬完才算,搬運時長全在等。現在是把搬運拆碎,搬一小批就算一小批,算的同時繼續搬下一批。結果就是搬運時間被計算時間吃掉了,用戶感覺不到等。這套機制不挑硬件,只要算力和帶寬的比例到位,NVIDIA 還是昇騰都能跑出高利用率。

      報告也提到了用 TileLang 做算子開發,配合 Z3 SMT 求解器自動驗證和優化;同時要求訓練推理“批次不變”和“確定性”——同一個 token 無論和誰一批、在什么硬件上,輸出比特級一致。這對昇騰這種新硬件的調試和部署是基礎設施級的支持。

      雖然開源 MegaMoE 內核還是 CUDA 版,主力訓練集群大概率仍是 NVIDIA,但架構上已經把適配昇騰的土壤翻松了、路鋪平了。

      加上報告公開說 FP4 在未來硬件上還能再提效三分之一,以及官方文檔里那句“預計下半年昇騰 950 超節點批量上市后 Pro 價格大幅下調”,信號已經不能更明確了。

      看完V4的報告,感觸它想得夠清楚。

      過去兩年,行業解決長文本問題的主流思路本質上是在堆資源。要么堆顯存,把KV緩存硬塞進去;要么堆算力,讓芯片更快一點。這條路走到現在,邊際效益已經很明顯了。

      DeepSeek V4換了一個完全不同的方向——不再追著“怎么能扛住”不放,而是問“這東西真的需要全記住嗎”。CSA和HCA本質上是讓模型在記憶的時候就有了層次感,細顆粒的、粗顆粒的、最近的原文,各存各的。這不再是工程上的妥協,而是架構層面對“什么值得記住”這個問題的重新回答。思路一旦轉過來了,效率的提升就是數量級的。

      而這套東西還有一個容易被低估的價值,就是它讓硬件的選擇權回到了算法這邊。

      過去芯片決定模型能跑多長的上下文,帶寬不夠就不行。V4這套壓縮加波浪調度的方案出來后,算和搬的比例被一個公式定義清楚了。這意味著不是算法去適配硬件,而是算法在告訴硬件應該怎么設計。昇騰被寫進驗證平臺、FP4留出三分之一效率冗余,這些細節放在一起看,就知道它從一開始就沒打算綁定某一家。這種獨立性,在現在這個時間點,比性能本身更有分量。

      V4的神就在這里。

      它再次給大家提供了一個更聰明的選擇。

      「不誘于譽,不恐于誹,率道而行,端然正己。」這是DeepSeek官方公告里的一句與其他內容都不同的話,這句話也幾乎是V4的特質,它讓人繼續對DeepSeek接下來的目標充滿期待。

      點擊關注我哦

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “我讓他住手,可他不聽”:中國民科狂發500篇預印本,女兒被迫收獲100+署名

      “我讓他住手,可他不聽”:中國民科狂發500篇預印本,女兒被迫收獲100+署名

      化學人生
      2026-04-26 20:10:10
      沒出過門,只會傻笑,才藝惹人嫌,他上《五哈6》干啥

      沒出過門,只會傻笑,才藝惹人嫌,他上《五哈6》干啥

      樂天閑聊
      2026-04-26 13:53:56
      震驚!大學教師分享女兒留學與歐洲旅行見聞被舉報!網友:活該吧

      震驚!大學教師分享女兒留學與歐洲旅行見聞被舉報!網友:活該吧

      火山詩話
      2026-04-24 09:20:07
      中國西北舉行大規模空戰演習,250架戰機參演

      中國西北舉行大規模空戰演習,250架戰機參演

      午夜搭車a
      2026-04-26 18:08:28
      大清洗!曼聯13人夏季可能離隊,拉爵欲賺1.5億轉會費省7千萬年薪

      大清洗!曼聯13人夏季可能離隊,拉爵欲賺1.5億轉會費省7千萬年薪

      羅米的曼聯博客
      2026-04-26 08:31:18
      余承東在發布會被質疑耍大牌,張雪力挺!

      余承東在發布會被質疑耍大牌,張雪力挺!

      鞭牛士
      2026-04-26 16:40:15
      演員脫掉和服才向觀眾鞠躬致謝,本人回應:撕掉這層皮,做回真真正正中國人

      演員脫掉和服才向觀眾鞠躬致謝,本人回應:撕掉這層皮,做回真真正正中國人

      臺州交通廣播
      2026-04-23 22:50:01
      三峽大壩蓄水近22年,成了魚類的天堂,如今里面最大的魚有多大?

      三峽大壩蓄水近22年,成了魚類的天堂,如今里面最大的魚有多大?

      探源歷史
      2026-04-03 16:55:38
      強肝第一名!不是枸杞,也不是山藥,而是家家戶戶都有的

      強肝第一名!不是枸杞,也不是山藥,而是家家戶戶都有的

      華庭講美食
      2026-04-26 11:25:05
      50個冷門冷知識,知道10個就很厲害

      50個冷門冷知識,知道10個就很厲害

      心中的麥田
      2026-03-31 21:23:41
      數名醫生強調:只要做過白內障手術,術后病人一定關注這幾點

      數名醫生強調:只要做過白內障手術,術后病人一定關注這幾點

      健康科普365
      2026-04-25 17:30:07
      就在剛剛!廣東德比賽前傳來3大壞消息,杜鋒這回真笑不出來了

      就在剛剛!廣東德比賽前傳來3大壞消息,杜鋒這回真笑不出來了

      林子說事
      2026-04-26 11:16:05
      保利置業集團裁員51%

      保利置業集團裁員51%

      地產微資訊
      2026-04-26 10:48:13
      獨生子女家庭注意!5月集中辦理窗口開啟,3筆現金補助別忘申請

      獨生子女家庭注意!5月集中辦理窗口開啟,3筆現金補助別忘申請

      復轉這些年
      2026-04-25 18:51:48
      總部人去樓空!上千家供應商被欠4億貨款,這場騙局精心設計僅7天

      總部人去樓空!上千家供應商被欠4億貨款,這場騙局精心設計僅7天

      小祁談歷史
      2026-04-20 22:09:33
      西方為何不敢招惹中國?只因中越712炮戰,我軍1天發射3400噸炮彈

      西方為何不敢招惹中國?只因中越712炮戰,我軍1天發射3400噸炮彈

      鶴羽說個事
      2026-04-25 22:19:50
      俄朝圖們江上第二座橋已建成,將于6月通車

      俄朝圖們江上第二座橋已建成,將于6月通車

      名人茍或
      2026-04-26 07:02:25
      四年暴跌120億,微信是怎么“殺死”口香糖行業的?

      四年暴跌120億,微信是怎么“殺死”口香糖行業的?

      流蘇晚晴
      2026-04-19 20:34:47
      比亞迪旗艦SUV爆了!大唐預售24小時訂單突破3萬臺

      比亞迪旗艦SUV爆了!大唐預售24小時訂單突破3萬臺

      快科技
      2026-04-26 15:47:36
      晁蓋的這次擅自“排座次”,不僅惹怒了宋江,更是加速了他的死亡

      晁蓋的這次擅自“排座次”,不僅惹怒了宋江,更是加速了他的死亡

      小莜讀史
      2026-04-26 11:11:55
      2026-04-26 23:32:49
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      274文章數 38關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      以色列政壇重大變局 內塔尼亞胡迎來勁敵

      頭條要聞

      以色列政壇重大變局 內塔尼亞胡迎來勁敵

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環王》的美劇,有第二季

      財經要聞

      事關新就業群體,中辦、國辦發文

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      時尚
      藝術
      本地
      游戲
      公開課

      比闊腿褲還時髦?今年夏天一定要有“這條褲子”,減齡又松弛

      藝術要聞

      總投資35億!汾酒集團太原的地標大樓,呈現白酒文化!

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      3D區女神淪陷!蒂法胸口被加布料 玩家直呼失望

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久..4399| 色欲天天色| 亚洲精品乱码久久久久久中文字幕| 我想看一级毛片免费的| 又黄又爽又色的免费网站| 亚洲欧美制服| 中国不卡一区| 久久国产成人午夜av影院| 国产在线欧美日韩精品一区二区| 亚洲精品9999久久久久无码 | 中文字幕一二三产区区别| 欧洲无码av| 91在线视频观看| 天堂av亚洲一区二区| 色综合久久中文综合久久激情| 精品人无码一区二区三区| 国产真实乱人偷精品人妻| 邛崃市| 99久久国产宗和精品1上映| 欧美+国产+无码+麻豆| 国产久| 国产富婆一区二区三区| 久久综合色之久久综合| 亚洲香蕉伊综合在人在线| 亚洲最大福利视频网| 午夜欧美日韩在线视频播放 | 人人妻一区二区三区| 日逼免费视频| 少妇高潮惨叫喷水在线观看| 国产精品V在线播放| 人妻日韩精品中文字幕| 一色道久久88加勒比一| 亚洲中文国产字幕| 亚洲最大的成人网| 久久夜精品综合缴情五月| 亚洲国产成人精品av区按摩| 无码成年性午夜免费网站蜜蜂| 无码成人一区二区三区| 久久久噜噜噜久久中文字幕色伊伊 | 91色综合综合热五月激情| 爆乳熟妇一区二区三区|