網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4發布：效率大幅提升，支持華為昇騰NPU

2026-04-27 17:04:19　來源: 至頂頭條

北京舉報

分享至

中國AI明星企業DeepSeek再度推出開放權重大語言模型，聲稱性能可媲美西方頂尖專有大語言模型。更值得關注的是，新模型大幅降低了推理成本，并新增對華為昇騰系列AI加速器的支持。

DeepSeek V4于近日正式發布，可在Hugging Face等主流模型倉庫、官方API及網頁服務上下載使用，共提供兩種規格。其中較小的版本為擁有2840億參數的Flash混合專家（MoE）模型，激活參數量為130億；較大的版本則擁有1.6萬億參數，任意時刻激活參數量為490億。

V4-Pro在33萬億Token上完成訓練，據DeepSeek官方稱，該模型在其基準測試集中超越了所有開放權重大語言模型，并可與西方最頂尖的專有模型相抗衡。

當然，這些說法仍需保持審慎態度。盡管DeepSeek憑借V3和R1系列模型建立起良好口碑，讓這家中國開發商廣為人知，但在標準化測試中表現優異，并不意味著在實際應用中同樣出色。

從模型架構來看，DeepSeek V4引入了多項創新設計，據開發者稱，這些改進將顯著降低模型的服務成本。

首先是推出了規模較小的Flash模型。相較于大模型，Flash模型對基礎設施要求更低，能以更低成本提供更流暢的交互體驗。這一策略本身并不新鮮，但對DeepSeek而言卻是首次在自研模型中正式采用。

更具實質意義的變化在于注意力機制的改進。模型的注意力機制決定了它如何將輸入提示轉化為鍵值對，進而生成輸出Token。DeepSeek研究團隊在隨新模型發布的論文中，提出了一種結合壓縮稀疏注意力（Compressed Sparse Attention）與重度壓縮注意力（Heavy Compressed Attention）的混合注意力機制，旨在降低推理過程中的計算量，并減少用于追蹤模型狀態的鍵值緩存（KV Cache）所占用的內存。

KV Cache的壓縮效果對V4的效率至關重要——這類緩存體積通常較大，推理服務商往往需要將其卸載至系統內存或閃存以避免冷啟動延遲。更高壓縮率的KV Cache意味著大規模推理部署所需的內存與存儲空間顯著減少。

綜合以上技術，V4在支持百萬Token上下文窗口的同時，內存占用較DeepSeek V3.2減少了9.5至13.7倍。

為進一步壓縮內存占用，DeepSeek延續了使用低精度數據類型的傳統。DeepSeek V3曾是最早采用FP8精度訓練的開放權重模型之一，而V4兩款模型均混合使用了FP8與FP4精度，并針對MoE專家權重采用了量化感知訓練（Quantization-Aware Training）。FP4相比FP8可將模型權重所需的存儲空間減少約一半，是一項顯著的節省，前提是能夠接受精度上的一定損失。

DeepSeek的架構改進不僅限于推理端。在V4中，開發團隊還引入了名為Muon的全新優化器，旨在加速訓練收斂并提升訓練穩定性。

自研模型適配本土硬件

此次新模型中最引人關注、卻著墨不多的一點，是其運行硬件的變化。DeepSeek V3曾深度優化以適配英偉達Hopper架構GPU，而V4已通過驗證，可同時運行于英偉達與華為的加速器平臺之上。

DeepSeek V4的技術論文僅在文中簡短提及，指出該公司已在"英偉達GPU和昇騰NPU平臺上驗證了其細粒度專家并行（EP）方案"。

需要明確的是，這并不意味著該模型完全由華為硬件訓練完成，僅表明DeepSeek已驗證華為AI加速器可用于模型推理服務。

DeepSeek有可能采用了英偉達GPU完成預訓練，再以華為加速器承擔強化學習階段的任務。強化學習是一種與推理過程相近的后訓練步驟，用于向模型傳授新技能、行為模式及思維鏈推理能力。不過，該論文并未對此作出直接說明。

總體而言，推理階段對新興芯片廠商的準入門檻較低。此前DeepSeek曾嘗試使用華為芯片進行模型訓練，但據報道，受芯片質量不穩定、互聯速度過慢以及軟件棧不成熟等問題影響，該計劃受阻，DeepSeek最終重新回歸英偉達平臺。

此外，V4采用4比特精度數據類型，或令部分人聯想到英偉達Blackwell加速器——該產品受出口管制，不得在中國銷售。但實際上，這并非必要條件。Hopper GPU雖不支持FP4硬件加速，但仍可以純權重模式使用該數據類型。這種方式對浮點計算性能無益，卻能有效降低訓練與推理階段的內存占用和帶寬需求，在眾多使用場景中是值得考量的權衡方案。

價格極具競爭力

DeepSeek V4目前處于預覽階段，基礎版與指令微調版均可下載或通過API調用。

小參數量的Flash模型API定價為每百萬輸入Token 0.14美元（非緩存）、每百萬輸出Token 0.28美元，頗具吸引力。大參數量的Pro模型價格相對較高，分別為每百萬輸入Token 1.74美元、每百萬輸出Token 3.48美元，但與西方AI廠商的頂尖模型相比，仍屬極低水平。作為參照，OpenAI的GPT-5.5定價為每百萬輸入Token 5美元、每百萬輸出Token 30美元。

Q&A

Q1：DeepSeek V4相比V3有哪些核心改進？

A：DeepSeek V4引入了多項關鍵改進：一是混合注意力機制，結合壓縮稀疏注意力與重度壓縮注意力，大幅降低推理計算量和KV Cache內存占用，內存使用較V3.2減少9.5至13.7倍；二是同時使用FP8與FP4混度精度，進一步壓縮存儲需求；三是引入新優化器Muon，提升訓練收斂速度與穩定性；四是新增對華為昇騰NPU平臺的驗證支持。

Q2：DeepSeek V4支持華為昇騰NPU，是否意味著它完全在華為硬件上訓練？

A：不是。DeepSeek V4的論文僅說明已在華為昇騰NPU平臺上驗證了模型的專家并行推理方案，并未表明整個訓練過程使用華為硬件完成。有可能預訓練仍依賴英偉達GPU，強化學習階段才引入華為加速器。目前論文未就訓練硬件細節作出明確說明。

Q3：DeepSeek V4的API定價和OpenAI相比有什么差距？

A：差距相當顯著。DeepSeek V4 Pro版本的API定價為每百萬輸入Token 1.74美元、每百萬輸出Token 3.48美元；而OpenAI的GPT-5.5則分別為5美元和30美元。即便是DeepSeek的旗艦Pro模型，其輸出Token價格也僅為GPT-5.5的約十分之一，性價比優勢突出。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.