![]()
中國AI明星企業DeepSeek再度推出開放權重大語言模型,聲稱性能可媲美西方頂尖專有大語言模型。更值得關注的是,新模型大幅降低了推理成本,并新增對華為昇騰系列AI加速器的支持。
DeepSeek V4于近日正式發布,可在Hugging Face等主流模型倉庫、官方API及網頁服務上下載使用,共提供兩種規格。其中較小的版本為擁有2840億參數的Flash混合專家(MoE)模型,激活參數量為130億;較大的版本則擁有1.6萬億參數,任意時刻激活參數量為490億。
V4-Pro在33萬億Token上完成訓練,據DeepSeek官方稱,該模型在其基準測試集中超越了所有開放權重大語言模型,并可與西方最頂尖的專有模型相抗衡。
當然,這些說法仍需保持審慎態度。盡管DeepSeek憑借V3和R1系列模型建立起良好口碑,讓這家中國開發商廣為人知,但在標準化測試中表現優異,并不意味著在實際應用中同樣出色。
從模型架構來看,DeepSeek V4引入了多項創新設計,據開發者稱,這些改進將顯著降低模型的服務成本。
首先是推出了規模較小的Flash模型。相較于大模型,Flash模型對基礎設施要求更低,能以更低成本提供更流暢的交互體驗。這一策略本身并不新鮮,但對DeepSeek而言卻是首次在自研模型中正式采用。
更具實質意義的變化在于注意力機制的改進。模型的注意力機制決定了它如何將輸入提示轉化為鍵值對,進而生成輸出Token。DeepSeek研究團隊在隨新模型發布的論文中,提出了一種結合壓縮稀疏注意力(Compressed Sparse Attention)與重度壓縮注意力(Heavy Compressed Attention)的混合注意力機制,旨在降低推理過程中的計算量,并減少用于追蹤模型狀態的鍵值緩存(KV Cache)所占用的內存。
KV Cache的壓縮效果對V4的效率至關重要——這類緩存體積通常較大,推理服務商往往需要將其卸載至系統內存或閃存以避免冷啟動延遲。更高壓縮率的KV Cache意味著大規模推理部署所需的內存與存儲空間顯著減少。
綜合以上技術,V4在支持百萬Token上下文窗口的同時,內存占用較DeepSeek V3.2減少了9.5至13.7倍。
為進一步壓縮內存占用,DeepSeek延續了使用低精度數據類型的傳統。DeepSeek V3曾是最早采用FP8精度訓練的開放權重模型之一,而V4兩款模型均混合使用了FP8與FP4精度,并針對MoE專家權重采用了量化感知訓練(Quantization-Aware Training)。FP4相比FP8可將模型權重所需的存儲空間減少約一半,是一項顯著的節省,前提是能夠接受精度上的一定損失。
DeepSeek的架構改進不僅限于推理端。在V4中,開發團隊還引入了名為Muon的全新優化器,旨在加速訓練收斂并提升訓練穩定性。
自研模型適配本土硬件
此次新模型中最引人關注、卻著墨不多的一點,是其運行硬件的變化。DeepSeek V3曾深度優化以適配英偉達Hopper架構GPU,而V4已通過驗證,可同時運行于英偉達與華為的加速器平臺之上。
DeepSeek V4的技術論文僅在文中簡短提及,指出該公司已在"英偉達GPU和昇騰NPU平臺上驗證了其細粒度專家并行(EP)方案"。
需要明確的是,這并不意味著該模型完全由華為硬件訓練完成,僅表明DeepSeek已驗證華為AI加速器可用于模型推理服務。
DeepSeek有可能采用了英偉達GPU完成預訓練,再以華為加速器承擔強化學習階段的任務。強化學習是一種與推理過程相近的后訓練步驟,用于向模型傳授新技能、行為模式及思維鏈推理能力。不過,該論文并未對此作出直接說明。
總體而言,推理階段對新興芯片廠商的準入門檻較低。此前DeepSeek曾嘗試使用華為芯片進行模型訓練,但據報道,受芯片質量不穩定、互聯速度過慢以及軟件棧不成熟等問題影響,該計劃受阻,DeepSeek最終重新回歸英偉達平臺。
此外,V4采用4比特精度數據類型,或令部分人聯想到英偉達Blackwell加速器——該產品受出口管制,不得在中國銷售。但實際上,這并非必要條件。Hopper GPU雖不支持FP4硬件加速,但仍可以純權重模式使用該數據類型。這種方式對浮點計算性能無益,卻能有效降低訓練與推理階段的內存占用和帶寬需求,在眾多使用場景中是值得考量的權衡方案。
價格極具競爭力
DeepSeek V4目前處于預覽階段,基礎版與指令微調版均可下載或通過API調用。
小參數量的Flash模型API定價為每百萬輸入Token 0.14美元(非緩存)、每百萬輸出Token 0.28美元,頗具吸引力。大參數量的Pro模型價格相對較高,分別為每百萬輸入Token 1.74美元、每百萬輸出Token 3.48美元,但與西方AI廠商的頂尖模型相比,仍屬極低水平。作為參照,OpenAI的GPT-5.5定價為每百萬輸入Token 5美元、每百萬輸出Token 30美元。
Q&A
Q1:DeepSeek V4相比V3有哪些核心改進?
A:DeepSeek V4引入了多項關鍵改進:一是混合注意力機制,結合壓縮稀疏注意力與重度壓縮注意力,大幅降低推理計算量和KV Cache內存占用,內存使用較V3.2減少9.5至13.7倍;二是同時使用FP8與FP4混度精度,進一步壓縮存儲需求;三是引入新優化器Muon,提升訓練收斂速度與穩定性;四是新增對華為昇騰NPU平臺的驗證支持。
Q2:DeepSeek V4支持華為昇騰NPU,是否意味著它完全在華為硬件上訓練?
A:不是。DeepSeek V4的論文僅說明已在華為昇騰NPU平臺上驗證了模型的專家并行推理方案,并未表明整個訓練過程使用華為硬件完成。有可能預訓練仍依賴英偉達GPU,強化學習階段才引入華為加速器。目前論文未就訓練硬件細節作出明確說明。
Q3:DeepSeek V4的API定價和OpenAI相比有什么差距?
A:差距相當顯著。DeepSeek V4 Pro版本的API定價為每百萬輸入Token 1.74美元、每百萬輸出Token 3.48美元;而OpenAI的GPT-5.5則分別為5美元和30美元。即便是DeepSeek的旗艦Pro模型,其輸出Token價格也僅為GPT-5.5的約十分之一,性價比優勢突出。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.