網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek V4重磅發(fā)布，百萬上下文成標(biāo)配，華為昇騰率先適配！

2026-04-24 14:57:56　來源: CSDN

北京舉報(bào)

分享至

4 月 24 日的 AI 技術(shù)圈再次因大模型的升級(jí)而沸騰。

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

就在 OpenAI 于凌晨剛推出版本之后的幾個(gè)小時(shí)，國(guó)產(chǎn)大模型也迎來了重磅時(shí)刻——DeepSeek-V4 預(yù)覽版官宣上線，并同步開源。

官方發(fā)布 58 頁完整技術(shù)報(bào)告，讓開源大模型邁入百萬 token 高效上下文時(shí)代，徹底重構(gòu)長(zhǎng)文本大模型的效率與能力邊界。

開源地址：

https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

技術(shù)報(bào)告：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

雙模型齊發(fā)：1.6T 旗艦與 284B 輕量版，均支持百萬字上下文

最新發(fā)布的 DeepSeek-V4 系列一次性推出兩款全新的 MoE 架構(gòu)大模型，全部支持百萬字超長(zhǎng)上下文，按照模型大小來分：

DeepSeek-V4-Pro：總參數(shù)量為 1.6T、激活參數(shù)為 49B，在知識(shí)、推理、代碼、智能體、長(zhǎng)文檔理解上比肩頂級(jí)閉源模型；
DeepSeek?V4?Flash：總參數(shù) 284B，激活參數(shù)為 13B，以極小激活參數(shù)量實(shí)現(xiàn)逼近旗艦的推理性能。

官方表示，兩款模型在 Agent 能力、世界知識(shí)和推理性能上均實(shí)現(xiàn)國(guó)內(nèi)與開源領(lǐng)域的領(lǐng)先。即日起，登錄 DeepSeek 官網(wǎng) chat.deepseek.com 或官方App，就可以直接體驗(yàn)最新的 DeepSeek-V4 能力。

此外，API 服務(wù)已同步更新，通過修改 model_name 為 deepseek-v4-pro 或 deepseek-v4-flash 即可調(diào)用。

架構(gòu)升級(jí)，關(guān)鍵技術(shù)創(chuàng)新大幅提高上下文效率

從技術(shù)架構(gòu)層面來看，DeepSeek?V4 沒有停留在堆參數(shù)、擴(kuò)數(shù)據(jù)的傳統(tǒng)路線，而是從注意力機(jī)制、殘差連接、優(yōu)化器三大底層維度，進(jìn)行了技術(shù)升級(jí)。

簡(jiǎn)單來看，與 DeepSeek-V3 架構(gòu)相比，DeepSeek-V4 系列保留了 DeepSeekMoE 框架和多詞元預(yù)測(cè)（MTP）策略，同時(shí)在架構(gòu)和優(yōu)化方面引入了多項(xiàng)關(guān)鍵創(chuàng)新：

采用混合注意力架構(gòu)，將壓縮稀疏注意力（CSA）和重壓縮注意力（HCA）結(jié)合，用于提升長(zhǎng)上下文處理效率。CSA 沿序列維度壓縮鍵值緩存，然后執(zhí)行 DeepSeek 稀疏注意力（DSA），而 HCA 對(duì)鍵值緩存應(yīng)用更激進(jìn)的壓縮，但保持了密集注意力；
為了增強(qiáng)建模能力，DeepSeek 也在架構(gòu)中引入了流形約束超連接（mHC），在傳統(tǒng)殘差連接基礎(chǔ)上進(jìn)一步增強(qiáng)信息傳遞能力；
以及 Muon 優(yōu)化器被引入了 DeepSeek-V4 系列的訓(xùn)練中，用于加快收斂速度并提升訓(xùn)練穩(wěn)定性。

在訓(xùn)練維度，DeepSeek 在超過 32T 高質(zhì)量、多樣化的 token 上對(duì)兩個(gè)模型進(jìn)行了預(yù)訓(xùn)練，并在此基礎(chǔ)上引入了一整套完整的后訓(xùn)練流程，進(jìn)一步增強(qiáng)模型能力。

同時(shí)，據(jù)技術(shù)報(bào)告顯示，DeepSeek-V4 系列在長(zhǎng)上下文場(chǎng)景下也表現(xiàn)出極高的效率。在百萬 Token 的上下文設(shè)置下，DeepSeek-V4-Pro 僅需 DeepSeek-V3.2 的 27% 單 Token 推理 FLOP，KV cache 占用僅為 10%。

正因此，DeepSeek 能夠?qū)ⅰ鞍偃f token 上下文”作為常規(guī)能力來支持，從而顯著提升長(zhǎng)時(shí)序任務(wù)的可行性，并為測(cè)試階段的進(jìn)一步擴(kuò)展提供了空間。正如官方所說：“從現(xiàn)在開始，1M（一百萬）上下文將是 DeepSeek 所有官方服務(wù)的標(biāo)配。”

性能比肩頂級(jí)閉源模型

值得注意的是，DeepSeek-V4-ProMax 是 DeepSeek-V4-Pro 的最高推理模式，重新定義了開放模型的性能標(biāo)準(zhǔn)，在核心任務(wù)上超越了其前代產(chǎn)品。

另外，DeepSeek-V4 系列的性能在多個(gè)維度都有了全面的提升：

在廣義世界知識(shí)評(píng)估中，DeepSeek-V4-Pro 的最高推理模式 DeepSeek-V4-Pro-Max，在 SimpleQA 和 Chinese-SimpleQA 等基準(zhǔn)測(cè)試上，顯著優(yōu)于主流開源模型。

在教育類知識(shí)評(píng)估方面（包括 MMLU-Pro、HLE 和 GPQA），DeepSeek-V4-Pro-Max 相較開源模型仍保持小幅領(lǐng)先。同時(shí)，它與領(lǐng)先的閉源模型 Gemini-3.1-Pro 的差距已經(jīng)大幅縮小，但在這些知識(shí)類測(cè)試中仍略遜一籌。

在推理維度，通過增加推理 token 的投入，DeepSeek-V4-Pro-Max 在標(biāo)準(zhǔn)推理基準(zhǔn)上展現(xiàn)出優(yōu)于 GPT-5.2 和 Gemini-3.0-Pro 的表現(xiàn)。
不過，其性能仍略低于 GPT-5.4 和 Gemini-3.1-Pro，這表明其整體發(fā)展水平大約落后最前沿模型 3 到 6 個(gè)月。
此外，DeepSeek-V4-Flash-Max 在復(fù)雜推理任務(wù)中達(dá)到了接近 GPT-5.2 和 Gemini-3.0-Pro 的表現(xiàn)，體現(xiàn)出較高的性價(jià)比。

Agent 能力上，在公開基準(zhǔn)測(cè)試中，DeepSeek-V4-Pro-Max 與領(lǐng)先開源模型（如 Kimi-K2.6 和 GLM-5.1）表現(xiàn)相當(dāng)，但略遜于頂級(jí)閉源模型。在內(nèi)部評(píng)測(cè)中，DeepSeek-V4-Pro-Max 超過了 Claude Sonnet 4.5，并接近 Claude Opus 4.5 的水平。
在支持 100 萬 token 上下文窗口的情況下，DeepSeek-V4-Pro-Max 在合成任務(wù)和真實(shí)場(chǎng)景中均表現(xiàn)出色，甚至在學(xué)術(shù)基準(zhǔn)測(cè)試中超過了 Gemini-3.1-Pro。

相比 DeepSeek-V4-Pro-Max，DeepSeek-V4-Flash-Max 由于參數(shù)規(guī)模更小，在知識(shí)類評(píng)估中的表現(xiàn)略低。但在給予更大思考預(yù)算時(shí)，其推理任務(wù)表現(xiàn)可以接近 DeepSeek-V4-Pro-Max。

在 Agent 評(píng)測(cè)中，DeepSeek-V4-Flash-Max 在部分基準(zhǔn)上能夠與 DeepSeek-V4-Pro-Max 持平，但在更復(fù)雜、高難度任務(wù)中仍存在差距。

算力支持

值得注意的是，對(duì)于行業(yè)最關(guān)注的國(guó)產(chǎn)算力落地，DeepSeek 在技術(shù)報(bào)告中指出，他們?cè)?NVIDIA GPU 和華為 Ascend NPU 平臺(tái)上，對(duì)細(xì)粒度 EP（Expert Parallelism）方案進(jìn)行了驗(yàn)證。

另一方面，華為昇騰超節(jié)點(diǎn)系列產(chǎn)品也宣布全面支持，本次通過雙方芯模技術(shù)緊密協(xié)同，實(shí)現(xiàn)異騰超節(jié)點(diǎn)全系列產(chǎn)品支持 DeepSeek V4 系列模型。

API 同步開放：無縫兼容主流接口，一鍵接入最強(qiáng)開源長(zhǎng)上下文

時(shí)下 DeepSeek?V4 API 已同步上線，支持 OpenAI ChatCompletions 與 Anthropic 接口規(guī)范。

訪問新模型時(shí)，base_url 不變, model 參數(shù)需要改為 deepseek-v4-pro 或 deepseek-v4-flash。

另外，DeepSeek 官方還提到，舊有的 API 接口的兩個(gè)模型名 deepseek-chat 與deepseek-reasoner 將于三個(gè)月后（2026-07-24）停止使用。當(dāng)前階段內(nèi)，這兩個(gè)模型名分別指向 deepseek-v4-flash 的非思考模式與思考模式。

普通用戶可直接登錄 DeepSeek 官網(wǎng)或官方 App，體驗(yàn) 100 萬 Token 上下文帶來的震撼能力：一次性上傳整本書、整個(gè)項(xiàng)目代碼、整份合同文檔，實(shí)現(xiàn)真正的 “一次性讀懂、全程記憶、深度推理”。

DeepSeek?V4 的到來，不只是一次模型升級(jí)，更是開源大模型進(jìn)入 “百萬上下文高效時(shí)代” 的標(biāo)志。它用架構(gòu)創(chuàng)新證明：超長(zhǎng)上下文不必靠暴力算力，小激活參數(shù)也能擁有頂級(jí)推理。

開源地址：

https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

技術(shù)報(bào)告：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

「粉絲專屬回饋：60+ 頂級(jí)大廠 AI 實(shí)戰(zhàn) PPT 限時(shí)領(lǐng)！」

2026 奇點(diǎn)智能技術(shù)大會(huì)·上海站圓滿落幕！整整兩天，CSDN 與奇點(diǎn)智能研究院攜手，把“AI 正在如何重塑軟件開發(fā)”徹底攤開講透了。

這不僅僅是一場(chǎng)會(huì)議，更是一份關(guān)于未來的答案。從 NVIDIA、微軟、Google 的全球視野，到華為、阿里、騰訊、京東、網(wǎng)易、快手、昆侖萬維的本土實(shí)踐；從月之暗面、階躍星辰、MiniMax 的獨(dú)角獸洞察，再到北大、智源、奇點(diǎn)智能研究院的前沿探索。

Agent 正在成為新入口，軟件形態(tài)正在被重寫。

錯(cuò)過了現(xiàn)場(chǎng)？沒關(guān)系！為回饋粉絲，我們特將本次大會(huì)的高質(zhì)量演講 PPT 完整打包。

領(lǐng)取方式：在公眾號(hào)后臺(tái)私信發(fā)送「奇點(diǎn)」二字，即可一鍵獲取全套干貨。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.