網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，DeepSeek V4 雙版本正式上線！

2026-04-24 11:26:05　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心編輯部

終于，全球 AI 圈等待了幾個(gè)月的 DeepSeek V4，它終于來(lái)了！

今天上午，DeepSeek API 文檔上線，讓我們看到了新版本的「廬山真面目」。

此次，DeepSeek V4 按大小會(huì)有兩個(gè)版本，分別是DeepSeek-V4-Flash 和 DeepSeek-V4-Pro。上下文長(zhǎng)度大家此前已經(jīng)知道了，是 100 萬(wàn) tokens。同時(shí)，輸出長(zhǎng)度最大為 384K tokens。

就在剛剛，DeepSeek 官方正式宣布上線并開(kāi)源「DeepSeek-V4 預(yù)覽版」

開(kāi)源鏈接：https://huggingface.co/collections/deepseek-ai/deepseek-v4

根據(jù)官方的介紹，此次 DeepSeek-V4 在 Agent 能力、世界知識(shí)和推理性能上均實(shí)現(xiàn)國(guó)內(nèi)與開(kāi)源領(lǐng)域的領(lǐng)先。

兩個(gè)版本，V4-Pro 與 V4-Flash 的最大上下文長(zhǎng)度均為 1M，且同時(shí)支持「非思考模式」與「思考模式」，其中思考模式支持 reasoning_effort 參數(shù)設(shè)置思考強(qiáng)度（high/max）。對(duì)于復(fù)雜的 Agent 場(chǎng)景建議使用思考模式，并設(shè)置強(qiáng)度為「max」。

DeepSeek-V4 發(fā)布同時(shí)，也公布了其詳細(xì)的技術(shù)報(bào)告。

技術(shù)報(bào)告鏈接：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

該系列包括 DeepSeek-V4-Pro（1.6T 參數(shù)，49B 激活）和 DeepSeek-V4-Flash（284B 參數(shù)，13B 激活），兩者均支持一百萬(wàn)令牌的上下文長(zhǎng)度，旨在提升超長(zhǎng)上下文場(chǎng)景下的性能。該系列的關(guān)鍵創(chuàng)新包括：

1.混合注意力架構(gòu)：結(jié)合了壓縮稀疏注意力（CSA）和高度壓縮注意力（HCA），這一新方法顯著減少了計(jì)算復(fù)雜度，提升了長(zhǎng)上下文處理的效率，特別適用于涉及數(shù)百萬(wàn)令牌的任務(wù)。

2.流形約束超連接（mHC）：增強(qiáng)了傳統(tǒng)殘差連接，提高了信號(hào)在層之間傳播的穩(wěn)定性。

3.Muon 優(yōu)化器：設(shè)計(jì)用于加速收斂和提高訓(xùn)練穩(wěn)定性，Muon 優(yōu)化器顯著提升了訓(xùn)練過(guò)程中的模型性能。

4.訓(xùn)練和后訓(xùn)練管道：該模型在大量數(shù)據(jù)集（DeepSeek-V4-Flash 使用 32T 令牌，DeepSeek-V4-Pro 使用 33T 令牌）上進(jìn)行了預(yù)訓(xùn)練，隨后通過(guò)專(zhuān)門(mén)的訓(xùn)練和策略蒸餾進(jìn)一步優(yōu)化，確保它們?cè)谕评怼⒕幊毯褪澜缰R(shí)任務(wù)中表現(xiàn)出色。

5.長(zhǎng)上下文效率：這些模型在推理 FLOPs 和 KV 緩存大小上都實(shí)現(xiàn)了顯著減少，使得處理一百萬(wàn)令牌成為可能。例如，DeepSeek-V4-Pro 在與前代模型 DeepSeek-V3 的對(duì)比中，F(xiàn)LOPs 降低了 73%，KV 緩存大小減少了 90%。

6.評(píng)估結(jié)果：DeepSeek-V4-Pro-Max 版本在推理和知識(shí)任務(wù)上設(shè)定了新基準(zhǔn)，超越了之前的開(kāi)源模型，并接近一些專(zhuān)有模型的水平。DeepSeek-V4-Flash-Max 在更多高效的參數(shù)規(guī)模下，提供了相當(dāng)?shù)耐评硇阅堋?/p>

總的來(lái)說(shuō)，DeepSeek-V4 系列在大規(guī)模語(yǔ)言模型的效率上邁出了重要一步，能夠有效處理超長(zhǎng)序列，從而為復(fù)雜的長(zhǎng)時(shí)間跨度任務(wù)開(kāi)辟了新的可能性。

在另一邊，大家一直在關(guān)心 DeepSeek V4 是否使用國(guó)產(chǎn)算力，結(jié)果也終于揭曉。之前就有報(bào)道 DeepSeek V4 新模型，將采用華為技術(shù)公司設(shè)計(jì)的最新芯片，也是真的。

我們發(fā)現(xiàn)，昇騰 CANN 將在今晚 7 點(diǎn)直播 DeepSeek V4在昇騰平臺(tái)的首發(fā)

值得一提的是，寒武紀(jì)在軟硬一體生態(tài)中，已經(jīng)完成基于 vLLM 推理框架完成對(duì) 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 的Day 0 適配，適配代碼已開(kāi)源到 GitHub 社區(qū)。

DeepSeek 官方在發(fā)布推文最后說(shuō)道：「不誘于譽(yù)，不恐于誹，率道而行，端然正己。」出自《荀子?非十二子》，是一種超然，任東西南北風(fēng)的態(tài)度。

剩下的，就是大家親自體驗(yàn)到 DeepSeek-V4 了！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.