網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek 開(kāi)源 V4 大語(yǔ)言模型系列，雙模型齊發(fā)

2026-04-27 17:00:05　來(lái)源: 至頂頭條

北京舉報(bào)

分享至

中國(guó)人工智能開(kāi)發(fā)商 DeepSeek 近日發(fā)布了全新的開(kāi)源大語(yǔ)言模型系列。

此次發(fā)布的 V4 系列包含兩款大語(yǔ)言模型：旗艦版 V4-Pro 以及輕量版 V4-Flash。V4-Flash 在一定程度上犧牲了輸出質(zhì)量，以換取更低的硬件資源占用。

兩款模型均采用混合專(zhuān)家（MoE）架構(gòu)，即由多個(gè)神經(jīng)網(wǎng)絡(luò)協(xié)同工作，而非單一的人工神經(jīng)元網(wǎng)絡(luò)。V4-Pro 擁有 1.6 萬(wàn)億參數(shù)，在響應(yīng)用戶(hù)提示時(shí)激活約 490 億參數(shù)的子網(wǎng)絡(luò)；V4-Flash 則擁有 2840 億參數(shù)，每次推理時(shí)激活約 130 億參數(shù)。

V4 系列的一項(xiàng)重要架構(gòu)創(chuàng)新是"混合注意力機(jī)制"。大語(yǔ)言模型的注意力機(jī)制負(fù)責(zé)根據(jù)重要性對(duì)用戶(hù)輸入的數(shù)據(jù)點(diǎn)進(jìn)行排序，在生成回復(fù)時(shí)優(yōu)先關(guān)注最相關(guān)的信息，過(guò)濾無(wú)關(guān)細(xì)節(jié)，從而提升輸出質(zhì)量。

注意力機(jī)制并非直接處理原始提示詞，而是使用一種名為 KV 緩存的數(shù)學(xué)表達(dá)形式。V4 的混合注意力架構(gòu)采用兩種不同的壓縮方法來(lái)縮減 KV 緩存的體積，進(jìn)而降低內(nèi)存占用。與 DeepSeek 上一代大語(yǔ)言模型相比，V4 系列在推理階段的 KV 緩存內(nèi)存占用減少了 90%。

V4 系列還引入了多項(xiàng)針對(duì)訓(xùn)練流程的優(yōu)化特性。

神經(jīng)網(wǎng)絡(luò)由若干被稱(chēng)為"層"的人工神經(jīng)元集合構(gòu)成，數(shù)據(jù)依次流經(jīng)各層進(jìn)行處理：先進(jìn)入第一層完成一系列運(yùn)算，結(jié)果傳遞至第二層，再經(jīng)第二層運(yùn)算后傳至第三層，以此類(lèi)推。

在訓(xùn)練過(guò)程中，數(shù)據(jù)會(huì)在各層之間頻繁傳遞。V4 引入了一項(xiàng)名為 mHC 的特性，允許數(shù)據(jù)在不經(jīng)過(guò)中間神經(jīng)元層的情況下，直接在相距較遠(yuǎn)的層之間傳輸。這種方式有效減少了訓(xùn)練誤差，進(jìn)而提升了 AI 的輸出質(zhì)量。

大語(yǔ)言模型首尾兩層之間的神經(jīng)元集合稱(chēng)為隱藏層。據(jù) DeepSeek 介紹，V4 采用一個(gè)名為 Muon 的軟件模塊對(duì)隱藏層進(jìn)行優(yōu)化，有助于加快訓(xùn)練速度并降低相關(guān)的基礎(chǔ)設(shè)施需求。

V4 的初始訓(xùn)練使用了約 27 萬(wàn)億 Token 的數(shù)據(jù)集，隨后經(jīng)歷了兩階段的后訓(xùn)練流程：第一階段分別對(duì)各子神經(jīng)網(wǎng)絡(luò)進(jìn)行獨(dú)立優(yōu)化，第二階段則專(zhuān)注于提升各子網(wǎng)絡(luò)之間的協(xié)同配合能力。

在評(píng)測(cè)方面，DeepSeek 使用約 24 項(xiàng)基準(zhǔn)測(cè)試對(duì) V4 系列中能力最強(qiáng)的 V4-Pro 進(jìn)行了評(píng)估，并將其與包括 Claude Opus 4.6 在內(nèi)的多個(gè)前沿模型進(jìn)行了橫向?qū)Ρ取4-Pro 在其中 3 項(xiàng)基準(zhǔn)測(cè)試中超越了所有參與比較的大語(yǔ)言模型，在其余多項(xiàng)測(cè)試中也優(yōu)于部分競(jìng)爭(zhēng)模型。

目前，V4-Pro 與 V4-Flash 均已在 Hugging Face 平臺(tái)上提供預(yù)覽版本。

Q&A

Q1：DeepSeek V4 系列包含哪些模型，有什么區(qū)別？

A：DeepSeek V4 系列目前包含兩款大語(yǔ)言模型：旗艦版 V4-Pro 和輕量版 V4-Flash。V4-Pro 擁有 1.6 萬(wàn)億參數(shù)，推理時(shí)激活約 490 億參數(shù)，性能更強(qiáng)；V4-Flash 擁有 2840 億參數(shù)，推理時(shí)激活約 130 億參數(shù)，適合對(duì)硬件資源要求較低的場(chǎng)景，但輸出質(zhì)量相對(duì)有所取舍。兩款模型均采用混合專(zhuān)家（MoE）架構(gòu)。

Q2：DeepSeek V4 的混合注意力機(jī)制有什么作用？

A：混合注意力機(jī)制是 V4 系列的核心架構(gòu)創(chuàng)新之一。它通過(guò)兩種不同的壓縮方法縮減 KV 緩存的體積，大幅降低推理階段的內(nèi)存占用。與 DeepSeek 上一代大語(yǔ)言模型相比，V4 的 KV 緩存內(nèi)存使用量減少了 90%，在保持輸出質(zhì)量的同時(shí)顯著降低了硬件門(mén)檻。

Q3：DeepSeek V4-Pro 的性能表現(xiàn)如何，和其他模型比怎么樣？

A：DeepSeek 使用約 24 項(xiàng)基準(zhǔn)測(cè)試對(duì) V4-Pro 進(jìn)行了評(píng)估，并與 Claude Opus 4.6 等多個(gè)前沿大語(yǔ)言模型進(jìn)行了對(duì)比。結(jié)果顯示，V4-Pro 在其中 3 項(xiàng)基準(zhǔn)測(cè)試中全面超越所有參與比較的模型，在其余多項(xiàng)測(cè)試中也優(yōu)于部分競(jìng)爭(zhēng)對(duì)手，整體表現(xiàn)具備一定競(jìng)爭(zhēng)力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.