![]()
中國(guó)人工智能開(kāi)發(fā)商 DeepSeek 近日發(fā)布了全新的開(kāi)源大語(yǔ)言模型系列。
此次發(fā)布的 V4 系列包含兩款大語(yǔ)言模型:旗艦版 V4-Pro 以及輕量版 V4-Flash。V4-Flash 在一定程度上犧牲了輸出質(zhì)量,以換取更低的硬件資源占用。
兩款模型均采用混合專(zhuān)家(MoE)架構(gòu),即由多個(gè)神經(jīng)網(wǎng)絡(luò)協(xié)同工作,而非單一的人工神經(jīng)元網(wǎng)絡(luò)。V4-Pro 擁有 1.6 萬(wàn)億參數(shù),在響應(yīng)用戶(hù)提示時(shí)激活約 490 億參數(shù)的子網(wǎng)絡(luò);V4-Flash 則擁有 2840 億參數(shù),每次推理時(shí)激活約 130 億參數(shù)。
V4 系列的一項(xiàng)重要架構(gòu)創(chuàng)新是"混合注意力機(jī)制"。大語(yǔ)言模型的注意力機(jī)制負(fù)責(zé)根據(jù)重要性對(duì)用戶(hù)輸入的數(shù)據(jù)點(diǎn)進(jìn)行排序,在生成回復(fù)時(shí)優(yōu)先關(guān)注最相關(guān)的信息,過(guò)濾無(wú)關(guān)細(xì)節(jié),從而提升輸出質(zhì)量。
注意力機(jī)制并非直接處理原始提示詞,而是使用一種名為 KV 緩存的數(shù)學(xué)表達(dá)形式。V4 的混合注意力架構(gòu)采用兩種不同的壓縮方法來(lái)縮減 KV 緩存的體積,進(jìn)而降低內(nèi)存占用。與 DeepSeek 上一代大語(yǔ)言模型相比,V4 系列在推理階段的 KV 緩存內(nèi)存占用減少了 90%。
V4 系列還引入了多項(xiàng)針對(duì)訓(xùn)練流程的優(yōu)化特性。
神經(jīng)網(wǎng)絡(luò)由若干被稱(chēng)為"層"的人工神經(jīng)元集合構(gòu)成,數(shù)據(jù)依次流經(jīng)各層進(jìn)行處理:先進(jìn)入第一層完成一系列運(yùn)算,結(jié)果傳遞至第二層,再經(jīng)第二層運(yùn)算后傳至第三層,以此類(lèi)推。
在訓(xùn)練過(guò)程中,數(shù)據(jù)會(huì)在各層之間頻繁傳遞。V4 引入了一項(xiàng)名為 mHC 的特性,允許數(shù)據(jù)在不經(jīng)過(guò)中間神經(jīng)元層的情況下,直接在相距較遠(yuǎn)的層之間傳輸。這種方式有效減少了訓(xùn)練誤差,進(jìn)而提升了 AI 的輸出質(zhì)量。
大語(yǔ)言模型首尾兩層之間的神經(jīng)元集合稱(chēng)為隱藏層。據(jù) DeepSeek 介紹,V4 采用一個(gè)名為 Muon 的軟件模塊對(duì)隱藏層進(jìn)行優(yōu)化,有助于加快訓(xùn)練速度并降低相關(guān)的基礎(chǔ)設(shè)施需求。
V4 的初始訓(xùn)練使用了約 27 萬(wàn)億 Token 的數(shù)據(jù)集,隨后經(jīng)歷了兩階段的后訓(xùn)練流程:第一階段分別對(duì)各子神經(jīng)網(wǎng)絡(luò)進(jìn)行獨(dú)立優(yōu)化,第二階段則專(zhuān)注于提升各子網(wǎng)絡(luò)之間的協(xié)同配合能力。
在評(píng)測(cè)方面,DeepSeek 使用約 24 項(xiàng)基準(zhǔn)測(cè)試對(duì) V4 系列中能力最強(qiáng)的 V4-Pro 進(jìn)行了評(píng)估,并將其與包括 Claude Opus 4.6 在內(nèi)的多個(gè)前沿模型進(jìn)行了橫向?qū)Ρ取4-Pro 在其中 3 項(xiàng)基準(zhǔn)測(cè)試中超越了所有參與比較的大語(yǔ)言模型,在其余多項(xiàng)測(cè)試中也優(yōu)于部分競(jìng)爭(zhēng)模型。
目前,V4-Pro 與 V4-Flash 均已在 Hugging Face 平臺(tái)上提供預(yù)覽版本。
Q&A
Q1:DeepSeek V4 系列包含哪些模型,有什么區(qū)別?
A:DeepSeek V4 系列目前包含兩款大語(yǔ)言模型:旗艦版 V4-Pro 和輕量版 V4-Flash。V4-Pro 擁有 1.6 萬(wàn)億參數(shù),推理時(shí)激活約 490 億參數(shù),性能更強(qiáng);V4-Flash 擁有 2840 億參數(shù),推理時(shí)激活約 130 億參數(shù),適合對(duì)硬件資源要求較低的場(chǎng)景,但輸出質(zhì)量相對(duì)有所取舍。兩款模型均采用混合專(zhuān)家(MoE)架構(gòu)。
Q2:DeepSeek V4 的混合注意力機(jī)制有什么作用?
A:混合注意力機(jī)制是 V4 系列的核心架構(gòu)創(chuàng)新之一。它通過(guò)兩種不同的壓縮方法縮減 KV 緩存的體積,大幅降低推理階段的內(nèi)存占用。與 DeepSeek 上一代大語(yǔ)言模型相比,V4 的 KV 緩存內(nèi)存使用量減少了 90%,在保持輸出質(zhì)量的同時(shí)顯著降低了硬件門(mén)檻。
Q3:DeepSeek V4-Pro 的性能表現(xiàn)如何,和其他模型比怎么樣?
A:DeepSeek 使用約 24 項(xiàng)基準(zhǔn)測(cè)試對(duì) V4-Pro 進(jìn)行了評(píng)估,并與 Claude Opus 4.6 等多個(gè)前沿大語(yǔ)言模型進(jìn)行了對(duì)比。結(jié)果顯示,V4-Pro 在其中 3 項(xiàng)基準(zhǔn)測(cè)試中全面超越所有參與比較的模型,在其余多項(xiàng)測(cè)試中也優(yōu)于部分競(jìng)爭(zhēng)對(duì)手,整體表現(xiàn)具備一定競(jìng)爭(zhēng)力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.