![]()
機(jī)器之心編輯部
終于,全球 AI 圈等待了幾個(gè)月的 DeepSeek V4,它終于來(lái)了!
今天上午,DeepSeek API 文檔上線,讓我們看到了新版本的「廬山真面目」。
此次,DeepSeek V4 按大小會(huì)有兩個(gè)版本,分別是DeepSeek-V4-Flash 和 DeepSeek-V4-Pro。上下文長(zhǎng)度大家此前已經(jīng)知道了,是 100 萬(wàn) tokens。同時(shí),輸出長(zhǎng)度最大為 384K tokens。
![]()
就在剛剛,DeepSeek 官方正式宣布上線并開(kāi)源「DeepSeek-V4 預(yù)覽版」
- 開(kāi)源鏈接:https://huggingface.co/collections/deepseek-ai/deepseek-v4
根據(jù)官方的介紹,此次 DeepSeek-V4 在 Agent 能力、世界知識(shí)和推理性能上均實(shí)現(xiàn)國(guó)內(nèi)與開(kāi)源領(lǐng)域的領(lǐng)先。
![]()
兩個(gè)版本,V4-Pro 與 V4-Flash 的最大上下文長(zhǎng)度均為 1M,且同時(shí)支持「非思考模式」與「思考模式」,其中思考模式支持 reasoning_effort 參數(shù)設(shè)置思考強(qiáng)度(high/max)。對(duì)于復(fù)雜的 Agent 場(chǎng)景建議使用思考模式,并設(shè)置強(qiáng)度為 「max」。
![]()
DeepSeek-V4 發(fā)布同時(shí),也公布了其詳細(xì)的技術(shù)報(bào)告。
![]()
- 技術(shù)報(bào)告鏈接:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
該系列包括 DeepSeek-V4-Pro(1.6T 參數(shù),49B 激活)和 DeepSeek-V4-Flash(284B 參數(shù),13B 激活),兩者均支持一百萬(wàn)令牌的上下文長(zhǎng)度,旨在提升超長(zhǎng)上下文場(chǎng)景下的性能。該系列的關(guān)鍵創(chuàng)新包括:
1.混合注意力架構(gòu):結(jié)合了 壓縮稀疏注意力(CSA) 和 高度壓縮注意力(HCA),這一新方法顯著減少了計(jì)算復(fù)雜度,提升了長(zhǎng)上下文處理的效率,特別適用于涉及數(shù)百萬(wàn)令牌的任務(wù)。
2.流形約束超連接(mHC):增強(qiáng)了傳統(tǒng)殘差連接,提高了信號(hào)在層之間傳播的穩(wěn)定性。
3.Muon 優(yōu)化器:設(shè)計(jì)用于加速收斂和提高訓(xùn)練穩(wěn)定性,Muon 優(yōu)化器顯著提升了訓(xùn)練過(guò)程中的模型性能。
4.訓(xùn)練和后訓(xùn)練管道:該模型在大量數(shù)據(jù)集(DeepSeek-V4-Flash 使用 32T 令牌,DeepSeek-V4-Pro 使用 33T 令牌)上進(jìn)行了預(yù)訓(xùn)練,隨后通過(guò)專(zhuān)門(mén)的訓(xùn)練和策略蒸餾進(jìn)一步優(yōu)化,確保它們?cè)谕评怼⒕幊毯褪澜缰R(shí)任務(wù)中表現(xiàn)出色。
5.長(zhǎng)上下文效率:這些模型在推理 FLOPs 和 KV 緩存大小 上都實(shí)現(xiàn)了顯著減少,使得處理一百萬(wàn)令牌成為可能。例如,DeepSeek-V4-Pro 在與前代模型 DeepSeek-V3 的對(duì)比中,F(xiàn)LOPs 降低了 73%,KV 緩存大小減少了 90%。
6.評(píng)估結(jié)果:DeepSeek-V4-Pro-Max 版本在推理和知識(shí)任務(wù)上設(shè)定了新基準(zhǔn),超越了之前的開(kāi)源模型,并接近一些專(zhuān)有模型的水平。DeepSeek-V4-Flash-Max 在更多高效的參數(shù)規(guī)模下,提供了相當(dāng)?shù)耐评硇阅堋?/p>
總的來(lái)說(shuō),DeepSeek-V4 系列在大規(guī)模語(yǔ)言模型的效率上邁出了重要一步,能夠有效處理超長(zhǎng)序列,從而為復(fù)雜的長(zhǎng)時(shí)間跨度任務(wù)開(kāi)辟了新的可能性。
在另一邊,大家一直在關(guān)心 DeepSeek V4 是否使用國(guó)產(chǎn)算力,結(jié)果也終于揭曉。之前就有報(bào)道 DeepSeek V4 新模型,將采用華為技術(shù)公司設(shè)計(jì)的最新芯片,也是真的。
我們發(fā)現(xiàn),昇騰 CANN 將在今晚 7 點(diǎn)直播 DeepSeek V4在昇騰平臺(tái)的首發(fā)
![]()
值得一提的是,寒武紀(jì)在軟硬一體生態(tài)中,已經(jīng)完成基于 vLLM 推理框架完成對(duì) 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 的Day 0 適配,適配代碼已開(kāi)源到 GitHub 社區(qū)。
DeepSeek 官方在發(fā)布推文最后說(shuō)道:「不誘于譽(yù),不恐于誹,率道而行,端然正己。」出自《荀子?非十二子》,是一種超然,任東西南北風(fēng)的態(tài)度。
剩下的,就是大家親自體驗(yàn)到 DeepSeek-V4 了!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.