大模型這周瘋狂的更新沒有結(jié)束,最重磅的 DeepSeek V4 突然發(fā)布了
剛剛,DeepSeek 正式推出 V4 系列預(yù)覽版,包含 DeepSeek-V4-Pro(1.6T 總參數(shù) / 49B 激活)與 DeepSeek-V4-Flash(284B 總參數(shù) / 13B 激活)兩款模型,均支持 100 萬 Token 超長上下文。
架構(gòu)層面,V4 實現(xiàn)三項關(guān)鍵突破。
混合注意力機制(CSA+HCA)將百萬 Token 場景下的推理 FLOPs 降至 V3.2 的 27%,KV Cache 僅需 10%;
流形約束超連接(mHC)解決了超大規(guī)模 MoE 的訓(xùn)練不穩(wěn)定性問題;其三,引入 Muon 優(yōu)化器加速收斂。模型基于 32T+ 高質(zhì)量 Token 預(yù)訓(xùn)練,并采用"領(lǐng)域?qū)<遗囵B(yǎng) + 統(tǒng)一模型整合"的兩階段后訓(xùn)練策略。
性能方面,V4-Pro-Max 模式(最大推理檔位)在多項基準(zhǔn)上刷新開源模型紀(jì)錄。 LiveCodeBench 達(dá)到 93.5%,Codeforces 評分 3206(超越 Gemini-3.1-Pro 與 Claude Opus-4.6);
數(shù)學(xué)推理 IMO-AnswerBench 89.8%、HMMT 2026 達(dá) 95.2%;軟件工程 SWE-bench Verified 80.6%;百萬 Token 長上下文測試 MRCR 83.5%。
模型同時提供 Non-Think、Think High、Think Max 三檔推理模式,兼顧響應(yīng)速度與推理深度。
DeepSeek 官方表示,V4-Pro-Max 已「firmly establishing itself as the best open-source model available today 」,在編程基準(zhǔn)上達(dá)到頂級水平,并在推理與 Agentic 任務(wù)上顯著縮小與領(lǐng)先閉源模型的差距。
V4-Flash-Max 則在給予充足思考預(yù)算時,可實現(xiàn)與 Pro 版本相當(dāng)?shù)耐评肀憩F(xiàn)。
目前,V4 系列模型權(quán)重已在 Hugging Face 和 ModelScope 上架,技術(shù)報告同步公開。
APPSO 馬上會帶來更詳細(xì)的解讀,敬請留意。
模型調(diào)用與參數(shù)調(diào)整方法請參考 API 文檔:
https://api-docs.deepseek.com/zh-cn/guides/thinking_mode
DeepSeek-V4 模型開源鏈接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
DeepSeek-V4 技術(shù)報告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.