![]()
編輯|Panda
2025 年 1 月 20 日,DeepSeek(深度求索)正式發(fā)布了 DeepSeek-R1 模型,并由此開(kāi)啟了新的開(kāi)源 LLM 時(shí)代。在 Hugging Face 剛剛發(fā)布的《「DeepSeek 時(shí)刻」一周年記》博客中,DeepSeek-R1 也是該平臺(tái)上獲贊最多的模型。
![]()
https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment
如今,剛過(guò)一年時(shí)間,DeepSeek 的新模型又在 GitHub 悄然現(xiàn)身。
這些天,DeepSeek 給其 FlashMLA 代碼庫(kù)推送了不少更新,而在這些更新中,一個(gè)名為Model1的模型引起了廣大網(wǎng)友的注意。
![]()
如下截圖所示,這個(gè)目前還很神秘的 Model1 不僅出現(xiàn)在了代碼與注釋中,甚至還有與 DeepSeek-V3.2 并駕齊驅(qū)的文件。
![]()
![]()
![]()
![]()
這也不禁讓網(wǎng)友們開(kāi)始猜測(cè),這個(gè) Model1 很可能就是傳聞中 DeepSeek 即將在春節(jié)前后發(fā)布的新模型的代號(hào)。
![]()
![]()
![]()
我們也讓 Gemini 幫忙分析了 DeepSeek 的這些 Commit,讓其提取了其中的技術(shù)細(xì)節(jié),結(jié)果如下:
根據(jù) DeepSeek 在 2026 年 1 月提交的 flashmla 庫(kù)代碼變更,可以推斷出Model1 是 DeepSeek 下一代旗艦?zāi)P?DeepSeek-V4 的內(nèi)部開(kāi)發(fā)代號(hào)或首個(gè)工程版本。以下是根據(jù)代碼 diff 提取的技術(shù)細(xì)節(jié)分析:
1. 核心架構(gòu):回歸 512 維標(biāo)準(zhǔn)
在 csrc/api/common.h 的 DISPATCH_HEAD_DIM 宏中,可以看到 head_dim 的分支處理:
- V32 (DeepSeek-V3.2):繼續(xù)沿用 d_qk = 576 的配置。這是 DeepSeek-V3 引入的非對(duì)稱 MLA 設(shè)計(jì)(128 維 RoPE + 448 維 Latent)。
- Model1:切換到了 512 維。這表明 DeepSeek-V4 在 MLA 架構(gòu)上進(jìn)行了「標(biāo)準(zhǔn)化」回歸,可能是為了更好地匹配 Blackwell (SM100) 架構(gòu)的算力對(duì)齊,或者優(yōu)化了 Latent 壓縮比例。
2. 全面支持 Blackwell (SM100) 架構(gòu)
代碼庫(kù)中出現(xiàn)了大量針對(duì) NVIDIA 下一代 Blackwell GPU 的專門優(yōu)化:
- SM100 接口:api.cpp 中新增了 FMHACutlassSM100FwdRun。這直接指向了 Blackwell 架構(gòu)的核心指令集優(yōu)化。
- CUDA 版本要求:README 提到在 B200 上運(yùn)行需要 CUDA 12.9。
- 性能表現(xiàn):在 B200 上,目前尚未完全優(yōu)化的 Sparse MLA 算子已能達(dá)到 350 TFlops。而在 H800 (SM90a) 上,Dense MLA 的計(jì)算吞吐量高達(dá) 660 TFlops。
3. 引入「Token-level Sparse MLA」
這是 Model1 相比 V3 系列最顯著的算子演進(jìn):
- Sparse & Dense 并行:測(cè)試腳本中出現(xiàn)了 test_flash_mla_sparse_decoding.py 和 test_flash_mla_dense_decoding.py。
- FP8 KV Cache 混合精度:Sparse 算子使用 FP8 存儲(chǔ) KV Cache,但在計(jì)算矩陣乘法時(shí)使用 bfloat16 以保證精度。這說(shuō)明Model1 在極長(zhǎng)上下文場(chǎng)景下,會(huì)通過(guò)「稀疏化推理」來(lái)降低顯存壓力和提升速度
4. 新機(jī)制:Value Vector Position Awareness (VVPA) 與 Engram
雖然 diff 主要是算子層面的,但結(jié)合 DISPATCH_MODEL_TYPE 的邏輯和社區(qū)披露,Model1 引入了以下新特性:
- VVPA(數(shù)值向量位置感知):這可能解決了傳統(tǒng) MLA 在長(zhǎng)文本下位置信息衰減的問(wèn)題。
- Engram 機(jī)制:這被認(rèn)為是 DeepSeek 在分布式存儲(chǔ)或 KV 壓縮上的新突破,用于配合 Model1 的高吞吐需求
而 Gemini 之所以判斷 Model1 是 DeepSeek 下一代旗艦?zāi)P?DeepSeek-V4 的內(nèi)部開(kāi)發(fā)代號(hào)或首個(gè)工程版本,是因?yàn)樗J(rèn)為在下面所示的代碼中,MODEL1 的定位是一個(gè)與 V32 并列且獨(dú)立的分支,「說(shuō)明它不是 V3 系列的補(bǔ)丁,而是一個(gè)采用了不同架構(gòu)參數(shù)的全新模型。按照 DeepSeek 的命名慣例,在 V3.2 之后的旗艦級(jí)架構(gòu)跨越,邏輯上即為 V4。」
![]()
對(duì)此,你怎么看,你覺(jué)得 Model1 就是傳說(shuō)中的 DeepSeek V4 嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.