網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

R1一周年，DeepSeek Model 1悄然現(xiàn)身

2026-01-21 10:11:16　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯｜Panda

2025 年 1 月 20 日，DeepSeek（深度求索）正式發(fā)布了 DeepSeek-R1 模型，并由此開(kāi)啟了新的開(kāi)源 LLM 時(shí)代。在 Hugging Face 剛剛發(fā)布的《「DeepSeek 時(shí)刻」一周年記》博客中，DeepSeek-R1 也是該平臺(tái)上獲贊最多的模型。

https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment

如今，剛過(guò)一年時(shí)間，DeepSeek 的新模型又在 GitHub 悄然現(xiàn)身。

這些天，DeepSeek 給其 FlashMLA 代碼庫(kù)推送了不少更新，而在這些更新中，一個(gè)名為Model1的模型引起了廣大網(wǎng)友的注意。

如下截圖所示，這個(gè)目前還很神秘的 Model1 不僅出現(xiàn)在了代碼與注釋中，甚至還有與 DeepSeek-V3.2 并駕齊驅(qū)的文件。

這也不禁讓網(wǎng)友們開(kāi)始猜測(cè)，這個(gè) Model1 很可能就是傳聞中 DeepSeek 即將在春節(jié)前后發(fā)布的新模型的代號(hào)。

我們也讓 Gemini 幫忙分析了 DeepSeek 的這些 Commit，讓其提取了其中的技術(shù)細(xì)節(jié)，結(jié)果如下：

根據(jù) DeepSeek 在 2026 年 1 月提交的 flashmla 庫(kù)代碼變更，可以推斷出Model1 是 DeepSeek 下一代旗艦?zāi)Ｐ?DeepSeek-V4 的內(nèi)部開(kāi)發(fā)代號(hào)或首個(gè)工程版本。以下是根據(jù)代碼 diff 提取的技術(shù)細(xì)節(jié)分析：

1. 核心架構(gòu)：回歸 512 維標(biāo)準(zhǔn)

在 csrc/api/common.h 的 DISPATCH_HEAD_DIM 宏中，可以看到 head_dim 的分支處理：

V32 (DeepSeek-V3.2)：繼續(xù)沿用 d_qk = 576 的配置。這是 DeepSeek-V3 引入的非對(duì)稱 MLA 設(shè)計(jì)（128 維 RoPE + 448 維 Latent）。
Model1：切換到了 512 維。這表明 DeepSeek-V4 在 MLA 架構(gòu)上進(jìn)行了「標(biāo)準(zhǔn)化」回歸，可能是為了更好地匹配 Blackwell (SM100) 架構(gòu)的算力對(duì)齊，或者優(yōu)化了 Latent 壓縮比例。

2. 全面支持 Blackwell (SM100) 架構(gòu)

代碼庫(kù)中出現(xiàn)了大量針對(duì) NVIDIA 下一代 Blackwell GPU 的專門優(yōu)化：

SM100 接口：api.cpp 中新增了 FMHACutlassSM100FwdRun。這直接指向了 Blackwell 架構(gòu)的核心指令集優(yōu)化。
CUDA 版本要求：README 提到在 B200 上運(yùn)行需要 CUDA 12.9。
性能表現(xiàn)：在 B200 上，目前尚未完全優(yōu)化的 Sparse MLA 算子已能達(dá)到 350 TFlops。而在 H800 (SM90a) 上，Dense MLA 的計(jì)算吞吐量高達(dá) 660 TFlops。

3. 引入「Token-level Sparse MLA」

這是 Model1 相比 V3 系列最顯著的算子演進(jìn)：

Sparse & Dense 并行：測(cè)試腳本中出現(xiàn)了 test_flash_mla_sparse_decoding.py 和 test_flash_mla_dense_decoding.py。
FP8 KV Cache 混合精度：Sparse 算子使用 FP8 存儲(chǔ) KV Cache，但在計(jì)算矩陣乘法時(shí)使用 bfloat16 以保證精度。這說(shuō)明Model1 在極長(zhǎng)上下文場(chǎng)景下，會(huì)通過(guò)「稀疏化推理」來(lái)降低顯存壓力和提升速度

4. 新機(jī)制：Value Vector Position Awareness (VVPA) 與 Engram

雖然 diff 主要是算子層面的，但結(jié)合 DISPATCH_MODEL_TYPE 的邏輯和社區(qū)披露，Model1 引入了以下新特性：

VVPA（數(shù)值向量位置感知）：這可能解決了傳統(tǒng) MLA 在長(zhǎng)文本下位置信息衰減的問(wèn)題。
Engram 機(jī)制：這被認(rèn)為是 DeepSeek 在分布式存儲(chǔ)或 KV 壓縮上的新突破，用于配合 Model1 的高吞吐需求

而 Gemini 之所以判斷 Model1 是 DeepSeek 下一代旗艦?zāi)Ｐ?DeepSeek-V4 的內(nèi)部開(kāi)發(fā)代號(hào)或首個(gè)工程版本，是因?yàn)樗J(rèn)為在下面所示的代碼中，MODEL1 的定位是一個(gè)與 V32 并列且獨(dú)立的分支，「說(shuō)明它不是 V3 系列的補(bǔ)丁，而是一個(gè)采用了不同架構(gòu)參數(shù)的全新模型。按照 DeepSeek 的命名慣例，在 V3.2 之后的旗艦級(jí)架構(gòu)跨越，邏輯上即為 V4。」

對(duì)此，你怎么看，你覺(jué)得 Model1 就是傳說(shuō)中的 DeepSeek V4 嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.