剛剛，DeepSeek開始頻繁更新：Tile Kernels、DeepEP V2

2026-04-23 19:58:20　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

就在剛剛，DeepSeek 的 GitHub 開始了頻繁更新，上線開源了一個新的代碼庫Tile Kernels，同時并對 DeepEP 代碼庫進行了更新，上線了DeepEP V2。距離上次 DeepSeek 悄悄更新 Mega MoE、FP4 Indexer 還不到一周。

Tile Kernels

鏈接：https://github.com/deepseek-ai/TileKernels

據(jù)介紹，Tile Kernels 是為 LLM 操作優(yōu)化的 GPU kernels，是用 TileLang 構(gòu)建的。而 TileLang 是一種用于在 Python 中表達高性能 GPU kernels 的領域特定語言，具備易遷移、敏捷開發(fā)和自動優(yōu)化等特性。

Tile Kernels 的性能非常強悍，正如 DeepSeek 寫的那樣：「本項目中的大多數(shù) kernels 在計算強度和內(nèi)存帶寬方面都已接近硬件性能上限。其中部分已經(jīng)在內(nèi)部訓練和推理場景中投入使用。不過，它們尚不代表最佳實踐，我們也在持續(xù)改進代碼質(zhì)量和文檔。」

代碼庫的介紹信息不多，然而字里行間「劇透」了 DeepSeek 下一代模型底層的架構(gòu)創(chuàng)新路線。

下面是 Tile Kernels 的一些具體特性：

門控機制：用于 MoE 路由的 Top-k 專家選擇與打分
MoE 路由：Token 到專家的映射，融合的擴展 / 歸約以及權(quán)重歸一化
量化（Quantization）：支持 per-token、per-block、per-channel 的 FP8/FP4/E5M6 轉(zhuǎn)換，并融合 SwiGLU + quantization 操作
轉(zhuǎn)置：批量轉(zhuǎn)置操作
Engram：Engram gating kernels，融合 RMSNorm、前向 / 反向傳播以及權(quán)重梯度歸約
Manifold HyperConnection：超連接 kernels，包含 Sinkhorn 歸一化以及 mix 的拆分與應用
Modeling：高層 torch.autograd.Function 封裝，將底層 kernels 組合為可訓練層（engram gate、mHC pipeline）

EPv2：更快的 EP、并支持 Engram/PP/CP

EPv2 地址：https://github.com/deepseek-ai/DeepEP/pull/605

在今天更早的時候，DeepSeek 還發(fā)布了最新版本的EPv2，實現(xiàn)了更快的專家并行（EP），并支持 Engram / 流水線并行（PP）、上下文并行（CP）。

隨著硬件、網(wǎng)絡和模型架構(gòu)的演進，DeepSeek 此前的 DeepEP V1 積累了過多的歷史包袱和性能問題。

本次更新對專家并行（Expert Parallelism）進行了徹底重構(gòu) —— 與 V1 相比，僅需幾分之一的 SM 資源即可實現(xiàn)極致性能，同時支持更大規(guī)模的 Scale-up（單機擴展）和 Scale-out（跨機擴展）。

此外，DeepSeek 還在本次更新中推出了實驗性的 0 SM 系列方案，包括 0 SM Engram、0 SM 流水線并行（PP）以及 0 SM 上下文并行（CP）的 All-gather 算子。此外，后端已從 NVSHMEM 切換為更加輕量化的 NCCL Gin 后端。

下面是 DeepEP V2 版本的一些新特性：

全時即時編譯 (Fully JIT)
NCCL Gin 后端：
僅包含頭文件（Header-only），極致輕量。
能夠復用現(xiàn)有的 NCCL 通信器。
EPv2：
將高吞吐與低延遲 API 統(tǒng)一為單一接口，并采用全新的 GEMM 布局。
支持更大規(guī)模的擴展領域（最高支持 EP2048）。
引入分析化的 SM 和 QP 計數(shù)計算 —— 無需再進行自動調(diào)優(yōu)（Auto-tuning）。
持續(xù)支持混合模式（Hybrid）與直接模式（Direct）。
針對類 V3 的舊版訓練任務，SM 占用從 24 個降至 4-6 個，同時保持同等甚至更優(yōu)的性能。
0 SM Engram（配合 RDMA）
0 SM PP（配合 RDMA）
0 SM CP（配合 Copy Engine）

性能表現(xiàn)

遵循 DeepSeek-V3 的配置，在新版本下，在每批次 8K token、7168 隱層維度、Top-8 專家、FP8 分發(fā)以及 BF16 結(jié)合的設置下進行了測試，結(jié)果如下：

說明：結(jié)果顯示的是邏輯帶寬。例如在 EP 8 x 2 的情況下，90 GB/s 的帶寬實際上包含了本地顯卡（local rank）間的流量。

與 V1 相比，V2 實現(xiàn)了高達 1.3 倍的峰值性能，同時節(jié)省了多達 4 倍的 SM 資源占用。

最后，勸一下 DeepSeek，趕快發(fā) V4 吧，都等急了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.