![]()
機器之心編輯部
就在剛剛,DeepSeek 的 GitHub 開始了頻繁更新,上線開源了一個新的代碼庫Tile Kernels,同時并對 DeepEP 代碼庫進行了更新,上線了DeepEP V2。距離上次 DeepSeek 悄悄更新 Mega MoE、FP4 Indexer 還不到一周。
Tile Kernels
![]()
鏈接:https://github.com/deepseek-ai/TileKernels
據(jù)介紹,Tile Kernels 是為 LLM 操作優(yōu)化的 GPU kernels,是用 TileLang 構(gòu)建的。而 TileLang 是一種用于在 Python 中表達高性能 GPU kernels 的領域特定語言,具備易遷移、敏捷開發(fā)和自動優(yōu)化等特性。
Tile Kernels 的性能非常強悍,正如 DeepSeek 寫的那樣:「本項目中的大多數(shù) kernels 在計算強度和內(nèi)存帶寬方面都已接近硬件性能上限。其中部分已經(jīng)在內(nèi)部訓練和推理場景中投入使用。不過,它們尚不代表最佳實踐,我們也在持續(xù)改進代碼質(zhì)量和文檔。」
代碼庫的介紹信息不多,然而字里行間「劇透」了 DeepSeek 下一代模型底層的架構(gòu)創(chuàng)新路線。
下面是 Tile Kernels 的一些具體特性:
- 門控機制:用于 MoE 路由的 Top-k 專家選擇與打分
- MoE 路由:Token 到專家的映射,融合的擴展 / 歸約以及權(quán)重歸一化
- 量化(Quantization):支持 per-token、per-block、per-channel 的 FP8/FP4/E5M6 轉(zhuǎn)換,并融合 SwiGLU + quantization 操作
- 轉(zhuǎn)置:批量轉(zhuǎn)置操作
- Engram:Engram gating kernels,融合 RMSNorm、前向 / 反向傳播以及權(quán)重梯度歸約
- Manifold HyperConnection:超連接 kernels,包含 Sinkhorn 歸一化以及 mix 的拆分與應用
- Modeling:高層 torch.autograd.Function 封裝,將底層 kernels 組合為可訓練層(engram gate、mHC pipeline)
EPv2:更快的 EP、并支持 Engram/PP/CP
![]()
EPv2 地址:https://github.com/deepseek-ai/DeepEP/pull/605
在今天更早的時候,DeepSeek 還發(fā)布了最新版本的EPv2,實現(xiàn)了更快的專家并行(EP),并支持 Engram / 流水線并行(PP)、上下文并行(CP)。
隨著硬件、網(wǎng)絡和模型架構(gòu)的演進,DeepSeek 此前的 DeepEP V1 積累了過多的歷史包袱和性能問題。
本次更新對專家并行(Expert Parallelism)進行了徹底重構(gòu) —— 與 V1 相比,僅需幾分之一的 SM 資源即可實現(xiàn)極致性能,同時支持更大規(guī)模的 Scale-up(單機擴展)和 Scale-out(跨機擴展)。
此外,DeepSeek 還在本次更新中推出了實驗性的 0 SM 系列方案,包括 0 SM Engram、0 SM 流水線并行(PP)以及 0 SM 上下文并行(CP)的 All-gather 算子。此外,后端已從 NVSHMEM 切換為更加輕量化的 NCCL Gin 后端。
下面是 DeepEP V2 版本的一些新特性:
- 全時即時編譯 (Fully JIT)
- NCCL Gin 后端:
- 僅包含頭文件(Header-only),極致輕量。
- 能夠復用現(xiàn)有的 NCCL 通信器。
- EPv2:
- 將高吞吐與低延遲 API 統(tǒng)一為單一接口,并采用全新的 GEMM 布局。
- 支持更大規(guī)模的擴展領域(最高支持 EP2048)。
- 引入分析化的 SM 和 QP 計數(shù)計算 —— 無需再進行自動調(diào)優(yōu)(Auto-tuning)。
- 持續(xù)支持混合模式(Hybrid)與直接模式(Direct)。
- 針對類 V3 的舊版訓練任務,SM 占用從 24 個降至 4-6 個,同時保持同等甚至更優(yōu)的性能。
- 0 SM Engram(配合 RDMA)
- 0 SM PP(配合 RDMA)
- 0 SM CP(配合 Copy Engine)
性能表現(xiàn)
遵循 DeepSeek-V3 的配置,在新版本下,在每批次 8K token、7168 隱層維度、Top-8 專家、FP8 分發(fā)以及 BF16 結(jié)合的設置下進行了測試,結(jié)果如下:
![]()
說明:結(jié)果顯示的是邏輯帶寬。例如在 EP 8 x 2 的情況下,90 GB/s 的帶寬實際上包含了本地顯卡(local rank)間的流量。
與 V1 相比,V2 實現(xiàn)了高達 1.3 倍的峰值性能,同時節(jié)省了多達 4 倍的 SM 資源占用。
最后,勸一下 DeepSeek,趕快發(fā) V4 吧,都等急了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.