網易首頁 > 網易號 > 正文申請入駐

一年后，DeepSeek-R1的每token成本降到了原來的1/32

2026-01-09 14:34:59　來源: 機器之心Pro

河北舉報

分享至

編輯 | 杜偉、澤南

幾天前，DeepSeek 毫無預兆地更新了 R1 論文，將原有的 22 頁增加到了現在的 86 頁。

新版本充實了更多細節內容，包括首次公開訓練全路徑，即從冷啟動、訓練導向 RL、拒絕采樣與再微調到全場景對齊 RL 的四階段 pipeline，以及「Aha Moment」的數據化驗證等等。

DeepSeek-R1 是在 2025 年 1 月 20 日發布的開源推理大模型，它擁有 6710 億參數、單 Token 激活參數為 370 億，并采用了 MoE 架構，訓練效率得到了顯著提升。

R1 在去年的推出震動了全球 AI 領域，其高效率的模型架構、訓練方法、工程優化和蒸餾方法在之后成為了全行業的趨勢。

沒想到在不到一年之后的今天，R1 模型的每 token 成本竟已降低了到了 1/32！

今天，英偉達發表了一篇長文博客，展示了其如何在 Blackwell GPU 上通過軟硬協同對 DeepSeek-R1 進一步降本增效。

隨著 AI 模型智能程度的不斷提升，人們開始依托 AI 處理日益復雜的任務。從普通消費者到大型企業，用戶與 AI 交互的頻率顯著增加，這也意味著需要生成的 Token 數量呈指數級增長。為了以最低成本提供這些 Token，AI 平臺必須實現極高的每瓦特 Token 吞吐量。

通過在 GPU、CPU、網絡、軟件、供電及散熱方案上的深度協同設計，英偉達持續提升每瓦特 Token 吞吐量，從而有效降低了每百萬 Token 的成本。此外，英偉達不斷優化其軟件棧，從現有平臺中挖掘更強的性能潛力。

那么，英偉達是怎樣協同利用運行在 Blackwell 架構上的推理軟件棧，以實現 DeepSeek-R1 在多種應用場景中的性能增益呢？我們接著往下看。

最新 NVIDIA TensorRT-LLM 軟件大幅提升推理性能

NVIDIA GB200 NVL72 是一個多節點液冷機架級擴展系統，適用于高度密集型的工作負載。該系統通過第五代 NVIDIA NVLink 互連技術和 NVLink Switch 芯片連接了 72 個 NVIDIA Blackwell GPU，為機架內的所有芯片提供高達 1800 GB/s 的雙向帶寬。

這種大規模的「擴展域」（Scale-up Domain）專為稀疏 MoE 架構優化，此類模型在生成 Token 時需要專家之間頻繁的數據交換。

Blackwell 架構還加入了對 NVFP4 數據格式的硬件加速。這是英偉達設計的一種 4 位浮點格式，相比其他 FP4 格式能更好地保持精度。此外，解耦服務（Disaggregated Serving）這類優化技術也充分利用了 NVL72 架構和 NVLink Switch 技術。簡單來解釋一下解耦服務，即在一組 GPU 上執行 Prefill（預填充）操作，在另一組 GPU 上執行 Decode（解碼）操作。

這些架構創新使得 NVIDIA GB200 NVL72 在運行 DeepSeek-R1 時，能夠提供行業領先的性能。

得益于最新 NVIDIA TensorRT-LLM 軟件和 GB200 NVL72 的協同，DeepSeek-R1 在 8K/1K 輸入 / 輸出序列長度下的 Token 吞吐量大幅提升。

同樣地，得益于最新 NVIDIA TensorRT-LLM 軟件與 GB200 NVL72 的協同，在 1K/1K 序列長度下，DeepSeek-R1 Token 吞吐量同樣大幅提升。

另外，在 8K/1K、1K/1K 兩種輸入 / 輸出序列長度的吞吐量與交互性曲線上，GB200 NVL72 也展現出了領先的單 GPU 吞吐能力。

而 TensorRT-LLM 開源庫（用于優化 LLM 推理）的最新增強功能，在同一平臺上再次大幅增強了性能。在過去三個月中，每個 Blackwell GPU 的吞吐量提升高達 2.8 倍（這里指的是在 8k/1k 輸入 / 輸出序列長度下，去年 10 月到今年 1 月的 Token 吞吐量變化）。

這些優化背后的核心技術包括：

擴大 NVIDIA 程序化依賴啟動 (PDL) 的應用：降低核函數啟動延遲，有助于提升各種交互水平下的吞吐量；
底層核函數優化：更高效地利用 NVIDIA Blackwell Tensor Core；
優化的 All-to-all 通信原語：消除了接收端的額外中間緩沖區。

有業內人士對英偉達放出的一系列圖表進行了直觀的解讀，用一組數據來總結就是，「通過軟硬件的深度協同，自 2025 年 1 月以來，英偉達已經將 DeepSeek-R1 (671B) 的吞吐量提升了約 36 倍，這意味著單 Token 的推理成本降低到了約 1/32。」

利用多 token 預測和 NVFP4 技術加速 NVIDIA HGX B200 性能

NVIDIA HGX B200 平臺由八個采用第五代 NVLink 互連和 NVLink Switch 連接的 Blackwell GPU 組成，在風冷環境下也能實現強大的 DeepSeek-R1 推理性能。

兩項關鍵技術使 HGX B200 上的 DeepSeek-R1 推理性能大幅提升。第一項技術是使用多 token 預測 (MTP)，它可以顯著提高各種交互級別下的吞吐量。在所有三種測試的輸入 / 輸出序列組合中都觀察到了這一現象。

在 HGX B200 平臺上，使用 1K/1K 序列長度和聚合服務模式下，FP8（不帶 MTP）、FP8（帶 MTP）和 NVFP4（帶 MTP）的吞吐量與交互性曲線對比。

第二種方法是使用 NVFP4，充分利用 Blackwell GPU 計算能力來提升性能，同時保持精度。

在 HGX B200 平臺上，使用 8K/1K 序列長度和聚合服務模式下，FP8（不含 MTP）、FP8（含 MTP）和 NVFP4（含 MTP）的吞吐量與交互性曲線對比。

NVFP4 使用在完整的 NVIDIA 軟件棧上（包括 TensorRT-LLM 和 NVIDIA TensorRT 模型優化器），以確保高性能并保持精度。這使得在給定交互級別下能夠實現更高的吞吐量，并且在相同的 HGX B200 平臺上，可以實現更高的交互級別。

在 HGX B200 平臺上，FP8（無 MTP）、FP8（有 MTP）和 NVFP4（有 MTP）的吞吐量與交互性曲線，序列長度分別為 1K 和 8K，并采用聚合服務模式。

英偉達表示，其正在不斷提升整個技術堆棧的性能，可以幫助用戶基于現有硬件產品，持續提升大語言模型的工作負載效率，提升各種模型的 token 吞吐量。

博客地址：

https://developer.nvidia.com/blog/delivering-massive-performance-leaps-for-mixture-of-experts-inference-on-nvidia-blackwell/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.