編輯 | 杜偉、澤南
幾天前,DeepSeek 毫無預兆地更新了 R1 論文,將原有的 22 頁增加到了現在的 86 頁。
新版本充實了更多細節內容,包括首次公開訓練全路徑,即從冷啟動、訓練導向 RL、拒絕采樣與再微調到全場景對齊 RL 的四階段 pipeline,以及「Aha Moment」的數據化驗證等等。
![]()
DeepSeek-R1 是在 2025 年 1 月 20 日發布的開源推理大模型,它擁有 6710 億參數、單 Token 激活參數為 370 億,并采用了 MoE 架構,訓練效率得到了顯著提升。
R1 在去年的推出震動了全球 AI 領域,其高效率的模型架構、訓練方法、工程優化和蒸餾方法在之后成為了全行業的趨勢。
沒想到在不到一年之后的今天,R1 模型的每 token 成本竟已降低了到了 1/32!
今天,英偉達發表了一篇長文博客,展示了其如何在 Blackwell GPU 上通過軟硬協同對 DeepSeek-R1 進一步降本增效。
![]()
隨著 AI 模型智能程度的不斷提升,人們開始依托 AI 處理日益復雜的任務。從普通消費者到大型企業,用戶與 AI 交互的頻率顯著增加,這也意味著需要生成的 Token 數量呈指數級增長。為了以最低成本提供這些 Token,AI 平臺必須實現極高的每瓦特 Token 吞吐量。
通過在 GPU、CPU、網絡、軟件、供電及散熱方案上的深度協同設計,英偉達持續提升每瓦特 Token 吞吐量,從而有效降低了每百萬 Token 的成本。此外,英偉達不斷優化其軟件棧,從現有平臺中挖掘更強的性能潛力。
那么,英偉達是怎樣協同利用運行在 Blackwell 架構上的推理軟件棧,以實現 DeepSeek-R1 在多種應用場景中的性能增益呢?我們接著往下看。
最新 NVIDIA TensorRT-LLM 軟件大幅提升推理性能
NVIDIA GB200 NVL72 是一個多節點液冷機架級擴展系統,適用于高度密集型的工作負載。該系統通過第五代 NVIDIA NVLink 互連技術和 NVLink Switch 芯片連接了 72 個 NVIDIA Blackwell GPU,為機架內的所有芯片提供高達 1800 GB/s 的雙向帶寬。
這種大規模的「擴展域」(Scale-up Domain)專為稀疏 MoE 架構優化,此類模型在生成 Token 時需要專家之間頻繁的數據交換。
Blackwell 架構還加入了對 NVFP4 數據格式的硬件加速。這是英偉達設計的一種 4 位浮點格式,相比其他 FP4 格式能更好地保持精度。此外,解耦服務(Disaggregated Serving)這類優化技術也充分利用了 NVL72 架構和 NVLink Switch 技術。簡單來解釋一下解耦服務,即在一組 GPU 上執行 Prefill(預填充)操作,在另一組 GPU 上執行 Decode(解碼)操作。
這些架構創新使得 NVIDIA GB200 NVL72 在運行 DeepSeek-R1 時,能夠提供行業領先的性能。
得益于最新 NVIDIA TensorRT-LLM 軟件和 GB200 NVL72 的協同,DeepSeek-R1 在 8K/1K 輸入 / 輸出序列長度下的 Token 吞吐量大幅提升。
![]()
同樣地,得益于最新 NVIDIA TensorRT-LLM 軟件與 GB200 NVL72 的協同,在 1K/1K 序列長度下,DeepSeek-R1 Token 吞吐量同樣大幅提升。
![]()
另外,在 8K/1K、1K/1K 兩種輸入 / 輸出序列長度的吞吐量與交互性曲線上,GB200 NVL72 也展現出了領先的單 GPU 吞吐能力。
而 TensorRT-LLM 開源庫(用于優化 LLM 推理)的最新增強功能,在同一平臺上再次大幅增強了性能。在過去三個月中,每個 Blackwell GPU 的吞吐量提升高達 2.8 倍(這里指的是在 8k/1k 輸入 / 輸出序列長度下,去年 10 月到今年 1 月的 Token 吞吐量變化)。
這些優化背后的核心技術包括:
- 擴大 NVIDIA 程序化依賴啟動 (PDL) 的應用:降低核函數啟動延遲,有助于提升各種交互水平下的吞吐量;
- 底層核函數優化:更高效地利用 NVIDIA Blackwell Tensor Core;
- 優化的 All-to-all 通信原語:消除了接收端的額外中間緩沖區。
有業內人士對英偉達放出的一系列圖表進行了直觀的解讀,用一組數據來總結就是,「通過軟硬件的深度協同,自 2025 年 1 月以來,英偉達已經將 DeepSeek-R1 (671B) 的吞吐量提升了約 36 倍,這意味著單 Token 的推理成本降低到了約 1/32。」
![]()
![]()
利用多 token 預測和 NVFP4 技術加速 NVIDIA HGX B200 性能
NVIDIA HGX B200 平臺由八個采用第五代 NVLink 互連和 NVLink Switch 連接的 Blackwell GPU 組成,在風冷環境下也能實現強大的 DeepSeek-R1 推理性能。
兩項關鍵技術使 HGX B200 上的 DeepSeek-R1 推理性能大幅提升。第一項技術是使用多 token 預測 (MTP),它可以顯著提高各種交互級別下的吞吐量。在所有三種測試的輸入 / 輸出序列組合中都觀察到了這一現象。
![]()
在 HGX B200 平臺上,使用 1K/1K 序列長度和聚合服務模式下,FP8(不帶 MTP)、FP8(帶 MTP)和 NVFP4(帶 MTP)的吞吐量與交互性曲線對比。
第二種方法是使用 NVFP4,充分利用 Blackwell GPU 計算能力來提升性能,同時保持精度。
![]()
在 HGX B200 平臺上,使用 8K/1K 序列長度和聚合服務模式下,FP8(不含 MTP)、FP8(含 MTP)和 NVFP4(含 MTP)的吞吐量與交互性曲線對比。
NVFP4 使用在完整的 NVIDIA 軟件棧上(包括 TensorRT-LLM 和 NVIDIA TensorRT 模型優化器),以確保高性能并保持精度。這使得在給定交互級別下能夠實現更高的吞吐量,并且在相同的 HGX B200 平臺上,可以實現更高的交互級別。
![]()
在 HGX B200 平臺上,FP8(無 MTP)、FP8(有 MTP)和 NVFP4(有 MTP)的吞吐量與交互性曲線,序列長度分別為 1K 和 8K,并采用聚合服務模式。
英偉達表示,其正在不斷提升整個技術堆棧的性能,可以幫助用戶基于現有硬件產品,持續提升大語言模型的工作負載效率,提升各種模型的 token 吞吐量。
博客地址:
https://developer.nvidia.com/blog/delivering-massive-performance-leaps-for-mixture-of-experts-inference-on-nvidia-blackwell/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.