網易首頁 > 網易號 > 正文申請入駐

英偉達發布Nemotron-Flash：以GPU延遲為核心重塑小模型架構

2025-12-01 12:14:19　來源: 機器之心Pro

河北舉報

分享至

導讀過去兩年，小語言模型（SLM）在業界備受關注：參數更少、結構更輕，理應在真實部署中 “更快”。但只要真正把它們跑在 GPU 上，結論往往令人意外 —— 小模型其實沒有想象中那么快。

參數縮小了，延遲卻常常沒有同步下降；結構輕量化了，吞吐卻未必提升。這并非個別模型的問題，而是小模型設計長期忽略了一個根本事實：“模型更小” 并不等于 “延遲更友好”。

英偉達研究院就是從這一盲區重新出發：不是把大模型簡單縮小，而是把 “真實 GPU 延遲” 作為結構設計的第一原則，全面重構小模型應該長成的樣子。最終構建的 Nemotron-Flash 模型同時實現了 SOTA 準確率、低延遲、高吞吐，打敗了眾多業界小模型。Nemotron-Flash 已集成進 TensorRT-LLM，單 H100 GPU 吞吐可達 41K tokens/second。

該論文已被 NeurIPS 2025 接收，相關海報將于 12 月 4 日在 San Diego 展示。

論文鏈接：https://arxiv.org/pdf/2511.18890
Hugging Face:

https://huggingface.co/nvidia/Nemotron-Flash-1B

https://huggingface.co/nvidia/Nemotron-Flash-3B

https://huggingface.co/nvidia/Nemotron-Flash-3B-Instruct

一、小模型為何不夠快？

真正跑在 GPU 上之后，一切才暴露

英偉達的分析揭示：小模型之所以不快，是三個長期被忽視的因素造成的:

首先，是深寬比本身就是一個矛盾體。等參數比較時，模型越深往往越強；但在真實 GPU 上，延遲對 “層數” 極為敏感：層越多，kernel 調度越頻繁，延遲就越高。結果是一個反直覺的事實：想強要變深，想快要變寬。而大多數小模型都深而窄，自然在延遲上吃虧。

其次，Attention 成本依然是實現高吞吐的最大瓶頸。然而業界對 Mamba2、DeltaNet 等高效算子的組合方式一直缺乏系統方法：哪些層該用 Attention，哪些層應該交給 Linear Attention？沒有明確答案。

最后，小模型訓練在后期往往會 “提前退場”。權重尺度逐漸偏移、有效梯度下降、模型停滯不前 —— 結構設計再好，容量也無法充分釋放。許多小模型的最終性能其實被訓練本身限制住了，而不是被參數量限制。

英偉達正是從這三點出發，重新回答了 “小模型應該長成什么樣” 這一根本問題。

二、Nemotron-Flash 的核心方法

從延遲重新定義小模型結構

Nemotron-Flash 的方法論圍繞三個關鍵突破展開，每一個都基于真實 GPU 延遲，而非理論 FLOPs。

1. 深寬比優化：深度負責能力，寬度負責速度，關鍵是找到黃金點

Nemotron-Flash 的大量真實設備實驗揭示了小模型容易被忽略的規律：等參數下，越深越強；等延遲下，越寬越快。這兩者天然沖突，意味著：深寬比不是一個隨手調的超參，而是決定小模型最終能力和延遲的核心結構維度。

通過繪制 “準確率–延遲” 曲線，以及擬合準確率和模型深度 / 寬度的 scaling law，英偉達最終找到一個穩定的結論：模型必須 “足夠深” 才能保住表達能力；也必須 “足夠寬” 才能降低實際延遲；最優結構正是深寬交匯的黃金點。Nemotron-Flash-1B/3B 就是根據這套規律得到的結構，因此既不 “深得拖速度”，也不 “寬得能力不足”。

2. 混合算子結構：真正的速度來自 “誰和誰搭配”，而不是單一的替代

Nemotron-Flash 的結構創新并不是簡單 “換上新算子”，而是為不同算子明確角色分工，并系統探索它們的最佳協作方式。英偉達先研究了各類算子的準確率–延遲 trade-off，據此構建搜索空間，再使用遺傳算法尋找算子在不同層之間的最優比例與位置。最終得到的架構由 Attention、Mamba2、DeltaNet 和 FFN 共同組成，各自承擔不同職責：

Attention 負責全局依賴，但必須謹慎控制數量與位置。
Mamba2、DeltaNet 等 Linear Attention 負責高吞吐的局部建模，是速度的主力層。
FFN 提供穩定的表達容量，是所有 block 的基礎骨架。

Nemotron-Flash 的結果顯示，小模型的能力和速度不取決于某個 “更好的” 算子，而取決于算子之間的協作模式。這進一步證明：面對真實延遲優化時，混合架構往往比任何單一結構更具優勢。

3. Weight Normalization：讓小模型在訓練后期不再 “掉鏈子”

英偉達觀察到，小模型訓練后期權重矩陣內部會逐漸形成 structured outliers：隨著訓練推進，部分行或列會系統性地放大，出現遠高于整體分布的大幅值結構，成為隨著優化過程累積產生的 “結構化巨權重”。問題在于：這些巨權重會拖慢乃至凍結訓練后期的進展。當某些方向的權重范數過大時，反向傳播的梯度在這些方向上被不斷縮放，導致 effective learning rate 急劇下降。模型看似還在更新，但實際已經 “踩不動油門”，無法繼續提升。

Nemotron-Flash 的解決方案非常直接有效：在訓練過程中的每個 training iteration 后，對每個線性層施加顯式 weight normalization，即將模型權重投影到單位范數球面上。這一歸一化步驟去除了徑向分量，使更新主要發生在角度方向。在相同梯度幅度下，這會帶來更大的相對權重變化。

效果立竿見影：訓練后期梯度不再被巨權重 “吃掉”，小模型可以持續學習，不會出現常見的 “后期停滯”。在各種模型上，最終收斂質量明顯高于未使用 weight normalization 的基線模型。

三、Nemotron-Flash Model Family：又快又強

Nemotron-Flash 結合了上面所有技術，提供 1B 和 3B 兩種模型大小。在 H100 上的實測結果顯示：

Nemotron-Flash-1B 相比 Qwen3-0.6B，準確率提升 5.5%，端側推理延遲（batch size=1）快 1.9×，最大吞吐高出 45.6×；
Nemotron-Flash-3B 相比 Qwen2.5-3B 與 Qwen3-1.7B，準確率提升 2%~5.5%，端側推理延遲（batch size=1）快 1.3×~1.7×，最大吞吐提升 6.4×~18.7×；Instruct 版本同樣領先，準確率提升約 4.7%，吞吐最高可達 18.7×。

Nemotron-Flash 的速度與穩定性讓小模型真正具備 “可規模部署” 的能力，能夠在關鍵業務場景中提供持續、可靠且低延遲的體驗 —— 例如在高并發在線服務中（如搜索助手、智能客服），更快的響應與更高吞吐意味著同樣的 GPU 可以服務更多用戶且體驗更順滑；在端側與邊緣設備上（如家用機器人、可穿戴 XR），Nemotron-Flash 的寬結構與高速算子讓設備在有限算力下依然能保持實時反應；而在成本敏感的企業私有化部署場景（如金融、醫療），Nemotron-Flash 是既省成本又能落地高質量 AI 功能的理想選擇。

結語

小模型的未來不是 “更小”，而是 “更快、更穩、更強”。Nemotron-Flash 提供了小模型設計的新底層邏輯：深寬比必須圍繞延遲設計；算子組合必須有角色分工；訓練必須保持后期穩定性。通過這套方法，小模型擺脫了 “雖然小但不快” 的悖論，真正實現了：小而強，小而快，小而可用。

作者簡介

文章第一作者為 Yonggan Fu (傅泳淦)，目前為英偉達研究院科學家。2025 年 5 月于 Georgia Institute of Technology 獲博士學位，2019 年畢業于中國科學技術大學少年班學院，雙修應用物理與計算機科學。博士期間獲得 IBM PhD Fellowship 及 ML & Systems Rising Stars 2023。目前研究方向為高效大模型架構與算法。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.