![]()
導讀 過去兩年,小語言模型(SLM)在業界備受關注:參數更少、結構更輕,理應在真實部署中 “更快”。但只要真正把它們跑在 GPU 上,結論往往令人意外 —— 小模型其實沒有想象中那么快。
參數縮小了,延遲卻常常沒有同步下降;結構輕量化了,吞吐卻未必提升。這并非個別模型的問題,而是小模型設計長期忽略了一個根本事實:“模型更小” 并不等于 “延遲更友好”。
英偉達研究院就是從這一盲區重新出發:不是把大模型簡單縮小,而是把 “真實 GPU 延遲” 作為結構設計的第一原則,全面重構小模型應該長成的樣子。最終構建的 Nemotron-Flash 模型同時實現了 SOTA 準確率、低延遲、高吞吐,打敗了眾多業界小模型。Nemotron-Flash 已集成進 TensorRT-LLM,單 H100 GPU 吞吐可達 41K tokens/second。
![]()
該論文已被 NeurIPS 2025 接收,相關海報將于 12 月 4 日在 San Diego 展示。
![]()
- 論文鏈接:https://arxiv.org/pdf/2511.18890
- Hugging Face:
https://huggingface.co/nvidia/Nemotron-Flash-1B
https://huggingface.co/nvidia/Nemotron-Flash-3B
https://huggingface.co/nvidia/Nemotron-Flash-3B-Instruct
一、小模型為何不夠快?
真正跑在 GPU 上之后,一切才暴露
英偉達的分析揭示:小模型之所以不快,是三個長期被忽視的因素造成的:
首先,是深寬比本身就是一個矛盾體。等參數比較時,模型越深往往越強;但在真實 GPU 上,延遲對 “層數” 極為敏感:層越多,kernel 調度越頻繁,延遲就越高。結果是一個反直覺的事實:想強要變深,想快要變寬。而大多數小模型都深而窄,自然在延遲上吃虧。
其次,Attention 成本依然是實現高吞吐的最大瓶頸。然而業界對 Mamba2、DeltaNet 等高效算子的組合方式一直缺乏系統方法:哪些層該用 Attention,哪些層應該交給 Linear Attention?沒有明確答案。
最后,小模型訓練在后期往往會 “提前退場”。權重尺度逐漸偏移、有效梯度下降、模型停滯不前 —— 結構設計再好,容量也無法充分釋放。許多小模型的最終性能其實被訓練本身限制住了,而不是被參數量限制。
英偉達正是從這三點出發,重新回答了 “小模型應該長成什么樣” 這一根本問題。
二、Nemotron-Flash 的核心方法
從延遲重新定義小模型結構
Nemotron-Flash 的方法論圍繞三個關鍵突破展開,每一個都基于真實 GPU 延遲,而非理論 FLOPs。
1. 深寬比優化:深度負責能力,寬度負責速度,關鍵是找到黃金點
Nemotron-Flash 的大量真實設備實驗揭示了小模型容易被忽略的規律:等參數下,越深越強;等延遲下,越寬越快。這兩者天然沖突,意味著:深寬比不是一個隨手調的超參,而是決定小模型最終能力和延遲的核心結構維度。
通過繪制 “準確率–延遲” 曲線,以及擬合準確率和模型深度 / 寬度的 scaling law,英偉達最終找到一個穩定的結論:模型必須 “足夠深” 才能保住表達能力;也必須 “足夠寬” 才能降低實際延遲;最優結構正是深寬交匯的黃金點。Nemotron-Flash-1B/3B 就是根據這套規律得到的結構,因此既不 “深得拖速度”,也不 “寬得能力不足”。
![]()
2. 混合算子結構:真正的速度來自 “誰和誰搭配”,而不是單一的替代
Nemotron-Flash 的結構創新并不是簡單 “換上新算子”,而是為不同算子明確角色分工,并系統探索它們的最佳協作方式。英偉達先研究了各類算子的準確率–延遲 trade-off,據此構建搜索空間,再使用遺傳算法尋找算子在不同層之間的最優比例與位置。最終得到的架構由 Attention、Mamba2、DeltaNet 和 FFN 共同組成,各自承擔不同職責:
- Attention 負責全局依賴,但必須謹慎控制數量與位置。
- Mamba2、DeltaNet 等 Linear Attention 負責高吞吐的局部建模,是速度的主力層。
- FFN 提供穩定的表達容量,是所有 block 的基礎骨架。
Nemotron-Flash 的結果顯示,小模型的能力和速度不取決于某個 “更好的” 算子,而取決于算子之間的協作模式。這進一步證明:面對真實延遲優化時,混合架構往往比任何單一結構更具優勢。
3. Weight Normalization:讓小模型在訓練后期不再 “掉鏈子”
英偉達觀察到,小模型訓練后期權重矩陣內部會逐漸形成 structured outliers:隨著訓練推進,部分行或列會系統性地放大,出現遠高于整體分布的大幅值結構,成為隨著優化過程累積產生的 “結構化巨權重”。問題在于:這些巨權重會拖慢乃至凍結訓練后期的進展。 當某些方向的權重范數過大時,反向傳播的梯度在這些方向上被不斷縮放,導致 effective learning rate 急劇下降。模型看似還在更新,但實際已經 “踩不動油門”,無法繼續提升。
![]()
Nemotron-Flash 的解決方案非常直接有效:在訓練過程中的每個 training iteration 后,對每個線性層施加顯式 weight normalization,即將模型權重投影到單位范數球面上。這一歸一化步驟去除了徑向分量,使更新主要發生在角度方向。在相同梯度幅度下,這會帶來更大的相對權重變化。
效果立竿見影:訓練后期梯度不再被巨權重 “吃掉”,小模型可以持續學習,不會出現常見的 “后期停滯”。在各種模型上,最終收斂質量明顯高于未使用 weight normalization 的基線模型。
![]()
三、Nemotron-Flash Model Family:又快又強
Nemotron-Flash 結合了上面所有技術,提供 1B 和 3B 兩種模型大小。在 H100 上的實測結果顯示:
- Nemotron-Flash-1B 相比 Qwen3-0.6B,準確率提升 5.5%,端側推理延遲(batch size=1)快 1.9×,最大吞吐高出 45.6×;
- Nemotron-Flash-3B 相比 Qwen2.5-3B 與 Qwen3-1.7B,準確率提升 2%~5.5%,端側推理延遲(batch size=1)快 1.3×~1.7×,最大吞吐提升 6.4×~18.7×;Instruct 版本同樣領先,準確率提升約 4.7%,吞吐最高可達 18.7×。
![]()
Nemotron-Flash 的速度與穩定性讓小模型真正具備 “可規模部署” 的能力,能夠在關鍵業務場景中提供持續、可靠且低延遲的體驗 —— 例如在高并發在線服務 中(如搜索助手、智能客服),更快的響應與更高吞吐意味著同樣的 GPU 可以服務更多用戶且體驗更順滑;在端側與邊緣設備 上(如家用機器人、可穿戴 XR),Nemotron-Flash 的寬結構與高速算子讓設備在有限算力下依然能保持實時反應;而在成本敏感的企業私有化部署 場景(如金融、醫療),Nemotron-Flash 是既省成本又能落地高質量 AI 功能的理想選擇。
結語
小模型的未來不是 “更小”,而是 “更快、更穩、更強”。Nemotron-Flash 提供了小模型設計的新底層邏輯:深寬比必須圍繞延遲設計;算子組合必須有角色分工;訓練必須保持后期穩定性。通過這套方法,小模型擺脫了 “雖然小但不快” 的悖論,真正實現了:小而強,小而快,小而可用。
作者簡介
文章第一作者為 Yonggan Fu (傅泳淦),目前為英偉達研究院科學家。2025 年 5 月于 Georgia Institute of Technology 獲博士學位,2019 年畢業于中國科學技術大學少年班學院,雙修應用物理與計算機科學。博士期間獲得 IBM PhD Fellowship 及 ML & Systems Rising Stars 2023。目前研究方向為高效大模型架構與算法。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.