<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達發布Nemotron-Flash:以GPU延遲為核心重塑小模型架構

      0
      分享至



      導讀 過去兩年,小語言模型(SLM)在業界備受關注:參數更少、結構更輕,理應在真實部署中 “更快”。但只要真正把它們跑在 GPU 上,結論往往令人意外 —— 小模型其實沒有想象中那么快。

      參數縮小了,延遲卻常常沒有同步下降;結構輕量化了,吞吐卻未必提升。這并非個別模型的問題,而是小模型設計長期忽略了一個根本事實:“模型更小” 并不等于 “延遲更友好”。

      英偉達研究院就是從這一盲區重新出發:不是把大模型簡單縮小,而是把 “真實 GPU 延遲” 作為結構設計的第一原則,全面重構小模型應該長成的樣子。最終構建的 Nemotron-Flash 模型同時實現了 SOTA 準確率、低延遲、高吞吐,打敗了眾多業界小模型。Nemotron-Flash 已集成進 TensorRT-LLM,單 H100 GPU 吞吐可達 41K tokens/second。



      該論文已被 NeurIPS 2025 接收,相關海報將于 12 月 4 日在 San Diego 展示。



      • 論文鏈接:https://arxiv.org/pdf/2511.18890
      • Hugging Face:

      https://huggingface.co/nvidia/Nemotron-Flash-1B

      https://huggingface.co/nvidia/Nemotron-Flash-3B

      https://huggingface.co/nvidia/Nemotron-Flash-3B-Instruct

      一、小模型為何不夠快?

      真正跑在 GPU 上之后,一切才暴露

      英偉達的分析揭示:小模型之所以不快,是三個長期被忽視的因素造成的:

      首先,是深寬比本身就是一個矛盾體。等參數比較時,模型越深往往越強;但在真實 GPU 上,延遲對 “層數” 極為敏感:層越多,kernel 調度越頻繁,延遲就越高。結果是一個反直覺的事實:想強要變深,想快要變寬。而大多數小模型都深而窄,自然在延遲上吃虧。

      其次,Attention 成本依然是實現高吞吐的最大瓶頸。然而業界對 Mamba2、DeltaNet 等高效算子的組合方式一直缺乏系統方法:哪些層該用 Attention,哪些層應該交給 Linear Attention?沒有明確答案。

      最后,小模型訓練在后期往往會 “提前退場”。權重尺度逐漸偏移、有效梯度下降、模型停滯不前 —— 結構設計再好,容量也無法充分釋放。許多小模型的最終性能其實被訓練本身限制住了,而不是被參數量限制。

      英偉達正是從這三點出發,重新回答了 “小模型應該長成什么樣” 這一根本問題。

      二、Nemotron-Flash 的核心方法

      從延遲重新定義小模型結構

      Nemotron-Flash 的方法論圍繞三個關鍵突破展開,每一個都基于真實 GPU 延遲,而非理論 FLOPs。

      1. 深寬比優化:深度負責能力,寬度負責速度,關鍵是找到黃金點

      Nemotron-Flash 的大量真實設備實驗揭示了小模型容易被忽略的規律:等參數下,越深越強;等延遲下,越寬越快。這兩者天然沖突,意味著:深寬比不是一個隨手調的超參,而是決定小模型最終能力和延遲的核心結構維度。

      通過繪制 “準確率–延遲” 曲線,以及擬合準確率和模型深度 / 寬度的 scaling law,英偉達最終找到一個穩定的結論:模型必須 “足夠深” 才能保住表達能力;也必須 “足夠寬” 才能降低實際延遲;最優結構正是深寬交匯的黃金點。Nemotron-Flash-1B/3B 就是根據這套規律得到的結構,因此既不 “深得拖速度”,也不 “寬得能力不足”。



      2. 混合算子結構:真正的速度來自 “誰和誰搭配”,而不是單一的替代

      Nemotron-Flash 的結構創新并不是簡單 “換上新算子”,而是為不同算子明確角色分工,并系統探索它們的最佳協作方式。英偉達先研究了各類算子的準確率–延遲 trade-off,據此構建搜索空間,再使用遺傳算法尋找算子在不同層之間的最優比例與位置。最終得到的架構由 Attention、Mamba2、DeltaNet 和 FFN 共同組成,各自承擔不同職責:

      • Attention 負責全局依賴,但必須謹慎控制數量與位置。
      • Mamba2、DeltaNet 等 Linear Attention 負責高吞吐的局部建模,是速度的主力層。
      • FFN 提供穩定的表達容量,是所有 block 的基礎骨架。

      Nemotron-Flash 的結果顯示,小模型的能力和速度不取決于某個 “更好的” 算子,而取決于算子之間的協作模式。這進一步證明:面對真實延遲優化時,混合架構往往比任何單一結構更具優勢。

      3. Weight Normalization:讓小模型在訓練后期不再 “掉鏈子”

      英偉達觀察到,小模型訓練后期權重矩陣內部會逐漸形成 structured outliers:隨著訓練推進,部分行或列會系統性地放大,出現遠高于整體分布的大幅值結構,成為隨著優化過程累積產生的 “結構化巨權重”。問題在于:這些巨權重會拖慢乃至凍結訓練后期的進展。 當某些方向的權重范數過大時,反向傳播的梯度在這些方向上被不斷縮放,導致 effective learning rate 急劇下降。模型看似還在更新,但實際已經 “踩不動油門”,無法繼續提升。



      Nemotron-Flash 的解決方案非常直接有效:在訓練過程中的每個 training iteration 后,對每個線性層施加顯式 weight normalization,即將模型權重投影到單位范數球面上。這一歸一化步驟去除了徑向分量,使更新主要發生在角度方向。在相同梯度幅度下,這會帶來更大的相對權重變化。

      效果立竿見影:訓練后期梯度不再被巨權重 “吃掉”,小模型可以持續學習,不會出現常見的 “后期停滯”。在各種模型上,最終收斂質量明顯高于未使用 weight normalization 的基線模型。



      三、Nemotron-Flash Model Family:又快又強


      Nemotron-Flash 結合了上面所有技術,提供 1B 和 3B 兩種模型大小。在 H100 上的實測結果顯示:

      • Nemotron-Flash-1B 相比 Qwen3-0.6B,準確率提升 5.5%,端側推理延遲(batch size=1)快 1.9×,最大吞吐高出 45.6×;
      • Nemotron-Flash-3B 相比 Qwen2.5-3B 與 Qwen3-1.7B,準確率提升 2%~5.5%,端側推理延遲(batch size=1)快 1.3×~1.7×,最大吞吐提升 6.4×~18.7×;Instruct 版本同樣領先,準確率提升約 4.7%,吞吐最高可達 18.7×。



      Nemotron-Flash 的速度與穩定性讓小模型真正具備 “可規模部署” 的能力,能夠在關鍵業務場景中提供持續、可靠且低延遲的體驗 —— 例如在高并發在線服務 中(如搜索助手、智能客服),更快的響應與更高吞吐意味著同樣的 GPU 可以服務更多用戶且體驗更順滑;在端側與邊緣設備 上(如家用機器人、可穿戴 XR),Nemotron-Flash 的寬結構與高速算子讓設備在有限算力下依然能保持實時反應;而在成本敏感的企業私有化部署 場景(如金融、醫療),Nemotron-Flash 是既省成本又能落地高質量 AI 功能的理想選擇。

      結語

      小模型的未來不是 “更小”,而是 “更快、更穩、更強”。Nemotron-Flash 提供了小模型設計的新底層邏輯:深寬比必須圍繞延遲設計;算子組合必須有角色分工;訓練必須保持后期穩定性。通過這套方法,小模型擺脫了 “雖然小但不快” 的悖論,真正實現了:小而強,小而快,小而可用。

      作者簡介

      文章第一作者為 Yonggan Fu (傅泳淦),目前為英偉達研究院科學家。2025 年 5 月于 Georgia Institute of Technology 獲博士學位,2019 年畢業于中國科學技術大學少年班學院,雙修應用物理與計算機科學。博士期間獲得 IBM PhD Fellowship 及 ML & Systems Rising Stars 2023。目前研究方向為高效大模型架構與算法。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      40歲,想結婚,被網暴

      40歲,想結婚,被網暴

      南風窗
      2025-12-08 14:56:09
      82歲保時捷掌門人第四次結婚,迎娶小20歲德國鋼鐵家族后裔

      82歲保時捷掌門人第四次結婚,迎娶小20歲德國鋼鐵家族后裔

      紅星新聞
      2025-12-08 13:05:20
      北京市第十六屆人大城市建設環境保護委員會原委員賀江川接受審查調查

      北京市第十六屆人大城市建設環境保護委員會原委員賀江川接受審查調查

      界面新聞
      2025-12-08 20:35:09
      馬斯克「開顱插針」首破1.5秒!上萬人擠爆,爭當賽博格

      馬斯克「開顱插針」首破1.5秒!上萬人擠爆,爭當賽博格

      新智元
      2025-12-08 12:24:12
      深度睡眠增加100%!北大找到失眠根源,改善方法就在腸道中

      深度睡眠增加100%!北大找到失眠根源,改善方法就在腸道中

      梁佇愛玩車
      2025-12-07 16:37:33
      16歲讀博的神童張炘煬,如今無業躺平啃老,坦然承認:我不是神童

      16歲讀博的神童張炘煬,如今無業躺平啃老,坦然承認:我不是神童

      不寫散文詩
      2025-12-07 19:20:12
      好消息!波城烏軍實控面積達到40%,俄轟炸大壩試圖水淹七軍

      好消息!波城烏軍實控面積達到40%,俄轟炸大壩試圖水淹七軍

      史政先鋒
      2025-12-08 18:16:56
      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      胡嚴亂語
      2025-12-07 15:51:07
      國家稅務總局山東省稅務局原副局長薛建英被查

      國家稅務總局山東省稅務局原副局長薛建英被查

      新京報
      2025-12-08 10:02:21
      甲流離世的人飆升!哈工大研究:吃奧司他韋,謹記不要碰7樣東西

      甲流離世的人飆升!哈工大研究:吃奧司他韋,謹記不要碰7樣東西

      健康之光
      2025-12-08 17:55:58
      中央考核巡查組暗訪,當場發問:你們領導沒睡著是應該的,他心虛啊!

      中央考核巡查組暗訪,當場發問:你們領導沒睡著是應該的,他心虛啊!

      新京報政事兒
      2025-12-08 12:25:00
      中共中央政治局會議:明年經濟工作要堅持穩中求進、提質增效,繼續實施更加積極的財政政策和適度寬松的貨幣政策

      中共中央政治局會議:明年經濟工作要堅持穩中求進、提質增效,繼續實施更加積極的財政政策和適度寬松的貨幣政策

      每日經濟新聞
      2025-12-08 16:45:13
      湖南煙花店老板放煙花自殺事件后續來了:真相大白,令人唏噓

      湖南煙花店老板放煙花自殺事件后續來了:真相大白,令人唏噓

      復轉這些年
      2025-12-07 18:02:55
      美國癌癥死亡率驚人下降,2030年抗癌策略值得學習!

      美國癌癥死亡率驚人下降,2030年抗癌策略值得學習!

      霹靂炮
      2025-12-07 23:06:11
      球員慶祝時跳廣告牌 掉到1層樓高的深坑:希特勒在任時德國人挖的

      球員慶祝時跳廣告牌 掉到1層樓高的深坑:希特勒在任時德國人挖的

      風過鄉
      2025-12-08 17:56:59
      陳震被約談畫面曝光!一切都結束了!

      陳震被約談畫面曝光!一切都結束了!

      廣告創意
      2025-12-08 08:37:53
      美媒稱烏東戰局正發生急劇變化

      美媒稱烏東戰局正發生急劇變化

      參考消息
      2025-12-08 12:53:03
      “00后”小伙跑外賣5年攢下112萬!當事人回應

      “00后”小伙跑外賣5年攢下112萬!當事人回應

      大象新聞
      2025-12-08 18:46:10
      突發!42歲西安和典老夏去世,一年喝酒130次,辦公室內擺滿茅臺

      突發!42歲西安和典老夏去世,一年喝酒130次,辦公室內擺滿茅臺

      裕豐娛間說
      2025-12-08 14:19:08
      王迅老師不幸逝世,官網已變黑白

      王迅老師不幸逝世,官網已變黑白

      wuhu派
      2025-12-08 08:47:33
      2025-12-08 21:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11873文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      美高官齊發聲:中國一直在遵守承諾

      頭條要聞

      美高官齊發聲:中國一直在遵守承諾

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      百億金融爆雷 浙商大佬"朋友圈"也不靈了

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      旅游
      本地
      時尚
      家居
      公開課

      旅游要聞

      廣西南寧:冬日花海醉游人

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      伊姐周日熱推:電視劇《超感迷宮》;電視劇《風與潮》......

      家居要聞

      有限無界 打破慣有思維

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲成人九九| 日本丰满白嫩大屁股ass| 国产精品一区二区AV| 久久精品国产99精品国产2021| 人人超碰在线| 久久久久人妻一区精品| 国产深夜福利| 亚洲黄色精品| 色婷婷?av| 男女吃奶做爰猛烈紧视频| 两根大肉大捧一进一出好爽视频 | 秋霞鲁丝片成人无码国产| 欧美老熟妇乱子伦牲交视频| 香蕉影院在线观看| 奉贤区| 玖玖国产| 精品1卡二卡三卡四卡老狼| 美女裸体视频永久免费| 97久久精品人人澡人人爽| 女人被狂躁c到高潮喷水一区二区| 精品中文人妻在线不卡| 亚洲精品一区| 青青青青国产免费线在线观看| 国产乱人对白| 中文日韩人妻| 99re久久资源最新地址| 色欲色香天天综合网| 果冻传媒一区| 中文字幕在线日亚洲9| 一群老熟女69| 成人欧美一区二区三区在线| 亚洲综合色成在线播放| 永清县| 亚洲中文字幕一区二区| 亚洲a免费| 福利姬液液酱喷水| 科技| 革吉县| 日本道久久综合88| 伊人无码视频| 91超碰在线观看|