<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      一年后,DeepSeek-R1的每token成本降到了原來的1/32

      0
      分享至

      編輯 | 杜偉、澤南

      幾天前,DeepSeek 毫無預兆地更新了 R1 論文,將原有的 22 頁增加到了現在的 86 頁。

      新版本充實了更多細節內容,包括首次公開訓練全路徑,即從冷啟動、訓練導向 RL、拒絕采樣與再微調到全場景對齊 RL 的四階段 pipeline,以及「Aha Moment」的數據化驗證等等。



      DeepSeek-R1 是在 2025 年 1 月 20 日發布的開源推理大模型,它擁有 6710 億參數、單 Token 激活參數為 370 億,并采用了 MoE 架構,訓練效率得到了顯著提升。

      R1 在去年的推出震動了全球 AI 領域,其高效率的模型架構、訓練方法、工程優化和蒸餾方法在之后成為了全行業的趨勢。

      沒想到在不到一年之后的今天,R1 模型的每 token 成本竟已降低了到了 1/32!

      今天,英偉達發表了一篇長文博客,展示了其如何在 Blackwell GPU 上通過軟硬協同對 DeepSeek-R1 進一步降本增效。



      隨著 AI 模型智能程度的不斷提升,人們開始依托 AI 處理日益復雜的任務。從普通消費者到大型企業,用戶與 AI 交互的頻率顯著增加,這也意味著需要生成的 Token 數量呈指數級增長。為了以最低成本提供這些 Token,AI 平臺必須實現極高的每瓦特 Token 吞吐量。

      通過在 GPU、CPU、網絡、軟件、供電及散熱方案上的深度協同設計,英偉達持續提升每瓦特 Token 吞吐量,從而有效降低了每百萬 Token 的成本。此外,英偉達不斷優化其軟件棧,從現有平臺中挖掘更強的性能潛力。

      那么,英偉達是怎樣協同利用運行在 Blackwell 架構上的推理軟件棧,以實現 DeepSeek-R1 在多種應用場景中的性能增益呢?我們接著往下看。

      最新 NVIDIA TensorRT-LLM 軟件大幅提升推理性能

      NVIDIA GB200 NVL72 是一個多節點液冷機架級擴展系統,適用于高度密集型的工作負載。該系統通過第五代 NVIDIA NVLink 互連技術和 NVLink Switch 芯片連接了 72 個 NVIDIA Blackwell GPU,為機架內的所有芯片提供高達 1800 GB/s 的雙向帶寬。

      這種大規模的「擴展域」(Scale-up Domain)專為稀疏 MoE 架構優化,此類模型在生成 Token 時需要專家之間頻繁的數據交換。

      Blackwell 架構還加入了對 NVFP4 數據格式的硬件加速。這是英偉達設計的一種 4 位浮點格式,相比其他 FP4 格式能更好地保持精度。此外,解耦服務(Disaggregated Serving)這類優化技術也充分利用了 NVL72 架構和 NVLink Switch 技術。簡單來解釋一下解耦服務,即在一組 GPU 上執行 Prefill(預填充)操作,在另一組 GPU 上執行 Decode(解碼)操作。

      這些架構創新使得 NVIDIA GB200 NVL72 在運行 DeepSeek-R1 時,能夠提供行業領先的性能。

      得益于最新 NVIDIA TensorRT-LLM 軟件和 GB200 NVL72 的協同,DeepSeek-R1 在 8K/1K 輸入 / 輸出序列長度下的 Token 吞吐量大幅提升。



      同樣地,得益于最新 NVIDIA TensorRT-LLM 軟件與 GB200 NVL72 的協同,在 1K/1K 序列長度下,DeepSeek-R1 Token 吞吐量同樣大幅提升。



      另外,在 8K/1K、1K/1K 兩種輸入 / 輸出序列長度的吞吐量與交互性曲線上,GB200 NVL72 也展現出了領先的單 GPU 吞吐能力。

      而 TensorRT-LLM 開源庫(用于優化 LLM 推理)的最新增強功能,在同一平臺上再次大幅增強了性能。在過去三個月中,每個 Blackwell GPU 的吞吐量提升高達 2.8 倍(這里指的是在 8k/1k 輸入 / 輸出序列長度下,去年 10 月到今年 1 月的 Token 吞吐量變化)。

      這些優化背后的核心技術包括:

      • 擴大 NVIDIA 程序化依賴啟動 (PDL) 的應用:降低核函數啟動延遲,有助于提升各種交互水平下的吞吐量;
      • 底層核函數優化:更高效地利用 NVIDIA Blackwell Tensor Core;
      • 優化的 All-to-all 通信原語:消除了接收端的額外中間緩沖區。

      有業內人士對英偉達放出的一系列圖表進行了直觀的解讀,用一組數據來總結就是,「通過軟硬件的深度協同,自 2025 年 1 月以來,英偉達已經將 DeepSeek-R1 (671B) 的吞吐量提升了約 36 倍,這意味著單 Token 的推理成本降低到了約 1/32。」





      利用多 token 預測和 NVFP4 技術加速 NVIDIA HGX B200 性能

      NVIDIA HGX B200 平臺由八個采用第五代 NVLink 互連和 NVLink Switch 連接的 Blackwell GPU 組成,在風冷環境下也能實現強大的 DeepSeek-R1 推理性能。

      兩項關鍵技術使 HGX B200 上的 DeepSeek-R1 推理性能大幅提升。第一項技術是使用多 token 預測 (MTP),它可以顯著提高各種交互級別下的吞吐量。在所有三種測試的輸入 / 輸出序列組合中都觀察到了這一現象。



      在 HGX B200 平臺上,使用 1K/1K 序列長度和聚合服務模式下,FP8(不帶 MTP)、FP8(帶 MTP)和 NVFP4(帶 MTP)的吞吐量與交互性曲線對比。

      第二種方法是使用 NVFP4,充分利用 Blackwell GPU 計算能力來提升性能,同時保持精度。



      在 HGX B200 平臺上,使用 8K/1K 序列長度和聚合服務模式下,FP8(不含 MTP)、FP8(含 MTP)和 NVFP4(含 MTP)的吞吐量與交互性曲線對比。

      NVFP4 使用在完整的 NVIDIA 軟件棧上(包括 TensorRT-LLM 和 NVIDIA TensorRT 模型優化器),以確保高性能并保持精度。這使得在給定交互級別下能夠實現更高的吞吐量,并且在相同的 HGX B200 平臺上,可以實現更高的交互級別。



      在 HGX B200 平臺上,FP8(無 MTP)、FP8(有 MTP)和 NVFP4(有 MTP)的吞吐量與交互性曲線,序列長度分別為 1K 和 8K,并采用聚合服務模式。

      英偉達表示,其正在不斷提升整個技術堆棧的性能,可以幫助用戶基于現有硬件產品,持續提升大語言模型的工作負載效率,提升各種模型的 token 吞吐量。

      博客地址:

      https://developer.nvidia.com/blog/delivering-massive-performance-leaps-for-mixture-of-experts-inference-on-nvidia-blackwell/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      訂單暴漲2000%!一舉突破美國壟斷,這家中國企業實在太“猛”了

      訂單暴漲2000%!一舉突破美國壟斷,這家中國企業實在太“猛”了

      牛牛叨史
      2026-01-22 00:01:48
      不知道大家有沒有這種感覺,
孫穎莎其實才是國乒里最狠的那個人

      不知道大家有沒有這種感覺, 孫穎莎其實才是國乒里最狠的那個人

      小光侃娛樂
      2025-12-28 10:00:08
      不下桌總有機會開席!41歲丑聞纏身的朱亞文,這次要“翻身”了

      不下桌總有機會開席!41歲丑聞纏身的朱亞文,這次要“翻身”了

      奇怪的鯊魚們
      2026-01-22 12:14:44
      U23亞洲杯突然變臉中國3比0越南進決賽 東南亞驚呼

      U23亞洲杯突然變臉中國3比0越南進決賽 東南亞驚呼

      詩遠文案館
      2026-01-22 12:06:35
      4-2!亞馬爾缺席,萊萬搶戲,弗里克神換人,巴薩輕取歐冠弱旅

      4-2!亞馬爾缺席,萊萬搶戲,弗里克神換人,巴薩輕取歐冠弱旅

      我的護球最獨特
      2026-01-22 06:09:57
      “后坐力”太大!閆學晶又被爆出猛料,她和兒子已經一個也跑不了

      “后坐力”太大!閆學晶又被爆出猛料,她和兒子已經一個也跑不了

      來科點譜
      2026-01-22 08:53:11
      福建一首飾店被搶劫監控畫面曝光:店主遭嫌疑人電擊大聲呼救,警方正調查

      福建一首飾店被搶劫監控畫面曝光:店主遭嫌疑人電擊大聲呼救,警方正調查

      揚子晚報
      2026-01-21 20:12:06
      今日搞笑圖:同樣都是馬,憑啥下面的要被騎?

      今日搞笑圖:同樣都是馬,憑啥下面的要被騎?

      采采
      2026-01-20 17:06:18
      帶狀皰疹致死病例增多!倡議:1不喝、3不碰、2堅持,別馬虎了!

      帶狀皰疹致死病例增多!倡議:1不喝、3不碰、2堅持,別馬虎了!

      垚垚分享健康
      2026-01-19 20:30:10
      分手29年后,肖戰將成國乒副總教練,陳靜嫁給富商,已是大學教授

      分手29年后,肖戰將成國乒副總教練,陳靜嫁給富商,已是大學教授

      趣文說娛
      2026-01-14 18:40:13
      農行浙江分行880萬罰單揭貸管漏洞 浦發杭州分行475萬處罰顯三查短板

      農行浙江分行880萬罰單揭貸管漏洞 浦發杭州分行475萬處罰顯三查短板

      經濟觀察網
      2026-01-22 12:03:42
      先美后陸、透支信任!鄭麗文難破國民黨兩岸困局

      先美后陸、透支信任!鄭麗文難破國民黨兩岸困局

      娛樂小可愛蛙
      2026-01-22 12:18:14
      李亞鵬欠4千萬內情,20年兄弟好算計,竇靖童上大分,陳光標出手

      李亞鵬欠4千萬內情,20年兄弟好算計,竇靖童上大分,陳光標出手

      子芫伴你成長
      2026-01-21 22:53:56
      佩林卡終于動手!湖人、公牛圍繞八村塁醞釀交易,這是雙贏的存在

      佩林卡終于動手!湖人、公牛圍繞八村塁醞釀交易,這是雙贏的存在

      八零后小伙兒
      2026-01-22 11:14:44
      法國為什么修米迪運河?繞過直布羅陀海峽

      法國為什么修米迪運河?繞過直布羅陀海峽

      地圖帝
      2026-01-21 09:06:57
      羅永浩所持錘子科技713萬元股權被凍結

      羅永浩所持錘子科技713萬元股權被凍結

      中新經緯
      2026-01-22 10:22:03
      別再搞錯了!燒毀圓明園的不是八國聯軍,這段歷史真相該被銘記

      別再搞錯了!燒毀圓明園的不是八國聯軍,這段歷史真相該被銘記

      小豫講故事
      2026-01-20 06:00:08
      真“加勒比海盜”!艾頓眼睛被對手戳傷,賽后社媒曬照自嘲

      真“加勒比海盜”!艾頓眼睛被對手戳傷,賽后社媒曬照自嘲

      懂球帝
      2026-01-21 16:30:14
      記住!老人離世第一步不是銷戶,先辦這5件事,權益不流失少跑腿

      記住!老人離世第一步不是銷戶,先辦這5件事,權益不流失少跑腿

      阿芒娛樂說
      2025-12-31 13:46:18
      中國財政供養人員達6846萬?結構失衡才是財政壓力的核心

      中國財政供養人員達6846萬?結構失衡才是財政壓力的核心

      流蘇晚晴
      2025-12-04 19:27:08
      2026-01-22 13:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12163文章數 142546關注度
      往期回顧 全部

      科技要聞

      幾千億只是開胃菜,AI基建還得再砸幾萬億

      頭條要聞

      小伙騎車撞特斯拉后貸款賠1.5萬修車費 發票只開9千元

      頭條要聞

      小伙騎車撞特斯拉后貸款賠1.5萬修車費 發票只開9千元

      體育要聞

      珍妮回應爆料:湖人不感激詹姆斯付出絕非事實

      娛樂要聞

      鐘麗緹土耳其高空落淚 與張倫碩擁吻

      財經要聞

      申通快遞創始人被前夫索要股份

      汽車要聞

      今年集中上市 旅行車的春天可能真要來了

      態度原創

      藝術
      數碼
      本地
      手機
      軍事航空

      藝術要聞

      一場雪,飄進了唐詩

      數碼要聞

      當貝耳機Air 1 重磅發布:行業首款抗菌耳夾式耳機

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      手機要聞

      REDMI Pad 2 Pro官宣搭載12000mAh電池:69天超長待機

      軍事要聞

      特朗普:對美國的真正威脅是聯合國和北約

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲一区自拍| 男女啪啪永久免费观看网站| 亚洲精品乱码久久久久久蜜桃| 无码少妇a片一区二区三区| 高清性欧美暴力猛交| 不卡的AV在线| 合川市| 成人午夜天| 亚洲无码AAA| 日本新janpanese乱熟| 精品久久久久久中文字幕大豆网| 成人午夜免费无码视频在线观看 | 人妻无码中出| 自拍偷拍亚洲| 18岁日韩内射颜射午夜久久成人 | 亚洲国产av一区二区三区四区| 午夜福利理论片高清在线| 中文字幕一二三产区区别| 国产一线二线三线女| 久久久久久免费视频| 噜妇插内射精品| 亚洲高清aⅴ日本欧美视频| 韩国午夜福利片在线观看| 福利导航在线播放| 国产性色的免费视频网站| 最新免费视频一区二区三区| 漂亮人妻被中出中文字幕 | 久久精品亚洲精品国产色婷| 亚洲鸥美日韩精品久久| 日日夜干| 为你提供最新久久精品久久综合| 国产91人妻人伦a8198v久| 偷看少妇自慰xxxx| 色窝窝免费一区二区三区| 麻豆乱码国产一区二区三区| 在线视频精品中文无码| 伊人激情av一区二区三区| 国内精品久久久久精免费| 国产免费人成网站在线播放| 国产精品18| 18禁影院亚洲专区|