<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      一年后,DeepSeek-R1的每token成本降到了原來的1/32

      0
      分享至

      編輯 | 杜偉、澤南

      幾天前,DeepSeek 毫無預兆地更新了 R1 論文,將原有的 22 頁增加到了現在的 86 頁。

      新版本充實了更多細節內容,包括首次公開訓練全路徑,即從冷啟動、訓練導向 RL、拒絕采樣與再微調到全場景對齊 RL 的四階段 pipeline,以及「Aha Moment」的數據化驗證等等。



      DeepSeek-R1 是在 2025 年 1 月 20 日發布的開源推理大模型,它擁有 6710 億參數、單 Token 激活參數為 370 億,并采用了 MoE 架構,訓練效率得到了顯著提升。

      R1 在去年的推出震動了全球 AI 領域,其高效率的模型架構、訓練方法、工程優化和蒸餾方法在之后成為了全行業的趨勢。

      沒想到在不到一年之后的今天,R1 模型的每 token 成本竟已降低了到了 1/32!

      今天,英偉達發表了一篇長文博客,展示了其如何在 Blackwell GPU 上通過軟硬協同對 DeepSeek-R1 進一步降本增效。



      隨著 AI 模型智能程度的不斷提升,人們開始依托 AI 處理日益復雜的任務。從普通消費者到大型企業,用戶與 AI 交互的頻率顯著增加,這也意味著需要生成的 Token 數量呈指數級增長。為了以最低成本提供這些 Token,AI 平臺必須實現極高的每瓦特 Token 吞吐量。

      通過在 GPU、CPU、網絡、軟件、供電及散熱方案上的深度協同設計,英偉達持續提升每瓦特 Token 吞吐量,從而有效降低了每百萬 Token 的成本。此外,英偉達不斷優化其軟件棧,從現有平臺中挖掘更強的性能潛力。

      那么,英偉達是怎樣協同利用運行在 Blackwell 架構上的推理軟件棧,以實現 DeepSeek-R1 在多種應用場景中的性能增益呢?我們接著往下看。

      最新 NVIDIA TensorRT-LLM 軟件大幅提升推理性能

      NVIDIA GB200 NVL72 是一個多節點液冷機架級擴展系統,適用于高度密集型的工作負載。該系統通過第五代 NVIDIA NVLink 互連技術和 NVLink Switch 芯片連接了 72 個 NVIDIA Blackwell GPU,為機架內的所有芯片提供高達 1800 GB/s 的雙向帶寬。

      這種大規模的「擴展域」(Scale-up Domain)專為稀疏 MoE 架構優化,此類模型在生成 Token 時需要專家之間頻繁的數據交換。

      Blackwell 架構還加入了對 NVFP4 數據格式的硬件加速。這是英偉達設計的一種 4 位浮點格式,相比其他 FP4 格式能更好地保持精度。此外,解耦服務(Disaggregated Serving)這類優化技術也充分利用了 NVL72 架構和 NVLink Switch 技術。簡單來解釋一下解耦服務,即在一組 GPU 上執行 Prefill(預填充)操作,在另一組 GPU 上執行 Decode(解碼)操作。

      這些架構創新使得 NVIDIA GB200 NVL72 在運行 DeepSeek-R1 時,能夠提供行業領先的性能。

      得益于最新 NVIDIA TensorRT-LLM 軟件和 GB200 NVL72 的協同,DeepSeek-R1 在 8K/1K 輸入 / 輸出序列長度下的 Token 吞吐量大幅提升。



      同樣地,得益于最新 NVIDIA TensorRT-LLM 軟件與 GB200 NVL72 的協同,在 1K/1K 序列長度下,DeepSeek-R1 Token 吞吐量同樣大幅提升。



      另外,在 8K/1K、1K/1K 兩種輸入 / 輸出序列長度的吞吐量與交互性曲線上,GB200 NVL72 也展現出了領先的單 GPU 吞吐能力。

      而 TensorRT-LLM 開源庫(用于優化 LLM 推理)的最新增強功能,在同一平臺上再次大幅增強了性能。在過去三個月中,每個 Blackwell GPU 的吞吐量提升高達 2.8 倍(這里指的是在 8k/1k 輸入 / 輸出序列長度下,去年 10 月到今年 1 月的 Token 吞吐量變化)。

      這些優化背后的核心技術包括:

      • 擴大 NVIDIA 程序化依賴啟動 (PDL) 的應用:降低核函數啟動延遲,有助于提升各種交互水平下的吞吐量;
      • 底層核函數優化:更高效地利用 NVIDIA Blackwell Tensor Core;
      • 優化的 All-to-all 通信原語:消除了接收端的額外中間緩沖區。

      有業內人士對英偉達放出的一系列圖表進行了直觀的解讀,用一組數據來總結就是,「通過軟硬件的深度協同,自 2025 年 1 月以來,英偉達已經將 DeepSeek-R1 (671B) 的吞吐量提升了約 36 倍,這意味著單 Token 的推理成本降低到了約 1/32。」





      利用多 token 預測和 NVFP4 技術加速 NVIDIA HGX B200 性能

      NVIDIA HGX B200 平臺由八個采用第五代 NVLink 互連和 NVLink Switch 連接的 Blackwell GPU 組成,在風冷環境下也能實現強大的 DeepSeek-R1 推理性能。

      兩項關鍵技術使 HGX B200 上的 DeepSeek-R1 推理性能大幅提升。第一項技術是使用多 token 預測 (MTP),它可以顯著提高各種交互級別下的吞吐量。在所有三種測試的輸入 / 輸出序列組合中都觀察到了這一現象。



      在 HGX B200 平臺上,使用 1K/1K 序列長度和聚合服務模式下,FP8(不帶 MTP)、FP8(帶 MTP)和 NVFP4(帶 MTP)的吞吐量與交互性曲線對比。

      第二種方法是使用 NVFP4,充分利用 Blackwell GPU 計算能力來提升性能,同時保持精度。



      在 HGX B200 平臺上,使用 8K/1K 序列長度和聚合服務模式下,FP8(不含 MTP)、FP8(含 MTP)和 NVFP4(含 MTP)的吞吐量與交互性曲線對比。

      NVFP4 使用在完整的 NVIDIA 軟件棧上(包括 TensorRT-LLM 和 NVIDIA TensorRT 模型優化器),以確保高性能并保持精度。這使得在給定交互級別下能夠實現更高的吞吐量,并且在相同的 HGX B200 平臺上,可以實現更高的交互級別。



      在 HGX B200 平臺上,FP8(無 MTP)、FP8(有 MTP)和 NVFP4(有 MTP)的吞吐量與交互性曲線,序列長度分別為 1K 和 8K,并采用聚合服務模式。

      英偉達表示,其正在不斷提升整個技術堆棧的性能,可以幫助用戶基于現有硬件產品,持續提升大語言模型的工作負載效率,提升各種模型的 token 吞吐量。

      博客地址:

      https://developer.nvidia.com/blog/delivering-massive-performance-leaps-for-mixture-of-experts-inference-on-nvidia-blackwell/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張本智和3-1周啟豪晉級!連克兩國乒選手士氣如虹 世界排名升第三

      張本智和3-1周啟豪晉級!連克兩國乒選手士氣如虹 世界排名升第三

      顏小白的籃球夢
      2026-01-09 18:42:12
      美軍報告:中國東風-27已戰備值班,是全球唯一服役洲際高超彈?

      美軍報告:中國東風-27已戰備值班,是全球唯一服役洲際高超彈?

      策略述
      2026-01-08 19:12:40
      52歲復出屠榜?這位阿姨才是真正的業界鋼鐵俠!

      52歲復出屠榜?這位阿姨才是真正的業界鋼鐵俠!

      素然追光
      2026-01-06 05:50:03
      官宣辟謠!鹿晗這波操作,關曉彤顏面何存?

      官宣辟謠!鹿晗這波操作,關曉彤顏面何存?

      搞笑娛樂笑話
      2026-01-08 22:12:49
      老鷹和奇才交易已完成,CJ·麥科勒姆和基斯珀特已抵達亞特蘭大

      老鷹和奇才交易已完成,CJ·麥科勒姆和基斯珀特已抵達亞特蘭大

      好火子
      2026-01-10 06:22:08
      曝2026春晚彩排路透!小品領軍人物確認回歸,網友:終于等到這天

      曝2026春晚彩排路透!小品領軍人物確認回歸,網友:終于等到這天

      有范又有料
      2026-01-07 10:43:16
      勇記:國王總經理想借助庫明加的交易,清理德羅贊這樣的高薪老將

      勇記:國王總經理想借助庫明加的交易,清理德羅贊這樣的高薪老將

      移動擋拆
      2026-01-10 04:58:21
      張馨予曬媽媽織的圍巾!隨手一披美的驚艷,還被稱呼為寶寶好幸福

      張馨予曬媽媽織的圍巾!隨手一披美的驚艷,還被稱呼為寶寶好幸福

      暫停白晝
      2026-01-09 17:28:41
      已放棄美國國籍,恢復中國籍,81歲董事長擬套現近1億元:為辦理稅務的需要!他60歲歸國創業,帶出2000億元芯片巨頭

      已放棄美國國籍,恢復中國籍,81歲董事長擬套現近1億元:為辦理稅務的需要!他60歲歸國創業,帶出2000億元芯片巨頭

      每日經濟新聞
      2026-01-09 23:53:10
      小澤建議抓捕卡德羅夫!俄羅斯改口,沒人為擊落阿塞拜疆客機負責

      小澤建議抓捕卡德羅夫!俄羅斯改口,沒人為擊落阿塞拜疆客機負責

      鷹眼Defence
      2026-01-08 17:47:16
      果然在春曉油田動手了!日本對中方強烈抗議,要求馬上談判!

      果然在春曉油田動手了!日本對中方強烈抗議,要求馬上談判!

      達文西看世界
      2026-01-09 08:09:34
      張本智和贏球后,向國乒教練揮拳慶祝,有誰注意到周啟豪的反應?

      張本智和贏球后,向國乒教練揮拳慶祝,有誰注意到周啟豪的反應?

      十點街球體育
      2026-01-10 02:00:03
      足總杯6-7大冷門,罰丟2點球釀苦果,英超球隊遭低級別球隊淘汰出局

      足總杯6-7大冷門,罰丟2點球釀苦果,英超球隊遭低級別球隊淘汰出局

      側身凌空斬
      2026-01-10 06:15:26
      不敗就出線?U23國足迎來生死戰,第二場價值千金,伊拉克隊拼了

      不敗就出線?U23國足迎來生死戰,第二場價值千金,伊拉克隊拼了

      祥談體育
      2026-01-09 12:49:54
      特朗普高調訪華安排陷入全面尷尬

      特朗普高調訪華安排陷入全面尷尬

      達文西看世界
      2026-01-09 14:10:08
      郭晶晶沒想到,被國家隊開除的田亮,如今以這種方式讓人刮目相看

      郭晶晶沒想到,被國家隊開除的田亮,如今以這種方式讓人刮目相看

      無心小姐姐
      2026-01-09 17:46:24
      切爾西舊將大穆松達社媒發文:如今我生命垂危,可能時日無多

      切爾西舊將大穆松達社媒發文:如今我生命垂危,可能時日無多

      懂球帝
      2026-01-09 23:38:16
      連爆大冷,連克世界第2凱倫與第3羅伯遜,冠軍組決出4席中國1席

      連爆大冷,連克世界第2凱倫與第3羅伯遜,冠軍組決出4席中國1席

      求球不落諦
      2026-01-10 05:51:20
      廣西一精神小妹結婚,身上多處紋身新郎小她10歲,網友:相當炸裂

      廣西一精神小妹結婚,身上多處紋身新郎小她10歲,網友:相當炸裂

      唐小糖說情感
      2026-01-07 16:37:28
      女子新房裝玫紅色入戶門貼花壁紙,網友直呼“全網獨一無二”,當事人:裝修花費近100萬元,老公每次來都像游客一樣

      女子新房裝玫紅色入戶門貼花壁紙,網友直呼“全網獨一無二”,當事人:裝修花費近100萬元,老公每次來都像游客一樣

      極目新聞
      2026-01-07 13:36:53
      2026-01-10 07:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12088文章數 142533關注度
      往期回顧 全部

      科技要聞

      市場偏愛MiniMax:開盤漲42%,市值超700億

      頭條要聞

      特朗普:美扣押一艘離開委內瑞拉油輪 石油將出售

      頭條要聞

      特朗普:美扣押一艘離開委內瑞拉油輪 石油將出售

      體育要聞

      金元時代最后的外援,來中國8年了

      娛樂要聞

      關曉彤鹿晗風波后露面 不受影響狀態佳

      財經要聞

      投資必看!瑞銀李萌給出3大核心配置建議

      汽車要聞

      助跑三年的奇瑞 接下來是加速還是起跳?

      態度原創

      健康
      游戲
      藝術
      房產
      旅游

      這些新療法,讓化療不再那么痛苦

      怎么會有游戲上來就說自己的新服活不過10天啊?"/> 主站 商城 論壇 自運營 登錄 注冊 怎么會有游戲上來就說自己的新服活不過10天啊? 廉頗 202...

      藝術要聞

      15位著名畫家的女性之美:哪一張觸動了你的心?

      房產要聞

      66萬方!4755套!三亞巨量房源正瘋狂砸出!

      旅游要聞

      想看霧凇別瞎跑!吉林阿什哈達這 5 個觀賞秘訣,幫你避開空跑遺憾

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: A片国产在线| 亚洲国产午夜精品福利| 天天干天天色综合网| 四虎永久在线精品无码| 99伊人网| 精品久久久无码人妻中文字幕豆芽| 成人肏屄视频| 江阴市| 免费一级做a爰片性色毛片| 国产剧情麻豆一区二区三区亚洲| 毛片免费试看| 日韩永久免费无码AV电影| 亚洲欧洲自偷自拍图片| 骚虎在线永久视频免费观看| 人人澡人人透人人爽| 精品亚洲一区二区三区在线播放 | 亚洲AV成人精品日韩在线播放| 日本乱人伦片中文三区| www内射国产在线观看| 岛国av无码免费无禁网站| 人妻精品久久久久中文字幕69| 天天躁夜夜躁狠狠喷水| 日韩精品一区二区三区激情视频| 熟女少妇18| 91色综合| 91色综合综合热五月激情| 西西444WWW大胆无码视频| 国产福利深夜在线播放| 亚洲黄色精品| 亚洲熟妇国产熟妇肥婆| 日日噜噜夜夜爽爽| 揉捏奶头高潮呻吟视频| 女同AV在线播放| 丁香五月激情图片| 91色在线视频| 亚洲制服中文字幕一区二区| 国产日产免费高清欧美一区| 成人综合站| 亚洲专区熟女| 东源县| 成人久久免费网站|