<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      單卡推理吞吐2300Tokens/s,昇騰AI云服務正在改寫算力法則

      0
      分享至



      半個月前的HDC 2025上,華為云全面上線了基于CloudMatrix384超節點的昇騰AI云服務,在行業內外掀起了不小的轟動。

      讓我們印象最為深刻的是一組數據:與非超節點相比,CloudMatrix384超節點的單卡吞吐量從600Tokens/s提升到了2300Tokens/s;增量Token的輸出時延,也從原來的100ms降低到了50ms以下。

      為了探究指標背后的技術密碼,我們找到了華為聯合硅基流動發表的一篇論文,詳細介紹了CloudMatrix的架構創新和CloudMatrix384的生產級實踐,并在測試結果中寫道——運行DeepSeek-R1時的單卡吞吐,已經超過英偉達H100。

      在大模型的產業敘事從訓練轉向推理局面下,新一代昇騰AI云服務刷新紀錄的單卡吞吐能力,對整個算力行業意味著什么?

      01 怎么做到的?一場“系統工程的勝利”

      需要回答的第一個問題是:單卡吞吐量近乎4倍的性能躍升,CloudMatrix384超節點到底是怎么做到的?

      答案在于工程創新。

      為了提高大模型的推理性能,傳統的做法集中在單點優化:增加更多的節點數量,通過堆疊算力來提升推理能力;對模型進行量化與剪枝,減少不必要的計算量;對KV Cache進行優化,加速增量推理;以及利用自動圖優化工具將多個算子融合為一個高效核函數,減少中間內存拷貝……

      可大模型的參數量仍在增長、MoE架構被廣泛采用、上下文長度急劇擴展,單點優化暴露出了越來越多的局限性:比如多卡并行推理的通信瓶頸、芯片與內存之間的耦合差、“整卡”調度的資源浪費等等,無論是吞吐性能,還是推理成本,均已經滿足不了快速增長的應用部署需求。

      CloudMatrix384超節點提出了新的設計架構,不同于簡單的“算力疊加”,進一步實現了一切可池化、一切皆對等、一切可組合。

      理解了三個“一切”,也就讀懂了工程創新的價值。

      一切可池化:通過統一的、超高性能的網絡(MatrixLink),將NPU、CPU、內存、網絡等資源解耦,形成可獨立擴展的資源池。

      一切皆對等:有別于傳統GPU為中心的計算范式,資源池里的所有資源不再是“主從式”關系,而是更高效、更靈活的對等架構。

      一切可組合:意思是CloudMatrix384超節點池化的所有資源,可以根據不同的任務需求,像搭積木一樣進行靈活調配組合。

      用一句話來總結:CloudMatrix384超節點將384顆昇騰NPU和192顆鯤鵬CPU通過全新高速網絡MatrixLink全對等互聯,形成了一臺擁有超大帶寬、超大內存、超高算力的超級“AI服務器”。

      之所以采用全對等互聯的架構,目的是為了匹配大模型的訓推任務,特別是MoE混合架構的大模型。

      傳統集群模式下進行推理,要在每張單卡上分配所有“專家”,將所有問題都計算一遍,導致每個“專家”只能獲得少量的計算和通信能力。

      而一個CloudMatrix384超節點可以支持數百個專家并行推理,實現“一卡一專家”模式,即每張卡只部署一個“專家”,集中處理所有相關問題,增加單次推理的批量大小,減少單位計算的調度開銷,大幅提升推理效率。同時,超節點還可以支持“一卡一算子任務”,靈活分配資源,提升任務并行處理,減少等待,將算力有效使用率(MFU)提升50%以上。

      再比如大模型的推理過程分為Prefill和Decode兩個階段,Prefill生成KV Cache,Decode使用和更新KV Cache。CloudMatrix384超節點的解耦式共享內存池,可以保存更多的KV Cache,讓Prefill和Decode任務更快、更均衡地訪問KV Cache,大幅降低系統延遲。



      也就是說,2300Tokens/s的單卡推理吞吐量和50ms以下的輸出延遲,可以歸結為一場“系統工程的勝利”。在摩爾定律逐漸放緩,單卡算力提升有限的背景下,通過重構計算互聯架構,實現了整體系統級最優,完成了國產算力從“能用”到“好用”的跨越。

      02 改變了什么?大模型落地“越過山丘”

      進入2025年后,大模型的角色快速蛻變,走出了實驗室,在政務、金融、醫療、能源等領域加速落地。

      但在落地過程中,響應慢、吞吐低、成本高等現實問題,成了不少企業在部署大模型時難以繞開的“瓶頸”,不僅拖慢了業務節奏,還拉高了技術回報的門檻。如果說“訓得好”是一場軍備競賽,“用得起”則是產業拐點。

      華為在工程創新上的“彎道超車”,為大模型落地部署的挑戰,提供了一種經過驗證的解題范式。

      先從大模型訓練來看。

      萬億、十萬億參數的大模型訓練任務,催生了萬卡乃至十萬卡的集群需求,也帶來了算力緊缺的“危機”。

      一個樂觀的消息在于,在云數據中心,CloudMatrix384超節點最高可以將432個超節點級聯成16萬卡的超大集群,提供10萬PFlops的算力。其中一個關鍵指標是線性度,即節點數量增加后,性能是否能“按比例提升”。目前CloudMatrix384萬卡集群的線性度已經超過95%,實現了性能提升與資源擴展的比例接近1:1,可同時支持1300個千億參數大模型訓練。



      為了幫助客戶最優使用資源,CloudMatrix384超節點昇騰AI云服務還支持訓推算力一體部署,比如“日推夜訓”模式,白天推理,晚上訓練;以及“40天長穩訓練、10分鐘快速恢復”能力,保障長周期訓練的穩定性和中斷后的快速恢復。

      更深刻的影響在于推理層面。

      正如前面所提到的,CloudMatrix384超節點的單卡吞吐量提升到了2300Tokens/s,一同被改變的還有推理成本。

      根據一位知乎網友的方式推算:單卡吞吐量2300Tokens/s,每小時可以產出828萬Token,每小時租金按照15元計算,百萬Token的成本約為1.8元,推理成本比英偉達的GPU方案還要低。

      在大模型推理領域,有一個著名的“不可能三角”——推理成本低、響應速度快、輸出準確性高幾乎不可能同時滿足。

      CloudMatrix384超節點給出了否定的答案,以DeepSeek-R1為例,有256個固定專家、32個共享專家,CloudMatrix384超節點的“一卡一專家”模式完美契合了DeepSeek-R1的推理需求,保障推理性能的同時,仍可以實現高吞吐、低時延的目標。

      在“推理成本決定最終勝利”的大模型競賽中,CloudMatrix384超節點可以說是現階段的“最優解”,在技術上攻克了響應速度、吞吐能力與輸出準確性的三重矛盾,為千行萬業搬開了大模型落地的“大山”。

      可以佐證的案例有很多。

      新浪基于CloudMatrix384昇騰AI云服務,為“智慧小浪”智能服務體系構建了統一的推理平臺,推理的交付效率提升超過50%。

      面壁智能使用CloudMatrix384昇騰AI云服務,讓“小鋼炮”模型的推理業務性能得到了2.7倍的提升。

      360正在開啟與昇騰AI云服務的全面合作,納米AI搜索已經實現了上百款大模型的高效協作,為用戶提供超級AI搜索服務。

      03 寫在最后

      巴克萊銀行曾在2025年初的研報中表示:AI推理計算需求將快速提升,預計將占到通用人工智能總計算需求的70%以上,推理計算的需求甚至將大幅超過訓練,達到后者的4.5倍。

      誰解決了推理效率,誰就掌握了大模型落地的主導權。

      由此再來審視CloudMatrix384超節點昇騰AI云服務,不僅僅是技術指標的躍升,而是系統級工程創新的深度驗證,重新定義了未來的算力范式:“芯片性能”不再是唯一的衡量尺度,以“整體系統效率”“推理成本”“模型結構適配性”構建新的競爭標準,為整個AI產業打開了一條更加高效、普惠、可持續的技術道路。

      截止到目前,基于CloudMatrix384超節點的昇騰AI云服務已經在蕪湖、貴安、烏蘭察布、和林格爾等地的華為云數據中心上線,依托百TB級帶寬的光纖骨干網,10毫秒時延圈覆蓋了全國19個城市群。正在通過工程創新的勝利,承接大模型時代的產業落點。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我在塔吉克斯坦當包工頭10年,這里的潛規則,比貧窮更讓人窒息

      我在塔吉克斯坦當包工頭10年,這里的潛規則,比貧窮更讓人窒息

      千秋文化
      2026-04-02 20:55:54
      正部級劉昆,當選新職

      正部級劉昆,當選新職

      上觀新聞
      2026-04-02 06:17:03
      馬拉松圣體!張水華多項實驗室數據指標世界級,還有很大潛力可挖

      馬拉松圣體!張水華多項實驗室數據指標世界級,還有很大潛力可挖

      楊華評論
      2026-04-03 01:30:41
      事業單位4月落實工資普調新政,待遇提升直追公務員!

      事業單位4月落實工資普調新政,待遇提升直追公務員!

      慧眼看世界哈哈
      2026-04-01 20:45:08
      蒙特拉:作為第一個帶土耳其進世界杯和歐洲杯的教練,我倍感自豪

      蒙特拉:作為第一個帶土耳其進世界杯和歐洲杯的教練,我倍感自豪

      懂球帝
      2026-04-02 13:24:02
      亨利:98世界杯前我甚至不在候補名單上;20歲就拿世界杯感覺像做夢

      亨利:98世界杯前我甚至不在候補名單上;20歲就拿世界杯感覺像做夢

      懂球帝
      2026-04-03 02:10:29
      王浩文,已被執行死刑

      王浩文,已被執行死刑

      新浪財經
      2026-04-02 11:50:24
      越來越討厭丈夫!浙江妻子吐槽40歲的他不思進取,留在家種地放牛

      越來越討厭丈夫!浙江妻子吐槽40歲的他不思進取,留在家種地放牛

      火山詩話
      2026-03-22 16:09:27
      破案了!孫穎莎4-2險勝蒯曼根源找到,主帥邱貽可點評一針見血

      破案了!孫穎莎4-2險勝蒯曼根源找到,主帥邱貽可點評一針見血

      林子說事
      2026-04-03 00:36:38
      終于定了!中國移動正式發通知:自4月30日起,全國統一執行

      終于定了!中國移動正式發通知:自4月30日起,全國統一執行

      大魚簡科
      2026-03-31 19:29:10
      讓妻子高潮不斷的秘密武器,竟然是這個不起眼的小技巧?

      讓妻子高潮不斷的秘密武器,竟然是這個不起眼的小技巧?

      精彩分享快樂
      2026-03-10 00:05:03
      左一牛群,右一趙忠祥,中間這位美女是誰?

      左一牛群,右一趙忠祥,中間這位美女是誰?

      東方不敗然多多
      2026-04-03 02:12:22
      多名院士研究發現:吃一塊桃酥,就等于吃兩勺糖,真的假的?

      多名院士研究發現:吃一塊桃酥,就等于吃兩勺糖,真的假的?

      蜉蝣說
      2026-04-02 09:16:24
      生育大局已定:不出意外的話,從2026年起新生人口將迎來3大變化

      生育大局已定:不出意外的話,從2026年起新生人口將迎來3大變化

      江江食研社
      2026-03-24 03:30:08
      笑不活了!一直嫌山東話土,查完才發現:全是文言文,低調到離譜

      笑不活了!一直嫌山東話土,查完才發現:全是文言文,低調到離譜

      白淺娛樂聊
      2026-04-02 15:57:22
      不到一個停車位大?清朝花15英鎊買下的英國土地,今天仍屬中國!

      不到一個停車位大?清朝花15英鎊買下的英國土地,今天仍屬中國!

      丁丁鯉史紀
      2026-04-01 15:47:56
      喪心病狂!邯鄲中學校長性侵15歲女生,拿20萬封口,勢力大也沒用

      喪心病狂!邯鄲中學校長性侵15歲女生,拿20萬封口,勢力大也沒用

      觀察鑒娛
      2026-04-02 10:26:05
      “這樣的外形,早戀就別想了!”母親曬兒子照片引爆評論區。

      “這樣的外形,早戀就別想了!”母親曬兒子照片引爆評論區。

      特約前排觀眾
      2026-04-02 00:10:03
      張雪峰三大遺憾!50萬沒留住父親、對不起妻子,還有誤女兒前程

      張雪峰三大遺憾!50萬沒留住父親、對不起妻子,還有誤女兒前程

      八斗小先生
      2026-03-27 16:18:15
      申京25+8火箭險勝8人雄鹿收獲4連勝,杜蘭特19+9吉昂36+10

      申京25+8火箭險勝8人雄鹿收獲4連勝,杜蘭特19+9吉昂36+10

      湖人崛起
      2026-04-02 10:20:22
      2026-04-03 04:43:00
      Alter聊科技 incentive-icons
      Alter聊科技
      探究產業興衰,專注商業解讀。
      1496文章數 168121關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      伊朗稱擊中敵軍先進戰機 已墜入波斯灣

      頭條要聞

      伊朗稱擊中敵軍先進戰機 已墜入波斯灣

      體育要聞

      邵佳一的改革,從讓每個人踢舒服開始

      娛樂要聞

      《浪姐》人氣榜出爐!曾沛慈斷層第一

      財經要聞

      市場被特朗普一句話打醒 滯脹交易回歸

      汽車要聞

      軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

      態度原創

      健康
      手機
      本地
      公開課
      軍事航空

      干細胞抗衰4大誤區,90%的人都中招

      手機要聞

      安卓性能榜定出爐:驍龍霸榜旗艦榜單,聯發科占據次旗艦榜單!

      本地新聞

      從學徒到世界冠軍,為什么說張雪的底氣在重慶?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗自殺無人機突進 逼退林肯號航母

      無障礙瀏覽 進入關懷版