<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達仍是王者!GB200貴一倍卻暴省15倍,AMD輸?shù)脧氐?/h1>
      0
      分享至


      新智元報道

      編輯:桃子

      【新智元導讀】AI推理游戲規(guī)則,正悄然改變。一份最新報告揭示了關鍵轉折:如今決定勝負的,不再是單純的芯片性能或GPU數(shù)量,而是 「每一美元能輸出多少智能」。

      AI推理,現(xiàn)已不只看算力硬指標了!

      Signal65一份最新報告中,英偉達GB200 NVL72是AMD MI350X吞吐量28倍。

      而且,在高交互場景在,DeepSeek R1每Token成本還能低到15倍。


      GB200每小時單價大概是貴一倍左右,但這根本不重要。因為機柜級NVLink互聯(lián)+軟件調度能力,徹底改變了成本結構。

      頂級投資人Ben Pouladian稱,「目前的關鍵不再是算力或GPU數(shù)量,而是每一美元能買到多少智能輸出」。


      如今,英偉達仍是王者。其他競爭對手根本做不到這種交互水平,這就是護城河。


      最關鍵的是,這還沒有集成200億刀買入Groq的推理能力。

      這里,再mark下老黃至理名言——The more you buy, the more you save!


      AI推理重心:一美元輸出多少智能?

      這篇萬字報告,探索了從稠密模型(Dense)到混合專家模型(MoE)推理背后的一些本質現(xiàn)象。


      傳統(tǒng)的「稠密模型」架構要求:在生成每個Token時都激活模型里的全部參數(shù)。

      這就意味著:模型越大,運行越慢、成本越高,同時還會帶來相應的內存需求增長等問題。


      MoE架構,正是為了釋放更高水平的智能而生——在每個Token上只激活最相關的「專家」。

      摟一眼Artificial Analysis排行榜即可發(fā)現(xiàn),全球TOP 10開源LLM,全部都是MoE推理模型。

      它們會在推理階段額外「加算力」來提高準確性:

      LLM不會立刻吐出答案,而是先生成中間的推理Token,再輸出,相當于先把請求和解法「想一遍」。


      前16名里有12個是MoE模型

      這些推理Token往往遠多于最終回復,而且可能完全不會展示出來。能否既快又便宜地生成Token,對推理部署來說就變得至關重要。

      那么,MoE方法的主要約束在哪里?

      一個核心限制在于「通信瓶頸」。

      當不同專家分布在多塊GPU上時,任何GPU之間通信的延遲,都會讓GPU空閑等待數(shù)據(jù)。


      OpenRouter一份近期報告,超50%的Token會被路由到推理模型上

      這些「空轉時間」(idle time)代表著被浪費的、低效的算力,并且會直接體現(xiàn)在服務提供商的成本底線上。

      當評估AI基礎設施的「經濟性」時,一般會聚焦在三個方面:

      • 性能(吞吐量與交互性)

      • 能效(在既定功耗預算下,可生成的Token數(shù))

      • 總體擁有成本(通常以Token/每百萬的成本衡量)

      基于公開可用的基準測試數(shù)據(jù),Signal65對不同LLM架構下AI基礎設施方案進行了對比分析。

      分析中,團隊采用第三方基準測試所提供的性能數(shù)據(jù),來估算相對的Token經濟性。

      具體來說,他們選取了B200、GB200 NVL72,以及AMD MI355X部分結果,用以對比它們在不同模型場景下的真實性能表現(xiàn)及相應的TCO估算。


      結果顯示,在稠密架構以及較小規(guī)模的MoE中,B200性能優(yōu)于AMD MI355X。

      當模型擴展到像DeepSeek-R1這樣需跨越單節(jié)點的前沿級規(guī)模時,GB200 NVL72性能最高可達到MI355X的28倍。


      在高交互性的推理工作負載中,NVL72的單位Token成本最低,可降至其他方案的約1/15。

      盡管GB200 NVL72的單GPU小時價格幾乎是這些競爭平臺的2倍,但其機架級能力——從NVLink高速互連,到覆蓋72塊GPU的軟件編排——共同推動了這種顯著更優(yōu)的單位經濟性。

      價值評估的重心,正在從單純的原始FLOPs,轉向「每一美元所獲得的總體智能」。

      這一結論非常明確:

      隨著MoE模型和推理工作負載帶來的復雜性與規(guī)模持續(xù)上升,行業(yè)已無法僅依賴芯片層面的性能提升。

      能夠在系統(tǒng)層面實現(xiàn)峰值性能的端到端平臺設計,已經成為實現(xiàn)低成本、高響應AI服務的關鍵杠桿。

      「稠密模型」推理,英偉達領先

      Signal65選擇了Llama 3.3 70B作為稠密模型的性能基準,結果如下所示:

      帕累托曲線清晰顯示出,HGX B200-TRT方案在整個吞吐量與交互性區(qū)間內,都具備持續(xù)的性能優(yōu)勢。

      具體到基線交互性水平,B200的性能大約是MI355X的1.8倍,這為交互式應用部署,以及更高的單GPU并發(fā)密度提供了顯著余量。


      再來看,當交互性提升至110 tokens/sec/user時,這一優(yōu)勢進一步被放大:B200吞吐量超過MI355X的6倍。

      整體上,在Llama 3.3 70B測試中,AMD MI355X在單位成本性能方面確實具備一定吸引力。

      但這種優(yōu)勢并不能代表更現(xiàn)代的推理技術棧,尤其是以MoE架構和高強度推理工作負載構建的系統(tǒng)。



      MoE推理,英偉達領先

      那么,在MoE架構上,英偉達和AMD表現(xiàn)又如何?

      中等規(guī)模推理:gpt-oss-120B

      Signal65認為,OpenAI gpt-oss-120B是理解MoE部署特性的一個理想「橋梁案例」。

      它足夠大,可以把MoE的復雜性暴露出來;

      但規(guī)模又沒有大到離譜,仍然是很多團隊能現(xiàn)實部署并調優(yōu)的范圍。

      它處在一個很有用的中間地帶:介于稠密的70B級模型,與市場正在快速轉向的、更前沿的推理型MoE架構之間。


      在10月下旬數(shù)據(jù)里,當目標是100 tokens/sec/user時,B200大約比MI355X快1.4倍;

      但當目標提高到250 tokens/sec/user時,差距會擴大到約3.5倍,說明越追求「更快的交互」,平臺差異越容易被放大。

      不過,12月上旬的數(shù)據(jù)則呈現(xiàn)出不同局面。

      得益于軟件優(yōu)化,兩邊平臺的絕對性能都明顯提升:英偉達單GPU峰值吞吐從大約7,000 tokens/sec提升到超過14,000;AMD也從約6,000提升到大約8,500。



      前沿推理:DeepSeek-R1

      在DeepSeek-R1推理上,測試結果正如開篇所介紹那樣,英偉達GB200 NVL72大幅領先。

      更多數(shù)據(jù)如下圖所示:


      基準測試數(shù)據(jù)展示了一個被重塑的格局:

      GB200 NVL72讓「超過8塊GPU的張量并行配置」也能進入帕累托前沿,達到單節(jié)點平臺根本無法匹敵的性能。

      在25 tokens/sec/user交互性目標下,GB200 NVL72單GPU性能大約是H200的10倍,并且超過MI325X單GPU性能的16倍。

      這類性能差距,正是能為AI服務提供商帶來「斷崖式」TCO改善的那種差距。

      當交互性目標提高到60 tokens/sec/user時,GB200 NVL72相比H200帶來了超24倍的代際提升,同時也接近MI355X的11.5倍性能。

      在同樣25 tokens/sec/user下,GB200 NVL72單GPU性能大約是B200的2倍、是MI355X的5.9倍;

      而到60 tokens/sec/user時,這些優(yōu)勢進一步擴大:相對單節(jié)點B200達到5.3倍、相對MI355X達到11.5倍。



      GPU越貴,token成本越低

      英偉達從Hopper過渡到Blackwell,并推出GB200 NVL72時,不僅提升了每GPU算力、內存帶寬以及NVLink互連帶寬,還對底層系統(tǒng)架構做了重新設計。

      從8-GPU風冷HGX服務器轉向全液冷的機架級系統(tǒng),并把72塊GPU連接在同一個域內,系統(tǒng)成本和復雜度顯然都上升了。


      據(jù)CoreWeave公布的目錄價,按單GPU口徑,GB200 NVL72價格大約比H200貴1.7倍。

      不過,每一代新技術的目標之一,就是壓低「每Token成本」。

      對推理而言,具體就是:實際交付的Token吞吐提升幅度,要超過底層基礎設施成本的提升幅度。

      而從公開的性能數(shù)據(jù)來看,這正是GB200 NVL72相比Hopper所呈現(xiàn)出的結果。

      Signal65把本次的tokenomics(Token經濟學)分析,錨定在前文建立的DeepSeek-R1性能差距上:

      在25 tokens/sec/user時,GB200 NVL72單GPU性能大約是H200的10倍;

      在更高的交互點位上,這個差距會更大(24倍)。

      下表總結了成本歸一化,以及由此得到的「每美元性能」計算:

      這些結果一開始可能有點反直覺:更「貴」的GPU反而更省錢——因為它帶來的性能提升遠大于價格差異,使得它能以更低成本生成Token。



      與AMD相比,英偉達系統(tǒng)在推理token成本上的一些數(shù)據(jù)對比:


      按單GPU口徑,MI355X價格大約只有GB200 NVL72配置的一半;

      但由于GB200 NVL72單GPU性能優(yōu)勢從低端接近6倍,到高交互性時高達28倍不等,英偉達仍然能提供最高15倍的每美元性能優(yōu)勢。

      換句話說,英偉達能實現(xiàn)相對每Token成本僅為競爭對手的1/15。

      結論

      前沿AI模型的未來,會是更大、更復雜的MoE。

      隨著模型更深地走向MoE與推理架構,最終效果將不再只取決于原始GPU性能或內存容量。

      平臺級設計會成為決定性因素——包括互連與通信效率、多節(jié)點擴展特性、軟件棧成熟度、生態(tài)支持與編排能力,以及在并發(fā)與混合負載下維持高利用率的能力。

      從當前趨勢看,來自OpenAI、Meta、Anthropic等前沿公司的旗艦模型,很可能會繼續(xù)沿著MoE與推理方向演進。

      如果這一軌跡成立,英偉達將維持關鍵的性能與經濟性優(yōu)勢。

      谷歌TPU這類架構也提供機架級方案,但它們對非自家模型的適用性與性能表現(xiàn)仍不明確。

      本文記錄的性能差異,能夠直接轉化為可量化的商業(yè)結果:

      在既定交互性閾值下,每部署一塊GPU能服務更多用戶,就能降低每個「有用Token」的生成成本,提高每機架的收入潛力(通過規(guī)模化交付更高價值的體驗),最終AI企業(yè)和部署AI的企業(yè)獲得更好的TCO。

      一個具體例子足以說明量級:當一個平臺在某個交互性目標下,能提供28倍的單GPU吞吐提升時,它可以在不需要線性擴大硬件規(guī)模的情況下,解鎖新的產品檔位以及更復雜的功能。

      這就是AI推理「經濟學」,而它會更偏向那些從底層就為MoE與推理時代而設計的平臺。

      參考資料:

      https://x.com/kimmonismus/status/2005753458188771768

      https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/

      秒追ASI

      ?點贊、轉發(fā)、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      小李子帶27歲女友融入美國富豪圈,登上世界首富18億豪華游輪

      小李子帶27歲女友融入美國富豪圈,登上世界首富18億豪華游輪

      瘋狂影視圈
      2026-01-03 10:24:44
      伊朗,突發(fā)!崩盤、失控!發(fā)生了什么?

      伊朗,突發(fā)!崩盤、失控!發(fā)生了什么?

      證券時報
      2025-12-31 08:07:06
      如果沒有網絡,我們根本不知道

      如果沒有網絡,我們根本不知道

      報人劉亞東
      2025-12-28 13:41:06
      醫(yī)生直言:不管你信不信,老人過了80歲,基本都有如下5個現(xiàn)狀

      醫(yī)生直言:不管你信不信,老人過了80歲,基本都有如下5個現(xiàn)狀

      岐黃傳人孫大夫
      2026-01-01 12:00:03
      一位兩袖清風的領袖,是如何用二十年搞垮一個發(fā)達國家

      一位兩袖清風的領袖,是如何用二十年搞垮一個發(fā)達國家

      馬探解說體育
      2025-12-25 16:23:47
      震驚!圓明園馬首X光照出驚人真相!專家怒斥:這根本不是磨損!

      震驚!圓明園馬首X光照出驚人真相!專家怒斥:這根本不是磨損!

      鶴羽說個事
      2025-12-31 11:36:55
      全國八成帝王蟹,竟來自這個東北內陸小城

      全國八成帝王蟹,竟來自這個東北內陸小城

      果殼
      2026-01-02 12:05:38
      日本女孩子的相親擇偶標準

      日本女孩子的相親擇偶標準

      微微熱評
      2026-01-03 13:21:47
      樸廷桓再度撐起韓國圍棋門面,他對抗了整整四代中國棋手

      樸廷桓再度撐起韓國圍棋門面,他對抗了整整四代中國棋手

      月滿大江流
      2026-01-03 14:40:16
      重磅!上海豪擲超2400億布局十大工程,2026年將改變千萬人生活

      重磅!上海豪擲超2400億布局十大工程,2026年將改變千萬人生活

      石辰搞笑日常
      2026-01-03 07:26:45
      蔡正元這一招不錯,足夠給鄭麗文當“國師”,7連發(fā)“炸”賴清德

      蔡正元這一招不錯,足夠給鄭麗文當“國師”,7連發(fā)“炸”賴清德

      文史旺旺旺
      2026-01-03 18:47:05
      蔡正元在媒體爆料,自己農歷年前可能就得進去,要到土城監(jiān)獄!

      蔡正元在媒體爆料,自己農歷年前可能就得進去,要到土城監(jiān)獄!

      達文西看世界
      2026-01-02 21:36:36
      隆多:生涯唯一一次讓我感到無解的球員是12年東決G6的詹姆斯

      隆多:生涯唯一一次讓我感到無解的球員是12年東決G6的詹姆斯

      懂球帝
      2026-01-03 01:01:52
      國民黨中央委員選舉結果出爐,朱立倫狂喜,連戰(zhàn)布局,鄭麗文失意

      國民黨中央委員選舉結果出爐,朱立倫狂喜,連戰(zhàn)布局,鄭麗文失意

      南宮一二
      2026-01-03 12:08:18
      委內瑞拉之戰(zhàn)

      委內瑞拉之戰(zhàn)

      人間可頌
      2026-01-03 18:19:03
      謝娜不僅主持風格和大型晚會格格不入,下巴和蘋果肌也變得很奇怪

      謝娜不僅主持風格和大型晚會格格不入,下巴和蘋果肌也變得很奇怪

      白日追夢人
      2026-01-01 19:44:15
      特朗普:已抓獲馬杜羅及妻子并帶離委內瑞拉!俄方:美國襲擊委內瑞拉違反國際法

      特朗普:已抓獲馬杜羅及妻子并帶離委內瑞拉!俄方:美國襲擊委內瑞拉違反國際法

      每日經濟新聞
      2026-01-03 17:53:06
      轟25+4!中國男籃18歲2米03新星留美閃耀:獲13所名校邀約去哪?

      轟25+4!中國男籃18歲2米03新星留美閃耀:獲13所名校邀約去哪?

      李喜林籃球絕殺
      2026-01-03 13:41:19
      集體跳票!固態(tài)電池終局慘敗!全球巨頭紛紛延遲,量產節(jié)點從2027推遲到2030!三條路線血戰(zhàn)!鋰電絕地翻盤!

      集體跳票!固態(tài)電池終局慘??!全球巨頭紛紛延遲,量產節(jié)點從2027推遲到2030!三條路線血戰(zhàn)!鋰電絕地翻盤!

      商道童言
      2026-01-03 08:22:14
      300 萬支 95 式步槍迎來退役潮,它們的歸宿在哪?既不適合外銷,就連朝鮮、巴鐵也對此沒有需要

      300 萬支 95 式步槍迎來退役潮,它們的歸宿在哪?既不適合外銷,就連朝鮮、巴鐵也對此沒有需要

      史海孤雁
      2025-12-24 14:20:17
      2026-01-03 19:48:49

      新智元 incentive-icons
      新智元
      AI產業(yè)主平臺領航智能+時代
      14245文章數(shù) 66422關注度
      往期回顧 全部

      數(shù)碼要聞

      2025年度數(shù)碼好物大賞【年度評選】

      頭條要聞

      媒體:特朗普或等不及了 對委展開行動直撲馬杜羅

      頭條要聞

      媒體:特朗普或等不及了 對委展開行動直撲馬杜羅

      體育要聞

      快船似乎又行了

      娛樂要聞

      “國服嫂子”司曉迪,曝與多位男星私照

      財經要聞

      具身智能搶人大戰(zhàn):畢業(yè)一年 年薪300萬

      科技要聞

      比亞迪銷冠!特斯拉2025年交付量跌逾8%

      汽車要聞

      奕派科技全年銷量275,752輛 同比增長28.3

      態(tài)度原創(chuàng)

      手機
      家居
      藝術
      健康
      教育

      手機要聞

      榮耀Magic8 RSR與Magic8 mini被曝本月發(fā)布,誰更值得等?

      家居要聞

      無形有行 自然與靈感詩意

      藝術要聞

      “我不強奸你,你怎么當明星??!”

      元旦舉家出行,注意防流感

      教育要聞

      綿陽高三學生注意!事關2026年高考補報名

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丰满人妻熟妇乱又伦精品软件| 精品综合久久久久久97| 亚洲精品二区| 中文字幕AV在线| 四虎国产精品永久在线| 成人av亚洲男人色丁香| 免费午夜无码片在线观看影院| 亚洲天堂人妻| 欧美综合自拍亚洲综合图| 无套内射蜜桃小视频| 中文字幕在线日韩| 桃色综合网站| 91丨国产丨白浆秘?3D动漫| 亚洲 欧美 视频 手机在线| 国产精品普通话国语对白露脸| 国产精品理论片在线观看| 精品国产一区二区三区不卡| 最新亚洲中文字幕在线| 国产精品白丝av网站| 又大又紧又粉嫩18p少妇| 午夜免费国产体验区免费的| 国产精品 精品国内自产拍| 男女激情一区二区三区| 在线亚洲人成电影网站色www| 国产一区二区波多野结衣| 日韩少妇内射免费播放| 国产一区二区三区在线| 美女裸体a级毛片| 在线观看热码亚洲av每日更新| 中文字幕国产精品自拍| 亚欧乱色国产精品免费九库| 抽搐一进一出gif免费动态| 色综亚洲国产vv在线观看| 芜湖县| 内射囯产旡码丰满少妇| 91在线播| 国产成人片无码视频在线观看| 精东A片成人影视| 人妻熟妇久久久久久精| 一区二区激情| 在线亚洲人妻|