<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      “訓練為王”終結 :AI推理新浪潮,英偉達谷歌華為切換賽道

      0
      分享至

      21世紀經濟報道記者 彭新

      在AI算力需求結構重構、爭奪推理時代入場券的競賽中,國產算力廠商正加大押注。

      市場共識已經形成,AI推理的轉折點已經到來。英偉達創始人兼CEO黃仁勛提出,AI推理的規模,很快將達到訓練負載的十億倍。

      AI推理芯片企業曦望董事長徐冰認為,2026年AI推理計算需求將達到訓練需求的4—5倍,推理算力租賃價格半年漲幅近40%。

      市場調研機構IDC則預計,到2028年推理工作負載占比將達到73%。隨著OpenClaw(龍蝦)智能體應用規模化鋪開,進一步推動算力需求向推理側遷移。



      頭部廠商的動作高度一致:英偉達推出專為長上下文推理設計的Rubin CPX,并將推理芯片公司Groq納入CUDA生態;在4月22日舉行的Google Cloud Next 26大會上,谷歌發布第八代TPU,首次按訓練與推理拆分產品線;華為昇騰950PR/950DT則以P/D(Prefill/Decode)分離架構先行一步,平衡推理成本與效率,其中950PR原計劃于今年一季度上市,規模交付仍在推進,主要針對AI推理中的Prefill(預填充)和推薦場景。

      種種動作表明,AI算力的重心,已從訓練逐步切換至推理,國產算力廠商無法忽視這一變化。

      AI推理新浪潮

      AI計算大致分為兩個層面,首先是對模型進行訓練(training),整個過程可能耗時數天甚至數周;之后是訓練出的模型響應實際請求,做出推理(inference)。訓練是一次性、批量化的投入,對單卡峰值算力和集群規模敏感;推理則是持續性、碎片化的運營支出,對時延、并發和單位token(詞元)成本更為敏感。

      隨著智能體在企業應用中加速滲透,推理計算一直是業界競爭激烈的方向。與傳統對話式AI一問一答的調用模式不同,智能體在執行任務時往往需要多輪推理、工具調用和長上下文記憶,單個任務消耗的token數量可能是傳統對話的數十倍。

      隨著智能體日益普及,市場對速度更快、能效更高芯片的需求激增。據業內測算,一個中等復雜度的企業級智能體工作流,一次完整執行消耗的推理算力,相當于數百次AI聊天機器人對話。

      目前,英偉達旗下的GPU雖然占據訓練市場,多數推理任務仍由CPU承擔。GPU雖然速度快、功能強大,能夠同時執行數十億個簡單任務,但其主要用途在于訓練。

      與此同時,推理所需的算力比GPU通常提供的要少,但需要更多內存。如果內存不足,芯片無法足夠快地獲取數據,就會形成瓶頸,迫使用戶更長時間等待模型響應,而長時間等待是用戶無法容忍的。

      “我們發現用戶對AI推理的時延預期其實是非常高的。”云服務廠商Akamai亞太區云計算架構師總監李文濤告訴21世紀經濟報道記者,他介紹,以首token時延為例,游戲用戶(尤其是大規模、多用戶的在線游戲)往往希望在15毫秒拿到首token,在電商行業則約20毫秒,智能體自助服務約50毫秒,客服自動應答機器人等領域約100毫秒。

      不同場景對時延的差異化要求,意味著單一規格的通用推理芯片難以同時覆蓋全部負載,硬件廠商必須在吞吐、時延、成本之間做出取舍。

      黃仁勛認為,推理token的價值已顯著抬升,市場具備了按響應速度分層定價的條件。他以軟件工程師為例稱,這類高價值用戶愿意為更低延遲的token付費以提升生產力。為此,英偉達將Groq納入CUDA生態,在傳統高吞吐量路徑之外,開辟響應更快但吞吐量較低的推理細分市場,以覆蓋對速度敏感的高端需求。

      在國內,受地緣政治因素影響,高端GPU短缺,需求端則受到智能體、AI內容生成等新興應用的快速拉升。隨著AI需求激增與算力供給受限的矛盾加劇,市場正面臨“等token”的窘境。近期,包括Kimi、MiniMax在內的多家主流大模型廠商,其API調用接連出現過載甚至服務中斷的情況。

      華泰證券表示,云服務進入漲價周期,算力資源稀缺性進一步強化。在此背景下,國產模型與國產硬件協同優化持續推進,國產加速卡與超節點方案進入密集落地階段,國內算力景氣度與國產替代進程均有望持續強化。

      芯片門派“出招”

      應對推理計算需求爆炸式增長,谷歌是最新作出回應的科技巨頭。在Google Cloud Next 26大會上,谷歌發布第八代TPU的兩款新品,面向訓練的TPU 8t與面向推理的TPU 8i,這也是TPU歷史上首次按訓練/推理拆分架構。

      其中,TPU 8i頗受外界關注,該芯片瞄準AI實時推理需求,發力多智能體協同等復雜應用場景,為實現更快的任務響應,TPU 8i著重優化了內存配置與片內數據吞吐能力,降低數據傳輸延遲,并提升了多芯片間的通信效率。

      據谷歌介紹,得益于架構優化,TPU 8i在推理環節的性價比提升了近80%,這意味著在同等算力成本下,企業將能夠支撐更大規模的AI并發調用需求。

      谷歌云AI與基礎設施高級副總裁兼首席技術官Amin Vahdat指出:“隨著人工智能代理的興起,我們認為,如果芯片能夠根據訓練和服務的需求進行個性化定制,那么整個社區將會受益。”

      海外巨頭動作頻頻,國產算力廠商亦緊跟技術趨勢。觀察來看,中國公司并未簡單跟隨海外巨頭路徑,而是結合自身的技術底座與國內應用場景,走出了滿足本土需求的差異化發展道路。

      目前,中國AI訓練與推理需求正迎來爆發式增長,全國算力總量已躍居全球第二,全球占比超過30%。國際知名投資研究機構伯恩斯坦(Bernstein)指出,以華為昇騰、寒武紀思元系列為代表的國產AI芯片正加速崛起,行業地位持續攀升。預計到2027年,中國AI芯片的國產化率將從2023年的17%大幅增至55%。

      技術上,華為在推理產品上體現了Prefill(預填充)-Decode(解碼)分離思路。據華為在2025全聯接大會上披露的路線圖,昇騰950系列采用SIMD/SIMT混合微架構,FP8算力達到1PFLOPS、FP4算力達到2PFLOPS,搭載自研HBM(HiBL 1.0/HiZQ 2.0),支持從FP32到HiF4的多種數據格式。

      其中,950PR主打推理中的Prefill階段和推薦場景,搭配自研HBM HiBL 1.0,強調低成本和大規模部署的經濟性。950DT則主打Decode階段和訓練場景,升級至自研HBM HiZQ 2.0,內存容量144GB、帶寬達到4TB/s,面向對訪存帶寬要求更高的長文本推理和千億參數模型訓練。

      AI推理計算分為兩個主要任務:“預填充”即模型解釋用戶提示的過程,“解碼”即模型逐字生成響應的過程。對于較大的AI模型,預填充通常是兩個過程中較快的一個,而解碼則往往特別慢。將兩個階段分別交由不同規格的芯片處理,理論上可以提升整體資源利用率,降低單位token推理成本。

      同時,華為計劃在2026年四季度發布Atlas 950超節點,支持8192顆昇騰950DT芯片,包括128個計算柜、32個互聯柜,共計160個機柜,占地面積約1000平方米。相比英偉達NVL144,Atlas 950超節點的卡規模是其56.8倍,總算力是其6.7倍,內存容量是其15倍,互聯帶寬是其62倍。

      華為輪值董事長徐直軍表示,受制裁影響,單顆芯片算力與英偉達存在差距,但華為通過超節點互聯技術彌補單芯片性能不足,目標是在集群層面做到世界領先。

      寒武紀則強調訓練與推理一體化的架構與生態。寒武紀在硬件端迭代至第五代MLUarch微架構,7nm思元590芯片集群FP16算力2.048PFLOPS,支持Chiplet異構集成與MLU-Link8卡互聯,性能對標國際主流;新一代微架構及指令集持續研發,重點優化大模型訓練推理場景。

      軟件端NeuWare平臺實現“一次開發、多端部署”,兼容主流AI框架并開源工具鏈降低遷移成本,推理軟件平臺快速適配DeepSeek-V3.2等開源模型,降低遷移與迭代過程中的不確定性。

      寒武紀的技術路線有兩個關鍵支點。一是自研指令集,公司自2016年起已迭代至第四代商用指令集,同一套指令集同時支持訓練和推理,覆蓋云邊端不同場景,這為其構建統一軟件生態提供了底層基礎。二是訓推一體的軟件平臺Cambricon Neuware整合了底層軟件棧,并與TensorFlow、PyTorch等主流框架深度融合,以縮短用戶從模型研發到部署的周期。在客戶側,思元590已在互聯網大廠的千卡級集群中商用部署。

      除了華為和寒武紀,其他國產廠商也在推理賽道上展開差異化布局。摩爾線程等公司則圍繞通用GPU路線持續推進,在推理場景中重點突破多卡互聯和軟件工具鏈領域的技術瓶頸;曦望等AI芯片企業則瞄準細分場景,提高效率降低成本,例如推薦系統、長上下文推理、端側部署等,試圖在巨頭主導的通用市場之外尋找市場機會。

      更關鍵的挑戰在生態。CUDA經過近二十年積累,已構建起涵蓋編程模型、核心庫、分布式框架、優化工具、推理引擎和主流框架原生支持的完整體系,這也是英偉達最深的護城河。華為去年宣布CANN編譯器和Mind系列套件于2025年底前完成開源,寒武紀也在持續開放NeuWare工具鏈,意圖正是降低開發者遷移門檻。

      從市場反饋看,DeepSeek、通義千問等開源大模型與國產芯片的深度適配,正成為打破CUDA生態壁壘的突破口,當頭部開源模型在國產芯片上可以“開箱即用”,應用廠商的遷移意愿會顯著提升。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      寺廟整治風暴來襲 43家違規場所被關停

      寺廟整治風暴來襲 43家違規場所被關停

      阿萊美食匯
      2026-04-24 00:03:25
      湖人G2大勝后迎來利好!東契奇復出時間更明朗,里夫斯復出在即

      湖人G2大勝后迎來利好!東契奇復出時間更明朗,里夫斯復出在即

      夜白侃球
      2026-04-23 10:41:25
      成都一小區一把菜刀從天而降,墜落兒童游樂區!有監控拍到來自8樓以上,犯罪嫌疑人已被抓獲并被刑事拘留

      成都一小區一把菜刀從天而降,墜落兒童游樂區!有監控拍到來自8樓以上,犯罪嫌疑人已被抓獲并被刑事拘留

      都市快報橙柿互動
      2026-04-23 15:52:49
      英國王室核心確立!哈里和梅根正式出局,威廉王子計劃精簡王室

      英國王室核心確立!哈里和梅根正式出局,威廉王子計劃精簡王室

      人物檔案局
      2026-04-22 19:27:19
      患難見情誼,普京被逼賣黃金?中方發話:俄賣多少,中方就收多少

      患難見情誼,普京被逼賣黃金?中方發話:俄賣多少,中方就收多少

      嘴角上翹
      2026-04-23 18:08:12
      格力回應鋁線電機爭議:相關工程機已停產,海信稱靠多三兩銅多500元時代已終結

      格力回應鋁線電機爭議:相關工程機已停產,海信稱靠多三兩銅多500元時代已終結

      紅星資本局
      2026-04-21 20:40:16
      如果在家突發心梗,黃金6分鐘自救法,快了解,關鍵時刻可自救

      如果在家突發心梗,黃金6分鐘自救法,快了解,關鍵時刻可自救

      健康科普365
      2026-01-20 16:05:03
      許家印到底有多貪得無厭?回老家給村民發紅包,錢都是公司報銷的

      許家印到底有多貪得無厭?回老家給村民發紅包,錢都是公司報銷的

      林小明商業評說
      2026-04-23 13:01:26
      中方不再伺候了!對荷光刻機優待全部取消,450億芯片不做了!

      中方不再伺候了!對荷光刻機優待全部取消,450億芯片不做了!

      泠泠說史
      2026-04-21 21:13:01
      8℃↗28℃!冷暖大反轉!江蘇天氣最新預測

      8℃↗28℃!冷暖大反轉!江蘇天氣最新預測

      江南晚報
      2026-04-24 03:27:36
      寧夏一位36歲女博士未婚未育,吐槽無人問津:已徹底放棄結婚!

      寧夏一位36歲女博士未婚未育,吐槽無人問津:已徹底放棄結婚!

      番外行
      2026-04-23 07:43:15
      破案了!麥考爾為何沒有隨廣東隊前往福建,經紀人道出原因

      破案了!麥考爾為何沒有隨廣東隊前往福建,經紀人道出原因

      體育哲人
      2026-04-23 20:56:42
      他汀立新功!研究發現:這2種他汀不僅不傷肝,還能降低肝癌風險

      他汀立新功!研究發現:這2種他汀不僅不傷肝,還能降低肝癌風險

      岐黃傳人孫大夫
      2026-04-23 09:20:10
      “鐘聲”把話說的很直白,中國不會拉菲律賓一把,馬科斯該死心了

      “鐘聲”把話說的很直白,中國不會拉菲律賓一把,馬科斯該死心了

      依偎在角落
      2026-04-22 22:31:55
      涉破壞耕地、非法開采等,兩部門通報違法違規典型問題

      涉破壞耕地、非法開采等,兩部門通報違法違規典型問題

      界面新聞
      2026-04-23 11:19:04
      施壓中方讓步?日代表團強求訪華,中國“4箭齊發”,抗議也無效

      施壓中方讓步?日代表團強求訪華,中國“4箭齊發”,抗議也無效

      牛鍋巴小釩
      2026-04-23 18:16:56
      “醫院一主任巨額財產來源不明、非法侵占公有資金”新進展:葉某被作為違紀違法典型;知情人士:涉案金額超300萬

      “醫院一主任巨額財產來源不明、非法侵占公有資金”新進展:葉某被作為違紀違法典型;知情人士:涉案金額超300萬

      大風新聞
      2026-04-22 21:31:01
      陳嘉庚先生回憶:當年去延安,毛主席為了招待我,連雞肉都是借的

      陳嘉庚先生回憶:當年去延安,毛主席為了招待我,連雞肉都是借的

      東哥講歷史1
      2025-08-16 01:32:44
      總比分0-1,葡超領頭羊不敵葡超第3,穆帥老東家無緣葡萄牙杯決賽

      總比分0-1,葡超領頭羊不敵葡超第3,穆帥老東家無緣葡萄牙杯決賽

      凌空倒鉤
      2026-04-23 05:53:10
      光纖再爆單!20家年報集體增長最高3212%,社保基金、外資重倉6家

      光纖再爆單!20家年報集體增長最高3212%,社保基金、外資重倉6家

      長風價值掘金
      2026-04-23 15:16:51
      2026-04-24 05:35:00
      21世紀經濟報道 incentive-icons
      21世紀經濟報道
      中國商業新聞領導者
      244628文章數 744128關注度
      往期回顧 全部

      科技要聞

      馬斯克喊出"史上最大產品",但量產難預測

      頭條要聞

      以色列:只要美國同意 將刺殺伊朗最高領袖

      頭條要聞

      以色列:只要美國同意 將刺殺伊朗最高領袖

      體育要聞

      給文班剃頭的馬刺DJ,成為NBA最佳第六人

      娛樂要聞

      王大陸因涉黑討債被判 女友也一同獲刑

      財經要聞

      普華永道賠償10億 恒大股東見到"回頭錢"

      汽車要聞

      預售30.29萬起 嵐圖泰山X8配896線激光雷達

      態度原創

      家居
      數碼
      旅游
      公開課
      軍事航空

      家居要聞

      浪漫協奏 法式風格

      數碼要聞

      榮耀重新定義輕薄本,四月連發六款新品續航首超Mac

      旅游要聞

      來廣州,分享10億元“中國旅游日”專屬優惠福利

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      人民海軍成立77周年 主力艦艇亮相上海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品无码aⅴ中文字幕蜜桃| 久久国产劲爆∧v内射| 亚洲欧美日韩另类| 国产一区二区三区不卡av| 额尔古纳市| 国产成人无码综合亚洲日韩| 亚洲综合91社区精品福利| 国产精品乱码人妻一区二区三区| 成人丝袜激情一区二区| 亚洲欧洲AV| 亚色天堂| 色色看片| 亚洲国产精品色一区二区| 人妻精品久久久久中文字幕69| 日本五区在线不卡精品| 国产无遮挡又黄又爽免费网站| 美女91美女视频网站| 中文字幕av高清片| 人人妻人人澡人人爽| 国产精一区二区三区午夜| 日韩放荡少妇无码视频| 连州市| 色护士极品影院| 岛国在线无码| 55夜色66夜色国产精品视频| 亚洲欧美另类在线| 国产色亚洲| 国产亚洲无线码一区二区| 蜜桃av多人一区二区三区| 国产一区二区三区内射高清| 成人午夜天| 精品乱人伦一区二区三区| 亚洲精品国产字幕久久麻豆| 精品人妻一区二区三区四区在线| 久久久久999| 免费一本色道久久一区| 亚洲日本91| 亚洲狠狠婷婷综合久久| 亚洲综合91社区精品福利| 亚洲欧洲自偷自拍图片| 四虎成人在线观看免费|