網易首頁 > 網易號 > 正文申請入駐

“訓練為王”終結：AI推理新浪潮，英偉達谷歌華為切換賽道

2026-04-23 21:50:10　來源: 21世紀經濟報道

廣東舉報

分享至

21世紀經濟報道記者彭新

在AI算力需求結構重構、爭奪推理時代入場券的競賽中，國產算力廠商正加大押注。

市場共識已經形成，AI推理的轉折點已經到來。英偉達創始人兼CEO黃仁勛提出，AI推理的規模，很快將達到訓練負載的十億倍。

AI推理芯片企業曦望董事長徐冰認為，2026年AI推理計算需求將達到訓練需求的4—5倍，推理算力租賃價格半年漲幅近40％。

市場調研機構IDC則預計，到2028年推理工作負載占比將達到73％。隨著OpenClaw（龍蝦）智能體應用規模化鋪開，進一步推動算力需求向推理側遷移。

頭部廠商的動作高度一致：英偉達推出專為長上下文推理設計的Rubin CPX，并將推理芯片公司Groq納入CUDA生態；在4月22日舉行的Google Cloud Next 26大會上，谷歌發布第八代TPU，首次按訓練與推理拆分產品線；華為昇騰950PR／950DT則以P／D（Prefill／Decode）分離架構先行一步，平衡推理成本與效率，其中950PR原計劃于今年一季度上市，規模交付仍在推進，主要針對AI推理中的Prefill（預填充）和推薦場景。

種種動作表明，AI算力的重心，已從訓練逐步切換至推理，國產算力廠商無法忽視這一變化。

AI推理新浪潮

AI計算大致分為兩個層面，首先是對模型進行訓練（training），整個過程可能耗時數天甚至數周；之后是訓練出的模型響應實際請求，做出推理（inference）。訓練是一次性、批量化的投入，對單卡峰值算力和集群規模敏感；推理則是持續性、碎片化的運營支出，對時延、并發和單位token（詞元）成本更為敏感。

隨著智能體在企業應用中加速滲透，推理計算一直是業界競爭激烈的方向。與傳統對話式AI一問一答的調用模式不同，智能體在執行任務時往往需要多輪推理、工具調用和長上下文記憶，單個任務消耗的token數量可能是傳統對話的數十倍。

隨著智能體日益普及，市場對速度更快、能效更高芯片的需求激增。據業內測算，一個中等復雜度的企業級智能體工作流，一次完整執行消耗的推理算力，相當于數百次AI聊天機器人對話。

目前，英偉達旗下的GPU雖然占據訓練市場，多數推理任務仍由CPU承擔。GPU雖然速度快、功能強大，能夠同時執行數十億個簡單任務，但其主要用途在于訓練。

與此同時，推理所需的算力比GPU通常提供的要少，但需要更多內存。如果內存不足，芯片無法足夠快地獲取數據，就會形成瓶頸，迫使用戶更長時間等待模型響應，而長時間等待是用戶無法容忍的。

“我們發現用戶對AI推理的時延預期其實是非常高的。”云服務廠商Akamai亞太區云計算架構師總監李文濤告訴21世紀經濟報道記者，他介紹，以首token時延為例，游戲用戶（尤其是大規模、多用戶的在線游戲）往往希望在15毫秒拿到首token，在電商行業則約20毫秒，智能體自助服務約50毫秒，客服自動應答機器人等領域約100毫秒。

不同場景對時延的差異化要求，意味著單一規格的通用推理芯片難以同時覆蓋全部負載，硬件廠商必須在吞吐、時延、成本之間做出取舍。

黃仁勛認為，推理token的價值已顯著抬升，市場具備了按響應速度分層定價的條件。他以軟件工程師為例稱，這類高價值用戶愿意為更低延遲的token付費以提升生產力。為此，英偉達將Groq納入CUDA生態，在傳統高吞吐量路徑之外，開辟響應更快但吞吐量較低的推理細分市場，以覆蓋對速度敏感的高端需求。

在國內，受地緣政治因素影響，高端GPU短缺，需求端則受到智能體、AI內容生成等新興應用的快速拉升。隨著AI需求激增與算力供給受限的矛盾加劇，市場正面臨“等token”的窘境。近期，包括Kimi、MiniMax在內的多家主流大模型廠商，其API調用接連出現過載甚至服務中斷的情況。

華泰證券表示，云服務進入漲價周期，算力資源稀缺性進一步強化。在此背景下，國產模型與國產硬件協同優化持續推進，國產加速卡與超節點方案進入密集落地階段，國內算力景氣度與國產替代進程均有望持續強化。

芯片門派“出招”

應對推理計算需求爆炸式增長，谷歌是最新作出回應的科技巨頭。在Google Cloud Next 26大會上，谷歌發布第八代TPU的兩款新品，面向訓練的TPU 8t與面向推理的TPU 8i，這也是TPU歷史上首次按訓練／推理拆分架構。

其中，TPU 8i頗受外界關注，該芯片瞄準AI實時推理需求，發力多智能體協同等復雜應用場景，為實現更快的任務響應，TPU 8i著重優化了內存配置與片內數據吞吐能力，降低數據傳輸延遲，并提升了多芯片間的通信效率。

據谷歌介紹，得益于架構優化，TPU 8i在推理環節的性價比提升了近80％，這意味著在同等算力成本下，企業將能夠支撐更大規模的AI并發調用需求。

谷歌云AI與基礎設施高級副總裁兼首席技術官Amin Vahdat指出：“隨著人工智能代理的興起，我們認為，如果芯片能夠根據訓練和服務的需求進行個性化定制，那么整個社區將會受益。”

海外巨頭動作頻頻，國產算力廠商亦緊跟技術趨勢。觀察來看，中國公司并未簡單跟隨海外巨頭路徑，而是結合自身的技術底座與國內應用場景，走出了滿足本土需求的差異化發展道路。

目前，中國AI訓練與推理需求正迎來爆發式增長，全國算力總量已躍居全球第二，全球占比超過30％。國際知名投資研究機構伯恩斯坦（Bernstein）指出，以華為昇騰、寒武紀思元系列為代表的國產AI芯片正加速崛起，行業地位持續攀升。預計到2027年，中國AI芯片的國產化率將從2023年的17％大幅增至55％。

技術上，華為在推理產品上體現了Prefill（預填充）－Decode（解碼）分離思路。據華為在2025全聯接大會上披露的路線圖，昇騰950系列采用SIMD／SIMT混合微架構，FP8算力達到1PFLOPS、FP4算力達到2PFLOPS，搭載自研HBM（HiBL 1.0／HiZQ 2.0），支持從FP32到HiF4的多種數據格式。

其中，950PR主打推理中的Prefill階段和推薦場景，搭配自研HBM HiBL 1.0，強調低成本和大規模部署的經濟性。950DT則主打Decode階段和訓練場景，升級至自研HBM HiZQ 2.0，內存容量144GB、帶寬達到4TB／s，面向對訪存帶寬要求更高的長文本推理和千億參數模型訓練。

AI推理計算分為兩個主要任務：“預填充”即模型解釋用戶提示的過程，“解碼”即模型逐字生成響應的過程。對于較大的AI模型，預填充通常是兩個過程中較快的一個，而解碼則往往特別慢。將兩個階段分別交由不同規格的芯片處理，理論上可以提升整體資源利用率，降低單位token推理成本。

同時，華為計劃在2026年四季度發布Atlas 950超節點，支持8192顆昇騰950DT芯片，包括128個計算柜、32個互聯柜，共計160個機柜，占地面積約1000平方米。相比英偉達NVL144，Atlas 950超節點的卡規模是其56.8倍，總算力是其6.7倍，內存容量是其15倍，互聯帶寬是其62倍。

華為輪值董事長徐直軍表示，受制裁影響，單顆芯片算力與英偉達存在差距，但華為通過超節點互聯技術彌補單芯片性能不足，目標是在集群層面做到世界領先。

寒武紀則強調訓練與推理一體化的架構與生態。寒武紀在硬件端迭代至第五代MLUarch微架構，7nm思元590芯片集群FP16算力2.048PFLOPS，支持Chiplet異構集成與MLU－Link8卡互聯，性能對標國際主流；新一代微架構及指令集持續研發，重點優化大模型訓練推理場景。

軟件端NeuWare平臺實現“一次開發、多端部署”，兼容主流AI框架并開源工具鏈降低遷移成本，推理軟件平臺快速適配DeepSeek-V3.2等開源模型，降低遷移與迭代過程中的不確定性。

寒武紀的技術路線有兩個關鍵支點。一是自研指令集，公司自2016年起已迭代至第四代商用指令集，同一套指令集同時支持訓練和推理，覆蓋云邊端不同場景，這為其構建統一軟件生態提供了底層基礎。二是訓推一體的軟件平臺Cambricon Neuware整合了底層軟件棧，并與TensorFlow、PyTorch等主流框架深度融合，以縮短用戶從模型研發到部署的周期。在客戶側，思元590已在互聯網大廠的千卡級集群中商用部署。

除了華為和寒武紀，其他國產廠商也在推理賽道上展開差異化布局。摩爾線程等公司則圍繞通用GPU路線持續推進，在推理場景中重點突破多卡互聯和軟件工具鏈領域的技術瓶頸；曦望等AI芯片企業則瞄準細分場景，提高效率降低成本，例如推薦系統、長上下文推理、端側部署等，試圖在巨頭主導的通用市場之外尋找市場機會。

更關鍵的挑戰在生態。CUDA經過近二十年積累，已構建起涵蓋編程模型、核心庫、分布式框架、優化工具、推理引擎和主流框架原生支持的完整體系，這也是英偉達最深的護城河。華為去年宣布CANN編譯器和Mind系列套件于2025年底前完成開源，寒武紀也在持續開放NeuWare工具鏈，意圖正是降低開發者遷移門檻。

從市場反饋看，DeepSeek、通義千問等開源大模型與國產芯片的深度適配，正成為打破CUDA生態壁壘的突破口，當頭部開源模型在國產芯片上可以“開箱即用”，應用廠商的遷移意愿會顯著提升。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.