21世紀經濟報道記者 彭新
在AI算力需求結構重構、爭奪推理時代入場券的競賽中,國產算力廠商正加大押注。
市場共識已經形成,AI推理的轉折點已經到來。英偉達創始人兼CEO黃仁勛提出,AI推理的規模,很快將達到訓練負載的十億倍。
AI推理芯片企業曦望董事長徐冰認為,2026年AI推理計算需求將達到訓練需求的4—5倍,推理算力租賃價格半年漲幅近40%。
市場調研機構IDC則預計,到2028年推理工作負載占比將達到73%。隨著OpenClaw(龍蝦)智能體應用規模化鋪開,進一步推動算力需求向推理側遷移。
![]()
頭部廠商的動作高度一致:英偉達推出專為長上下文推理設計的Rubin CPX,并將推理芯片公司Groq納入CUDA生態;在4月22日舉行的Google Cloud Next 26大會上,谷歌發布第八代TPU,首次按訓練與推理拆分產品線;華為昇騰950PR/950DT則以P/D(Prefill/Decode)分離架構先行一步,平衡推理成本與效率,其中950PR原計劃于今年一季度上市,規模交付仍在推進,主要針對AI推理中的Prefill(預填充)和推薦場景。
種種動作表明,AI算力的重心,已從訓練逐步切換至推理,國產算力廠商無法忽視這一變化。
AI推理新浪潮
AI計算大致分為兩個層面,首先是對模型進行訓練(training),整個過程可能耗時數天甚至數周;之后是訓練出的模型響應實際請求,做出推理(inference)。訓練是一次性、批量化的投入,對單卡峰值算力和集群規模敏感;推理則是持續性、碎片化的運營支出,對時延、并發和單位token(詞元)成本更為敏感。
隨著智能體在企業應用中加速滲透,推理計算一直是業界競爭激烈的方向。與傳統對話式AI一問一答的調用模式不同,智能體在執行任務時往往需要多輪推理、工具調用和長上下文記憶,單個任務消耗的token數量可能是傳統對話的數十倍。
隨著智能體日益普及,市場對速度更快、能效更高芯片的需求激增。據業內測算,一個中等復雜度的企業級智能體工作流,一次完整執行消耗的推理算力,相當于數百次AI聊天機器人對話。
目前,英偉達旗下的GPU雖然占據訓練市場,多數推理任務仍由CPU承擔。GPU雖然速度快、功能強大,能夠同時執行數十億個簡單任務,但其主要用途在于訓練。
與此同時,推理所需的算力比GPU通常提供的要少,但需要更多內存。如果內存不足,芯片無法足夠快地獲取數據,就會形成瓶頸,迫使用戶更長時間等待模型響應,而長時間等待是用戶無法容忍的。
“我們發現用戶對AI推理的時延預期其實是非常高的。”云服務廠商Akamai亞太區云計算架構師總監李文濤告訴21世紀經濟報道記者,他介紹,以首token時延為例,游戲用戶(尤其是大規模、多用戶的在線游戲)往往希望在15毫秒拿到首token,在電商行業則約20毫秒,智能體自助服務約50毫秒,客服自動應答機器人等領域約100毫秒。
不同場景對時延的差異化要求,意味著單一規格的通用推理芯片難以同時覆蓋全部負載,硬件廠商必須在吞吐、時延、成本之間做出取舍。
黃仁勛認為,推理token的價值已顯著抬升,市場具備了按響應速度分層定價的條件。他以軟件工程師為例稱,這類高價值用戶愿意為更低延遲的token付費以提升生產力。為此,英偉達將Groq納入CUDA生態,在傳統高吞吐量路徑之外,開辟響應更快但吞吐量較低的推理細分市場,以覆蓋對速度敏感的高端需求。
在國內,受地緣政治因素影響,高端GPU短缺,需求端則受到智能體、AI內容生成等新興應用的快速拉升。隨著AI需求激增與算力供給受限的矛盾加劇,市場正面臨“等token”的窘境。近期,包括Kimi、MiniMax在內的多家主流大模型廠商,其API調用接連出現過載甚至服務中斷的情況。
華泰證券表示,云服務進入漲價周期,算力資源稀缺性進一步強化。在此背景下,國產模型與國產硬件協同優化持續推進,國產加速卡與超節點方案進入密集落地階段,國內算力景氣度與國產替代進程均有望持續強化。
芯片門派“出招”
應對推理計算需求爆炸式增長,谷歌是最新作出回應的科技巨頭。在Google Cloud Next 26大會上,谷歌發布第八代TPU的兩款新品,面向訓練的TPU 8t與面向推理的TPU 8i,這也是TPU歷史上首次按訓練/推理拆分架構。
其中,TPU 8i頗受外界關注,該芯片瞄準AI實時推理需求,發力多智能體協同等復雜應用場景,為實現更快的任務響應,TPU 8i著重優化了內存配置與片內數據吞吐能力,降低數據傳輸延遲,并提升了多芯片間的通信效率。
據谷歌介紹,得益于架構優化,TPU 8i在推理環節的性價比提升了近80%,這意味著在同等算力成本下,企業將能夠支撐更大規模的AI并發調用需求。
谷歌云AI與基礎設施高級副總裁兼首席技術官Amin Vahdat指出:“隨著人工智能代理的興起,我們認為,如果芯片能夠根據訓練和服務的需求進行個性化定制,那么整個社區將會受益。”
海外巨頭動作頻頻,國產算力廠商亦緊跟技術趨勢。觀察來看,中國公司并未簡單跟隨海外巨頭路徑,而是結合自身的技術底座與國內應用場景,走出了滿足本土需求的差異化發展道路。
目前,中國AI訓練與推理需求正迎來爆發式增長,全國算力總量已躍居全球第二,全球占比超過30%。國際知名投資研究機構伯恩斯坦(Bernstein)指出,以華為昇騰、寒武紀思元系列為代表的國產AI芯片正加速崛起,行業地位持續攀升。預計到2027年,中國AI芯片的國產化率將從2023年的17%大幅增至55%。
技術上,華為在推理產品上體現了Prefill(預填充)-Decode(解碼)分離思路。據華為在2025全聯接大會上披露的路線圖,昇騰950系列采用SIMD/SIMT混合微架構,FP8算力達到1PFLOPS、FP4算力達到2PFLOPS,搭載自研HBM(HiBL 1.0/HiZQ 2.0),支持從FP32到HiF4的多種數據格式。
其中,950PR主打推理中的Prefill階段和推薦場景,搭配自研HBM HiBL 1.0,強調低成本和大規模部署的經濟性。950DT則主打Decode階段和訓練場景,升級至自研HBM HiZQ 2.0,內存容量144GB、帶寬達到4TB/s,面向對訪存帶寬要求更高的長文本推理和千億參數模型訓練。
AI推理計算分為兩個主要任務:“預填充”即模型解釋用戶提示的過程,“解碼”即模型逐字生成響應的過程。對于較大的AI模型,預填充通常是兩個過程中較快的一個,而解碼則往往特別慢。將兩個階段分別交由不同規格的芯片處理,理論上可以提升整體資源利用率,降低單位token推理成本。
同時,華為計劃在2026年四季度發布Atlas 950超節點,支持8192顆昇騰950DT芯片,包括128個計算柜、32個互聯柜,共計160個機柜,占地面積約1000平方米。相比英偉達NVL144,Atlas 950超節點的卡規模是其56.8倍,總算力是其6.7倍,內存容量是其15倍,互聯帶寬是其62倍。
華為輪值董事長徐直軍表示,受制裁影響,單顆芯片算力與英偉達存在差距,但華為通過超節點互聯技術彌補單芯片性能不足,目標是在集群層面做到世界領先。
寒武紀則強調訓練與推理一體化的架構與生態。寒武紀在硬件端迭代至第五代MLUarch微架構,7nm思元590芯片集群FP16算力2.048PFLOPS,支持Chiplet異構集成與MLU-Link8卡互聯,性能對標國際主流;新一代微架構及指令集持續研發,重點優化大模型訓練推理場景。
軟件端NeuWare平臺實現“一次開發、多端部署”,兼容主流AI框架并開源工具鏈降低遷移成本,推理軟件平臺快速適配DeepSeek-V3.2等開源模型,降低遷移與迭代過程中的不確定性。
寒武紀的技術路線有兩個關鍵支點。一是自研指令集,公司自2016年起已迭代至第四代商用指令集,同一套指令集同時支持訓練和推理,覆蓋云邊端不同場景,這為其構建統一軟件生態提供了底層基礎。二是訓推一體的軟件平臺Cambricon Neuware整合了底層軟件棧,并與TensorFlow、PyTorch等主流框架深度融合,以縮短用戶從模型研發到部署的周期。在客戶側,思元590已在互聯網大廠的千卡級集群中商用部署。
除了華為和寒武紀,其他國產廠商也在推理賽道上展開差異化布局。摩爾線程等公司則圍繞通用GPU路線持續推進,在推理場景中重點突破多卡互聯和軟件工具鏈領域的技術瓶頸;曦望等AI芯片企業則瞄準細分場景,提高效率降低成本,例如推薦系統、長上下文推理、端側部署等,試圖在巨頭主導的通用市場之外尋找市場機會。
更關鍵的挑戰在生態。CUDA經過近二十年積累,已構建起涵蓋編程模型、核心庫、分布式框架、優化工具、推理引擎和主流框架原生支持的完整體系,這也是英偉達最深的護城河。華為去年宣布CANN編譯器和Mind系列套件于2025年底前完成開源,寒武紀也在持續開放NeuWare工具鏈,意圖正是降低開發者遷移門檻。
從市場反饋看,DeepSeek、通義千問等開源大模型與國產芯片的深度適配,正成為打破CUDA生態壁壘的突破口,當頭部開源模型在國產芯片上可以“開箱即用”,應用廠商的遷移意愿會顯著提升。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.