![]()
經濟觀察報記者 鄭晨燁
2026年2月9日至2月15日,在線人工智能托管平臺OpenRouter發布了一組數據:中國大模型的單周調用量達到4.12萬億Token,歷史上首次超過美國模型的2.94萬億Token。
OpenRouter是一個聚合全球大模型接口的平臺,被稱為人工智能界的“超級接口”。開發者不需要逐一去注冊大模型公司的賬號,只需通過該平臺的統一接口,就能自由調用全球各家公司推出的各類模型,因此,該平臺的使用量數據通常被視為全球大模型受歡迎程度和真實應用強度的風向標。
緊接著的2月16日至2月22日這一周,中國大模型的周調用量進一步沖高至5.16萬億Token,三周內增長了127%,在當周全球大模型周調用量排名前五的榜單中,MiniMax M2.5、月之暗面Kimi K2.5、智譜GLM-5與深度求索DeepSeek V3.2占據了四個席位。
根據官方用戶數據,在OpenRouter平臺近47.17%的用戶來自美國、中國開發者僅占6.01%的背景下,這組數據反映出海外開發者對中國模型的使用意愿正在快速上升。
Token是人工智能處理語言的基本單元。在算力市場中,Token調用量是衡量大模型使用強度、商業價值與滲透深度的核心指標,海外開發者對中國模型的高頻調用,標志著人工智能產業的重心正在發生轉移,行業不再單純比拼構建大模型時的“一次性訓練成本”,而是進入了高頻度、常態化的“應用推理”階段。
應用重心的遷移直接導致了下游采購標準的轉向,國產AI芯片廠商也由此獲得了加快進入市場的機會。
五萬億Token流向了哪里
要厘清這五萬億Token的去向,首先需要觀察用戶使用人工智能的方式發生了什么變化。
根據OpenRouter與風險投資機構a16z聯合發布的《2025 AI使用報告》,該平臺處理的編程任務Token占比已從2025年初的11%增加到了50%以上,成為最大的單一使用品類。這一轉變背后,是人工智能應用模式從“問答式”向“智能體(Agent)”模式的切換。
在早期的問答模式下,用戶提一個問題,模型給出一個回答,單次交互消耗的Token通常在幾百到幾千個之間。一旦用戶停止提問,消耗也就隨之停止。但進入智能體模式后,人工智能開始在后臺持續執行多步驟任務。
上海一家算力芯片廠商的負責人告訴記者,以編程場景為例,一個智能體在接收到指令后,會經歷編寫代碼、運行測試、識別報錯、自我修正、再次運行的循環,為了讓機器記住此前的操作,每次調用都需要攜帶完整的對話歷史。
比如,目前國產大模型諸如智譜GLM-5等新一代模型已經支持200K(約20萬Token)的超長上下文窗口。這種多輪自我修正和工具鏈級聯的模式,使得單次活躍會話的Token吞吐量呈幾何級數增長。
另外,多模態應用的落地則進一步推高了消耗量。根據公開數據,年初爆火的Seedance 2.0視頻模型生成一條10秒、1080p規格的視頻,大約需要消耗35萬Token。
視頻生成場景單位時間內產生的Token消耗,是傳統文本問答的數百倍。
“當前數萬億Token級別的調用量,已不再主要由測試性場景構成,而是由一批高頻、規模化、可持續付費的商業應用所支撐。”弗若斯特沙利文(Frost & Sullivan)中國業務主管合伙人兼董事總經理陸景向經濟觀察報記者表示。
陸景介紹,從頭豹研究院對國內大模型商業生態的調研來看,目前集中買單的領域主要包括互聯網、金融、跨境電商與娛樂行業。
具體場景則涵蓋了以下三類:第一類是企業級應用,如智能客服、智能營銷、代碼輔助開發、辦公自動化工具等,這類應用在金融、電商、游戲行業已實現規模化部署;第二類是互聯網平臺中的生成式內容服務,包括智能搜索、對話式助手與虛擬角色;第三類是AIGC(人工智能生成內容)生產工具,如短視頻腳本生成、廣告文案創作、跨境電商商品描述生成等。
這些行業的共同特征是,業務流程中存在高比例的文本或多模態內容生成需求,且企業能夠承接大模型服務產生的算力成本。
2026年2月10日,在鄭州舉行的“國產萬卡算力賦能大模型發展研討會”上,中國科學院自動化所研究員陳盈盈表示,驅動行業發展的核心動力依然是大算力、大數據與大參數。但隨著模型參數量增長帶來的性能提升進入瓶頸期,行業正邁向智能體、合成數據和推理計算,數據決定了人工智能的高度,環境將決定模型演進的方向。
應用模式的改變,解釋了調用量為何飆升,那為何國產大模型又能在新的范式下,承接住來自全球高頻的調用需求呢?
前述算力芯片廠商負責人告訴記者,目前,MiniMax M2.5、Kimi K2.5等國產模型普遍采用了“混合專家(MoE)”架構。與傳統的稠密模型(Dense Model)在每次運算時都要激活全部參數不同,MoE架構通過按需激活特定的專家網絡,使推理時的顯存占用降低了約60%,吞吐量得到顯著提升。
稠密模型的設計邏輯是,處理每一個輸入請求時,神經網絡中的每一個參數都必須參與計算。這意味著隨著模型規模的增大,所需的算力與顯存開銷會同步呈線性增長。
混合專家架構則改變了這種全量運算的模式,它將模型參數劃分為多個功能組,即“專家”,在執行具體任務時,路由系統會識別需求并只激活與之相關的部分參數。這種分工機制使得模型可以在保持巨大參數量的同時,大幅降低單次推理所需的有效算力。
技術上的優化直接反映在了售價上。目前中國模型的輸入價格約為0.3美元/百萬Token,而部分海外同類產品的價格在5美元左右。此外,電力成本也是一個變量,中國西部算力節點的電力成本約為每度0.2元至0.3元,而歐美地區的成本在1元至1.5元之間。
這種成本優勢促成了供需關系的再平衡。2026年春節期間,國產大模型迎來密集發布潮。2月11日,智譜上線底座模型GLM-5;2月12日,MiniMax開源文本模型M2.5;2月14日,字節跳動發布豆包大模型2.0系列,與此同時,大廠圍繞AI應用的紅包戰同步打響:百度投入5億元,騰訊元寶10億元,阿里推出30億元免單計劃。
密集的應用落地也拉動了算力消耗的急劇攀升。公開數據顯示,中國日均Token消耗從2024年初的1000億攀升至2026年2月的180萬億級別,在這種爆發式的需求驅動下,此前深陷價格戰的國內大模型廠商開始集體調頭。
比如,2026年2月12日,智譜AI在發布新模型的同時,宣布上調其API(應用程序編程接口)調用價格,部分海外訂閱價格漲幅達到30%至60%,API調用價格漲幅最高達到100%。智譜對此回應稱,用戶規模與調用量快速提升,公司需同步加大算力投入。另外,月之暗面旗下的Kimi K2.5發布不到一個月,其海外收入便超過了國內收入。
也就是說,大模型公司正在告別虧本引流的價格戰,開始有了實打實的業務收入。五萬億Token的流向表明,人工智能正在從單純的對話框,轉變為金融、電商與編程場景中在后臺自動運轉的工業流程。
而順著這股成倍增長的數據流往上游看,那些承載運算任務的智算中心,挑選算力硬件的眼光也發生了變化。
算力采購的標準變了
算力市場的核心指標正在從搶奪計算卡轉向核算單位產出成本。
2025年,中國GPU算力租賃市場經歷了價格下調。比如,英偉達H100計算卡的租賃價格從高峰時的每小時90多元人民幣,跌至15元到20元;A100的價格則降至每小時3元到5元。
這種價格走勢背后是采購邏輯的更替。在大模型開發初期,由于高性能芯片稀缺,市場處于資源囤積階段,追求的是單卡的算力峰值(FLOPS)。但當推理負載成為常態后,企業開始核算總擁有成本(TCO)。
“客戶不再只盯著單卡的絕對算力峰值,而是開始計算每投入一元錢能換取多少吞吐量,每消耗一瓦電能處理多少Token。”前述算力芯片廠商負責人向經濟觀察報記者表示。
該負責人認為,當前的算力需求呈現出推理與渲染的雙重特征。除了文本生成,AI智能體云底座、云手機、數字孿生及工業仿真等場景對實時交互的需求,正在拉動對全功能GPU的采購。進入推理階段之后,國產芯片迎來了切入窗口——訓練階段行業高度依賴英偉達的CUDA生態,而推理任務則更聚焦于能耗、穩定性和供應安全。
TrendForce集邦咨詢分析師龔明德在回復經濟觀察報記者采訪時亦預計,2026年推理型AI服務器在整體出貨結構中的比重有望提升至44%,相較于2025年上升3個百分點。
龔明德認為,相比追求算力密度的大模型訓練集群,推理型服務器在底層硬件架構設計上更注重性價比和能效比,推理端對高端封裝(如CoWoS)和高帶寬內存(HBM)的嚴苛要求有所下調。
在龔明德看來,這種規格的放寬,有利于中國本土企業在取得HBM受限的情況下,發展中等規模算力的推理芯片,并在互聯網、車載系統等領域提供機會。
隨著行業重心轉向推理和微調,企業客戶在規劃智算中心預算時,投入結構也發生了改變。
對此,陸景分析稱,過去在訓練階段,投入主要集中在高端訓練型GPU集群、超高速互聯網絡以及高性能存儲系統,以滿足長時間、高并行度的訓練需求。而在推理需求增長的背景下,企業開始更多采用推理優化型GPU、國產AI芯片或異構算力組合。在投入結構中,軟件平臺、算力調度、模型優化工具以及推理加速框架的占比逐步提升。
陸景認為,國內人工智能芯片在底層軟件生態建設方面,正處于由可用向規模化商用過渡的階段,主要國產芯片廠商已構建起包括驅動層、編譯器、算子庫、運行時環境在內的基礎工具鏈體系,能夠支持大模型訓練、推理及智算中心部署。
目前的算力采購也已經從單卡送測進入了系統級工程交付階段。由于推理任務對響應延遲極其敏感,萬卡規模的集群在協同工作中,網絡通信和散熱能力往往比單張計算卡的“跑分”更具決定性。
2026年2月5日,國家超算互聯網鄭州核心節點正式上線試運行。在這個節點上,部署了3套由中科曙光(603019.SH)提供的scaleX萬卡超集群,最大可提供超過3萬張國產加速卡的算力,這是全國首個實現3萬卡部署且實際投入運營的國產AI算力池。
中科曙光高級副總裁李斌告訴經濟觀察報記者,鄭州核心節點的上線,驗證了國產算力基礎設施的工程化能力,行業已從早期的單點突破,轉向大規模落地部署。此前各家廠商在硬件設計、軟件棧和互連協議上自成體系,導致算力資源難以跨平臺調度。
“萬卡集群的落地不僅是IT技術問題,更是冷卻、供電等跨學科的工程化挑戰。”李斌強調,如果單點技術出現短板,會直接拖累整個系統的效率,目前的系統研制突破了傳統IT技術與其他工程技術的結合瓶頸。
目前,該國產算力系統已完成了千款應用的適配。根據國家超算互聯網鄭州核心節點運維主任安磊的介紹,超算互聯網第一期已有645家第三方商家適配了該節點,超過7200款軟件和源碼接入。
在這些資源的支持下,已有超過70%的國產新能源汽車在該平臺上進行流體和碰撞仿真實驗,例如,針對國家新出臺的規范可能要求禁用新能源車隱藏把手的變化,車企需要利用大集群模擬門把手改為開放式后對能效與風阻的影響。
此外,該集群還支撐了國產羽絨服頂級面料的研發,以及為國際奢侈品品牌提供智算資源支持其在國內的優化設計。
這種由下游應用爆發倒逼上游基建升級的邏輯,也正在轉化為國產芯片廠商的業務收入。比如,根據2026年初中國移動的人工智能通用計算設備集采結果,在總價值超過50億元的訂單中,采購推理型AI服務器7499臺。其中,華為昇騰系廠商斬獲了34億元的份額,昆侖技術等國產企業的占比顯著提升。
另外,國產算力廠商的業績也在過去一年實現了爆發性增長。比如,2月27日,寒武紀(688256.SH)發布的業績快報顯示,2025年營收增長453.21%,達到64.97億元,并實現了20.59億元的歸母凈利潤,這是該公司上市以來的首次年度盈利,寒武紀表示,收入增長受益于人工智能行業算力需求的攀升,公司推動了應用場景的落地。類似地,摩爾線程(688795)、沐曦股份(688802)、海光信息(688041.SH)2025年度的業績表現亦均有大幅提升。
瀚博半導體創始人兼CEO錢軍則向經濟觀察報記者表示,物理人工智能正接近關鍵拐點,實現路徑依賴于從虛擬到現實的閉環。瀚博半導體成立于2018年12月,是一家國產高性能GPU芯片提供商。
錢軍表示,圖形渲染作為構筑仿真與數字孿生的基礎,是連接人工智能與物理世界的第一步,該公司已在AI推理與云渲染領域建立了基本盤,目前其產品已在超10家頭部互聯網公司、多家運營商和央國企落地。
根據伯恩斯坦(Bernstein)發布的《2025年中國AI芯片產業報告》,中國本土AI芯片品牌市場滲透率已從2024年的約29%提升至2025年的42%。這也意味著,在數萬億Token持續消耗的背后,國產算力通過對行業應用的適配和成本結構的優化,正在完成從邊緣備選向市場首選的跨越。
(作者 鄭晨燁)
免責聲明:本文觀點僅代表作者本人,供參考、交流,不構成任何建議。
![]()
鄭晨燁
資深記者。關注新能源、半導體、智能汽車等新產業領域,有線索歡迎聯系:zhengchenye@eeo.com.cn,微信:zcy096x。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.