![]()
文:王智遠 | ID:Z201440
大模型市場,直接來了一個「新物種大分叉」。
全球最大AI模型API聚合平臺OpenRouter給出數據: 9號到15號這一周,中國大模型的調用量沖到了4.12萬億Token第一次超過美國模型的2.94萬億Token
調用量前五的模型里,中國直接占了四個:MiniMax的M2.5、月之暗面的KimiK2.5、智譜GLM-5、DeepSeek V3.2。
市場已經徹底分成兩撥人:BAT正在「向內收縮」,把模型塞進搜索、電商、辦公這些老業務里;新勢力Kimi、智譜、MiniMax則「向外長手」,靠成百上千個Agent死磕開發者生態。
這是商業底層邏輯的徹底分家,大家都在算一筆名為投資回報率的生死賬。
01
先得搞清楚一件事:這4.12萬億Token的調用量,到底是誰在用?
要光看新聞標題,肯定以為中國老百姓突然愛上跟AI嘮嗑了;OpenRouter的用戶構成很有意思,上面美國開發者占了47.17%,中國開發者只有6.01%。
這4.12萬億Token,主要是全球那幫程序員「用腳投票」投出來的,跟咱們在抖音刷到的那些AI聊天沒啥關系。
所以,Token調用量比DAU實在多了,日活用戶能被紅包砸出來,能被春節營銷堆出來,但開發者的API調用是真金白銀在燒。
他們在生產環境里跑你的模型,寫代碼、做測試、跑任務,每一分Token背后都是算力成本,也對應著某種商業預期,沒人會花錢跑沒用的東西。
那全球程序員為啥突然瘋狂調用中國模型?兩個原因:性能能打 + 便宜到離譜。
MiniMax M2.5上線一周直接沖上調用量榜首,它在代碼編寫、搜索這些硬核領域的表現,已經能跟OpenAI和Anthropic的主力產品掰手腕。
Kimi K2.5更狠,能同時調度100個《Agent分身》干活,把復雜任務的效率干到3到10倍;智譜GLM-5帶著200K的超長上下文窗口殺出來,專門給需要長時間跑的任務用。這些都是真家伙,不是湊合用的平替。
再說成本。這才是最狠的。咱們直接看數字:
- MiniMax M2.5:輸入0.3美元/百萬Token,輸出1.1美元
- 智譜GLM-5:輸入0.3美元,輸出2.55美元
- Claude Opus4.6:輸入5美元,輸出25美元
算下來,中國模型成本只有海外巨頭的1/10到1/20;這個價差直接把程序員的經濟賬給重算了。同樣的任務,用Claude燒100塊錢,用MiniMax可能5塊錢就搞定了。
中國廠商憑啥能把價格打到這么低?核心是技術架構;大家都在用《混合專家》MoE架構,根據具體任務,只調用其中一小部分專家出來干活,這是工程效率的極致優化。
再加上阿里云這種平臺,把四大頂級開源模型打包,推出7塊9的首月訂閱,直接把程序員的試錯成本壓到地板價。
問題來了:便宜就一定有人用嗎?也不只是便宜,這就得說更深層的變化了:Agent場景爆發,讓Token消耗的邏輯徹底變了。
Chatbot那會兒,用戶問一句模型答一句,Token消耗是線性的;現在智能體開始落地,事情復雜了,Agent接到一個任務,每一步都在《腦子里反復推演》。
這種《推理密度》增加,讓單次任務的Token消耗呈指數級上升;中信證券算過,智能體執行任務時,整體Token消耗可能提升十倍以上,對應的算力需求得漲百倍以上。
OpenRouter的數據也證實了這點:
平臺上超過70%的Token消耗,來自互聯網大廠、中大型企業、專業程序員的生產環境;在100K到1M Token這個區間,也就是智能體工作流最典型的消耗區間,MiniMax M2.5的調用量遙遙領先。
所以,這波Token爆發是真需求還是假繁榮?
我的判斷是:真需求,它證明了中國這幫新玩家在《手和腳》的戰略方向上,確實踩中了全球程序員的真實痛點。
用頂級的性能加地板的價格,去滿足正在爆發的Agent需求,程序員用Token投了信任票。
02
但這只是開始。Token怎么變成錢?
智譜三年半虧了62個億,MiniMax三年零三個季度虧了13.2億美元(差不多95億人民幣),而且,算力成本占研發開支的70%到80%。這是什么概念?
每賺1塊錢,要付出5塊多的算力成本。典型的越賣越虧。新玩家們必須回答一個問題:怎么讓客戶為價值付費?
答案指向同一個方向:按效果付費。行業里管這個叫RaaS,Results-as-a-Service。
什么意思呢?我打個比方:
Token是什么?算力的計量單位,客戶花錢買AI服務,真正想要通過一次審核、減少一次拒付、多一筆訂單。
現在API定價,偏偏掛在Token上;這就好比你請人搬磚,最后按他流了多少汗收費;汗流得多不一定磚搬得多,磚搬得多也不一定汗流得多,這賬能算明白嗎?
有點類似于,把油門直接接到里程表上;是為車真正跑了多遠付費;油門踩得再狠,車沒動,不收錢;車跑了10公里,就收10公里的錢。
智象未來CTO姚霆有句話我印象挺深:
商業模式創新,是從售賣API提升到售賣結果。以前B端C端都是積分制,本質是把價值折算成積分,現在大家開始探索按照結果來付費。
這邏輯一換,整個行為系統都變了。
當價格掛在Token上,模型廠商的團隊會拼命追求更短的提示詞、更多的緩存命中,因為這樣能降低成本;但當價格掛在結果上,團隊自然會去追更高的通過率、更高的轉化率,因為只有結果好了才能收到錢。
一個是向內控成本,一個是向外創價值,兩條路,走著走著就分叉了。
這么做哪些場景先跑通了?
先說電商直播。這塊走得最快。中科深智做的AI直播全托管,從投流素材生成到AI直播轉化全包了,企業可以零成本開播,最后按GMV分成。
什么叫GMV分成?賣出去的東西里抽個點。賣不出去,不收錢。
他們透露了一個有意思的數據:AI直播跟頭部IP主播比確實還有差距,但在素人直播這個層級,已經比真人強了。有個客戶,某電商公司,跟大MCN機構合作的時候日均GMV大概15萬左右。
同等投流ROI的情況下,AI直播能做到這個數的40%到50%,同時人力成本省了70%以上;同樣的投放預算,產出打對折,成本省七成,這賬怎么算都劃算。
再說金融營銷。這個試得也挺激進。
我看到一個案例,螞蟻數科推了個智能托管模式,銀行只管給業務目標、預算和客群,剩下的全交給智能體自己玩;投什么渠道、出什么素材、怎么平衡ROI,全是AI自己調。最后按交易規模增長的千分之二到千分之四收費。
有意思的是,現在合作金融機構里,區域性銀行占了三分之二。為什么?
因為大行有自己的技術團隊,什么都想自己干;區域性銀行沒這條件,反而更愿意接受交鑰匙工程,你給我結果就行,過程我不關心。
工業領域也有嘗試,但更謹慎一些。設備預測性檢修、節能優化這些場景,有人開始按實際節能效果收費。
中工互娛的智振說得挺實在:小單點項目幾萬到幾十萬,可以按效果收費;但大額復雜項目,幾百萬上千萬那種,因為效果太難衡量了,暫時還是傳統模式。這也合理,客戶不敢賭,廠商也不敢賭。
說到這兒你可能想問,那為什么是現在才火起來?
我琢磨著有兩個原因。一個技術真的能打了,另一個是采購主體變了。
以前賣軟件,通常科技部門負責買,科技部門的人不背業務結果的KPI,現在業務部門開始直接參與采購,營銷部買AI是為了多獲客,財務部買AI是為了降成本,他們天然就愿意為可量化的增長付費。
現在到了一定的臨界點。但你可能會說:按效果付費這么美好,那趕緊全換啊。
最大的問題是效果歸因。
企業業務增長是市場、運營、產品一堆因素共同作用的結果,目前用一套工作流、一個Agent還沒辦法拆分到各部門。
也就說,運營說是因為我搞了波活動,市場說因為我投了廣告,AI說是因為我的智能體優化了轉化率,到底誰的功勞?怎么精確算出AI貢獻了多少?
目前行業沒有統一標準,基本只能一事一議。
前幾天,銷售易徐曦舉了個例子:CRM全鏈條上,按結果付費的點其實很多;線索轉化了可以付費,商機成交了可以付費。
以前產品設計把功能全打包在一起,沒法拆開算;現在想改成按結果付費,得重新包裝SKU,重新設計定價模型,甚至重新簽合同。這是整個商業邏輯的重構。
還有責任劃分、效果量化,全是坑。更要命的是,按效果付費,廠商得先墊錢。AI跑起來要燒算力,Agent干活要時間,最后效果沒出來,一分錢收不到。這對現金流是巨大的考驗。
一邊是客戶愿不愿意為《可能有效果》買單,一邊是廠商扛不扛得住《先干活后收錢》的賬期。兩邊都在賭。
按效果付費這條路,確實有人在走了;電商直播、金融營銷、招采審查,都跑出了一些樣板間。對于新玩家來說,這條路必須走,因為賣Token的賬,不太行。
03
那這筆賬到底能不能算平?什么時候算平?規模經濟拐點在哪?
興業證券的研報提到一個概念叫「杰文斯悖論」。啥意思?當一項資源的價格下降時,它的使用量反而會增加,最終總消耗不降反升。
過去三年,主流模型的單位Token推理成本降了99%以上。聽著是好事吧?成本低了,利潤空間大了。但結果呢?
調用量暴漲,算力總賬單越滾越大。這就像超市搞促銷,打折了,買的人多了,最后花的總錢反而比不打折的時候還多。
海豚投研算過一筆更宏觀的賬:
2026年主流芯片設計商的收入預期是3700億美元,對應的云計算中心資本開支是6400億。這6400億要在5年內攤銷完,云廠商得靠這些算力創造出1.2萬億美元的收入才能回本。
再往下游推,最終用戶得靠AI創造出2.4萬億美元的經濟價值,相當于美國GDP的7.5%。這個賬,能算平嗎?
黃仁勛倒是特樂觀。
他說「算力即收入」,認為AI已經到拐點了,企業對智能體的采用率正在激增。英偉達最新的財報也確實亮眼,Q4營收681億美元,同比增長73%,數據中心貢獻了90%以上。
但市場反應很有意思:財報發布后,英偉達股價先漲4%,然后轉跌。這猶豫是對「下一步往哪走」的重新定價。
為什么猶豫?
因為算力需求的邏輯正在變。以前大家搶訓練芯片,訓練是一錘子買賣,看誰的算力堆得高。現在風向轉到推理了,推理是持續性消耗,看的是單位Token的成本、能效、場景適配度。
這個轉變意味著什么?門檻降低了,競爭格局可能要變了。
英偉達最核心的幾個云巨頭客戶,現在都在兩條腿走路:一邊繼續買英偉達的標準GPU,另一邊瘋狂搞自研,或者扶持第三方做專用推理芯片。
微軟、亞馬遜、谷歌、Meta四家云廠商2026年的資本支出加起來接近7000億美元,這么大個蛋糕,沒人愿意讓一家全吃了。
那再回到咱們關注的中國新玩家。他們算力賬長什么樣?
首都在線是智譜的核心算力供應商,慶陽、宿遷、天津的GPU集群一直在擴;弘信電子在打通東數西算的通道,綠色算力直供智譜、百川智能。
潤澤科技搞的大規模智算中心,支撐字節跳動的萬億級Token吞吐,這些都在卡位低成本算力樞紐。
但問題沒變:算力成本占研發開支的70%到80%,這是實打實的。每賺1塊錢,要付出5塊多的算力成本。什么時候,這個比例能降到50%以下?什么時候算力成本能被收入追上?
這才是規模經濟的拐點。
有人可能會說,成本不是一直在降嗎?對,單位成本在降,但調用量漲得更快。前面那個「杰文斯悖論」說的就是,便宜了,用的人多了,最后花的總錢反而更多。
對AI公司來說,這是「越賣越虧」的數學本質。
黃仁勛說「計算需求呈指數級增長」,這話沒錯。但指數增長的是收入還是成本,決定了誰能活下來。
所以,算力成本的吞噬效應,是這幫新玩家最大的財務風險;按效果付費跑通了客戶愿買單的邏輯,但沒解決廠商「先干活后收錢」的現金流壓力。
換句話說,規模經濟的拐點取決于另一個指標:每花1塊錢算力,能收回多少錢。這個比例什么時候能超過1,什么時候規模經濟才真正兌現。
誰能先從泥潭里爬出來?
就看接下來一兩年,誰能在更多場景里跑通效果付費,誰的單位Token創造的價值最高。這才是那筆「生死賬」的最終答案。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.