2026年,圍繞推理展開的token經濟學,正在同時發生兩場變化:一場是需求增長下的價格重估,另一場是場景驅動下的結構遷移。
當黃仁勛在GTC上指出,“推理的拐點已經到來,需求還在不斷增長”的時候,他描述的正是第一場token經濟學。數據中心是token工廠,token即商品,算力即營收。隨著推理場景對token的需求越來越大,數據中心的算力收入也隨之增長。如果這是一個賣方市場,那么,算力還可以為自己爭取溢價。
緊隨黃仁勛的言論,昨日,阿里巴巴將平頭哥真武810E等算力產品提價5%至34%,百度云漲幅亦在這一區間。騰訊云和字節跳動旗下火山引擎,則在稍早一點取消了優惠。事實上,正如中國的大模型追趕美國,算力的價值回歸也由硅谷先行驅動。年初,亞馬遜AWS與谷歌云都已經漲過一波,特定區域甚至調漲了100%。
這場token經濟學正在全球范圍內上演。無論是中國還是美國,需求側都在爆發,面向企業與開發者市場的智能體扮演了關鍵角色。短期內,這一趨勢預計難以逆轉。
在編碼等應用場景中,Claude Code已經生產性部署,并逐步向更多白領工作滲透,企業爭相“實驗性”部署。由此,Anthropic的年度經常性收入(ARR)攀升增至190億美元,是去年底90億美元的2倍多,有望在下半年超越“沉迷于”消費者業務的OpenAI,奧特曼趕緊也將戰略重點,轉向了這一未被充分滿足的市場。
春節后,中國巨頭迅速從“AI春晚”轉向“全民養蝦”,所謂“token出海”的AI敘事在資本市場掀起波瀾。在全球最大的模型聚合平臺OpenRouter上,OpenClaw已成為最受歡迎的應用,同時也是token消耗最多的應用之一。最大的贏家是MiniMax、階躍星辰與Kimi。小米剛發布的新一代旗艦模型MiMo-V2-Pro,它的內部測試版“Hunter Alpha”,也在近一個月內被悄悄調用,排名第六。
2026/03/09 完整閱讀 >
![]()
阿里巴巴已經構建了底層的芯片與云,這次要圍繞創造token、輸送token、應用token大做文章,還重組token事業群(ATH)。除通義實驗室、MaaS業務線、千問事業部和AI創新事業部外,新增悟空事業部,其應用“悟空”延續“龍蝦”智能體思路,強調在企業工作流中的安全可控執行能力。阿里生態內的其他業務也將以“技能”(Skills)的形式逐步接入。
在最新的財報電話會議上,騰訊終于決定加大AI投入。算力、模型與產品,都要大手筆支出,一個都不能落。混元大模型將在4月發布,智能體能力有望顯著提升。已經預告過好幾次的“微信智能體”,這次受到了OpenClaw啟示,騰訊正在考慮將小程序“龍蝦化”,都能用API接口或命令行來調用。騰訊相信,在智能體時代,微信的中心化運營優勢與小程序去中心化生態結合,為其提供獨特競爭力;它在互聯網時代就是這么贏的。
全球市場再次陷入算力饑渴。黃仁勛預計,到2027年底,不包括網絡等其他收入,僅Blackwell和Rubin兩大核心架構的AI芯片的累計收入,就將超過1萬億美元,相比他預計2026年底收入5000億美元翻了一倍。
而且,算力供給的硬性約束,還要持續很長一段時間。分析師Dylan Patel認為,很快AI產業的瓶頸將轉移至下游半導體制造設備。每1個GW(吉瓦)的Rubin平臺需要3.5臺EUV光刻機,而奧特曼曾希望在2030年實現每周1座GW級的token工廠,屆時,ASML年產能最高100臺,遠不能滿足需求。而且,消費電子與智能汽車的算力需求也不會一直無視被市場擠出。
在中國,英偉達的AI芯片已“斷供”超過10個月。市場上關于H200的消息幾乎每周更新,但常互相矛盾。國產AI芯片寒武紀交出了上市以來最亮眼的業績,2025年營收同比增長453.2%至64.97億元,但這無法填補市場需求的空缺。
伴隨短缺而來的,是競爭與摩擦的加劇。OpenAI的前沿產品算力不足,向亞馬遜求助,簽訂500億美元戰略合作;微軟認為違背此前協議獨占約定,考慮起訴。通義大模型前負責人林俊旸離職,坊間猜測其中一個原因,就在于算力資源傾斜不足;在與員工溝通中,阿里高管也就未及時發現團隊資源困境致歉。
盡管Anthropic的訂單增長速度較快,但算力落實仍不及OpenAI。這意味著,如果它不愿意放緩營收兌現,就必須在用戶體驗與毛利率之間做權衡,或者犧牲部分用戶的AI體驗,或以更高價格價格接受短期或按需合同。
在財報會議上,騰訊也稱,去年資本支出增長不多,一個重要原因就是GPU供應受阻。它的對策之一,是從外面租用算力,“對算力來源并不挑剔”,另一個策略則是“減少了對外出售,以保證自用算力充足”。如果今年芯片采購順利,可能會適當減少股票回購,將更多資本投入算力建設。
但不該忽略的是,黃仁勛在GTC上演繹的第二場推理的token經濟學。它不僅反映了整體的供需變化,還映射了應用場景與token生產模式的結構性遷移。相比更高的吞吐量,token工廠的負載模式正在向更高的交互性遷移,而且,低延遲的極限也將在新的AI芯片的支持下繼續擴展。硅谷也是這一趨勢的先行者,但中國AI生態尚未緊緊跟上。
2026/03/18 完整閱讀 >
同等算力規模的“token工廠”,在相同時間內,可以選擇為更多用戶以較慢速度產出token,或為更少用戶以更快速度產出token。前者擁有更高的總吞吐量,對應更低的單位token成本(CPMT);后者則以犧牲吞吐為代價,換取更低延遲與更高價格。
![]()
問題在于,就當前市場結構而言,前者面向的往往是商業變現緩慢的消費者市場,后者更契合今年以來高速增長的企業市場。未來的軟件應用,將主要服務幾乎零延遲的智能體,這是AI最前沿的機會所在。
算力成本上漲可能推動token價格同步上升。但在企業市場,面對真金白銀支付高價的客戶,唯有在模型層(Models)、執行層(Agent Harness)和技能層(Skills)取勝,算力成本上漲才能真正轉化為低延遲場景下的定價能力。近期,Anthropic在發布Claude Opus 4.6的同時推出“快速模式”(fast mode),核心賣點為低延遲。在保持模型質量不變的前提下,響應速度提升約2.5倍,而價格則提高6–12倍。
去年,開源模型賺足了吆喝;今年,模型廠商加速變現。在以價換量的基礎上,中國AI生態若要真正邁向“AI+”,更需向高經濟價值的token生產模式擴展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.