![]()
新智元報道
編輯:定慧 好困
【新智元導讀】100萬億Token實證數據揭秘2025年AI發展:開源逆襲、推理優化模型流量飆升至50%以上、用戶留存取決于誰能率先完美解決特定痛點、亞洲付費使用量翻倍、中文成為全球第二大AI交互語言、AI不再是硅谷的獨角戲!
2025年標志著AI發展史上的一個決定性轉折點。
剛剛,OpenRouter和a16z剛剛聯合發布的一篇深度調查,揭示了AI領域正經歷一場前所未有的「大分流」,深度總結了2025年AI發展現狀,并且給出多個反直覺觀點!
![]()
報告名稱:《基于OpenRouter的100萬億Toke實證研究》全文2萬多字
報告地址:https://openrouter.ai/state-of-ai
此前,評估AI模型影響力的指標往往局限于學術基準測試(Benchmarks)或宣稱的用戶數量。
然而,OpenRouter提供了首個基于真實算力消耗的上帝視角。
該報告分析了過去一年中處理的超過100萬億個Token的元數據,這一數據規模足以抹平任何營銷噪音,揭示出開發者和企業究竟在如何使用AI。
這份報告,基于來自全球的真實請求:100萬億Token,300多個模型,60多個提供方。
太長不看版:
![]()
- 開源不再陪跑
開源模型流量占比已達30%,不再是閉源模型的「平替」,而是特定場景的首選。
- 中國力量崛起
中國開源模型異軍突起,占據全球流量近30%,在迭代速度和特定場景(如角色扮演)上表現統治級。
- 推理模型為王
推理優化模型流量占比飆升至50%以上,AI從「生成文本」正式轉向「思考問題」。
- 兩大場景統治
編程(占總流量50%+)統治生產力,角色扮演(占開源流量52%)統治創造力。
- 亞洲時刻到來
亞洲付費使用量翻倍至31%,中文以近5%的份額成為全球第二大AI交互語言。
- 水晶鞋效應
用戶留存取決于「首發即匹配」。若新模型發布時能完美解決某類痛點(穿上水晶鞋),用戶將極難流失;否則流失率極高。
- 價格彈性弱
整體降價10%僅帶來<1%增量,但在特定高效模型上,極致低價引發了使用量的報復性增長(杰文斯悖論)
開源vs閉源:誰在統治模型江湖?
雖然閉源模型依然占據主導地位,但開源模型的使用量已穩步增長至總流量的30%左右。
這一增長并非偶然,而是由一系列高質量模型的發布推動的。
DeepSeek V3/R1、Kimi K2、Qwen 3 Coder等模型的發布,每一次都帶來了顯著的流量波峰,且這種增長具有持續性,證明了開源模型已進入生產環境,而非僅僅是曇花一現的實驗品。
報告中一個極為亮眼的數據是中國開源模型的崛起。
- 從1.2%到30%
2024年末,中國模型的使用份額僅為1.2%;而到了2025年下半年,在某些周次,中國OSS模型(如DeepSeek、Qwen、MiniMax、Kimi等)的使用量甚至占據了所有模型流量的近30%。
- 快速迭代
這一增長得益于中國開發者驚人的發布速度和迭代能力。DeepSeek和Qwen家族通過高頻的模型更新,迅速適應了新興的工作負載。
閉源頂梁柱,開源占三成
在OpenRouter上:
閉源大廠模型(OpenAI、Anthropic、Google等)依然撐起了大約70%的Token使用量——特別是在受監管、企業級、關鍵業務上,大家更傾向于用它們。
- 開源權重模型(OSS)的份額,卻在這一年穩步上漲,到了2025年底,已經穩定在大約30%左右
![]()
開源與閉源模型:淺藍色代表開放權重模型,而深藍色對應專有(閉源)產品,垂直虛線標記了關鍵開放權重模型的發布
更有意思的是:這三成已經大量地進入生產使用,新模型發布后,使用量往往不只是短期試用,而是持續維持。
![]()
開源和閉源模型的每周Token量:堆疊條形圖顯示隨時間推移各模型類別的總Token使用量。深紅色對應專有模型(Closed),橙色代表中國開源模型、,青色表示其他地區的開源模型
一個重要推手就是中國開源模型的爆發。
像DeepSeek、Qwen、Kimi等模型上線后,中國OSS模型的份額從幾乎可以忽略的1%+,一路爬到某些周能占到近30%的總Token。
在開源陣營內部,去年還是DeepSeek一家幾乎吃掉半壁江山:
一度DeepSeek V3和R1兩個模型加起來占了所有開源Token的超過一半。
但2025年中以后,局面迅速被打散:
Qwen、Kimi、MiniMax、OpenAI的GPT-OSS、Meta的LLaMA等不斷加入;
沒有任何一個開源模型,在全年后半段能穩定拿到超過25%的份額。
用一句話概括:去年是「一個DeepSeek,打遍OSS」;今年變成了「五六個開源模型,各自都有穩定流量」。
對開發者來說,這是好消息:不再只有「那個唯一的好開源模型」,而是多個可選項,可以按場景挑。
![]()
按模型作者劃分的總Token量(2024年11月–2025年11月)
![]()
Top 15開源模型:每個色帶代表一個模型對總Token的貢獻
「中杯」模型才是真愛
過去「小模型(<15B)」和「大模型(>70B)」的兩極分化正在消失。
2025年,「中型模型(15B-70B)」異軍突起。
- 小模型的衰落
盡管Google Gemma等小模型不斷涌現,但整體份額在下降。
- 中型模型的PMF
隨著Qwen 2.5 Coder 32B、Mistral Small 3等模型的發布,用戶發現這類模型在能力與效率之間達到了完美的平衡。它們正在成為新的市場主流。
直覺上很多人以為:要么用最小的,便宜、快;要么用最大的,最聰明。
但真實使用數據卻在告訴我們:「中杯」模型,正在成為新的主力。
![]()
開源模型規模與使用情況對比。每周由小型、中型和大型模型處理的開源總Token量占比。百分比按每周開源總使用量進行歸一化計算。
智能體推理的崛起
如果說2024年是「聊天機器人」的年份,那么2025年就是「智能體」的年份。
AI的使用方式正在從簡單的問答,轉向復雜的多步任務執行。
![]()
推理與非推理趨勢。自2025年初以來,通過推理優化模型路由的Token占所有Token的比例持續上升。
推理模型已成主流
數據顯示,推理優化模型的流量占比已從年初的微不足道,飆升至50%以上。
用戶不再滿足于模型「吐出」文本,而是要求模型進行內部的思維鏈(CoT)計算、規劃和反思。
在這一領域,xAI的GrokCodeFast1異軍突起,與Google的Gemini 2.5系列共同領跑,甚至超越了早期的先行者。
工具調用常態化
越來越多的請求不僅僅是文本生成,而是包含了「工具調用」(tool use)的指令。
這標志著模型正在作為更大系統中的一個組件被調用,而非孤立的對話者。
![]()
按推理相關Token量統計的頂尖推理模型。
在推理模型中,xAI的Grok Code Fast 1目前處理著最大份額的推理相關Token流量,緊隨其后的是谷歌的Gemini 2.5 Pro和Gemini 2.5 Flash。
xAI的Grok 4 Fast與OpenAI的gpt-oss-120b共同構成了頭部陣營。
![]()
工具調用采用率上升
![]()
按工具調用量統計的Top10頭部模型。工具調用功能主要集中在明確為智能體推理優化的模型上,例如Claude Sonnet和Gemini Flash。
輸入更長,任務更重
- Prompt長度暴漲4倍
平均輸入Token數從1.5k增長到了6k以上。
- Output長度翻倍
平均輸出從150 Token增長到400 Token(主要是推理Token的增加)。
這說明用戶不再只是問「如何做番茄炒蛋」,而是扔給模型整個代碼庫、長文檔或復雜的對話歷史,要求模型進行深度的分析和調試。
提示詞數量呈上升趨勢。自2024年初以來,平均提示詞長度已增長近四倍,反映出工作負載對上下文依賴度的顯著提升。
![]()
完成Token數量幾乎增長了三倍。
輸出長度也有所增加,盡管基數較小,這表明響應內容更豐富、更詳細,主要歸因于推理Token的增長。
![]()
編程成為提示Token增長的主要驅動力。
自2025年春季標簽功能上線以來,編程相關任務始終需要最大的輸入上下文。
![]()
平均序列長度隨時間變化。每次生成的平均Token數(提示詞+補全內容)。
上圖顯示,過去20個月中平均序列長度增長超過三倍,從2023年末的不足2000個標記增至2025年末的5400個以上。
這一增長反映了向更長上下文窗口、更深層任務歷史記錄和更精細生成結果的結構性轉變。
其中,編程中的序列長度與整體對比。編程提示詞的系統性更長且增長更快。
![]()
場景洞察:大家到底用AI干什么?
通過Google Tag Classifier對數十億次請求的分類分析,報告揭示了AI使用場景的真實分布。
結果可能會讓你大吃一驚:編程和角色扮演是兩大絕對主導。
編程:統治一切的生產力
編程類請求的占比已從年初的11%飆升至50%以上。
- 主要驅動力
AI輔助開發工具(IDE集成)的普及。
- 模型偏好
Anthropic的Claude系列在編程領域擁有統治級地位,長期占據60%以上的份額。
- 競爭加劇
雖然Claude依然是王者,但Qwen3Coder、MiniMax和OpenAI正在蠶食這一市場。
編程作為一個主導且不斷增長的類別,在所有LLM查詢中被歸類為編程的份額持續增加。
![]()
編程工作負載高度集中:Anthropic的模型處理最大比例的代碼查詢,其次是OpenAI和Google,MiniMax所占份額正在增長。
其他提供商合計僅占很小部分。
![]()
角色扮演:被低估的創意引擎
在開源領域,角色扮演是絕對的王者,占據了開源模型流量的52%。
這打破了「AI主要是生產力工具」的偏見。用戶利用開源模型無審查、可定制的特性,進行故事創作、游戲互動和情感陪伴。
在角色扮演領域,中國開源模型和西方開源模型平分秋色。
DeepSeek的流量中,有超過2/3是角色扮演和閑聊,顯示了其在消費者端的極高粘性。
![]()
按總Token份額排名的前6大類別。每個條形圖顯示該類別內主要子標簽的細分。
![]()
接下來六個類別的Token份額分布。次級類別也有類似細分,展示了各領域中子主題的集中(或分散)程度。
長尾場景:科學、翻譯與健康
除了上述兩大巨頭,其他場景如翻譯、法律、科學等構成了長尾。
- 科學
主要集中在「機器學習與AI」本身的問題,顯示出AI社區的自指性。
- 健康
需求高度碎片化,從醫學研究到心理咨詢,覆蓋面極廣。
下面,還針對每家公司進行了詳細的數據統計。數據清晰地勾勒出了各家大模型的「性格」:
- Anthropic
硬核的「程序員」,80%以上流量用于編程和技術任務。
- DeepSeek
高情商的「陪聊」與「玩家」,主打角色扮演和閑聊。
- Google
博學的「全才」,在翻譯、科學、法律等長尾領域表現均衡。
- OpenAI
正在從早期的科學/通用用途向編程/技術領域轉型。
Anthropic:主要用于編程和技術任務(占比超過80%),角色扮演使用極少。
![]()
谷歌:使用構成廣泛,涵蓋法律、科學、技術及部分常識性查詢。
![]()
xAI:代幣使用高度集中于編程領域,技術應用、角色扮演及學術用途在十一月下旬顯著增長。
![]()
OpenAI:使用重心逐漸轉向編程與技術任務,角色扮演和日常閑聊大幅減少。
![]()
DeepSeek:使用場景以角色扮演和日常互動為主。
![]()
Qwen:在編程任務上表現出高度集中,角色扮演和科學類別的使用隨時間波動。
![]()
地緣格局:AI使用的全球化
AI不再是硅谷的獨角戲。研究發現:
亞洲地區的付費使用量占比從13%翻倍至31%。
這不僅是因為亞洲也是模型生產地,更因為這里擁有龐大的應用場景和企業用戶。
![]()
北美的相對下降,雖然仍是最大市場,但份額已不足50%。
語言分布上,英語依然占據82%的絕對主導.
但簡體中文以近5%的份額位居第二,不僅超過了西班牙語和俄語,也側面印證了中文AI社區的活力。
![]()
留存率分析:「灰姑娘的水晶鞋」效應
這是本報告提出并在理論層面最具洞察力的部分。
在這個模型快速迭代的時代,傳統的「用戶留存」概念失效了。
取而代之的是一種被稱為「灰姑娘的水晶鞋(Cinderella GlassSlipper)」的現象。
什么是「水晶鞋效應」?
當一個新的前沿模型發布時,它就像那只水晶鞋。
市場上存在大量未被滿足的、高難度的潛在工作負載。
如果新模型(水晶鞋)恰好能解決某類特定的高難度任務(灰姑娘),那么這批早期用戶就會形成一個「基石群組」。
他們的留存率極高,不會因為后續有更便宜的模型出現而輕易遷移,因為他們已經圍繞該模型構建了基礎設施和工作流。
如果模型發布時沒有解決任何特定的痛點,或者只是「夠用」,它就無法形成基石群組,用戶流失率會極高。
實證數據
贏家:GPT-4o Mini、Claude 4 Sonnet和Gemini 2.5 Pro在發布初期都形成了明顯的基石群組,留存率曲線在高位企穩。
![]()
輸家:一些未能建立「模型-任務匹配」的模型,其所有群組的留存率都極其慘淡。
DeepSeek的「回旋鏢效應」:DeepSeek的數據出現了一個有趣的異常——用戶流失后又回來了。
留存曲線在幾個月后出現反彈。
這說明用戶在嘗試了其他競品后,發現DeepSeek在特定場景(如性價比或特定任務)上依然是不可替代的。
![]()
成本vs使用
如果你認為把模型價格降到最低就能贏得市場,那就大錯特錯了。
通過對成本(Cost)與使用量(Usage)進行雙對數坐標分析,研究人員發現了以下規律:
首先,是可以按類型將任務分成四個象限。
- 溢價工作負載(高價+高頻)
編程、科技。這是兵家必爭之地。用戶愿意為閉源模型支付高價,因為它們能解決復雜問題,產出價值遠高于Token成本。
- 大眾流量驅動(低價+高頻)
角色扮演、普通問答。這是開源模型的舒適區。通過極致的性價比捕獲海量長尾需求。
- 專業專家(高價+低頻)
金融、醫療、學術。單次調用昂貴,但總頻次低。
- 利基工具(低價+低頻)
翻譯、法律助手。
![]()
0.73美元/百萬Token的成本中位數,將場景垂直一分為二
其次,是可以按使用-成本將模型分成四個象限。
高級領導者(Premium leaders):成本不低,但使用量仍然很高,比如Claude Sonnet 4、Gemini 2.5 Pro等。
高效巨頭(Efficient giants):價格非常便宜,但性能夠好,比如Gemini Flash、DeepSeek V3等。
長尾模型(Long tail):價格幾乎接近免費,但使用量很有限。
高級專家(Premium specialists):非常貴,專門服務那些「極少但極值錢」的任務,比如o1-Pro、GPT-5 Pro等。
![]()
AI模型市場:成本與使用
![]()
第三,是模型定價對使用量的影響比想象中要小。
價格下降10%,使用量僅增加0.5%-0.7%。
這意味著,對于關鍵任務,用戶對價格不敏感;對于低價值任務,單純降價也未必能帶來指數級增長。
開源與閉源模型:成本與使用
然后,再加上一點「杰文斯悖論」:
當某些模型變得足夠便宜且好用時,人們會在更多地方、用更長上下文、更頻繁地調用它;于是總Token反而飆升,總支出可能并不降低。
最后,配合前面的類別分析,就可以得到一個非常實用的認知:
- 閉源模型,主要吃:高價值、高風險、質量必須非常穩的任務;
- 開源模型,主要吃:大量、成本敏感,但對完美度要求略低的任務。
- 降價≠少花錢:有時候用戶反而會「用得更多」。
2025年的AI啟示錄
回顧以上分析不難發現,AI已經不再是單純的技術競賽,而是一場關于場景適配、成本控制與生態構建的綜合戰爭。
- LLM不只「寫文案」
編程正在成為最大、最有戰略意義的類別。
而角色扮演和娛樂類,也有著同樣巨大的用量,絲毫不比生產力弱。
- 多模型生態已成定局
閉源負責高價值,以及與收入掛鉤的工作負載。
而開源負責低成本和大容量的任務。
- 智能體推理是新常態
更長的上下文、更多的工具調用、更復雜的多步邏輯,正在成為常態;
評判一個模型的好壞,不再只是看「單次回答漂不漂亮」,而是看它在長鏈路里「執行持續推理」的可靠性和效率。
- 留存的本質是解決難題
模型廠商真正的「護城河」,是率先解決關鍵的工作負載,并留住那批用戶。
也就是所謂的辛德瑞拉「水晶鞋效應」:早點抓住「合腳」的場景,比多撐幾個月的排行榜第一名更重要。
- 不再是美國的獨角戲
亞洲尤其是中國,已經同時作為重要的模型生產者+重度用戶加入戰局。
「多語言、多文化適配」會變成下一階段的剛需能力。
研究局限說明:
本報告僅基于OpenRouter單一平臺數據,未包含私有化部署及企業內部系統的流量。鑒于部分指標依賴代理推算(如地理位置和推理模式),上述結論旨在揭示行業演進的指示性趨勢,而非絕對定論。
參考資料:
https://openrouter.ai/state-of-ai
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.