OpenRouter 和 a16z 剛剛聯(lián)合發(fā)布了一份報(bào)告:
《State of AI:An Empirical 100 Trillion Token Study》
![]()
https://openrouter.ai/state-of-ai
這份報(bào)告,基于來(lái)自全球的真實(shí)請(qǐng)求:
100 萬(wàn)億 token,300 多個(gè)模型,60 多個(gè)提供方
這是 AI 領(lǐng)域,迄今最大規(guī)模用數(shù)據(jù)研究
最核心的三個(gè)信息:
? 推理模型已經(jīng)吃掉了全體 token 的一半
? 開(kāi)源模型穩(wěn)定在三成,中國(guó)開(kāi)源抬頭
? 編程和角色扮演是最真實(shí)的兩條主線
這份報(bào)告信息非常多,容我慢慢道來(lái)
*十分注意:本報(bào)告僅代表經(jīng)由 OpenRouter 的算力調(diào)用
開(kāi)源 vs 閉源
先說(shuō)一個(gè)數(shù)字
閉源模型,占有約 70% 的 token
![]()
開(kāi)源 vs 閉源比例
在這張圖中,淺藍(lán)色是開(kāi)源(分中國(guó)和其他地區(qū)),深藍(lán)色是閉源
豎線標(biāo)注了DeepSeek V3等重要發(fā)布節(jié)點(diǎn)
在過(guò)去的一年中,中國(guó)的開(kāi)源崛起,是一大敘事
![]()
開(kāi)源 vs 閉源模型分布
2024 年底,中國(guó)開(kāi)源模型的周用量只有1.2%
到 2025 年底,抬到單周接近30%,全年平均約13%
中國(guó)的開(kāi)源模型,占據(jù)了穩(wěn)定位置
中國(guó)模型的崛起
在這份報(bào)告中,對(duì)于開(kāi)源模型,列了一個(gè)排行
![]()
24年11月-25年11月的 OpenRouter 調(diào)用情況
DeepSeek 遙遙領(lǐng)先,14.37 萬(wàn)億 token。Qwen 第二,5.59 萬(wàn)億。Meta LLaMA 3.96 萬(wàn)億,Mistral AI 2.92 萬(wàn)億
后面還有 OpenAI 的開(kāi)源系列、Minimax、Z-AI、TNGTech、月之暗面、Google
這里還有一份變化曲線
![]()
Top 15 開(kāi)源模型走勢(shì)
早期幾乎是 DeepSeek 雙核壟斷
DeepSeek V3 和 R1 兩條帶子加起來(lái),長(zhǎng)期占 OSS 使用的一半以上
從 2025 年夏天開(kāi)始,市場(chǎng)格局完全變了Qwen、GLM、Moonshot、Minimax、GPT-OSS系列迅速抬頭
到 2025 年底,沒(méi)有任何單個(gè)模型超過(guò) 25% 的份額
這是一個(gè)從寡頭到多元的轉(zhuǎn)變
模型尺寸:小型退潮,中型起勢(shì)
報(bào)告把 OSS 按參數(shù)規(guī)模分成三檔
? 小于 15B
? 15–70B
? 大于等于 70B
結(jié)論還算明顯:
? 小模型的數(shù)量在持續(xù)增加,但使用占比在下降
? 中模型和大模型的使用占比在提升
中檔市場(chǎng)基本是從Qwen2.5 Coder 32B發(fā)布后被“做”出來(lái)的
后面Mistral Small 3、GPT-OSS 20B等一批中型模型,把這個(gè)帶變成了一個(gè)穩(wěn)定選項(xiàng)
![]()
不同大小模型數(shù)量變化
現(xiàn)在的開(kāi)源市場(chǎng),大致可以這么看
? 小模型是試驗(yàn)場(chǎng)
? 中模型是性價(jià)比區(qū)
? 大模型是高復(fù)雜度區(qū)
這是一份反直覺(jué)的發(fā)現(xiàn),開(kāi)源模型的使用如下
?第一大場(chǎng)景是角色扮演,占超過(guò) 50%
? 編程則是第二,占約 20%
? 其他翻譯、知識(shí)問(wèn)答、教育等都在后面
對(duì)此,報(bào)告給的解釋是:
開(kāi)源模型的內(nèi)容過(guò)濾更少,可以更自由地用于創(chuàng)意場(chǎng)景,故事續(xù)寫、角色扮演、游戲場(chǎng)景
對(duì)于角色扮演,這里的也有個(gè)細(xì)分
![]()
Roleplay 子標(biāo)簽結(jié)構(gòu)
58% 是 Role-Playing Game 場(chǎng)景
另外有寫作資源、成人相關(guān)內(nèi)容
國(guó)產(chǎn)模型:主要是編程
但如果單看中國(guó)開(kāi)源模型,畫(huà)面又不一樣了
![]()
中國(guó) OSS 任務(wù)類別趨勢(shì)
Roleplay 仍然是最大類,但只有約33%,編程和技術(shù)合計(jì)約39%
這說(shuō)明一件事
中國(guó)模型在開(kāi)源世界里,更偏技術(shù)生產(chǎn)力使用
編程場(chǎng)景:閉源吃大頭,開(kāi)源靠中國(guó)
報(bào)告單獨(dú)把 Programming 拎出來(lái)看
![]()
編程場(chǎng)景,在不同模型源的份額
編程這個(gè)品類里,閉源模型(主要是 Claude)還是主力
但開(kāi)源部分,中國(guó)模型則是主流選擇
Roleplay 場(chǎng)景:五五開(kāi)
同樣方式看 Roleplay
閉源和開(kāi)源已經(jīng)是可替代關(guān)系
![]()
Roleplay場(chǎng)景,在不同模型源的份額 推理模型占一半
都說(shuō)今年是 Agent 的元年
AI 不再是「給個(gè)問(wèn)題,出個(gè)答案」
而是:開(kāi)始規(guī)劃、調(diào)用工具、多步推理、在長(zhǎng)上下文中迭代
報(bào)告用四個(gè)指標(biāo)來(lái)追蹤這個(gè)趨勢(shì)
第一,推理模型的用量占比![]()
推理 vs 非推理 token 趨勢(shì)
2025 年初,推理模型的用量幾乎可以忽略
現(xiàn)在,這個(gè)數(shù)字已經(jīng)超過(guò)了 50%
供給側(cè)
GPT-5、Claude 4.5、Gemini 3 這些新模型都強(qiáng)調(diào)多步推理
需求側(cè)
用戶開(kāi)始偏好能夠管理任務(wù)狀態(tài)、執(zhí)行多步邏輯、支持 agent 工作流的模型
下面這個(gè)圖,則是頭部推理模型的份額
![]()
Top 推理模型 token 份額
之前 Gemini 2.5 Pro 還是第一
然后是 xAI 的 Grok Code Fast 1 領(lǐng)先,Gemini 2.5 Pro 和 Flash 緊隨其后,OpenAI 的 gpt-oss-120b 也在前列
第二,工具調(diào)用的使用率![]()
工具調(diào)用占比
整體趨勢(shì)向上,5 月的尖峰是個(gè)別大客戶導(dǎo)致的
這意味著更多的請(qǐng)求不只是問(wèn)答,而是讓模型去執(zhí)行外部操作
讓我們?cè)倏纯垂ぞ叩氖褂?/p>
![]()
按模型看工具調(diào)用量
最開(kāi)始主要是gpt-4o-mini 和 Claude 3.5、3.7
到 9 月之后,Claude 4.5 Sonnet 迅速階梯,然后 Grok Code Fast、GLM 4.5 也開(kāi)始出現(xiàn)
第三,Prompt 長(zhǎng)度的增長(zhǎng)![]()
Prompt token 數(shù)增長(zhǎng)
平均 prompt 長(zhǎng)度翻了 4 倍,從約 1,500 token 漲到 6,000+ token
![]()
Completion token 數(shù)增長(zhǎng)
輸出長(zhǎng)度也漲了近 3 倍,從約 150 token 到 400 token
![]()
不同類別下 Prompt 長(zhǎng)度變化
Prompt 長(zhǎng)度的增長(zhǎng)主要來(lái)自編程類任務(wù)。代碼理解、調(diào)試、生成這些任務(wù)經(jīng)常需要 20K+ 的輸入 token
第四,整體序列長(zhǎng)度![]()
平均序列長(zhǎng)度變化
過(guò)去 20 個(gè)月,平均序列長(zhǎng)度漲了 2.7 倍
![]()
編程 vs 全體 序列長(zhǎng)度
現(xiàn)在的典型請(qǐng)求不再是“寫一段東西”
而是“給你一大堆代碼 / 文檔,你幫我分析、推理、修改”
報(bào)告的判斷是:
Agentic Inference 很快就會(huì)(如果還沒(méi)有的話)超過(guò)人類推理的用量
模型任務(wù)的使用場(chǎng)景
報(bào)告用 GoogleTagClassifier 把請(qǐng)求分成 12 個(gè)類別
Programming、Roleplay、Technology、Science、Translation、Health 等
編程是最大的增長(zhǎng)品類![]()
編程成為主導(dǎo)類別
2025 年初,編程相關(guān)請(qǐng)求占 token 約 11%
最近幾周,這個(gè)數(shù)字已超過(guò) 50%
這條線對(duì)應(yīng)的是
? AI 輔助開(kāi)發(fā)在 IDE 里的深度集成
? 內(nèi)部平臺(tái)對(duì) LLM 的接入
? 以及調(diào)試、日志分析、數(shù)據(jù)腳本等長(zhǎng)上下文場(chǎng)景
在編程盤子里
? Anthropic Claude 長(zhǎng)期吃掉超過(guò) 60% 的支出
? Google 穩(wěn)在 15% 左右,OpenAI 從 2% 爬到約 8%
? MiniMax 最近幾周明顯抬頭,是增長(zhǎng)最快的新玩家
報(bào)告給了兩張“Top 6 類別”和“Next 6 類別”的子標(biāo)簽分布
![]()
前六大類別的子標(biāo)簽結(jié)構(gòu)
有幾個(gè)點(diǎn)值得留意
Roleplay
約 60% 是 Games/Roleplaying Games
另外有 Writers Resources 和 Adult 的不小占比
Programming
超過(guò)三分之二被打在 “Programming/Other” 標(biāo)簽下
說(shuō)明它是廣義編程需求,不是單一語(yǔ)言的垂直場(chǎng)景
Translation
幾乎平均分布在語(yǔ)言資源和其他
是一個(gè)“工具型”長(zhǎng)期需求
Science
80% 是 Machine Learning & AI 自身相關(guān)
典型的“問(wèn) AI 關(guān)于 AI”
Health
是所有大類里最分散的
沒(méi)有任何一個(gè)子標(biāo)簽超過(guò) 25%
![]()
次六大類別的子標(biāo)簽結(jié)構(gòu)
健康是最分散的品類,沒(méi)有任何子標(biāo)簽超過(guò) 25%
金融、學(xué)術(shù)、法律也都很分散,可能是因?yàn)檫@些領(lǐng)域的 LLM 工作流還不成熟
各家廠商的使用畫(huà)像
報(bào)告把Anthropic、Google、OpenAI、xAI、DeepSeek、Qwen這幾家抽出來(lái),看它們各自的任務(wù)分布
![]()
Anthropic 使用結(jié)構(gòu)
Anthropic高度集中在編程和技術(shù)任務(wù)。角色扮演和閑聊只是一小部分
![]()
Google 使用結(jié)構(gòu)
Google使用分布更均勻。翻譯、科學(xué)、技術(shù)、知識(shí)問(wèn)答都有份額。編程占比在 2025 年底降到了 18% 左右
![]()
xAI 使用結(jié)構(gòu)
xAI大部分時(shí)間 80% 以上是編程。但 11 月突然變了,技術(shù)、角色扮演、學(xué)術(shù)都漲起來(lái)了。報(bào)告推測(cè)這和 xAI 通過(guò)某些消費(fèi)應(yīng)用免費(fèi)分發(fā)有關(guān),帶來(lái)了大量非開(kāi)發(fā)者用戶
![]()
OpenAI 使用結(jié)構(gòu)
OpenAI2025 年初超過(guò)一半是科學(xué)類任務(wù),到年底降到 15% 以下。編程和技術(shù)各占 29% 左右
![]()
DeepSeek 使用結(jié)構(gòu)
DeepSeek角色扮演、閑聊、娛樂(lè)占了大頭,經(jīng)常超過(guò) 2/3。編程和科學(xué)只占一小部分
![]()
Qwen 使用結(jié)構(gòu)
Qwen編程長(zhǎng)期維持在 40–60% 區(qū)間,Science、Technology、Roleplay 份額波動(dòng)較大
每個(gè)廠商都有自己的定位,沒(méi)有誰(shuí)能通吃所有場(chǎng)景
地理分布
LLM 使用越來(lái)越全球化,OpenRouter 的亞洲請(qǐng)求持續(xù)增多
區(qū)域結(jié)構(gòu):亞洲份額翻倍![]()
按地區(qū)的支出占比
亞洲份額從 13% 漲到 31%,翻了一倍多
北美還是最大的,占 47.22%,但已經(jīng)不到一半了。亞洲 28.61%,歐洲 21.32%。大洋洲、南美、非洲加起來(lái)不到 3%
按國(guó)家看,美國(guó) 47.17%,新加坡 9.21%,德國(guó) 7.51%,中國(guó) 6.01%,韓國(guó) 2.88%,荷蘭 2.65%,英國(guó) 2.52%,加拿大 1.90%,日本 1.77%,印度 1.62%,其他 60+ 國(guó)家合計(jì) 16.76%
語(yǔ)言結(jié)構(gòu):英文第一,中文第二
語(yǔ)言分布很直白
? 英語(yǔ) 82.87%
? 簡(jiǎn)體中文 4.95%
? 俄語(yǔ) 2.47%
? 西班牙語(yǔ) 1.43%
? 泰語(yǔ) 1.03%
英文仍然是絕對(duì)統(tǒng)治地位,但中文已經(jīng)是第二大單語(yǔ)種
需要注意:這個(gè)數(shù)據(jù)只代表 OpenRouter 的訪問(wèn)請(qǐng)求
用戶留存:灰姑娘的玻璃鞋
這是很意思的發(fā)現(xiàn)
早期用戶的留存遠(yuǎn)遠(yuǎn)好于后來(lái)的用戶
他們把這叫做「灰姑娘的玻璃鞋」
灰姑娘的玻璃鞋 Cinderella Glass Slipper 當(dāng)一個(gè)新模型發(fā)布時(shí),最早嘗試的那批用戶,如果發(fā)現(xiàn)這個(gè)模型剛好能解決他們的問(wèn)題(「鞋子剛好合腳」),他們就會(huì)留下來(lái),而且留存時(shí)間非常長(zhǎng)
第一個(gè)解決用戶真實(shí)痛點(diǎn)的模型,會(huì)建立起深度、粘性的使用
用戶會(huì)圍繞這個(gè)模型建立工作流和習(xí)慣,切換成本很高
對(duì)于模型開(kāi)發(fā)者和投資人來(lái)說(shuō),要看的不是增長(zhǎng)曲線,而是留存曲線,那些「基礎(chǔ)性群組」的形成
這里先放幾個(gè)留存曲線,大家感受下
![]()
Claude 4 Sonnet 留存
Gemini 2.5 Pro 留存
OpenAI GPT-4o Mini 留存
DeepSeek R1 留存
對(duì)此,讓我們來(lái)看看這幾組模型
OpenAI GPT-4o Mini的水晶鞋
2024 年 7 月的曲線明顯高出其他時(shí)期
后面所有曲線幾乎都在底部貼著走
![]()
OpenAI GPT-4o Mini 留存
如果某個(gè)模型在發(fā)布時(shí)就抓住了需求
對(duì)應(yīng)的用戶就會(huì)成為基礎(chǔ)性群組
后面再進(jìn)來(lái)的用戶
要么已經(jīng)有主力模型
要么只是輕度使用
窗口只有一次,錯(cuò)過(guò)就沒(méi)有
Gemini 2.0 Flash沒(méi)有水晶鞋
Gemini 2.0 Flash的留存,則非常貼合
每條曲線都差不多
沒(méi)有任何一條明顯高出
![]()
OpenAI GPT-4o Mini 留存
這是啥意思呢?
這模型來(lái)的太遲了,也沒(méi)有足夠的性能優(yōu)勢(shì)
所以,并不會(huì)某個(gè)高價(jià)值工作負(fù)載視為“第一選擇”
它們從一開(kāi)始就被當(dāng)作“夠用”的替代品
DeepSeek的先跌后升
DeepSeek V3/R1則比較特殊
留存曲線都出現(xiàn)了「先跌后升」
![]()
DeepSeek V3 留存
DeepSeek R1 留存
報(bào)告把這個(gè)叫boomerang effect
就是用戶離開(kāi)以后又回來(lái)
說(shuō)明對(duì)比了其他模型后
確認(rèn) DeepSeek 在性能 + 成本 + 特性組合上仍然最合適
就只能說(shuō)牛逼了
定價(jià)與用量:四種關(guān)系
在報(bào)告的最后,有這么一張圖
不同模型的定價(jià)策略
開(kāi)源 vs 閉源模型成本 vs 使用
再看提供方視角
![]()
模型成本 vs 使用市場(chǎng)圖
對(duì)此,就有了四象限分類:效率巨頭、高端領(lǐng)導(dǎo)者、長(zhǎng)尾、高端專家
Efficient giants/效率巨頭低價(jià)高量如 Gemini 2.0 Flash、DeepSeek V3 0324
Premium leaders/高端領(lǐng)導(dǎo)者高價(jià)高量如 Claude 3.7 Sonnet、Claude Sonnet 4
Long tail/長(zhǎng)尾低價(jià)低量如 Qwen 2 7B Instruct、IBM Granite 4.0 Micro
Premium specialists/高端專家極高單價(jià)如 GPT-4、GPT-5 Pro
進(jìn)而的,又多了一些結(jié)論
? 企業(yè)愿意為關(guān)鍵任務(wù)付高價(jià),開(kāi)發(fā)者和愛(ài)好者會(huì)涌向便宜的模型
? 便宜的模型消耗了更多 token,但不會(huì)帶來(lái)深度集成
? Claude 和 GPT-4 雖然貴,但用量依然大,因?yàn)樗鼈兏煽俊⑿湃味雀?/p>
? 光便宜沒(méi)用:很多接近零成本的開(kāi)源模型用量也很小
報(bào)告最后給了六個(gè)判斷
第一,多模型生態(tài)是常態(tài)
沒(méi)有誰(shuí)能通吃,用戶會(huì)根據(jù)任務(wù)選模型,開(kāi)發(fā)者沒(méi)有忠誠(chéng)度
第二,使用場(chǎng)景很多元
角色扮演和娛樂(lè)用量巨大,不只是生產(chǎn)力工具。
第三,Agentic 推理正在成為主流
單輪問(wèn)答的時(shí)代在過(guò)去,多步推理、工具調(diào)用、長(zhǎng)上下文迭代,這些才是現(xiàn)在的主戰(zhàn)場(chǎng)
第四,地理格局在去中心化
亞洲份額翻倍,中國(guó)既是消費(fèi)者也是供應(yīng)商。LLM 必須是全球可用的
第五,價(jià)格不是唯一變量
用戶會(huì)在質(zhì)量、可靠性、能力廣度之間做權(quán)衡
第六,留存是真正的護(hù)城河
第一個(gè)解決用戶痛點(diǎn)的模型,會(huì)建立深度粘性
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.