![]()
大模型不再只是“會說話的搜索引擎”,而正在變成一個多模型協同的推理與決策層。在這個層上,誰能先踩到自己的“玻璃鞋時刻”,誰就有機會在未來幾年的 AI 生態中,擁有屬于自己的一塊穩固地盤。
來源|A16z
編譯|斗斗
出品|產業家
過去一年,AI 產業正在經歷一次結構性轉折:模型不再主要用于通用聊天,而是逐漸滲入研發、運營、客服、創意內容、工具鏈自動化等真正具有業務價值密度的生產環節。然而,關于一個最根本的問題——現實世界的大模型到底被企業和個人“用來做什么”——產業界反而缺乏基于大規模真實數據的認知。
在產品演示、基準測試和公開發布的光鮮敘事之外,真實的業務工作負載(workloads)、真實的模型選擇偏好(model selection)、真實的付費結構(spend distribution)與長期留存(retention),才是決定 AI 產業形態的主導力量。
在OpenRouter與a16z聯合發布的《State of AI: An Empirical 100 Trillion Token Study with OpenRouter》研究報告中,首次基于超過 100 萬億個真實推理 token 做了系統分析,為我們揭開了真實世界的 AI 使用地圖。
本篇文章在盡可能完整保留原報告洞見的基礎上,對技術趨勢、需求結構、模型競爭格局與商業含義進行了重新梳理,力求呈現一幅更貼近產業決策、更貼近產品研發、更貼近實際工作負載結構的 AI 落地圖景。
如果你關心未來幾年企業級 AI 的主戰場在哪里?哪些模型會成為長期基礎設施,哪些只是短期熱點?開源、閉源、中外模型將在產業鏈中扮演怎樣的角色?如何理解 AI 模型的真實需求曲線?那么,下面這篇基于百萬億級數據的綜合分析,將為你提供一份難得的產業級參考底圖。
以下內容為《State of AI: An Empirical 100 Trillion Token Study with OpenRouter》研究報告原文的二次梳理。
前言:
在很長一段時間里,大語言模型更像一個“超級輸入法”。它接受一段文本,再根據概率分布,把后面的字一句句補全。哪怕我們引入鏈式思維、RAG、工具調用,看上去模型好像在“思考”,本質上也只是一次前向推理的復雜包裝。
這種狀態在 OpenAI 推出 o1 推理模型之后出現了明顯變化。o1 和之后的一系列推理模型,不再滿足于“直接吐答案”,而是把思考過程內化為多步推理:先在內部生成、修正和篩選中間推理,再對外給出結論。也正是在這一波模型迭代的同時,現實世界的使用場景開始急劇擴張,從聊天寫作延伸到編程輔助、復雜工具編排和自動化代理。
可惜,與熱鬧的討論相比,我們一直缺少系統的數據來回答一個根本問題:這些模型到底在被怎樣使用?
為了解答這個問題,研究者基于 OpenRouter 平臺,分析了超過一百萬億 token 的真實調用記錄,覆蓋數百個模型、全球用戶和近一年的時間跨度。文章后面的所有結論,都建立在這套大樣本的統計之上。
要理解這些結論,先要搞清楚數據是如何收集的。
OpenRouter 是一個多模型聚合平臺,匯集了六十多家提供商、三百多個模型,對外提供統一接口。每一次調用都會留下結構化記錄:使用的是哪一個模型,輸入和輸出的 token 數量是多少,請求來自哪個計費地區,有沒有觸發工具調用,是否采用流式輸出,以及延遲和錯誤等元數據。
出于隱私考慮,研究者看不到具體的提示詞和回答內容,只能看到這些“殼信息”。為了推斷“這次調用是用來干什么的”,他們從所有請求里抽取了大約 0.25% 的樣本,把提示和回復送進 Google 的文本分類系統,根據層級標簽把每次對話歸到某個使用類別,比如編程、角色扮演、翻譯、教育、成人內容等等,然后再把細標簽歸并為少數大類。通過這種方式,報告得以在不泄露用戶具體內容的前提下,還原真實世界的使用結構。
在模型維度上,作者又做了幾層區分:一是開源和閉源,看模型權重是否公開;二是中國模型和其他地區模型,根據開發主體所在地域劃分;三是按參數規模,把模型分成小、中、大三個檔次。用戶地域則按計費地址而非 IP 判斷,以獲得更穩定的統計口徑。
而基于這套標注體系,AI落地產業的圖景逐漸顯現。
一、開源 vs 閉源:
開源已經拿走了三分之一的盤子
有了數據基礎,接下來我們先看最直觀、爭議也最大的一個問題:開源模型究竟用得多不多?
在總 token 量維度上,閉源模型依然是絕對主力,大約占到 70% 左右;但另一頭,開源模型在一年之內的份額一路上漲,到 2025 年底已經穩定在 30% 左右。也就是說,開源不再是“小圈子愛好者玩具”,而是實打實承載了全球近三分之一的大模型推理量。
![]()
這種增長并不是線性慢漲,而是和幾次關鍵的開源發布緊密綁定:Llama 3.3 70B、DeepSeek V3 / R1、Kimi K2、GPT-OSS 系列等模型的發布,都會在圖表上帶來清晰的“階梯式上升”;更關鍵的是,這些臺階不是“一陣風”,在發布之后使用量能長期維持在高位,說明它們真的被納入了穩定的工作流和產品。
在開源陣營內部,“中國模型”是一個非常亮眼的變量。
![]()
按年平均來看,中國開源模型大概占了全平臺 13% 的 token 份額,與非中國開源模型幾乎打平。有些周,甚至能達到全平臺 接近 30% 的 token 使用量。這背后,主要是 DeepSeek、Qwen 等家族在頻繁迭代、持續擴容:每次新模型發布,都會帶來一波新流量,并把舊流量遷移過來。
這意味著,中國模型不再只是本地市場的小生態,而已經成為全球開源版圖中的重要一極。
如果只看開源模型內部份額,可以看到明顯的“多極化”趨勢:2024 年底,DeepSeek V3 + R1 在開源流量里幾乎是霸榜狀態;但隨著 Qwen 3 系列、Kimi K2、GPT-OSS 等新選手不斷加入,到 2025 年底,沒有任何一個開源模型再能拿到超過 25% 的開源 token;Top 5–7 個模型的份額差距在縮小,大家一起瓜分市場。
![]()
這也給了模型開發者一個清晰信號:開源世界“爆款頻出,但生命周期并不長”。想長期留在榜首,一次性做一個很強的模型遠遠不夠,持續高頻迭代才是剛需。
二、模型大小之爭:
中等規模模型逐漸成為“甜點位”
開源世界經常會被問一個問題:到底要做多大的模型?這份報告也給出了一些行為層面的答案。
論文按參數量把開源模型分成三類:小模型:<15B、中模型:15–70B、大模型:≥70B。
![]()
對比“模型數量”和“實際使用份額”之后,可以看出幾個趨勢。
一是小模型數量很多,但使用份額在下降。各種 LoRA、專用小模型層出不窮;但它們往往只在極小的垂類或短期試驗里出現,生命周期短,很難形成持續大規模使用。
二是中等規模模型使用份額快速上升。這一檔被認為找到了比較好的“model–market fit”:能力足夠強,能覆蓋大部分復雜任務;成本又比超大模型低很多;像 Qwen2.5 Coder 32B、Mistral Small 3、GPT-OSS 20B 都是典型代表。
三是大模型并未出現單一王者。在 ≥70B 這個檔位上,并沒有哪一個模型吃掉絕大部分流量;Qwen3 235B、GLM 4.5 Air、GPT-OSS-120B 等都保持了一定份額。
![]()
換句話說,“小而美”很難吃到大眾市場,“巨大無比”又太貴,中間這檔綜合能力和成本的模型,正在成為真正的流量承載者。大模型則更多被用在評估、重要決策和極難任務上。
三、開源模型拿來干什么?
一半陪你玩,一半幫你寫代碼
知道了“誰在用什么”,下一個問題自然是:他們用模型來做什么?
在所有開源模型的任務分布中,兩個類別格外突出。一是Roleplay(角色扮演),大約占到了一半以上的 token;二是Programming(編程),大約占 15–20%。
![]()
這和大眾想象中“模型主要用來效率辦公、寫郵件”的印象相當不同。
真實情況是大量用戶在用開源模型做角色扮演、劇情創作、人物對話、同人故事甚至游戲系統;另一個大頭則是代碼生成、調試和輔助編程。
從產品視角看,這不難理解,對于“虛構內容”和“個性化體驗”,開源模型限制更少,也更容易定制特定人設;對于編程,開源模型可以被深度內嵌到本地開發工具和自建基礎設施里,利于控制成本和隱私。
如果單獨抽出“中國開源模型”來看,結構又有些不同。角色扮演仍然是最大的類別,占比約33%,但編程和技術領域的使用量合計已占多數,達到39%。
![]()
這說明,在全球開源生態里,中國模型更傾向于被用在技術與工程方向:寫代碼、改腳本、看日志、做基礎設施相關操作,而不僅僅是閑聊或娛樂。
進一步,如果只看“編程”這一種任務,格局又有所不同。閉源模型整體上依然承擔了大部分編程流量,尤其是 Anthropic 的 Claude 系列,一直是代碼類任務中的頭號選手;在開源陣營內部,2025 年中期,中國開源模型一度在編程流量上占絕對優勢(比如 QwenCoder系列);到 2025 年底,歐美開源(LLaMA Code、GPT-OSS 等)追上甚至在部分時間段反超。
![]()
而在“角色扮演”這一類中,格局則更偏向開源與閉源兩極并存,早期主要由閉源模型承載;隨著開源模型能力和自由度的提升,后來角色扮演流量開始大量遷向開源,呈現出幾乎對半分的狀況。
![]()
綜合看下來,開源模型在“高自由度娛樂/創作”場景已經與閉源平分秋色,在高精度編程與嚴肅推理上仍處于追趕,但進展極快。
四、推理模型與工具調用:
LLM正在變成“多步決策引擎”
隨著任務復雜度的提高,單輪“問一句,答一句”的模式逐漸顯得吃力。因此,接下來這幾個現象幾乎是順理成章的:推理模型普及、工具調用變多、上下文變長。
在時間維度上看,真正優化過“多步推理”的模型起初份額很小,甚至只是實驗性的存在。但到 2025 年底,這類模型已經承擔了超過 50% 的 token 流量。
![]()
這些模型包括:xAI 的 Grok Code Fast 1、Grok 4 Fast;Google 的 Gemini 2.5 Pro / Flash;OpenAI 的 gpt-oss-120b 等。
![]()
這表明,開發者在默認選擇模型時,越來越偏向“會多步思考”的版本,哪怕它們的延遲稍高、成本略貴,也愿意為穩定的復雜推理能力買單。
工具調用(tool-calling)是另一條清晰的上升曲線。論文通過“finish reason = tool_call”的比例來估算工具調用的使用程度,結果顯示工具調用的占比在一年之內穩步提升,只有在某些大客戶短期爆量時出現尖峰。
![]()
早期,只有極少數模型(如 gpt-4o-mini、部分 Claude 3.5/3.7)承擔了幾乎全部工具調用流量;隨著時間推進,越來越多模型實現了工具調用能力,新版本的 Claude、Gemini、xAI 模型也逐漸接力。
![]()
這也反過來說明對企業級、高價值場景來說,“沒有穩定的工具調用”,已經成了很多模型的硬傷。沒有 tool calling,模型就很難被納入嚴肅的自動化工作流。
如果再看輸入輸出長度,就能更直觀地感受到任務在變復雜。平均提示長度在一年內增長了約 4 倍,從 1,500 token 左右漲到 6,000;輸出長度也從 150 漲到約 400,但增幅相對小,說明更多的 token 被用來提供上下文,而不是多寫字。
更極端的是,在編程類任務中,序列長度往往是整體平均值的 3–4 倍。這很容易理解:看代碼、分析日志、比對配置,本身就是對“長文本理解”和“局部推理”的考驗。
![]()
結合上述三個趨勢,推理模型、工具調用、長上下文,我們就能看出一個清晰的圖景。
典型的大模型請求,正在從“回答一個問題”,轉變為“驅動一個代理”:它讀一大段上下文,調用工具干具體事,在內部做多輪思考,最后給出一個結構化的決策或結果。
五、任務類別全景:
編程和娛樂是兩個超級引擎
當我們把所有模型(而不僅僅是開源)一起看,就會發現一些更宏觀的趨勢。
在所有類別中,編程(Programming)的增長最為夸張,2025 年初,編程相關請求大約只占所有 token 的 1 成出頭;到 2025 年末,編程類任務已經吃掉了超過一半的 token。
![]()
這背后是 IDE 集成、代碼助手、自動化研發流水線的全面鋪開:IDE 原生集成 LLM 成為常態;自動生成單元測試、重構代碼、跨項目理解代碼庫變成頻繁操作;持續交付中的一些環節開始由模型輔助甚至主導。
在不同提供商中,分工也逐漸清晰。Anthropic 的 Claude 系列長期拿著 60% 以上的編程流量,是工程師群體的首選;Google、OpenAI、MiniMax 等各自占據部分份額,但整體來看,“寫代碼”作為 LLM 最重要的生產力場景之一,已經毫無疑問。
![]()
再看 Roleplay 類別,我們會發現一個有趣的結構,其中接近 60% 的 token 來自 “Games / Roleplaying Games”;另外約 15% 來自寫作者資源(Writers Resources),又有 15% 來自成人內容(Adult)。
![]()
![]()
換句話說,很多用戶并不是在隨意閑聊,而是在進行“嚴肅的幻想活動”,比如寫小說、寫劇本、做世界觀設定;扮演游戲角色、跑團、半即時敘事;以及探索成人幻想。
這部分需求在傳統軟件世界里幾乎沒有對標產品,如今被統統吸進了 LLM 里。它的商業化路徑也許和“生產力工具”完全不同,更接近內容平臺、游戲和虛擬陪伴。
此外,還有一大批“既高價值又高風險”的長尾領域,那就是健康(Health):子類別高度分散,從疾病咨詢到心理支持無所不包;金融、法律、學術研究,這類使用量不低,但尚未形成像編程、角色扮演那樣清晰的主流模式。
這些領域有一個共同特點:對正確性要求極高、對錯誤容忍度極低。這也解釋了為什么它們在成本上會偏高,但使用模式仍然比較謹慎、碎片化,大家都在試水,但還不敢“全身跳下去”。
六、不同模型提供商的“畫像”:
誰在服務誰?
把任務類別再按模型提供商拆開,就能看到每家廠商在現實世界中的“定位”。
整體來看,大致有幾種典型畫像。
一是Anthropic(Claude),這類使用結構高度偏向編程和技術任務,Roleplay、閑聊類內容占比極小,整體氣質非常“工程師 / 企業級”。
![]()
二是Google(Gemini 系列),這類任務分布更均衡,翻譯、科學、法律、技術、知識問答都有;編程占比反而在緩慢下降,更像是“通用信息引擎”和“知識問答中樞”。
![]()
三是xAI(Grok),這類早期幾乎所有流量都集中在編程;直到開放免費后,才逐漸在 roleplay、學術問答等方向擴展;展現出從“硬核工程工具”向“通用助手”擴張的軌跡。
![]()
四是OpenAI,一開始,科學類問題占了很大比例(尤其是和 Machine Learning & AI 相關);隨著新模型推出,編程 + 技術任務比例持續提高,年末已經超過一半;Roleplay 和日常聊天類請求占比顯著下降,整體使用呈現“專業化”趨勢。
![]()
還有就是以DeepSeek、Qwen為代表的中國廠商。DeepSeek更加偏向 roleplay 和輕量聊天,編程與科學比例相對較低,但有緩慢抬頭;Qwen恰好相反,40–60% 的 token 用在編程上,roleplay 和 science 的占比隨時間波動。
![]()
![]()
從這些畫像可以看出,多模型生態之所以存在,不只是因為“大家都想分一杯羹”,而是因為不同模型確實在現實中服務了不同的用戶群體和任務結構。這也是“多模型編排”未來越來越重要的原因,即沒有一個模型能在所有維度都最好。
七、全球視角:
誰在用?用的是什么語言?
模型用得多不多,只是一個維度;另一個關鍵信息是:這些模型被哪些地區、哪些語言的人在使用?
按消費支出來看北美依然是最大的單一區域,但多數時間已低于全球總支出的 50%;歐洲穩居第二,長期維持在中高兩位數百分比;亞洲是增長最快的地區,從最初約 13% 的份額,逐步提升到接近三分之一,已經與歐洲、北美形成三足鼎立的格局。
![]()
其中很大一部分增長,正是隨著亞洲本地模型(尤其是中國模型)發布而被激發出來的——當本地語言、本地上下文、本地價格更有優勢時,區域市場的活躍度自然會被抬高。
雖然地區分布在多極化,但在語言層面,模型使用仍然高度集中,英語占到了約 83% 的提示;簡體中文約 5%;俄語、西班牙語和其他語言合計構成剩余的一小部分。
![]()
這一結構一方面反映了當前模型訓練數據和能力的現實,那就是英語仍然是效果最好、資源最豐富的語言;另一方面也說明了未來的機會空間:多語言、本地化模型還有很大的成長余地。
八、留存與“玻璃鞋效應”:
好模型不是“漲一波就完事”
有了使用量,還不夠理解一個模型的真實生命力,關鍵在于:用戶會不會留下來?
論文通過 cohort 分析,把用戶按“首次使用某模型的月份”分組,觀察每一組在此后各個月份里還有多少用戶還在繼續使用。這時會發現一個特別有意思的現象,那就是大部分 cohort 的留存曲線在前幾個月都掉得很快;但通常會有一兩條“早期 cohort”的曲線明顯高于其他批次,而且能 長期維持在 30–40% 的高留存。
比如,Gemini 2.5 Pro 的 2025 年 6 月 cohort、Claude 4 Sonnet 的 2025 年 5 月 cohort,都展現出這種“高而穩定”的留存特征。
![]()
![]()
作者用“Cinderella Glass Slipper(灰姑娘的玻璃鞋)”來形容這種現象。簡而言之,就是市場上存在著一批高價值、長期的任務,一直找不到“剛剛好”的模型;某一天,一個新模型出現,能力和價格恰好匹配這些任務需求,那一批用戶就“試鞋成功”;一旦這類任務在某模型上跑通,上下游工具、流程、組織習慣都會圍繞它搭建,遷移成本迅速變高;即便后來有性能略強的競品出現,這批用戶也不會輕易挪窩。
因此,一個模型是否真正抓住了高價值工作負載,不看一時的使用峰值,而要看它是否擁有這樣的“玻璃鞋 cohort”。
在 DeepSeek 的留存曲線里,還出現了少見的“boomerang(回旋鏢)效應”,即某些 cohort 在一開始幾個月快速流失;但過了一段時間后,留存曲線又出現回升,說明原本流失的用戶又回來用這款模型。
![]()
![]()
這很可能意味著一部分用戶被其他新模型吸引走,評估試用一圈之后發現,某些指標(比如成本、速度或特定任務上的表現)DeepSeek 仍然更適合自己的工作流,于是又遷回。
這種“出走–回歸”的行為,恰恰佐證了:行為數據不只是一次性偏好,而是持久比較之后的選擇結果。
九、成本與使用:
不是“誰便宜就用誰”
最后一個關鍵問題是:價格到底有多重要?
大部分人很容易直覺地認為 AI 已經卷成了價格戰,但報告的數據給出了更細致的答案。
把不同任務類別畫在“每百萬 token 成本(橫軸,log)”和“總使用量(縱軸,log)”上,可以大致分成四類。
![]()
右上是高成本、高使用,例如 Technology、Science 等技術和科研類任務;左上是低成本、高使用,例如編程和角色扮演這兩個流量怪獸;右下是高成本、低使用,例如金融、健康、學術、營銷等專業場景;左下是低成本、低使用,例如翻譯、法律咨詢、冷知識查詢等工具化場景。
特別夸張的是 Technology 類別,它在成本上是明顯的離群點,但使用量依然很高,意味著當任務本身價值特別高(比如系統架構設計、復雜技術咨詢)時,用戶對價格極不敏感,反而更在乎模型的可靠性和能力上限。
如果換個角度,把每個模型作為一個點畫在“成本 vs 使用”的圖上,會看到模型價格下降 10%,使用量平均只上升不到 1%,總體相關性非常弱。但在聚類上卻很清晰,即閉源模型集中在“高價、高使用”區域;開源模型則更多分布在“低價、中高使用”區域。
![]()
這說明閉源模型主要在抓高價值任務,用戶愿意為其更高的性能和可靠性付錢;開源模型則更多承載了高體量、成本敏感的任務,比如大規模角色扮演和非關鍵生產環境中的編程。
同時也能看到某些很貴的模型使用量一般,卻深度服務極少數關鍵任務,它們的價值不能簡單用“token 數”來衡量;大量“便宜但一般”的模型,沒有形成工作負載–模型的強匹配,即使價格壓得很低,也不會自然跑出使用量。
一句話總結就是,價格重要,但遠沒有“是否真正解決了某類高價值任務”重要。
十、整體啟示:
多模型、代理化和“玻璃鞋時刻”
把所有這些數據和現象放在一起,可以提煉出幾個對未來幾年都很重要的結論。
首先,未來是一個穩定的多模型世界。不同模型在不同任務上形成各自的“使用畫像”;閉源抓高價值,開源吃高體量,各有生存空間;對應用開發者來說,押寶一個“終極大一統模型”風險太高,更現實的選擇是:做模型無關,做多模型編排。
![]()
其次,真實世界的使用遠不止“生產力工具”。在開源世界,超過一半的流量來自角色扮演、敘事創作和娛樂;這些場景需要的是持續性、趣味性、一致的人設,而不僅是事實正確;這意味著,我們需要全新的評估維度和產品形態,而不能只用“考試分數”和“基準測試”衡量模型。
另外,編程與代理式推理是關鍵戰場。編程類任務成為增長最快的品類,序列最長、工具調用最多;推理優化模型已經占據過半流量,代理式使用成為主流;對模型和基礎設施來說,長上下文、工具調用魯棒性和整體工作流延遲的重要性,已經超過“單次回答的華麗程度”。
最后,護城河不在價格,而在“玻璃鞋時刻”。真正能留下來的,是那些第一次“剛剛好”地解決了一類工作負載的模型;一旦形成了關鍵任務上的深度綁定,后來的玩家哪怕性能略強、價格更低,也不一定能撬走用戶;對模型提供方來說,重點不在于持續壓價,而在于找到自己最擅長的任務帶,把這部分用戶服務好,保證可靠性和持續迭代。
結語
通過對超過 100 萬億個 token 的真實調用數據進行拆解,這份研究把我們常常“憑感覺”討論的許多問題——開源 / 閉源之爭、推理模型的價值、多模型生態、價格戰與留存、編程和娛樂的相對重要性——都拉回了實證層面。
如果只用一句話來概括這份報告的內核,大概會是大模型不再只是“會說話的搜索引擎”,而正在變成一個多模型協同的推理與決策層。在這個層上,誰能先踩到自己的“玻璃鞋時刻”,誰就有機會在未來幾年的 AI 生態中,擁有屬于自己的一塊穩固地盤。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.