網易首頁 > 網易號 > 正文申請入駐

2025年，企業級AI的主戰場在哪里？

2025-12-12 18:24:42　來源: 產業家

北京舉報

分享至

大模型不再只是“會說話的搜索引擎”，而正在變成一個多模型協同的推理與決策層。在這個層上，誰能先踩到自己的“玻璃鞋時刻”，誰就有機會在未來幾年的 AI 生態中，擁有屬于自己的一塊穩固地盤。

來源|A16z

編譯|斗斗

出品|產業家

過去一年，AI 產業正在經歷一次結構性轉折：模型不再主要用于通用聊天，而是逐漸滲入研發、運營、客服、創意內容、工具鏈自動化等真正具有業務價值密度的生產環節。然而，關于一個最根本的問題——現實世界的大模型到底被企業和個人“用來做什么”——產業界反而缺乏基于大規模真實數據的認知。

在產品演示、基準測試和公開發布的光鮮敘事之外，真實的業務工作負載（workloads）、真實的模型選擇偏好（model selection）、真實的付費結構（spend distribution）與長期留存（retention），才是決定 AI 產業形態的主導力量。

在OpenRouter與a16z聯合發布的《State of AI: An Empirical 100 Trillion Token Study with OpenRouter》研究報告中，首次基于超過 100 萬億個真實推理 token 做了系統分析，為我們揭開了真實世界的 AI 使用地圖。

本篇文章在盡可能完整保留原報告洞見的基礎上，對技術趨勢、需求結構、模型競爭格局與商業含義進行了重新梳理，力求呈現一幅更貼近產業決策、更貼近產品研發、更貼近實際工作負載結構的 AI 落地圖景。

如果你關心未來幾年企業級 AI 的主戰場在哪里？哪些模型會成為長期基礎設施，哪些只是短期熱點？開源、閉源、中外模型將在產業鏈中扮演怎樣的角色？如何理解 AI 模型的真實需求曲線？那么，下面這篇基于百萬億級數據的綜合分析，將為你提供一份難得的產業級參考底圖。

以下內容為《State of AI: An Empirical 100 Trillion Token Study with OpenRouter》研究報告原文的二次梳理。

前言：

在很長一段時間里，大語言模型更像一個“超級輸入法”。它接受一段文本，再根據概率分布，把后面的字一句句補全。哪怕我們引入鏈式思維、RAG、工具調用，看上去模型好像在“思考”，本質上也只是一次前向推理的復雜包裝。

這種狀態在 OpenAI 推出 o1 推理模型之后出現了明顯變化。o1 和之后的一系列推理模型，不再滿足于“直接吐答案”，而是把思考過程內化為多步推理：先在內部生成、修正和篩選中間推理，再對外給出結論。也正是在這一波模型迭代的同時，現實世界的使用場景開始急劇擴張，從聊天寫作延伸到編程輔助、復雜工具編排和自動化代理。

可惜，與熱鬧的討論相比，我們一直缺少系統的數據來回答一個根本問題：這些模型到底在被怎樣使用？

為了解答這個問題，研究者基于 OpenRouter 平臺，分析了超過一百萬億 token 的真實調用記錄，覆蓋數百個模型、全球用戶和近一年的時間跨度。文章后面的所有結論，都建立在這套大樣本的統計之上。

要理解這些結論，先要搞清楚數據是如何收集的。

OpenRouter 是一個多模型聚合平臺，匯集了六十多家提供商、三百多個模型，對外提供統一接口。每一次調用都會留下結構化記錄：使用的是哪一個模型，輸入和輸出的 token 數量是多少，請求來自哪個計費地區，有沒有觸發工具調用，是否采用流式輸出，以及延遲和錯誤等元數據。

出于隱私考慮，研究者看不到具體的提示詞和回答內容，只能看到這些“殼信息”。為了推斷“這次調用是用來干什么的”，他們從所有請求里抽取了大約 0.25% 的樣本，把提示和回復送進 Google 的文本分類系統，根據層級標簽把每次對話歸到某個使用類別，比如編程、角色扮演、翻譯、教育、成人內容等等，然后再把細標簽歸并為少數大類。通過這種方式，報告得以在不泄露用戶具體內容的前提下，還原真實世界的使用結構。

在模型維度上，作者又做了幾層區分：一是開源和閉源，看模型權重是否公開；二是中國模型和其他地區模型，根據開發主體所在地域劃分；三是按參數規模，把模型分成小、中、大三個檔次。用戶地域則按計費地址而非 IP 判斷，以獲得更穩定的統計口徑。

而基于這套標注體系，AI落地產業的圖景逐漸顯現。

一、開源 vs 閉源：

開源已經拿走了三分之一的盤子

有了數據基礎，接下來我們先看最直觀、爭議也最大的一個問題：開源模型究竟用得多不多？

在總 token 量維度上，閉源模型依然是絕對主力，大約占到 70% 左右；但另一頭，開源模型在一年之內的份額一路上漲，到 2025 年底已經穩定在 30% 左右。也就是說，開源不再是“小圈子愛好者玩具”，而是實打實承載了全球近三分之一的大模型推理量。

這種增長并不是線性慢漲，而是和幾次關鍵的開源發布緊密綁定：Llama 3.3 70B、DeepSeek V3 / R1、Kimi K2、GPT-OSS 系列等模型的發布，都會在圖表上帶來清晰的“階梯式上升”；更關鍵的是，這些臺階不是“一陣風”，在發布之后使用量能長期維持在高位，說明它們真的被納入了穩定的工作流和產品。

在開源陣營內部，“中國模型”是一個非常亮眼的變量。

按年平均來看，中國開源模型大概占了全平臺 13% 的 token 份額，與非中國開源模型幾乎打平。有些周，甚至能達到全平臺接近 30% 的 token 使用量。這背后，主要是 DeepSeek、Qwen 等家族在頻繁迭代、持續擴容：每次新模型發布，都會帶來一波新流量，并把舊流量遷移過來。

這意味著，中國模型不再只是本地市場的小生態，而已經成為全球開源版圖中的重要一極。

如果只看開源模型內部份額，可以看到明顯的“多極化”趨勢：2024 年底，DeepSeek V3 + R1 在開源流量里幾乎是霸榜狀態；但隨著 Qwen 3 系列、Kimi K2、GPT-OSS 等新選手不斷加入，到 2025 年底，沒有任何一個開源模型再能拿到超過 25% 的開源 token；Top 5–7 個模型的份額差距在縮小，大家一起瓜分市場。

這也給了模型開發者一個清晰信號：開源世界“爆款頻出，但生命周期并不長”。想長期留在榜首，一次性做一個很強的模型遠遠不夠，持續高頻迭代才是剛需。

二、模型大小之爭：

中等規模模型逐漸成為“甜點位”

開源世界經常會被問一個問題：到底要做多大的模型？這份報告也給出了一些行為層面的答案。

論文按參數量把開源模型分成三類：小模型：<15B、中模型：15–70B、大模型：≥70B。

對比“模型數量”和“實際使用份額”之后，可以看出幾個趨勢。

一是小模型數量很多，但使用份額在下降。各種 LoRA、專用小模型層出不窮；但它們往往只在極小的垂類或短期試驗里出現，生命周期短，很難形成持續大規模使用。

二是中等規模模型使用份額快速上升。這一檔被認為找到了比較好的“model–market fit”：能力足夠強，能覆蓋大部分復雜任務；成本又比超大模型低很多；像 Qwen2.5 Coder 32B、Mistral Small 3、GPT-OSS 20B 都是典型代表。

三是大模型并未出現單一王者。在 ≥70B 這個檔位上，并沒有哪一個模型吃掉絕大部分流量；Qwen3 235B、GLM 4.5 Air、GPT-OSS-120B 等都保持了一定份額。

換句話說，“小而美”很難吃到大眾市場，“巨大無比”又太貴，中間這檔綜合能力和成本的模型，正在成為真正的流量承載者。大模型則更多被用在評估、重要決策和極難任務上。

三、開源模型拿來干什么？

一半陪你玩，一半幫你寫代碼

知道了“誰在用什么”，下一個問題自然是：他們用模型來做什么？

在所有開源模型的任務分布中，兩個類別格外突出。一是Roleplay（角色扮演），大約占到了一半以上的 token；二是Programming（編程），大約占 15–20%。

這和大眾想象中“模型主要用來效率辦公、寫郵件”的印象相當不同。

真實情況是大量用戶在用開源模型做角色扮演、劇情創作、人物對話、同人故事甚至游戲系統；另一個大頭則是代碼生成、調試和輔助編程。

從產品視角看，這不難理解，對于“虛構內容”和“個性化體驗”，開源模型限制更少，也更容易定制特定人設；對于編程，開源模型可以被深度內嵌到本地開發工具和自建基礎設施里，利于控制成本和隱私。

如果單獨抽出“中國開源模型”來看，結構又有些不同。角色扮演仍然是最大的類別，占比約33%，但編程和技術領域的使用量合計已占多數，達到39%。

這說明，在全球開源生態里，中國模型更傾向于被用在技術與工程方向：寫代碼、改腳本、看日志、做基礎設施相關操作，而不僅僅是閑聊或娛樂。

進一步，如果只看“編程”這一種任務，格局又有所不同。閉源模型整體上依然承擔了大部分編程流量，尤其是 Anthropic 的 Claude 系列，一直是代碼類任務中的頭號選手；在開源陣營內部，2025 年中期，中國開源模型一度在編程流量上占絕對優勢（比如 QwenCoder系列）；到 2025 年底，歐美開源（LLaMA Code、GPT-OSS 等）追上甚至在部分時間段反超。

而在“角色扮演”這一類中，格局則更偏向開源與閉源兩極并存，早期主要由閉源模型承載；隨著開源模型能力和自由度的提升，后來角色扮演流量開始大量遷向開源，呈現出幾乎對半分的狀況。

綜合看下來，開源模型在“高自由度娛樂/創作”場景已經與閉源平分秋色，在高精度編程與嚴肅推理上仍處于追趕，但進展極快。

四、推理模型與工具調用：

LLM正在變成“多步決策引擎”

隨著任務復雜度的提高，單輪“問一句，答一句”的模式逐漸顯得吃力。因此，接下來這幾個現象幾乎是順理成章的：推理模型普及、工具調用變多、上下文變長。

在時間維度上看，真正優化過“多步推理”的模型起初份額很小，甚至只是實驗性的存在。但到 2025 年底，這類模型已經承擔了超過 50% 的 token 流量。

這些模型包括：xAI 的 Grok Code Fast 1、Grok 4 Fast；Google 的 Gemini 2.5 Pro / Flash；OpenAI 的 gpt-oss-120b 等。

這表明，開發者在默認選擇模型時，越來越偏向“會多步思考”的版本，哪怕它們的延遲稍高、成本略貴，也愿意為穩定的復雜推理能力買單。

工具調用（tool-calling）是另一條清晰的上升曲線。論文通過“finish reason = tool_call”的比例來估算工具調用的使用程度，結果顯示工具調用的占比在一年之內穩步提升，只有在某些大客戶短期爆量時出現尖峰。

早期，只有極少數模型（如 gpt-4o-mini、部分 Claude 3.5/3.7）承擔了幾乎全部工具調用流量；隨著時間推進，越來越多模型實現了工具調用能力，新版本的 Claude、Gemini、xAI 模型也逐漸接力。

這也反過來說明對企業級、高價值場景來說，“沒有穩定的工具調用”，已經成了很多模型的硬傷。沒有 tool calling，模型就很難被納入嚴肅的自動化工作流。

如果再看輸入輸出長度，就能更直觀地感受到任務在變復雜。平均提示長度在一年內增長了約 4 倍，從 1,500 token 左右漲到 6,000；輸出長度也從 150 漲到約 400，但增幅相對小，說明更多的 token 被用來提供上下文，而不是多寫字。

更極端的是，在編程類任務中，序列長度往往是整體平均值的 3–4 倍。這很容易理解：看代碼、分析日志、比對配置，本身就是對“長文本理解”和“局部推理”的考驗。

結合上述三個趨勢，推理模型、工具調用、長上下文，我們就能看出一個清晰的圖景。

典型的大模型請求，正在從“回答一個問題”，轉變為“驅動一個代理”：它讀一大段上下文，調用工具干具體事，在內部做多輪思考，最后給出一個結構化的決策或結果。

五、任務類別全景：

編程和娛樂是兩個超級引擎

當我們把所有模型（而不僅僅是開源）一起看，就會發現一些更宏觀的趨勢。

在所有類別中，編程（Programming）的增長最為夸張，2025 年初，編程相關請求大約只占所有 token 的 1 成出頭；到 2025 年末，編程類任務已經吃掉了超過一半的 token。

這背后是 IDE 集成、代碼助手、自動化研發流水線的全面鋪開：IDE 原生集成 LLM 成為常態；自動生成單元測試、重構代碼、跨項目理解代碼庫變成頻繁操作；持續交付中的一些環節開始由模型輔助甚至主導。

在不同提供商中，分工也逐漸清晰。Anthropic 的 Claude 系列長期拿著 60% 以上的編程流量，是工程師群體的首選；Google、OpenAI、MiniMax 等各自占據部分份額，但整體來看，“寫代碼”作為 LLM 最重要的生產力場景之一，已經毫無疑問。

再看 Roleplay 類別，我們會發現一個有趣的結構，其中接近 60% 的 token 來自 “Games / Roleplaying Games”；另外約 15% 來自寫作者資源（Writers Resources），又有 15% 來自成人內容（Adult）。

換句話說，很多用戶并不是在隨意閑聊，而是在進行“嚴肅的幻想活動”，比如寫小說、寫劇本、做世界觀設定；扮演游戲角色、跑團、半即時敘事；以及探索成人幻想。

這部分需求在傳統軟件世界里幾乎沒有對標產品，如今被統統吸進了 LLM 里。它的商業化路徑也許和“生產力工具”完全不同，更接近內容平臺、游戲和虛擬陪伴。

此外，還有一大批“既高價值又高風險”的長尾領域，那就是健康（Health）：子類別高度分散，從疾病咨詢到心理支持無所不包；金融、法律、學術研究，這類使用量不低，但尚未形成像編程、角色扮演那樣清晰的主流模式。

這些領域有一個共同特點：對正確性要求極高、對錯誤容忍度極低。這也解釋了為什么它們在成本上會偏高，但使用模式仍然比較謹慎、碎片化，大家都在試水，但還不敢“全身跳下去”。

六、不同模型提供商的“畫像”：

誰在服務誰？

把任務類別再按模型提供商拆開，就能看到每家廠商在現實世界中的“定位”。

整體來看，大致有幾種典型畫像。

一是Anthropic（Claude），這類使用結構高度偏向編程和技術任務，Roleplay、閑聊類內容占比極小，整體氣質非常“工程師 / 企業級”。

二是Google（Gemini 系列），這類任務分布更均衡，翻譯、科學、法律、技術、知識問答都有；編程占比反而在緩慢下降，更像是“通用信息引擎”和“知識問答中樞”。

三是xAI（Grok），這類早期幾乎所有流量都集中在編程；直到開放免費后，才逐漸在 roleplay、學術問答等方向擴展；展現出從“硬核工程工具”向“通用助手”擴張的軌跡。

四是OpenAI，一開始，科學類問題占了很大比例（尤其是和 Machine Learning & AI 相關）；隨著新模型推出，編程 + 技術任務比例持續提高，年末已經超過一半；Roleplay 和日常聊天類請求占比顯著下降，整體使用呈現“專業化”趨勢。

還有就是以DeepSeek、Qwen為代表的中國廠商。DeepSeek更加偏向 roleplay 和輕量聊天，編程與科學比例相對較低，但有緩慢抬頭；Qwen恰好相反，40–60% 的 token 用在編程上，roleplay 和 science 的占比隨時間波動。

從這些畫像可以看出，多模型生態之所以存在，不只是因為“大家都想分一杯羹”，而是因為不同模型確實在現實中服務了不同的用戶群體和任務結構。這也是“多模型編排”未來越來越重要的原因，即沒有一個模型能在所有維度都最好。

七、全球視角：

誰在用？用的是什么語言？

模型用得多不多，只是一個維度；另一個關鍵信息是：這些模型被哪些地區、哪些語言的人在使用？

按消費支出來看北美依然是最大的單一區域，但多數時間已低于全球總支出的 50%；歐洲穩居第二，長期維持在中高兩位數百分比；亞洲是增長最快的地區，從最初約 13% 的份額，逐步提升到接近三分之一，已經與歐洲、北美形成三足鼎立的格局。

其中很大一部分增長，正是隨著亞洲本地模型（尤其是中國模型）發布而被激發出來的——當本地語言、本地上下文、本地價格更有優勢時，區域市場的活躍度自然會被抬高。

雖然地區分布在多極化，但在語言層面，模型使用仍然高度集中，英語占到了約 83% 的提示；簡體中文約 5%；俄語、西班牙語和其他語言合計構成剩余的一小部分。

這一結構一方面反映了當前模型訓練數據和能力的現實，那就是英語仍然是效果最好、資源最豐富的語言；另一方面也說明了未來的機會空間：多語言、本地化模型還有很大的成長余地。

八、留存與“玻璃鞋效應”：

好模型不是“漲一波就完事”

有了使用量，還不夠理解一個模型的真實生命力，關鍵在于：用戶會不會留下來？

論文通過 cohort 分析，把用戶按“首次使用某模型的月份”分組，觀察每一組在此后各個月份里還有多少用戶還在繼續使用。這時會發現一個特別有意思的現象，那就是大部分 cohort 的留存曲線在前幾個月都掉得很快；但通常會有一兩條“早期 cohort”的曲線明顯高于其他批次，而且能長期維持在 30–40% 的高留存。

比如，Gemini 2.5 Pro 的 2025 年 6 月 cohort、Claude 4 Sonnet 的 2025 年 5 月 cohort，都展現出這種“高而穩定”的留存特征。

作者用“Cinderella Glass Slipper（灰姑娘的玻璃鞋）”來形容這種現象。簡而言之，就是市場上存在著一批高價值、長期的任務，一直找不到“剛剛好”的模型；某一天，一個新模型出現，能力和價格恰好匹配這些任務需求，那一批用戶就“試鞋成功”；一旦這類任務在某模型上跑通，上下游工具、流程、組織習慣都會圍繞它搭建，遷移成本迅速變高；即便后來有性能略強的競品出現，這批用戶也不會輕易挪窩。

因此，一個模型是否真正抓住了高價值工作負載，不看一時的使用峰值，而要看它是否擁有這樣的“玻璃鞋 cohort”。

在 DeepSeek 的留存曲線里，還出現了少見的“boomerang（回旋鏢）效應”，即某些 cohort 在一開始幾個月快速流失；但過了一段時間后，留存曲線又出現回升，說明原本流失的用戶又回來用這款模型。

這很可能意味著一部分用戶被其他新模型吸引走，評估試用一圈之后發現，某些指標（比如成本、速度或特定任務上的表現）DeepSeek 仍然更適合自己的工作流，于是又遷回。

這種“出走–回歸”的行為，恰恰佐證了：行為數據不只是一次性偏好，而是持久比較之后的選擇結果。

九、成本與使用：

不是“誰便宜就用誰”

最后一個關鍵問題是：價格到底有多重要？

大部分人很容易直覺地認為 AI 已經卷成了價格戰，但報告的數據給出了更細致的答案。

把不同任務類別畫在“每百萬 token 成本（橫軸，log）”和“總使用量（縱軸，log）”上，可以大致分成四類。

右上是高成本、高使用，例如 Technology、Science 等技術和科研類任務；左上是低成本、高使用，例如編程和角色扮演這兩個流量怪獸；右下是高成本、低使用，例如金融、健康、學術、營銷等專業場景；左下是低成本、低使用，例如翻譯、法律咨詢、冷知識查詢等工具化場景。

特別夸張的是 Technology 類別，它在成本上是明顯的離群點，但使用量依然很高，意味著當任務本身價值特別高（比如系統架構設計、復雜技術咨詢）時，用戶對價格極不敏感，反而更在乎模型的可靠性和能力上限。

如果換個角度，把每個模型作為一個點畫在“成本 vs 使用”的圖上，會看到模型價格下降 10%，使用量平均只上升不到 1%，總體相關性非常弱。但在聚類上卻很清晰，即閉源模型集中在“高價、高使用”區域；開源模型則更多分布在“低價、中高使用”區域。

這說明閉源模型主要在抓高價值任務，用戶愿意為其更高的性能和可靠性付錢；開源模型則更多承載了高體量、成本敏感的任務，比如大規模角色扮演和非關鍵生產環境中的編程。

同時也能看到某些很貴的模型使用量一般，卻深度服務極少數關鍵任務，它們的價值不能簡單用“token 數”來衡量；大量“便宜但一般”的模型，沒有形成工作負載–模型的強匹配，即使價格壓得很低，也不會自然跑出使用量。

一句話總結就是，價格重要，但遠沒有“是否真正解決了某類高價值任務”重要。

十、整體啟示：

多模型、代理化和“玻璃鞋時刻”

把所有這些數據和現象放在一起，可以提煉出幾個對未來幾年都很重要的結論。

首先，未來是一個穩定的多模型世界。不同模型在不同任務上形成各自的“使用畫像”；閉源抓高價值，開源吃高體量，各有生存空間；對應用開發者來說，押寶一個“終極大一統模型”風險太高，更現實的選擇是：做模型無關，做多模型編排。

其次，真實世界的使用遠不止“生產力工具”。在開源世界，超過一半的流量來自角色扮演、敘事創作和娛樂；這些場景需要的是持續性、趣味性、一致的人設，而不僅是事實正確；這意味著，我們需要全新的評估維度和產品形態，而不能只用“考試分數”和“基準測試”衡量模型。

另外，編程與代理式推理是關鍵戰場。編程類任務成為增長最快的品類，序列最長、工具調用最多；推理優化模型已經占據過半流量，代理式使用成為主流；對模型和基礎設施來說，長上下文、工具調用魯棒性和整體工作流延遲的重要性，已經超過“單次回答的華麗程度”。

最后，護城河不在價格，而在“玻璃鞋時刻”。真正能留下來的，是那些第一次“剛剛好”地解決了一類工作負載的模型；一旦形成了關鍵任務上的深度綁定，后來的玩家哪怕性能略強、價格更低，也不一定能撬走用戶；對模型提供方來說，重點不在于持續壓價，而在于找到自己最擅長的任務帶，把這部分用戶服務好，保證可靠性和持續迭代。

結語

通過對超過 100 萬億個 token 的真實調用數據進行拆解，這份研究把我們常常“憑感覺”討論的許多問題——開源 / 閉源之爭、推理模型的價值、多模型生態、價格戰與留存、編程和娛樂的相對重要性——都拉回了實證層面。

如果只用一句話來概括這份報告的內核，大概會是大模型不再只是“會說話的搜索引擎”，而正在變成一個多模型協同的推理與決策層。在這個層上，誰能先踩到自己的“玻璃鞋時刻”，誰就有機會在未來幾年的 AI 生態中，擁有屬于自己的一塊穩固地盤。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.