2025 年 12 月,硅谷風險投資機構 Andreessen Horowitz(簡稱 a16z)與 AI 推理服務平臺 OpenRouter 聯合發布了一份名為《State of AI》的研究報告。這份報告基于 OpenRouter 平臺上超過 100 萬億 token 的真實用戶交互數據,試圖呈現過去一年間大語言模型在實際應用中的真實狀態。
報告發布的時間點正值 OpenAI 發布 o1 推理模型整整一年之后。那款代號“草莓”的模型當時標志著 AI 行業從單次前向推理向多步驟內部推敲的范式轉變,而這一年里整個行業經歷的變化比多數人預想的更為劇烈。
這份報告的價值在于數據來源。OpenRouter 作為連接用戶與數百個 LLM 的統一推理接口,能夠觀察到開發者和終端用戶究竟在用哪些模型、做什么任務、花了多少錢。這種視角與 OpenAI 或 Anthropic 等單一模型提供商的內部數據不同,也有別于學術界通常依賴的基準測試分數。
報告作者明確說明,他們沒有訪問任何用戶的提示詞或模型輸出內容,所有分析都基于元數據——時間戳、模型選擇、token 計數、工具調用狀態等。這種設計使得大規模行為分析成為可能,盡管也帶來了某些分類精度上的限制。
開源與中型模型的強勢崛起
報告首先呈現的是開源與閉源模型之間的競爭格局。數據顯示,開源模型(報告中縮寫為 OSS)的市場份額在過去一年穩步攀升,到 2025 年末已接近 30%。一年前開源陣營在總 token 消耗中的占比還相當有限,這個增長曲線算得上陡峭。
![]()
圖丨開源與閉源模型的分化(來源:OpenRouter)
在其中,中國開發的開源模型貢獻了其中相當大一部分。從 DeepSeek 到阿里的通義千問(Qwen),再到月之暗面(Moonshot AI)的 Kimi 系列,這些名字在一年前對多數海外開發者還比較陌生,如今卻頻繁出現在 OpenRouter 的使用榜單上。報告數據顯示,中國開源模型的周占比曾觸及 30%,全年平均約為 13%,與非中國開源模型的 13.7% 基本持平。開源陣營內部已經形成了中美兩大勢力并立的局面。
![]()
圖丨按模型類型劃分的每周 token 使用量 (來源:OpenRouter)
報告認為,中國開源模型的崛起得益于密集的迭代周期和具有競爭力的模型質量。DeepSeek 和 Qwen 都保持著頻繁的版本更新節奏,能夠快速響應新興的工作負載需求。與此同時,閉源模型,如 Anthropic、OpenAI 和 Google,仍然占據著大約 70% 的市場份額,尤其在需要高可靠性的企業級應用和受監管行業中保持明顯優勢。
報告將這種狀態描述為“雙軌結構”:閉源系統定義性能上限,開源系統提供成本效率和定制靈活性,兩者在開發者的多模型技術棧中各有分工。
在模型規模的維度上,報告揭示了一個值得關注的趨勢:中型模型正在崛起。報告將模型分為三檔,小型(15B 參數以下)、中型(15B 至 70B)和大型(70B 以上)。數據顯示,小型模型的使用份額持續下滑,盡管市面上這類模型的數量還在增加;大型模型的份額在增長,但并未出現一家獨大的局面,Qwen、Z.AI、OpenAI 的 GPT-OSS 系列等多個玩家都維持著可觀的使用量;
![]()
圖丨開源模型規模與使用量(來源:OpenRouter)
真正的增長來自中型模型。這個細分市場在一年前幾乎不存在,直到 2024 年 11 月 Qwen2.5 Coder 32B 的發布才真正打開局面,隨后 Mistral Small 3、GPT-OSS 20B 等競爭者陸續入場。報告認為,中型模型的崛起反映了用戶對能力與效率平衡點的追求:既要足夠聰明,又不能太貴太慢。
出人意料的使用場景
使用場景的分布則多少有些出人意料。報告使用 Google Cloud Natural Language API 對約 0.25% 的提示詞樣本進行了內容分類,結果顯示:在開源模型的使用中,角色扮演(Roleplay)類任務占據了超過一半的 token 消耗,編程位居第二,約占 15% 至 20%。
這與許多人的直覺認知可能不太一樣,大語言模型不是應該主要用于寫代碼、回郵件、做摘要嗎?現實情況是,大量用戶把這些模型當作互動敘事的伙伴,用于故事創作、角色扮演游戲、虛擬對話等場景。
![]()
圖丨開源模型的類別趨勢(來源:OpenRouter)
報告對這一現象的解讀是:角色扮演任務需要靈活的回應風格、上下文記憶和情感細膩度,而開源模型在這方面反而有優勢。它們可以被更自由地微調,不受商業安全過濾器的嚴格約束,更容易滿足幻想類和娛樂類應用的需求。從游戲社區、同人小說創作到模擬環境,這些看似“非生產力”的用途實際上構成了開源模型的核心使用場景。
編程雖然在開源模型中位居第二,但如果把閉源模型納入統計,情況就不同了。報告顯示,編程任務在全部 LLM 使用中的占比從 2025 年初的約 11% 一路攀升至近期的 50% 以上,成為增長最快、競爭最激烈的類別。Anthropic 的 Claude 系列在這個領域占據主導地位,長期保持 60% 以上的份額,盡管最近幾周首次跌破這一閾值。
OpenAI 在編程市場的份額從約 2% 增長到 8%,Google 穩定在 15% 左右,而 MiniMax、Z.AI、Qwen 等新勢力也在快速滲透。報告將編程描述為“最具戰略重要性的模型類別”:它吸引了頂級實驗室的持續投入,即便模型質量或延遲上的微小變化也可能導致市場份額的周度波動。
Agentic 推理時代的來臨
另一個核心發現是“Agentic Inference”(Agentic 推理)的崛起。這個術語描述的是一種新興的 LLM 使用范式:模型不再只是完成單次文本生成,而是被部署為更大自動化系統中的組件,進行多步驟規劃、調用外部工具、在擴展上下文中持續交互。報告通過幾個代理指標來追蹤這一趨勢:推理模型的使用份額、工具調用行為的擴展、序列長度的變化,以及編程任務驅動的復雜性增長。
數據顯示,推理優化模型(如 o1、GPT-5、Claude 4.5、Gemini 3 等)在總 token 中的占比已從 2025 年初的很小比例攀升至超過 50%。
![]()
圖丨推理與非推理 token 趨勢(來源:OpenRouter)
這反映了市場兩端的變化:供給側,更強的推理模型不斷涌現;需求側,用戶越來越偏好能夠管理任務狀態、遵循多步驟邏輯、支持代理式工作流的模型。工具調用的使用量也在穩步上升,盡管報告中圖表顯示 5 月份出現過一次異常峰值(歸因于某個大型賬戶的活動),但整體趨勢是清晰的。
Anthropic 的 Claude 系列在工具調用領域保持領先,Claude 4.5 Sonnet 在 9 月末之后快速獲得份額,而 xAI 的 Grok Code Fast 和 Z.AI 的 GLM 4.5 也在積極滲透。
更直觀的變化體現在序列長度上。報告發現,平均提示詞長度在過去一年增長了近四倍,從約 1,500 個 token 增至超過 6,000 個;輸出長度也接近翻了三倍。這種“膨脹”的主要驅動力是編程任務,代碼理解、調試和生成類請求的輸入 token 經常超過 20,000 個,遠高于其他類別。
報告將這種模式解讀為使用范式的轉變:典型的 LLM 請求不再是開放式的生成任務(“幫我寫篇文章”),而更多是在大量用戶提供的材料(代碼庫、文檔、長對話歷史)上進行推理,并產出精煉的洞察。模型正在從“創意生成器”轉型為“分析引擎”。
報告對 Agentic 推理趨勢的判斷比較直接:這將成為新的默認模式。對模型提供商而言,延遲、工具處理能力、上下文支持和對異常工具鏈的魯棒性變得越來越關鍵;對基礎設施運營商而言,推理平臺需要管理的不再只是無狀態請求,而是長時間運行的對話、執行軌跡和權限敏感的工具集成。
全球化的 AI 版圖與成本取舍
地理分布分析揭示了 AI 使用日益全球化和去中心化的趨勢。報告顯示,北美雖然仍是最大的單一市場,但在多數時間里已不到總消費額的一半;歐洲保持穩定的中等份額(通常在 15% 至 20% 之間);真正的變量是亞洲,其份額從早期的約 13% 一路增長到最近的 31%。
![]()
圖丨按世界各地區隨時間的使用量(來源:OpenRouter)
這種增長既反映了亞洲地區企業采用 AI 的提速,也與中國開源模型的全球輸出相呼應。語言分布上,英語仍占絕對主導(82.87%),但簡體中文以 4.95% 位居第二,俄語、西班牙語、泰語也各有份額。
在商業維度上,報告分析了成本與使用量之間的關系,結論有些出人意料:價格對需求的影響相當有限。在對數坐標的散點圖上,各模型呈現高度分散的分布,但整體趨勢線幾乎是平的:價格下降 10%,使用量僅增加約 0.5% 至 0.7%。這種低彈性表明,LLM 市場尚未完全商品化,差異化仍有價值。
![]()
圖丨按類別的對數成本與對數使用量對比(來源:OpenRouter)
報告將市場分為四個象限:高價高使用量的“Premium Leaders”(如 Claude 3.7 Sonnet、Claude Sonnet 4)、低價高使用量的“Efficient Giants”(如 Gemini 2.0 Flash、DeepSeek V3)、低價低使用量的“Long Tail”如 Qwen 2 7B Instruct、IBM Granite 4.0 Micro)、以及高價低使用量的“Premium Specialists”(如 GPT-4、GPT-5 Pro)。
閉源模型傾向于捕獲高價值任務,開源模型則吸收價格敏感的大量使用,這是一個相對穩定的分工,但開源模型持續逼近性能邊界,不斷壓縮閉源模型的定價空間。
“灰姑娘的水晶鞋”效應
報告中最有意思的分析之一出現在用戶留存章節。報告提出了一個概念:“灰姑娘水晶鞋效應”(Cinderella Glass Slipper Effect)。這個比喻描述的是:在快速演進的 AI 生態中,存在一批高價值工作負載長期未被滿足;每當新的前沿模型發布時,它實際上是在與這些“開放問題”進行匹配測試;如果某個模型恰好滿足了某個之前無法解決的技術和經濟約束,它就實現了精準的“契合”,就像灰姑娘的水晶鞋一樣。
對于那些工作負載終于“合腳”的開發者或組織,這種匹配會產生強烈的鎖定效應。他們的系統、數據管道和用戶體驗會圍繞這個首先解決問題的模型構建起來,隨著成本下降和可靠性提升,重新選型的動力急劇減弱。而那些尚未找到匹配的工作負載則繼續在不同模型間遷移,尋找自己的解決方案。
報告在留存曲線中觀察到了這種效應。Gemini 2.5 Pro 的 2025 年 6 月隊列和 Claude 4 Sonnet 的 5 月隊列在第 5 個月仍保持約 40% 的留存率,顯著高于后續加入的隊列。這些“基礎隊列”似乎對應著特定的技術突破(如推理保真度或工具使用穩定性),使得之前不可能的工作負載變得可行。
![]()
圖丨Gemini 2.5 Pro 和 Claude 4 Sonnet 的留存率(來源:OpenR)
OpenAI GPT-4o Mini 的留存圖更為極端:2024 年 7 月的單一發布隊列建立了壓倒性的粘性工作負載匹配,之后所有隊列都表現出相同的高流失率并聚集在底部。這表明建立這種基礎匹配的時間窗口是獨特的,只發生在模型被視為“前沿”的那個時刻。
相反,Gemini 2.0 Flash 和 Llama 4 Maverick 的圖表展示了當這種初始契合從未建立時會發生什么。它們的留存圖中沒有出現任何高表現的基礎隊列,每個隊列都表現出相同的較差留存。這意味著這些模型從未被視為某個高價值工作負載的“前沿”,它們直接進入了“足夠好”的市場,因此未能鎖定穩定的用戶基礎。
DeepSeek 的圖表則呈現出另一種模式:某些隊列在初期流失后出現了“復活跳躍”,用戶在嘗試了其他替代品后又回歸。報告將這種“回旋鏢效應”解釋為用戶通過競品測試確認 DeepSeek 在特定工作負載上仍是最優選擇。
總結
報告在討論部分總結了幾個要點。第一,多模型生態已成事實。沒有單一模型主導所有使用場景,開發者應保持靈活性,為不同任務選擇最佳模型。
第二,使用多樣性超越生產力工具的范疇。角色扮演和娛樂類使用的規模表明,許多用戶與這些模型的互動并非為了寫代碼或做摘要,而是為了陪伴、探索或消遣。
第三,Agentic 推理正在成為常態。從單輪交互到多步驟規劃、工具調用和持續推理的轉變,將重新定義模型評估標準,從語言質量轉向任務完成效率。
第四,全球化和去中心化正在加速。亞洲市場份額的快速增長和中國模型的全球輸出意味著,下一階段的競爭將在很大程度上取決于文化適應性和多語言能力。
報告也說明了自身的局限性。它反映的是單一平臺上觀察到的模式,某些維度,如企業內部使用、本地部署或封閉的內部系統等超出了數據范圍。部分分析依賴代理指標,如通過多步驟或工具調用來識別代理推理,或通過賬單地址而非驗證位置來推斷用戶地理。因此,其結果應被解讀為指示性的行為模式,而非底層現象的確定性測量。
參考資料:
1.https://openrouter.ai/state-of-ai
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.