用百萬億Token揭示今年AI發展趨勢,硅谷的這份報告火了!
無論是分析問題的角度,還是里面得出的一些結論,都被網友熱烈討論。
而且里面還公開肯定了中國開源模型,其每周Token用量占比一度高達30%。并且除了DeepSeek,編程領域的新秀MiniMax也被特意cue到。

這份報告由OpenRouter和a16z聯合出品,標題為《State of AI:An Empirical 100 Trillion Token Study with OpenRouter》。
里面分析了自2024年11月至2025年11月,OpenRouter平臺上300+模型的使用情況,涵蓋GPT系列、Claude、Gemini、DeepSeek、Qwen、Kimi等國內外主流開源與閉源模型。
![]()
而且統計的角度相當特別——不看各種基準得分,而是看模型的真實Token消耗量。
Token消耗量直接反映了模型被使用的方式和程度,因此比測試分數更能揭示其本質價值。
這一次,他們基于100萬億Token,在報告里得出了以下主要結論(省流版):
- 預計到年底,開源模型的使用量將達到約1/3,與閉源模型形成互補而非零和博弈;
- 開源力量中,中國模型尤為受到青睞,流量份額從1.2%激增至30%
- 模型正在從“語言生成系統”轉變為“推理執行系統”,推理模型成為新范式;
- 編程和角色扮演是模型的主要使用方式;
- 用戶留存情況呈現“水晶鞋效應”(一旦合腳就能大放光彩),新模型發布時能否完美解決某類痛點成為關鍵;
- 模型價格下降固然重要,但遠沒有你想象的那么重要。
如果你也想一覽2025年AI發展詳情,那就快來和量子位一起深度學習吧。
![]()
開源不再是閉源平替,中國力量上大分
關于開源模型(OSS模型),報告主要回答了這樣幾個核心問題:
問題1:過去一年,開源模型和閉源模型的力量對比變化如何?
問題2:有哪些關鍵的開源參與者?
問題3:開源模型的形態正在發生哪些變化?
首先,以前大多認為開源模型是閉源模型的“平替”,開發者往往需要二選一。但現在,開源模型已經找到了自己的獨特定位,成為某些特定場景的首選。
因此,如今二者的關系更接近互補,開發者也往往同時在使用這兩類模型。
而且值得一提的是,開源模型的使用量一直在穩步增長——隨著DeepSeek V3、 Kimi K2等主要開源模型的發布,預計到2025年底將達到約三分之一的用量。
![]()
與此同時,中國開源模型正在成為這一增長背后的主要引擎。
國產開源模型的每周使用量占比,從去年底的1.2%最高上漲至30%,平均下來也有13%。作為對比,其他地區開源模型的平均份額為13.7%。
![]()
不過需要說明,開源模型的格局已經發生顯著變化——
雖然按照總使用量計算,DeepSeek仍是最大貢獻者。但隨著更多開源模型涌入,其主導地位已經被削弱。
以“夏季拐點(2025年中)”為界線,上半年開源力量高度集中于DeepSeek V3和R1(約占一半以上),下半年卻呈現多元化趨勢,包括MiniMax M2、Kimi K2、GPT-OSS等相繼發布。
預計到2025年底,沒有一個單一模型能持續占比超25%Token用量,整個開源市場將由5~7個模型均分。
總之,2025年開源領域的競爭明顯更加激烈了,而且未來大概率不會出現一家獨大的情況。
![]()
另外,開源模型的形態也正在發生變化,目前中型模型更加獲得市場青睞。報告給出的分類是:
- 大型:參數為700億或更多的模型
- 中型:參數在150億到700億之間的模型
- 小型:參數少于150億的模型
之前開源模型大多在兩種極端之間平衡——要么“快而弱”,要么“強而貴/慢”,沒有太多“又快又足夠強”的中間選擇。
但是現在,雖然大、中、小類別的模型數量都在增長,但數據顯示小模型正在失寵,而中型和大型模型正在補位。
報告提到,在2024年11月Qwen2.5-Coder-32B發布之前,這個細分市場幾乎可以忽略不計。但之后又涌入了Mistral Small 3和GPT-OSS 20B等模型,于是這個細分市場逐漸成為又一個競技場。報告表示:
- 小模型主導開源生態系統的時代可能已經過去。市場現在正分化為兩類,用戶要么傾向于一個新興的、強大的中型模型類別,要么將其工作負載整合到最強大的單個大型模型上。
![]()
推理模型成新范式
其次,語言模型正在從一個對話系統升級為推理系統、執行系統。
年初時,模型使用推理的Token用量還可以忽略不計,但現在已經超過50%。
![]()
在所有推理模型中,目前馬斯克xAI旗下的Grok Code Fast 1用的推理流量份額最大,領先于Gemini 2.5 Pro和Gemini 2.5 Flash。
而大約幾周前,Gemini 2.5 Pro才是主力,另外像DeepSeek R1和Qwen3也在使用前列。報告表示:
- 推理模型正在成為真實工作負載的默認選擇。
![]()
同時,模型調用工具的占比也在上升。
該功能最初僅集中于一小部分模型,包括GPT-4o-mini和Claude 3.5、3.7系列,它們在年初占了大頭。
而到了年中,有越來越多的模型開始支持工具調用,這反映出一個更具競爭性和多樣化的生態系統。
從9月底開始,Claude 4.5 Sonnet模型迅速獲得了份額,同時像Grok Code Fast和GLM 4.5這樣的新玩家也取得了肉眼可見的進展。
報告表示,這對模型運營商來說信號相當明確:
- 工具使用在高價值工作流中呈上升趨勢。沒有可靠工具的模型有在企業采用和編排環境方面落后的風險。
![]()
編程和角色扮演成AI主要使用方式
此外,過去一年里,AI模型的使用方式發生了根本變化,主要體現在以下三點:
一是任務變復雜了——從“寫短文”到“解難題”。
以前大家主要讓AI生成文章或簡單回答,現在更多的是讓它分析一整份文檔、一個代碼庫或很長的對話記錄,從中提煉關鍵信息。
二是輸入輸出都變“重”了。
報告提到,用戶平均每次給模型的提示詞增加了約4倍,這反映出工作負載越來越依賴上下文信息。
![]()
并且由于模型推理消耗更多Token,模型完成任務需要的用量也增加了近3倍。
![]()
三是模型正變成“自動Agent”。
用戶不再滿足于問一句答一句。現在的典型用法是,給模型一個復雜目標,讓它自己規劃步驟、調用各種工具(如搜索、運行代碼)、在長時間對話中記住狀態,最終完成任務。
就是說,AI正在從“聊天機器人”轉變為能獨立完成工作的“智能Agent”。
而且值得一提的是,在所有任務類別中,編程和角色扮演目前是AI的主要使用方式。
編程是所有類別中增長最穩定的,其查詢用量從年初的11%上漲至最近的超50%。
![]()
在所有編程模型當中, Claude系列模型始終占據主導地位,大部分時間其占比超過60%。
但這一地位正在被動搖。2025年11月,Anthropic在該領域的市場份額首次跌破60%,而在7月以來,OpenAI的市場份額已從約2%增長至近幾周的約8%。
同期,谷歌的市場份額保持穩定,約為15%。另外幾個開源模型(比如Qwen和Mistral)也正在穩步提升市場份額。報告還特意提到:
- 尤其是MiniMax,已成為快速崛起的新秀,近幾周取得了顯著增長。
![]()
此外,角色扮演也幾乎與編程持平。在開源模型中(一般限制會更小一點),它甚至占到52%的使用量。
在這一領域,中國開源模型和西方開源模型平分秋色。DeepSeek的流量中,有超過2/3是角色扮演和閑聊,顯示了其在消費者端的極高粘性。
![]()
主流模型都有自己的打開方式
而除了喜歡在DeepSeek玩角色扮演,用戶對于各大主流模型都有自己鐘愛的“打開方式”。
Anthropic顯然是當之無愧的程序員,其80%以上流量均用于編程和技術任務。
![]()
谷歌更像一位全才,用途相對寬泛,涵蓋法律、科學、技術和一些常識性查詢。
![]()
馬斯克旗下的xAI也在死磕編程,其技術應用、角色扮演及學術用途在十一月下旬顯著增長。
![]()
OpenAI的工作重點則隨著時間發生明顯偏移,從娛樂休閑活動逐漸轉向編程和技術類任務。
![]()
Qwen模型同樣發力編程端,角色扮演和科學類任務則隨時間有所波動。
![]()
總之,用戶使用最多的編程正在成為兵家必爭之地。
用戶留存呈現“水晶鞋效應”
BTW,報告專門針對用戶留存問題還提出了一個有趣的“水晶鞋效應”。
它是指,大部分用戶會快速流失,但每一代“前沿”AI模型發布時,都會鎖定一小批“天選用戶”。這些用戶的任務需求恰好與這個模型的新能力完美匹配,就像灰姑娘穿上了剛好合腳的水晶鞋。一旦穿上,他們就很難換掉,即使后面有更好的模型出現。
典型的例子就是5月發布的Claude 4 Sonnet和6月發布的Gemini 2.5 Pro,其用戶留存率在5個月后還保持著40%的高水平,而這也正是取決于它們在工具調用和推理能力上取得的突破。
這也提醒大家,有時候“快”比“好”更重要。第一個用突破性能力解決關鍵問題的模型,即使后來被全面趕超,也能憑借早期建立的用戶習慣和系統集成,長期守住基本盤。
![]()
這里也用一些大家熟知的模型打個樣,看看具體有哪幾種模式:
- 成功鎖定(如Claude、GPT-4o Mini):在剛發布時就抓住了一批核心用戶,這些用戶粘性極高。
- 從未合腳(如Gemini 2.0 Flash):模型發布時沒有帶來突破性的能力,所以用戶留不住,表現平平。
- 回旋鏢效應(如DeepSeek):一些用戶試用后離開,但嘗試了其他模型后又回來了。因為他們發現,DeepSeek在性價比或特定能力上仍然是更好的選擇。
不過報告也提到,“水晶鞋效應”的窗口期很短,基本只在它剛發布、被視為“最前沿”的那段時間。
一旦后續競品發布,能力差距被抹平,再想吸引和鎖定新用戶就非常困難了。
另外,除了上面這些,報告得出的其他結論還有:
- AI不再是硅谷的獨角戲,亞洲地區的付費使用量占比從13%翻倍至31%;
- 北美的AI地位相對下降,雖然仍是最大市場,但份額已不足50%;
- 英語依然占據82%的絕對主導,但簡體中文以近5%的份額位居第二;
- 模型定價對使用量的影響比想象中要小,價格下降10%,使用量僅增加0.5%-0.7%。
而且降價并不意味著用戶花錢就少了,當某些模型變得足夠便宜且好用時,人們會在更多地方、用更長上下文、更頻繁地調用它。
于是總Token反而飆升,總支出可能并不降低,這也是報告中提到的“杰文斯悖論”。
最后需要提醒,這份報告也存在一定局限性。OpenRouter主要反映的是開發者和服務端API調用行為,但現實里還有大量用戶通過App或Web直接訪問(如ChatGPT App/Web),這些流量都不在OpenRouter內。
而且OpenRouter的定價策略也會左右開發者選擇。例如,如果GPT-5.1在平臺上貴,而Claude更便宜,那么使用數據很可能往Claude傾斜,但這無法真實代表“Claude就更受歡迎”。
但不管怎樣,這份報告無疑為我們提供了一個新視角、一份新參考答案。
而這,或許是其最大的價值。
報告地址:
https://openrouter.ai/state-of-ai
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.