近日,AI推理平臺(tái)OpenRouter聯(lián)合硅谷知名投資機(jī)構(gòu)a16z發(fā)布了一份重磅研究報(bào)告——《AI現(xiàn)狀:基于100萬(wàn)億Token的實(shí)證研究》。
![]()
基于OpenRouter平臺(tái)上超過(guò)100萬(wàn)億Token的真實(shí)交互數(shù)據(jù),系統(tǒng)分析了2024年底至2025年底全球大語(yǔ)言模型的實(shí)際使用情況,報(bào)告揭示了多個(gè)出乎意料的發(fā)現(xiàn):
開(kāi)源模型的使用占比已接近30%。
角色扮演類(lèi)應(yīng)用的使用量超過(guò)編程。
推理模型在一年內(nèi)從零增長(zhǎng)到占據(jù)半壁江山。
中國(guó)開(kāi)源模型的全球份額從1.2%飆升至近30%。
大模型是有護(hù)城河的。
這些數(shù)據(jù)為我們理解AI技術(shù)的真實(shí)應(yīng)用場(chǎng)景和發(fā)展趨勢(shì),提供了難得的第一手觀察視角。
一、開(kāi)源模型正在改寫(xiě)市場(chǎng)格局
從邊緣走向主流
過(guò)去一年,開(kāi)源大模型經(jīng)歷了爆發(fā)式增長(zhǎng)。報(bào)告數(shù)據(jù)顯示,截至2025年底,開(kāi)源模型的使用量已占到總量的30%。這意味著在全球范圍內(nèi),每3次AI對(duì)話中就有1次使用的是開(kāi)源模型。
![]()
這一比例在2024年初還不足5%,短短一年時(shí)間增長(zhǎng)了6倍,而且增長(zhǎng)趨勢(shì)仍在持續(xù)。
這打破了"開(kāi)源模型只是實(shí)驗(yàn)性工具"的固有印象,表明開(kāi)源生態(tài)已經(jīng)具備了支撐大規(guī)模生產(chǎn)應(yīng)用的能力。
中國(guó)開(kāi)源模型的崛起
更值得關(guān)注的是中國(guó)開(kāi)源模型的表現(xiàn)。報(bào)告顯示,中國(guó)開(kāi)發(fā)的開(kāi)源模型(包括DeepSeek、Qwen、Kimi、Minimax等)的全球使用量占比,從2024年初的1.2%躍升至2025年底的近30%,增長(zhǎng)超過(guò)25倍。
![]()
在具體模型排名中,DeepSeek以14.37萬(wàn)億Token的總使用量位居開(kāi)源模型榜首,是第二名Qwen(5.59萬(wàn)億)的近三倍,Meta的LLaMA系列(3.96萬(wàn)億)位列第三。
![]()
中等規(guī)模模型成為新趨勢(shì)
報(bào)告還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:參數(shù)規(guī)模在150億到700億之間的"中等規(guī)模模型"正在快速崛起。
![]()
這一細(xì)分市場(chǎng)在2024年底幾乎不存在。但隨著Qwen2.5 Coder 32B、Mistral Small 3和GPT-OSS 20B等模型的發(fā)布,中等規(guī)模模型在開(kāi)源生態(tài)中的份額穩(wěn)步上升。
這類(lèi)模型在性能和部署成本之間找到了更好的平衡點(diǎn),既能滿足大多數(shù)應(yīng)用場(chǎng)景的需求,又顯著降低了算力門(mén)檻,因此受到開(kāi)發(fā)者的青睞。
二、角色扮演是最高頻的使用場(chǎng)景
超過(guò)50%的使用量來(lái)自Roleplay。
報(bào)告中最令人意外的發(fā)現(xiàn)之一,是Roleplay(角色扮演/創(chuàng)意對(duì)話)占據(jù)了所有開(kāi)源模型使用量的52%以上,遠(yuǎn)超編程(15-20%)、翻譯、知識(shí)問(wèn)答等其他應(yīng)用場(chǎng)景。
![]()
在開(kāi)源模型的使用分類(lèi)中,角色扮演類(lèi)應(yīng)用包括互動(dòng)式故事創(chuàng)作、虛擬角色對(duì)話、游戲場(chǎng)景模擬、粉絲創(chuàng)作等。
用戶(hù)對(duì)AI的需求并不僅限于提高生產(chǎn)力,情感陪伴和娛樂(lè)互動(dòng)同樣是重要的應(yīng)用方向。
編程場(chǎng)景的快速增長(zhǎng)
雖然角色扮演占據(jù)首位,但編程相關(guān)的使用量增長(zhǎng)速度更快。
數(shù)據(jù)顯示,編程類(lèi)應(yīng)用占比從2025年初的11%增長(zhǎng)到年底的超過(guò)50%(包含所有模型)。
![]()
這反映出AI輔助編程工具正在被越來(lái)越多的開(kāi)發(fā)者納入日常工作流程。
在編程場(chǎng)景中,Claude系列模型占據(jù)主導(dǎo)地位,長(zhǎng)期保持60%以上的市場(chǎng)份額。
OpenAI和Google的模型也在該領(lǐng)域占有一席之地,中國(guó)的Qwen Coder系列在開(kāi)源編程輔助工具中表現(xiàn)突出。
使用場(chǎng)景的多元化
除了角色扮演和編程,報(bào)告還統(tǒng)計(jì)了翻譯(外語(yǔ)資源占51.1%)、科學(xué)研究(機(jī)器學(xué)習(xí)與AI占80.4%)、健康咨詢(xún)、法律文檔、金融分析等多個(gè)垂直領(lǐng)域的使用情況。
有趣的是,科學(xué)類(lèi)查詢(xún)中,絕大多數(shù)是關(guān)于AI和機(jī)器學(xué)習(xí)本身的提問(wèn),而不是物理、化學(xué)等傳統(tǒng)學(xué)科。這說(shuō)明AI技術(shù)從業(yè)者是當(dāng)前大模型的重要用戶(hù)群體。
三、推理模型成為新的主流
o1的發(fā)布是重要轉(zhuǎn)折點(diǎn)。
2024年12月5日,OpenAI正式發(fā)布o(jì)1推理模型,標(biāo)志著大語(yǔ)言模型從"單步生成"向"多步推理"的范式轉(zhuǎn)變。與傳統(tǒng)模型直接輸出答案不同,推理模型會(huì)在內(nèi)部進(jìn)行多輪思考、驗(yàn)證和自我糾錯(cuò),然后給出最終結(jié)果。
報(bào)告數(shù)據(jù)顯示,到2025年底,推理模型的使用量已占到總量的50%以上。
![]()
僅用一年時(shí)間,推理模型就從零增長(zhǎng)到與傳統(tǒng)模型平分秋色。
推理模型的競(jìng)爭(zhēng)格局
在推理模型領(lǐng)域,競(jìng)爭(zhēng)格局變化迅速。截至報(bào)告發(fā)布時(shí),xAI的Grok Code Fast 1占據(jù)推理模型使用量第一的位置,Google的Gemini 2.5 Pro和Gemini 2.5 Flash緊隨其后。幾周前,這一排名還是Gemini 2.5 Pro領(lǐng)先。
![]()
Anthropic的Claude系列、OpenAI的gpt-oss-120b等模型也在推理領(lǐng)域占有重要份額。
這種快速的排名變化反映出該領(lǐng)域的競(jìng)爭(zhēng)異常激烈,各家都在快速迭代更新。
Agent化趨勢(shì)明顯
推理能力的提升帶來(lái)了另一個(gè)重要變化:AI正從"回答問(wèn)題"轉(zhuǎn)向"執(zhí)行任務(wù)"。報(bào)告顯示,帶有工具調(diào)用(Tool Call)功能的請(qǐng)求量穩(wěn)步上升,平均對(duì)話序列長(zhǎng)度已是一年前的3倍。
![]()
這表明用戶(hù)越來(lái)越多地將AI作為能夠主動(dòng)調(diào)用外部工具、執(zhí)行多步驟任務(wù)的智能代理(Agent),而不僅僅是對(duì)話式的問(wèn)答助手。
編程類(lèi)任務(wù)的平均輸入長(zhǎng)度更是達(dá)到其他類(lèi)型任務(wù)的3-4倍,顯示出復(fù)雜任務(wù)場(chǎng)景的需求正在快速增長(zhǎng)。
![]()
四、成本與性能的新平衡
開(kāi)源模型的成本優(yōu)勢(shì)
報(bào)告指出,開(kāi)源模型快速崛起的核心原因是顯著的成本優(yōu)勢(shì)。許多開(kāi)發(fā)者和中小企業(yè)發(fā)現(xiàn),使用開(kāi)源模型可以將成本降低90%以上,而在特定場(chǎng)景下的效果與閉源模型相差無(wú)幾。
特別是在角色扮演、中文對(duì)話、代碼生成等領(lǐng)域,開(kāi)源模型已經(jīng)展現(xiàn)出與閉源模型相當(dāng)甚至更優(yōu)的表現(xiàn)。
例如,在角色扮演場(chǎng)景中,開(kāi)源模型(主要是中國(guó)和西方的開(kāi)源模型)和閉源模型的使用量幾乎平分秋色,各占約43%和42%。
模型選擇的多元化
報(bào)告發(fā)現(xiàn),用戶(hù)越來(lái)越傾向于針對(duì)不同場(chǎng)景選擇不同的模型,而不是使用單一模型完成所有任務(wù)。編程場(chǎng)景優(yōu)先選擇Claude或Qwen Coder,創(chuàng)意寫(xiě)作選擇DeepSeek或Kimi,復(fù)雜推理選擇o1或Gemini 2.5 Pro。
用戶(hù)留存與"灰姑娘玻璃鞋"現(xiàn)象
報(bào)告對(duì)多個(gè)主流模型的用戶(hù)留存率進(jìn)行了深入分析,發(fā)現(xiàn)了一個(gè)被稱(chēng)為"灰姑娘玻璃鞋效應(yīng)"的關(guān)鍵現(xiàn)象。
數(shù)據(jù)顯示,盡管大多數(shù)模型面臨高流失率和快速用戶(hù)衰減,但在這種波動(dòng)之下隱藏著更深遠(yuǎn)的信號(hào):一小部分早期用戶(hù)群體表現(xiàn)出持久的保留率。
這些被稱(chēng)為"基礎(chǔ)隊(duì)列"的用戶(hù)群體,才是模型真正的護(hù)城河。
這個(gè)效應(yīng)描述了一個(gè)獨(dú)特現(xiàn)象:在快速發(fā)展的AI生態(tài)系統(tǒng)中,存在著大量高價(jià)值工作負(fù)載,它們?cè)诘却?完美匹配"的模型出現(xiàn)。
每一個(gè)新的前沿模型實(shí)際上都是在這些未解決問(wèn)題上"試穿"。當(dāng)新發(fā)布的模型恰好符合此前未被滿足的技術(shù)和經(jīng)濟(jì)限制時(shí),它就找到了精確的契合度。這就是那只"玻璃鞋"。
對(duì)于那些工作負(fù)載最終合適的開(kāi)發(fā)者或組織來(lái)說(shuō),這種對(duì)齊會(huì)產(chǎn)生強(qiáng)烈的鎖定效應(yīng)。
他們的系統(tǒng)、數(shù)據(jù)管道和用戶(hù)體驗(yàn)都錨定在最先解決問(wèn)題的模型上。隨著成本下降和可靠性提升,重新遷移的動(dòng)力急劇減弱。
從實(shí)證數(shù)據(jù)看,不同模型的留存表現(xiàn)差異巨大。Gemini 2.5 Pro和Claude 4 Sonnet的早期隊(duì)列在第5個(gè)月約有40%的用戶(hù)保留率,遠(yuǎn)高于后續(xù)隊(duì)列。
![]()
OpenAI GPT-4o Mini則展現(xiàn)了這一現(xiàn)象的極端案例。一個(gè)基礎(chǔ)隊(duì)列(2024年7月)在啟動(dòng)時(shí)建立了主導(dǎo)且粘性的工作負(fù)載匹配,所有后續(xù)群體的留存率都遠(yuǎn)低于這個(gè)早期隊(duì)列。
DeepSeek模型引入了更復(fù)雜的模式,展現(xiàn)出極其罕見(jiàn)的"回旋鏢效應(yīng)":多個(gè)DeepSeek隊(duì)列在初期流失后顯示出明顯的保留率上升。
![]()
一些流失用戶(hù)在嘗試其他替代方案后,重新確認(rèn)DeepSeek因其專(zhuān)業(yè)技術(shù)性能、成本效益或其他獨(dú)特特性的優(yōu)越組合,更適合其特定工作負(fù)載。
AI工作負(fù)載的四象限格局
報(bào)告通過(guò)對(duì)數(shù)-對(duì)數(shù)尺度的成本與使用量分析,揭示了AI工作負(fù)載的獨(dú)特細(xì)分格局。以每100萬(wàn)Token成本0.73美元為分界線,市場(chǎng)被自然劃分為四個(gè)象限。
![]()
每個(gè)象限展現(xiàn)出截然不同的特征:
高級(jí)工作負(fù)載(高成本+高使用)
這個(gè)象限包含technology和science等有價(jià)值且使用頻繁的專(zhuān)業(yè)工作負(fù)載。用戶(hù)愿意為性能或?qū)I(yè)能力支付溢價(jià)。特別值得注意的是,technology類(lèi)查詢(xún)的價(jià)格遠(yuǎn)高于其他類(lèi)別,可能涉及復(fù)雜系統(tǒng)設(shè)計(jì)或架構(gòu)問(wèn)題,需要更強(qiáng)大且更昂貴的推理模型,但其使用量依然很高,顯示出其本質(zhì)性質(zhì)。
大眾市場(chǎng)成交量驅(qū)動(dòng)因素(低成本+高使用)
這一領(lǐng)域主要由兩個(gè)大型應(yīng)用場(chǎng)景主導(dǎo):programming和roleplay。Programming以"殺手級(jí)專(zhuān)業(yè)"類(lèi)別脫穎而出,展示了最高的使用量,同時(shí)擁有高度優(yōu)化的中位數(shù)成本。Roleplay的使用量極為龐大,幾乎可與programming相當(dāng)。
這是一個(gè)令人震驚的洞察:面向消費(fèi)者的角色扮演應(yīng)用能帶來(lái)與頂級(jí)專(zhuān)業(yè)應(yīng)用相當(dāng)?shù)幕?dòng)量。
這兩個(gè)類(lèi)別的規(guī)模之大證明了,職業(yè)生產(chǎn)力和對(duì)話娛樂(lè)都是人工智能的主要且巨大的驅(qū)動(dòng)力。開(kāi)源模型在這一象限的成本敏感性中找到了顯著優(yōu)勢(shì)。
專(zhuān)業(yè)專(zhuān)家(高成本+低使用)
該象限包含finance、academia、health和marketing等高風(fēng)險(xiǎn)、細(xì)分的專(zhuān)業(yè)領(lǐng)域。較低的總量是合乎邏輯的,因?yàn)槿藗冏稍?xún)AI關(guān)于"健康"或"財(cái)務(wù)"的頻率遠(yuǎn)低于"編程"。用戶(hù)愿意為這些任務(wù)支付高額費(fèi)用,可能是因?yàn)閷?duì)準(zhǔn)確性、可靠性和領(lǐng)域特定知識(shí)的需求極高。
小眾實(shí)用工具(低成本+低使用)
該象限包含translation、legal和trivia等功能性強(qiáng)、成本優(yōu)化的公用事業(yè)。這些任務(wù)可能被高度優(yōu)化、"解決"或商品化,在有足夠好的廉價(jià)替代方案時(shí),用戶(hù)對(duì)價(jià)格更加敏感。
開(kāi)源vs閉源:截然不同的市場(chǎng)定位
報(bào)告的成本-使用分析顯示出強(qiáng)烈的市場(chǎng)細(xì)分。整體趨勢(shì)線幾乎持平,表明需求相對(duì)非價(jià)格彈性——價(jià)格下降10%對(duì)應(yīng)的使用量增加約0.5%至0.7%。但這個(gè)宏觀數(shù)據(jù)掩蓋了不同的微觀行為:
閉源模型占據(jù)了高成本、高使用量的區(qū)域。Claude 3.7 Sonnet和Claude 4 Sonnet約每100萬(wàn)Token 2美元,但使用率依然很高,表明用戶(hù)愿意為更優(yōu)越的推理和大規(guī)模可靠度付費(fèi)。
GPT-4和GPT-5 Pro每100萬(wàn)Token約35美元,雖然使用量相對(duì)較低,但服務(wù)于細(xì)分、高風(fēng)險(xiǎn)工作,輸出質(zhì)量遠(yuǎn)比邊際Token成本更重要。
開(kāi)源模型則占據(jù)了低成本、高流量的區(qū)域。DeepSeek V3-0324每100萬(wàn)Token約0.39美元,使用量達(dá)到10^6.55級(jí)別。Gemini 2.0 Flash每100萬(wàn)Token僅0.14美元,使用量為10^6.68,低價(jià)和強(qiáng)勁的分布使其成為默認(rèn)的高產(chǎn)量主力。
數(shù)據(jù)中還出現(xiàn)了類(lèi)似杰文悖論的跡象:讓某些模型變得非常便宜(且快速)后,人們用它們做更多任務(wù),最終消耗了更多的Token。這解釋了為什么Gemini Flash和DeepSeek V3這類(lèi)低價(jià)模型反而有極高的使用量。
但大量使用昂貴模型(Claude、GPT-4)表明,如果模型明顯更好或擁有信任優(yōu)勢(shì),用戶(hù)將承擔(dān)更高的成本。這些模型通常集成在成本相對(duì)于其產(chǎn)出價(jià)值微乎其微的工作流程中,例如,節(jié)省一小時(shí)開(kāi)發(fā)時(shí)間的代碼遠(yuǎn)比幾美元的API調(diào)用更值錢(qián)。
五、地域分布與全球化特征
超過(guò)50%的使用來(lái)自美國(guó)以外的地區(qū)。
OpenRouter平臺(tái)的數(shù)據(jù)顯示,超過(guò)50%的使用量來(lái)自美國(guó)以外的地區(qū)。這表明AI技術(shù)的應(yīng)用已經(jīng)呈現(xiàn)出明顯的全球化特征,不再局限于硅谷或北美市場(chǎng)。
![]()
中國(guó)、歐洲、東南亞等地區(qū)的用戶(hù)占比持續(xù)上升,不同地區(qū)的用戶(hù)在模型選擇和使用場(chǎng)景上也表現(xiàn)出一定的差異性。
![]()
六、深度討論:數(shù)據(jù)背后的關(guān)鍵洞察
這項(xiàng)基于100萬(wàn)億Token的實(shí)證研究,不僅呈現(xiàn)了大模型使用的表面數(shù)據(jù),更揭示了幾個(gè)細(xì)致入微的主題,深刻改變了我們對(duì)AI部署的傳統(tǒng)認(rèn)知。
多模型生態(tài)系統(tǒng):沒(méi)有"一統(tǒng)天下"
數(shù)據(jù)顯示,沒(méi)有單一模型能夠主導(dǎo)所有使用場(chǎng)景,我們正在目睹一個(gè)豐富的多模型生態(tài)系統(tǒng)的形成,閉源和開(kāi)源模型各自占據(jù)重要份額。
例如OpenAI和Anthropic的模型在編程和知識(shí)任務(wù)中領(lǐng)先,但像DeepSeek和Qwen這樣的開(kāi)源模型共同服務(wù)了超過(guò)30%的Token使用量。這表明LLM的未來(lái)使用將是模型無(wú)關(guān)且異質(zhì)化的。
對(duì)開(kāi)發(fā)者而言,這意味著保持靈活性、整合多個(gè)模型、為每個(gè)項(xiàng)目選擇最佳方案,而非把所有賭注押在單一模型上。對(duì)模型提供者來(lái)說(shuō),這強(qiáng)調(diào)了競(jìng)爭(zhēng)可能來(lái)自意想不到的地方,社區(qū)模型可能侵蝕市場(chǎng)份額,除非持續(xù)改進(jìn)和差異化。
使用多樣性超越生產(chǎn)力:陪伴與創(chuàng)意的崛起
一個(gè)令人驚訝的發(fā)現(xiàn)是角色扮演和娛樂(lè)導(dǎo)向應(yīng)用的大量使用。超過(guò)50%的開(kāi)源模型使用是用于角色扮演和講故事,而非編程或辦公。即使在專(zhuān)有平臺(tái)上,早期ChatGPT的使用也有相當(dāng)一部分是隨意且富有創(chuàng)意的探索。
這反駁了"LLM主要用于編寫(xiě)代碼、電子郵件或摘要"的假設(shè)。
實(shí)際上,許多用戶(hù)通過(guò)這些模型尋求陪伴、情感互動(dòng)或創(chuàng)意探索。
這具有重要意義:
凸顯了面向消費(fèi)者應(yīng)用在融合敘事設(shè)計(jì)、情感互動(dòng)方面的巨大機(jī)遇
為個(gè)性化開(kāi)辟新前沿——能夠演化個(gè)性、記住偏好、維持長(zhǎng)期互動(dòng)的AI代理
重新定義模型評(píng)估指標(biāo):成功可能更多依賴(lài)連貫性和持續(xù)對(duì)話能力,而非單純的事實(shí)準(zhǔn)確性
為AI與娛樂(lè)IP的跨界開(kāi)辟道路,在互動(dòng)敘事、游戲和創(chuàng)作者驅(qū)動(dòng)的虛擬角色領(lǐng)域具有潛力
Agent時(shí)代來(lái)臨:從對(duì)話到執(zhí)行
LLM的使用正從單回合交互轉(zhuǎn)向智能推理模式。模型不再只是產(chǎn)出一次性響應(yīng),而是協(xié)調(diào)工具調(diào)用、訪問(wèn)外部數(shù)據(jù)、迭代優(yōu)化輸出以實(shí)現(xiàn)目標(biāo)。
早期證據(jù)顯示多步查詢(xún)和鏈?zhǔn)焦ぞ呤褂谜诳焖僭鲩L(zhǎng)。隨著這一范式擴(kuò)展,評(píng)估將從語(yǔ)言質(zhì)量轉(zhuǎn)向任務(wù)完成度和執(zhí)行效率。
下一個(gè)競(jìng)爭(zhēng)前沿是模型如何有效執(zhí)行持續(xù)推理。這一轉(zhuǎn)變最終可能重新定義"大規(guī)模AI代理推理"在實(shí)踐中的含義。
地理格局:全球化與去中心化
LLM的使用正變得越來(lái)越全球化和去中心化,增長(zhǎng)迅速超出北美地區(qū)。亞洲在Token需求中的份額已從約13%上升至31%,反映出企業(yè)采用和創(chuàng)新的增強(qiáng)。
中國(guó)不僅通過(guò)國(guó)內(nèi)消費(fèi),還通過(guò)生產(chǎn)具有全球競(jìng)爭(zhēng)力的模型,成為重要力量。
更廣泛的結(jié)論是:LLM必須在全球范圍內(nèi)都非常有用,在不同語(yǔ)言、語(yǔ)境和市場(chǎng)中表現(xiàn)優(yōu)異。
下一階段的競(jìng)爭(zhēng)將取決于文化適應(yīng)性和多語(yǔ)言能力,而不僅僅是模型規(guī)模。
成本與使用動(dòng)態(tài):遠(yuǎn)非簡(jiǎn)單的價(jià)格競(jìng)爭(zhēng)
LLM市場(chǎng)還不像商品市場(chǎng)——單靠?jī)r(jià)格對(duì)使用量解釋不多。用戶(hù)在權(quán)衡質(zhì)量、可靠性和能力廣度的同時(shí)考慮成本。
閉源模型繼續(xù)捕獲高價(jià)值、與收入相關(guān)的工作負(fù)載,而開(kāi)源模型主導(dǎo)低成本且高流量的任務(wù)。這創(chuàng)造了一個(gè)動(dòng)態(tài)平衡,這種平衡更多是由來(lái)自下方的恒定壓力而非穩(wěn)定性所定義。
開(kāi)源模型不斷推動(dòng)效率前沿,尤其在推理和編碼領(lǐng)域(例如Kimi K2)快速迭代和創(chuàng)新可以縮小性能差距。開(kāi)放模型的每一次改進(jìn)都?jí)嚎s了專(zhuān)有系統(tǒng)的定價(jià)能力,迫使它們通過(guò)卓越的集成、一致性和企業(yè)支持來(lái)合理化溢價(jià)。
由此產(chǎn)生的競(jìng)爭(zhēng)節(jié)奏快速、不對(duì)稱(chēng)且不斷變化。隨著時(shí)間推移,隨著質(zhì)量趨同加速,價(jià)格彈性可能增加,使曾經(jīng)分化的市場(chǎng)變得更加流動(dòng)。
"灰姑娘玻璃鞋現(xiàn)象":留存率才是真正的護(hù)城河
隨著基礎(chǔ)模型能力的躍進(jìn)而非漸進(jìn),留存率已成為衡量可防御性的真正標(biāo)準(zhǔn)。每一次突破都會(huì)創(chuàng)造一個(gè)短暫的發(fā)布窗口,讓模型能夠完美"適配"高價(jià)值工作負(fù)載——這就是"灰姑娘玻璃鞋時(shí)刻"。用戶(hù)一旦找到合適的模型,就會(huì)圍繞它構(gòu)建工作流程和習(xí)慣。
在這種范式中,產(chǎn)品市場(chǎng)契合等同于工作負(fù)載模型契合:率先解決真實(shí)痛點(diǎn),推動(dòng)用戶(hù)圍繞該能力構(gòu)建工作流程,從而推動(dòng)深層且粘性的采用。因此,切換成本在技術(shù)和行為上都變得昂貴。
對(duì)于建設(shè)者和投資者來(lái)說(shuō),需要關(guān)注的信號(hào)不是增長(zhǎng),而是留存曲線——建立能夠持續(xù)經(jīng)受模型更新考驗(yàn)的基礎(chǔ)用戶(hù)群體。在日益快速變化的市場(chǎng)中,及早捕捉這些關(guān)鍵未滿足需求,決定了下一次能力飛躍后誰(shuí)能堅(jiān)持下去。
七、研究?jī)r(jià)值與未來(lái)展望
LLM正成為跨領(lǐng)域推理任務(wù)的重要計(jì)算基礎(chǔ),從編程到創(chuàng)意寫(xiě)作。隨著模型的不斷進(jìn)步和部署的擴(kuò)大,準(zhǔn)確了解現(xiàn)實(shí)世界的使用動(dòng)態(tài)對(duì)于做出明智決策至關(guān)重要。
人們使用LLM的方式并不總是符合預(yù)期,且因國(guó)家、地區(qū)和用例而有很大差異。通過(guò)大規(guī)模觀察使用情況,我們可以將對(duì)LLM影響的理解扎根于現(xiàn)實(shí),確保后續(xù)的發(fā)展——無(wú)論是技術(shù)改進(jìn)、產(chǎn)品特性還是法規(guī)——都與實(shí)際使用模式和需求保持一致。
從競(jìng)爭(zhēng)到協(xié)作的范式轉(zhuǎn)變
過(guò)去一年催化了該領(lǐng)域?qū)ν评砝斫夥绞降母拘赞D(zhuǎn)變。o1類(lèi)模型的出現(xiàn)使得長(zhǎng)時(shí)間思考和工具使用變得規(guī)范化,評(píng)估從單次基準(zhǔn)轉(zhuǎn)向基于過(guò)程的指標(biāo)、延遲-成本權(quán)衡以及編排下的任務(wù)成功率。
數(shù)據(jù)顯示,LLM生態(tài)系統(tǒng)在結(jié)構(gòu)上是多元的。沒(méi)有單一模式或供應(yīng)商占據(jù)主導(dǎo)地位;相反,用戶(hù)根據(jù)具體場(chǎng)景,在能力、延遲、價(jià)格和信任等多個(gè)維度上選擇系統(tǒng)。這種異質(zhì)性不是暫時(shí)階段,而是市場(chǎng)的基本特征。它促進(jìn)快速迭代,減少對(duì)任何單一模型或技術(shù)棧的系統(tǒng)性依賴(lài)。
Agent推理:下一個(gè)競(jìng)爭(zhēng)前沿
推理本身也在變化。多步驟和工具關(guān)聯(lián)交互的興起,標(biāo)志著從靜態(tài)補(bǔ)全向動(dòng)態(tài)編排的轉(zhuǎn)變。用戶(hù)正在串聯(lián)模型、API和工具以實(shí)現(xiàn)復(fù)合目標(biāo),催生了可稱(chēng)為"Agent推理"的現(xiàn)象。有充分理由相信,Agent推理的使用量將超過(guò)、甚至已經(jīng)超過(guò)人類(lèi)單次推理。
實(shí)際上,o1并未終結(jié)競(jìng)爭(zhēng),而是擴(kuò)展了設(shè)計(jì)空間。該領(lǐng)域正朝向系統(tǒng)性思維而非單一押注,向基于數(shù)據(jù)的分析取代直覺(jué),向?qū)嵶C使用分析取代排行榜競(jìng)爭(zhēng)的方向發(fā)展。
如果過(guò)去一年證明了Agent推理在大規(guī)模上是可行的,那么明年將聚焦于運(yùn)營(yíng)卓越:測(cè)量真實(shí)任務(wù)完成度、減少分布轉(zhuǎn)移下的方差,以及使模型行為與生產(chǎn)規(guī)模工作負(fù)載的實(shí)際需求保持一致。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.