![]()
AI模型能力爭議從2025吵到2026,一家靠“給模型打分”的公司率先跑成了獨(dú)角獸。
本月,隨著一筆1.5億美元融資的落定,AI大模型評(píng)測機(jī)構(gòu)LMArena,估值沖至17億美元。
這個(gè)起源于伯克利校園的項(xiàng)目,看似偶然,實(shí)則精準(zhǔn)命中了AI時(shí)代一個(gè)日益尖銳的痛點(diǎn):當(dāng)傳統(tǒng)的考試框架被模型反復(fù)“刷題”、逐漸失靈,我們該如何判斷一個(gè)模型是否真正有用?
LMArena的答案簡潔而顛覆:把裁決權(quán)交給用戶,讓每一次點(diǎn)擊成為投票。日均上千場對(duì)戰(zhàn)、數(shù)萬次匿名比拼在此上演,也成為所有大廠不敢缺席的“試金石”。
在爭議與流量齊飛中,LMArena在2025年9月完成了關(guān)鍵一躍:將數(shù)千萬次人類偏好數(shù)據(jù),封裝成B端評(píng)估服務(wù)。產(chǎn)品僅上線4個(gè)月,其年化經(jīng)常性收入突破3000萬美元,OpenAI、Google、xAI等頭部AI企業(yè)均成為其核心付費(fèi)客戶。
LMArena或許并非完美的答案,其眾包模式也始終伴隨著“不夠?qū)I(yè)”、“易被操縱”的批評(píng)。
然而,它的迅速商業(yè)化與估值飆升,如同一面刺眼的鏡子,尖銳地揭示了舊有評(píng)估體系的失效,并將選擇權(quán)部分交還給了用戶。
當(dāng)刷榜不再可信,用千萬次匿名對(duì)決選出“好用”的AI
從2025 年開始,AI 行業(yè)出現(xiàn)了一種微妙卻普遍的情緒變化。
模型還在發(fā)布,榜單還在刷新,但興奮感正在快速衰減。一次次參數(shù)升級(jí)、一次次排行榜登頂,越來越像一場成本高昂卻回報(bào)有限的表演。
產(chǎn)品落地節(jié)奏跟不上模型宣傳節(jié)奏,甚至連微軟內(nèi)部的研究人員,也公開談到自己正在經(jīng)歷“AI 疲勞”。
更深層的問題在于,榜單正在塑造一種并不健康的激勵(lì)機(jī)制。
當(dāng)模型能力被壓縮進(jìn)有限的基準(zhǔn)測試中,優(yōu)化目標(biāo)就會(huì)迅速收斂。
面對(duì)開放式問題,不同模型的回答在結(jié)構(gòu)、措辭、推理路徑上高度相似,看似穩(wěn)健,實(shí)則趨同。創(chuàng)造力下降并不是因?yàn)槟P筒粔驈?qiáng),而是因?yàn)樗鼈儽挥?xùn)練成了“會(huì)考試的學(xué)生”。
華盛頓大學(xué)教授朱邦華曾指出,這正是當(dāng)前評(píng)測體系的核心缺陷。
基準(zhǔn)測試數(shù)量有限、覆蓋場景狹窄,模型極易產(chǎn)生過擬合。它們學(xué)會(huì)的并非理解與推理,而是如何針對(duì)題庫進(jìn)行“應(yīng)試準(zhǔn)備”。靜態(tài)測試的存在,本身就在引導(dǎo)模型向固定解法靠攏。
在這一背景下,行業(yè)開始重新討論一個(gè)更現(xiàn)實(shí)的問題:如何評(píng)估模型的真實(shí)能力?
答案正在從排行榜遷移。比起分?jǐn)?shù)高低,人們開始關(guān)心更具體的維度:模型是否容易集成進(jìn)真實(shí)系統(tǒng)?在專業(yè)場景中是否穩(wěn)定可靠?能否在長期使用中保持一致表現(xiàn)?以及,它是否真的理解業(yè)務(wù)語境,而不是給出看似正確的通用答案。
也正是在這種集體焦慮中,一個(gè)“匿名選手”的走紅,提供了另一種可能性。
2025 年 8 月,一個(gè)名為 nano-banana 的模型,悄然出現(xiàn)在 LMArena 的圖像編輯競技場。沒有發(fā)布會(huì),沒有技術(shù)白皮書,甚至連模型名稱都是匿名的。平臺(tái)采用完全盲測機(jī)制,用戶只能看到結(jié)果,通過對(duì)比投票來判斷優(yōu)劣。
短短兩周,這個(gè)模型累計(jì)獲得超過500 萬次社區(qū)投票,其中直接勝出票達(dá)到 250 萬張,以明顯優(yōu)勢登頂榜首。
流量隨之涌入。LMArena 的整體訪問量在當(dāng)月增長了 10 倍,月活用戶突破 300 萬。隨后,谷歌正式認(rèn)領(lǐng)了這位“匿名選手”,其真實(shí)身份是 Gemini 2.5 Flash Image。
回頭看,這并非一次偶然事件。
最早的擴(kuò)散來自Andrej Karpathy 的轉(zhuǎn)發(fā),隨后 OpenAI、Anthropic 等頭部廠商的模型陸續(xù)接入。原本只是一個(gè)對(duì)比工具的平臺(tái),逐漸演變?yōu)橐粓鰢@真實(shí)用戶體驗(yàn)展開的“模型對(duì)決”。
連思維鏈CoT 的提出者 Jason Wei 也參與了討論。他指出,好的評(píng)估體系應(yīng)當(dāng)聚焦智能的核心能力,比如語言理解、數(shù)學(xué)推理和問題解決,并且需要足夠大的樣本規(guī)模與清晰的判斷標(biāo)準(zhǔn),而不是不斷疊加復(fù)雜但脫離實(shí)際的指標(biāo)。
某種程度上,LMArena 恰好踩中了這一共識(shí)。
它的核心設(shè)計(jì)并不復(fù)雜,用戶每次提問,系統(tǒng)隨機(jī)抽取兩個(gè)匿名模型同時(shí)作答,結(jié)果并排展示為“回答 1”和“回答 2”。用戶從有用性、準(zhǔn)確性、貼合度、安全性等角度投票,也可以選擇平局或都不滿意。甚至連用戶的提問本身,也會(huì)被納入評(píng)估數(shù)據(jù)。
這種機(jī)制天然貼近真實(shí)使用場景。編程、寫作、邏輯分析、法律解讀、多輪對(duì)話、多模態(tài)生成,都不是被拆分成單項(xiàng)能力測試,而是在完整任務(wù)中直接對(duì)比。
例如,在測試代碼能力時(shí),用戶可能要求編寫一個(gè)函數(shù),用于提取網(wǎng)頁中的h1 到 h3 標(biāo)簽。一個(gè)模型給出結(jié)構(gòu)完整、包含異常處理、可直接運(yùn)行的代碼,另一個(gè)卻遺漏依賴或存在邏輯錯(cuò)誤。投票結(jié)果不需要解釋,勝負(fù)自然分明。
當(dāng)類似對(duì)比累積到數(shù)萬、數(shù)十萬次,模型在特定能力維度上的穩(wěn)定差異,開始顯現(xiàn)。
排名并非主觀印象,而是通過類似國際象棋排位賽的Elo 評(píng)級(jí)系統(tǒng)計(jì)算得出。每一次勝負(fù)都會(huì)影響評(píng)分,長期來看,只有在大量用戶偏好對(duì)比中持續(xù)占優(yōu)的模型,才能保持高位。
LMArena 甚至?xí)鲃?dòng)拉開差距。
在Arena-Expert 模塊中,平臺(tái)刻意篩選出約 5.5% 的“專家級(jí)”提示,作為難度更高的測試樣本。這些問題往往更復(fù)雜、更偏邊緣場景,用來觀察模型在高壓情況下的表現(xiàn)分化。不同難度區(qū)間下的勝率變化,也成為分析模型能力上限的重要依據(jù)。
圍繞具體需求,平臺(tái)還衍生出多個(gè)專項(xiàng)競技場,包括Code Arena、Search Arena、Image Arena 等,將提問、生成、比較、投票整合為一個(gè)連續(xù)流程。用戶不是來“看榜單”的,而是在完成自己任務(wù)的過程中,順便完成評(píng)測。
這種評(píng)測方式的意義,在中文場景中體現(xiàn)得尤為明顯。
在2025 年 11 月發(fā)布的中文榜單中,國產(chǎn)大模型首次實(shí)現(xiàn)對(duì)國際模型的系統(tǒng)性反超。前十名中,國產(chǎn)模型占據(jù)八席,阿里巴巴的 Qwen3、智譜 AI 的 GLM-4.6 等模型,在真實(shí)中文任務(wù)中的勝率顯著領(lǐng)先。
可以說,LMArena 用一種新的方式,構(gòu)建了評(píng)估模型真實(shí)能力的新基準(zhǔn)。
從免費(fèi)榜單到B端服務(wù),模型評(píng)測市場加速商業(yè)化
在LMArena 出現(xiàn)之前,AI 評(píng)測并不是一個(gè)商業(yè)意味濃厚的賽道。
過去十多年里,這項(xiàng)工作主要由學(xué)術(shù)機(jī)構(gòu)或開源社區(qū)維護(hù)。它們更像一種行業(yè)公共產(chǎn)品,不直接變現(xiàn),而是通過提供統(tǒng)一、可復(fù)現(xiàn)的評(píng)估框架,建立學(xué)術(shù)影響力與話語權(quán)。榜單存在,但目的不是競爭,而是共識(shí)。
真正的變化,發(fā)生在大模型產(chǎn)業(yè)化之后。
隨著模型數(shù)量激增、應(yīng)用場景外溢,評(píng)測不再只是研究工具,而成為支撐整個(gè)市場運(yùn)行的基礎(chǔ)設(shè)施之一。模型要進(jìn)入企業(yè)系統(tǒng)、要被采購、要被對(duì)比,評(píng)測開始承擔(dān)“決策前置”的角色,其市場空間也隨之被迅速放大。
很少有人想到,這條商業(yè)化路徑的起點(diǎn),其實(shí)是一場極其樸素的學(xué)術(shù)實(shí)驗(yàn)。
LMArena 最早由卡內(nèi)基梅隆大學(xué)、加州大學(xué)伯克利分校以及 LMSYS 相關(guān)成員共同發(fā)起。
2023年,在加州大學(xué)伯克利分校電子工程與計(jì)算機(jī)科學(xué)系攻讀博士學(xué)位的Anastasios N. Angelopoulos和Wei?Lin Chiang創(chuàng)立了Chatbot Arena,這即為LMArena的前身。
項(xiàng)目最初的目標(biāo)非常簡單:對(duì)比Vicuna 和 Alpaca 兩個(gè)模型,看看用戶更喜歡哪一個(gè)。
但這個(gè)“隨手做的對(duì)比實(shí)驗(yàn)”,最終演化成了一個(gè)被行業(yè)默認(rèn)采信的公共競技場。
截至目前,LMArena 的月活躍用戶已達(dá)到 500 萬,覆蓋超過 150 個(gè)國家;平臺(tái)每月產(chǎn)生的模型對(duì)話超過 6000 萬次,日均進(jìn)行上千場實(shí)時(shí)匿名對(duì)戰(zhàn)。幾乎所有頭部模型廠商都已入場——從 OpenAI、Anthropic、Google、Meta,到 DeepSeek、混元、千問、xAI、Microsoft,無一缺席。
更值得注意的是,頭部公司已不再只是“參與評(píng)測”,而是主動(dòng)將其作為新品試驗(yàn)場。Google、OpenAI 等廠商,曾將尚未公開發(fā)布的 Nano Banana、Gemini 3.0 悄然接入 Arena 進(jìn)行內(nèi)測。這種行為本身,意味著 LMArena 已成為行業(yè)默認(rèn)的“試金石”。
模型集中,自然也帶來注意力的集中。
根據(jù)Cohere 等機(jī)構(gòu)對(duì) 2024 至 2025 年間超過2800萬條模型比較記錄的分析,在用戶投票與交互數(shù)據(jù)中,Google 與 OpenAI 兩家合計(jì)占比約 40%;而其余 83 個(gè)開源模型加在一起,僅占 29.7%。Arena 看似開放,但頭部效應(yīng)依舊顯著。
隨著榜單影響力外溢,LMArena 的定位也開始發(fā)生變化。
2025 年 9 月,在完成大額種子輪融資后,團(tuán)隊(duì)推出首個(gè)商業(yè)化產(chǎn)品“AI Evaluations”,正式進(jìn)入B端市場。
該產(chǎn)品主打定制化評(píng)測,核心賣點(diǎn)在于可在企業(yè)私有、脫敏數(shù)據(jù)環(huán)境中完成測試,繞開“敏感數(shù)據(jù)無法在公開平臺(tái)評(píng)測”的長期痛點(diǎn)。
在具體設(shè)計(jì)上,“AI Evaluations”已能結(jié)合企業(yè)脫敏后的業(yè)務(wù)數(shù)據(jù),在“聽不聽話、說不說胡話、合不合規(guī)、多步任務(wù)能不能一次跑通”這四項(xiàng)上給模型打分,最終會(huì)輸出模型在特定場景的勝率、短板、答案差距,輸出場景化勝率分析與能力短板報(bào)告。
更長遠(yuǎn)的計(jì)劃,則指向平臺(tái)積累的核心資產(chǎn)——人類偏好數(shù)據(jù)。
LMArena 正嘗試?yán)脭?shù)千萬條社區(qū)投票數(shù)據(jù),訓(xùn)練自己的 RLHF 模型,讓評(píng)測結(jié)果反向參與模型優(yōu)化。這一步的意義在于,它開始走出“量尺”的定位,逐漸嵌入模型研發(fā)鏈條,成為訓(xùn)練流程中的一部分。
不過,LMArena 也并非沒有隱患。
在行業(yè)內(nèi)部,人們通常將LMArena 描述為一種“基于氛圍的基準(zhǔn)”,或一個(gè)眾包評(píng)測平臺(tái)。匿名對(duì)戰(zhàn)、集體投票、動(dòng)態(tài)排名,這種解釋直觀,也基本符合平臺(tái)自身的敘述方式。
但正是眾包機(jī)制,讓它始終站在方法論爭議的中心。
質(zhì)疑主要集中在兩點(diǎn):投票結(jié)果的可靠性,以及用戶偏好的傾向性。Andrej Karpathy 曾提醒,外界很容易過度迷信排行榜,把排名直接等同為模型真實(shí)能力。
Cohere 與斯坦福研究人員的進(jìn)一步質(zhì)疑更為尖銳:成對(duì)評(píng)估的問題在于,你并不清楚用戶究竟在比較什么——是正確性、風(fēng)格,還是回答長度?不同因素在投票中的權(quán)重并不透明。
意思是,模型可能因?yàn)榛卮鸬酶皢隆薄ⅰ坝懴病倍鴦俪觯皇且驗(yàn)榇鸢父鼫?zhǔn)確、更有用。
真的有人用數(shù)據(jù)佐證了這一點(diǎn)。Surge AI的一項(xiàng)抽查發(fā)現(xiàn),在500組投票中,52%的獲勝回答包含事實(shí)錯(cuò)誤,39%的投票結(jié)果與事實(shí)嚴(yán)重不符。用戶確實(shí)顯示出對(duì)更長、帶有emoji、格式精美回答的偏好,即使這些答案在正確性上并不占優(yōu)。
更極端且諷刺的案例來自Meta。
其提交的Llama 4系列實(shí)驗(yàn)性對(duì)話模型,曾憑借充滿emoji和諂媚語氣的大段回答沖至總榜第二,但公開發(fā)布版僅排32。
扎克伯格承認(rèn)針對(duì)Arena投票偏好優(yōu)化。后續(xù)研究披露,Meta在Llama 4發(fā)布前共提交36個(gè)私有變體反復(fù)測試“刷分”。
這意味著,歷史再次上演了。
當(dāng)評(píng)測標(biāo)準(zhǔn)被固化,資源充足的科技巨頭就能像備考一樣反復(fù)刷題;而初創(chuàng)團(tuán)隊(duì),則被迫在有限資源中分流精力,應(yīng)對(duì)“標(biāo)準(zhǔn)考試”。這恰恰是行業(yè)此前試圖擺脫的問題。
作為回應(yīng),LMArena已更新規(guī)則,所有提交模型必須可公開復(fù)現(xiàn),否則下架。
但爭議并未就此消失,反而催生了新的競爭形態(tài)。
例如,Scale AI 在 2025 年 9 月推出 Seal Showdown,強(qiáng)調(diào)付費(fèi)專家評(píng)估,由律師、教授、醫(yī)生等專業(yè)人士直接打分,試圖以“低噪聲、高專業(yè)度”與眾包模式形成區(qū)隔。
與此同時(shí),評(píng)測范式本身也在繼續(xù)外擴(kuò)。
越來越多平臺(tái)開始強(qiáng)調(diào)垂直化與實(shí)戰(zhàn)化:更深度的專家標(biāo)注、更接近真實(shí)世界的挑戰(zhàn)任務(wù),甚至出現(xiàn)像nano1.ai 推出的 Alpha Arena 這類產(chǎn)品,讓不同模型在同一模擬或真實(shí)的加密市場環(huán)境中,使用相同資金與提示進(jìn)行交易,以收益和策略穩(wěn)定性定勝負(fù)。
這類評(píng)測難以復(fù)現(xiàn),卻極度貼近商業(yè)落地。
總而言之,LMArena已從一個(gè)有趣的學(xué)術(shù)實(shí)驗(yàn),成長為影響AI研發(fā)風(fēng)向的基礎(chǔ)設(shè)施。它的興起、爭議與進(jìn)化,也映射出整個(gè)行業(yè)對(duì)模型評(píng)估的理解正走向更深入、更多維的階段。
文/朗朗
PS:如果你對(duì)AI大模型領(lǐng)域有獨(dú)特的看法,歡迎掃碼加入我們的大模型交流群。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.