![]()
作者丨漫地
編輯丨關雎
頭圖丨Angelopoulos(右)Chiang(左)
最近,美國加州大學伯克利分校(UC Berkeley)學術研究項目孵化出的創業公司LMArena,成為了估值17億美元(約人民幣120億元)的獨角獸。而它僅僅成立一年。
其憑借構建的全球最大規模的用戶偏好大模型實時數據集,來滿足市場對AI可靠性評估的迫切需求,而這也讓LMArena在資本市場上獲得高度認可。
在短短一年時間內,LMArena完成了由Andreessen Horowitz(a16z)、Felicis Ventures等頂尖風投領投的兩輪融資,包括種子輪1億美元,A輪1.5億美元的資金。
然而,其商業模式的可靠性正面臨爭議。一個搞AI測評的初創公司,憑什么躍升成為獨角獸?
![]()
![]()
學術機構里跑出來的創業公司
LMArena脫胎于大型模型系統組織(Large Model Systems,LMSYS )。該組織起源于2023年,由加州大學伯克利分校、斯坦福大學、加州大學圣地亞哥分校、卡內基梅隆大學等多所大學合作發起。它于2024年9月注冊為非營利性公司,旨在孵化早期開源和研究項目。
也是在2023年,一起在加州大學伯克利分校電子工程與計算機科學系攻讀博士學位的Anastasios N. Angelopoulos和Wei?Lin Chiang,受LMSYS資助,創立了Chatbot Arena,這即為LMArena的前身。
作為一個學術附屬項目,Chatbot Arena擁有一個較為純粹的初心:構建一個公開透明的評估平臺,它能夠真正地反映大型語言模型在現實世界中的應用情況。
大家都知道,我們日常使用的生成式人工智能所依托的大模型需要不斷地被訓練,而人們在使用過程中真實的使用體驗和建議,可以最大程度地幫助大模型提升回答質量。“哪些人工智能模型對我來說最好用?” 作為用戶,你也許也有這樣的疑惑。
2023年5月,Chatbot Arena被正式推出。Chatbot Arena平臺上會展示不同人工智能對同一問題的回答,每個用戶都可以通過匿名的方式選擇自己更喜歡的答案,對不同的人工智能模型進行投票。
2025年1月,Chatbot Arena注冊為商業化實體LMArena,由Anastasios N. Angelopoulos任首席執行官、Wei?Lin Chiang任首席技術官,Ion Stoica是聯合創始人兼顧問。
![]()
Ion Stoica(左)Angelopoulos(中)Chiang(右)
三個人可謂強強聯合。
Ion Stoica是UC伯克利大學的計算機系教授,同時領導著該校的天空計算實驗室((SkyLab)。他還是位連續創業者,先后參與創辦了Anyscale、Databricks、Conviva Networks等公司。
Angelopoulos 對于可信賴的人工智能系統、黑箱決策和醫療機器學習方面的研究頗深,他曾在谷歌 DeepMind 擔任學生研究員,并計劃在Stoica 那里開始博士后研究,專注于在高風險環境下評估人工智能。
Chiang則同樣是在 Stoica 領導的天空計算實驗室研究分布式系統和深度學習框架,此前曾在谷歌研究、亞馬遜和微軟從事研究工作。
目前,LMArena已經吸引了數百萬參與者,截至2025年4月,已記錄超過300萬次比較,評估了400多個模型,其中包括商業化的GPT-4、Gemini、Bard以及開放權重的Llama和Mistral模型,很大程度幫助了用戶以及企業理解這些模型的能力和局限性。
通常而言,大模型是基于互聯網上開放的可用數據進行訓練的,而大多數大模型基準測試也都是靜態的。如果模型通過“記憶”污染數據就能在基準測試上獲得高分,那么大模型的研發團隊可能會過度優化模型以擬合這些有缺陷的指標,而非提升其實用性和解決真實世界問題的能力。這就像學生為了應付考試而死記硬背,卻忽略了真正理解知識。
所以,LMArena利用實時評估來緩解這個問題,通過持續不斷地收到來自真實用戶的新反饋來進行修正。這些反饋會被梳理成開放的排行榜和技術文章,為大模型的性能提供重要意見,指導LLM的改進和持續開發。此外,LMArena還與開源和商業模型供應商合作,將他們的最新模型投放到平臺社區進行預測試,使得這些模型在正式發布前可以進行調整。
具體來看,其運作流程是通過用戶在LMArena上操作,就像是在一個類似豆包、Chatgpt等生成式人工智能平臺。用戶可以提出問題,平臺則通過大模型生成兩個不同風格或者版本的答案,用戶可以在答案下方的反饋區對更偏好的答案進行選擇“左邊更好”、“右邊更好”、“平局”、“都不好”。
![]()
圖:Chatbot Arena界面
但是這樣的一個平臺,在人工智能領域似乎“技術含量”并不高。它靠什么一年內完成兩輪融資躍升為估值17億美元的獨角獸?
![]()
做人工智能領域的評估者
在人工智能應用滲透進日常生活的時代里,如果說AI本身的運行性能決定了它能跑多快,那它生產出來的內容是否值得被信賴,則決定了它能走多遠。
“這就是我們為什么投LMArena的理由”,位于硅谷的著名風險投資基金 a16z合伙人Anjney Midha說到。LMArena的兩輪融資中都有a16z的身影。
在Anjney Midha看來,當模型變得足夠可靠,無疑會給各行各業帶來顛覆性的效果。比如醫院可以信任大模型的診斷結果、法院也可以信任大模型的分析裁判結果。而目前政府機構也已經開始參與到可靠性的人工智能領域中來,受監管的行業也在試點部署。
所以,行業的需求信號已然很清晰——對于要運行重要領域內容的人工智能而言,中立客觀的評估必不可少。
而這樣的需求便是一個巨大的機會。如果大模型的“實戰檢驗”未來可以成為人工智能領域的權威認證,那么LMArena目前已經構建的規模最大、基于人工智能輸出的人類偏好實時數據集,則無疑將成為其在人工智能評估領域的先發優勢。
投資人的錢總會流向更可能帶來更大回報的項目。LMArena最近的A輪融資,由知名的風投機構Felicis Venture和UC Investments(加州大學投資部門)共同牽頭,a16z、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners和Laude Ventures也參與其中。
而在去年5月份的種子輪融資中,該公司籌集了1億美元,由a16z和UC Investments領投。
![]()
![]()
“AI測評生意”夠可靠嗎?
目前,市場上對大模型做測評的企業數量并不少。從測評榜單這種形式來看,AI大模型排行榜呈現出“各司其職”的多元格局,每家有自身的特色。
LMArena被譽為業內的“黃金標準”或“人氣榜”,其核心在于利用用戶參與這種眾包形式,人類主觀偏好明顯。它采用匿名雙盲測試,讓用戶在不知模型身份的情況下對話并投票,再通過類似國際象棋的Elo系統進行排名。這種方法最直接地反映了各個模型的綜合用戶體驗和對話流暢度,但可能更偏愛回答風格“討喜”的模型。
與之形成鮮明對比的是由學術界推動的LiveBench,其背后平臺由圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun) 聯合Abacus.AI、紐約大學等機構共同推出的。Abacus.AI 是一家人工智能及機器學習研究商,它幫助LiveBench成長為一個每月更新的“防作弊系統”。其排名依據全部來自最新的數學競賽、Kaggle數據集或arXiv論文,且有標準答案,旨在從根本上杜絕模型通過記憶舊數據“刷分”,專門檢驗模型在陌生問題上的真實推理和泛化能力,因此被視作衡量LLM模型“硬實力”的試金石。
此外, OpenRouter Rankings直接基于平臺上的實際API調用量進行排名。OpenRouter的商業模式可以概括為“聚合調度+增值服務”。它本身不研發模型,而是作為一個中間層,整合了來自60多家供應商的400多個AI大模型(包括OpenAI、Google、Anthropic等主流廠商以及眾多開源模型),然后通過統一的API向開發者提供服務,收取5%-5.5%的服務費 。其發布的模型用量排行榜在開發者和投資圈內也備受關注。
![]()
除了這些美國企業開發運營的國際榜單,還有像OpenCompass(上海人工智能實驗室2023年12月開源)、SuperCLUE這樣的國內榜單,它們重點關注模型在中文理解、文化背景及符合國內法規方面的能力,為本土化應用提供了關鍵參考。但是這些榜單大多是由政府研究機構和高校和在線社區主導,相對而言,中國在對LLM大模型評測方面的商業化程度較為空白。
回到LMArena本身的運作模式來看,其測評內容的可靠性其實本身也有諸多爭議。
美國的數據標注公司Surge AI質疑LMArena的運作,稱其完全依賴于不受控制的志愿者在平臺上進行的游戲化勞動——隨機的互聯網用戶花兩秒鐘快速瀏覽一下,然后點擊他們最喜歡的答案。而實際上,這些用戶自身并沒有任何動力去認真思考作答。沒有質量控制下的大模型系統打分能做到準確有效嗎?
比如,針對一個關于蛋糕模具的數學問題,LMArena生成了兩個答案供用戶選擇。但最后,用戶投票支持了一個數學上不正確的答案,因為這個答案看起來似乎“更合理”。
![]()
圖:LMArena的投票者獎勵錯誤的數學計算
而LMArena的領導層也曾在公開場合談到,他們采用了各種方法來克服用戶輸入數據質量低下的問題。他們承認,用戶更喜歡大模型生成的帶有表情符號和冗長的內容,而不是實質性高質量的內容。所以這種測評模式很可能無法真正篩選出能生產高質答案的大模型。
LMArena此輪融資雖猛,但是當潮水褪去,是否能留在牌桌上,還有待時間觀察。
本文為創業邦原創,未經授權不得轉載,否則創業邦將保留向其追究法律責任的權利。如需轉載或有任何疑問,請聯系editor@cyzone.cn。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.