聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
大模型競技場LMArena官宣拿下1.5億美元A輪融資。
估值升至17億美元,妥妥的新年開門紅!
![]()
這波融資由Felicis和加州大學投資公司UC Investments領投,Andreessen Horowitz、The House Fund等機構跟投。
資本用真金白銀投票,足以見得AI時代大模型評估這個賽道有多香~
而這支90后華人含量99%團隊的走紅之路,還得從2023年ChatGPT橫空出世后說起。
從學術探索到商業崛起
LMArena的前身是曾經火爆AI圈的Chatbot Arena,最早由LMSYS這個自發的開源組織創建。
組織的核心成員全是來自UC伯克利、斯坦福、UCSD、CMU等頂尖高校的學霸。
他們的開源推理引擎SGLang在業內首次實現了在96塊H100上跑出幾乎媲美DeepSeek官方報告吞吐量的開源方案。
目前SGLang已經實現大規模部署,被xAI、英偉達、AMD、谷歌云、甲骨文云、阿里云、美團、騰訊云等企業和機構采用。
不過,比起硬核技術,他們最主要也更出圈的工作是對大模型進行評估
在ChatGPT、Claude一眾模型剛剛面世之際,他們率先創辦了Chatbot Arena這么一個第三方眾包基準測評平臺。
LMSYS的創辦人之一、SGLang主導者鄭憐憫曾對我們透露,當時之所以創建Chatbot Arena,是因為他們自己訓練了小羊駝Vicuna的開源模型。
![]()
當時他們覺得自己模型還不錯,但市面上已有的各種基準測試很難真正區分出模型是“真好”還是“假好”。
團隊認為,評估模型最好的方式就是將其放到網上,讓用戶試用并投票。于是乎他們就搞了個眾包測試平臺Chatbot Arena,通過實際的用戶交互來評估模型性能。
結果沒想到的是后來Chatbot Arena已獨立成一家公司,而小羊駝Vicuna等大模型的研發已經停滯。
![]()
早期的Chatbot Arena搞的是雙盲測試,讓用戶在不知道模型身份的情況下盲選最優回答,這種模式吸引了大量AI愛好者來打卡。
后來,全球各地一有新模型更新都會在里面偷偷測一把,Chatbot Arena逐漸成為模型測評首選的排行榜。
這樣的影響力讓Chatbot Arena在AI領域嶄露頭角,獲得資本市場的認可。
它獨立出來成為一家商業公司lmarena.ai,專注于AI模型評估。
2025年5月,被曝獲種子輪1億美元投資,估值達到6億美元。
動態競技場
lmarena.ai的主要項目就是如今全球大模型的動態競技場LMArena。
![]()
核心評估規則圍繞匿名對戰、Elo式評分和人機協同框架展開,方式也比較有意思。
用戶只要輸入問題,系統就會隨機匹配兩個模型來做匿名回答。
這時候大家不用管模型是誰,只需要根據回答的好壞投票選出更優的那個,系統在投完票之后才會揭曉模型的真實身份。
在評分上,平臺基于Bradley–Terry模型設計了Elo評分機制,每個模型都有初始分數,贏了就加分,輸了就扣分,隨著對戰次數越來越多,分數會慢慢穩定下來,最終形成實時更新的排行榜。
除此之外,平臺還采用了人機協同的評估模式,用人類的真實投票來反映大家對模型的偏好,再通過算法去平衡各個模型的出場次數、任務類型和樣本分布,避免有的模型因為曝光多就被高估,或者因為曝光少就被低估,確保整個評估過程公平客觀。
就這樣,LMArena成了各家新模型“出道”時的必測榜單。當前Gemini 3 Pro以1490分位居榜首。
![]()
去年拿到1億美元種子輪融資后,LMArena的發展迅速超出預期。
在短時間內不僅累計了涵蓋文本、視覺、網絡開發等跨模態的5000萬張投票,完成了400余種開放及專有模型的評估,還產出了覆蓋文本、多模態、專家及職業等多個類別的14.5萬個開源戰斗數據點。
現在,LMArena計劃將新籌集的資金用于平臺運營,確保平臺穩定且高效運行,提升用戶體驗。同時擴大技術團隊,為平臺發展注入更多專業技術力量。
參考鏈接:https://news.lmarena.ai/series-a/
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.