一場AI界的《創(chuàng)造101》火了!LMArena讓你盲投選出最強(qiáng)AI,三年從校園項(xiàng)目逆襲,剛剛?cè)?.5億美元,估值飆到17億美元。眾包投票挑戰(zhàn)專家權(quán)威,爭議四起,卻已成行業(yè)標(biāo)桿。你的票,就能決定下一個(gè)AI頂流!
一場AI界的《創(chuàng)造101》火了!
ChatGPT、Claude、Gemini、Grok等一眾AI「練習(xí)生」整齊站好,緊張等待公演。
這不是選秀節(jié)目,而是真實(shí)發(fā)生在lmarena.ai上的AI大亂斗。
這個(gè)曾經(jīng)的校園開源小項(xiàng)目,最近剛?cè)诘?.5億美元,估值17億美元。
頂級(jí)AI實(shí)驗(yàn)室如OpenAI、Google、xAI、Microsoft,都搶著把自家模型送來「試鏡」。
現(xiàn)在,AI強(qiáng)弱不再是大公司自己說了算,決定權(quán)掌握在全球網(wǎng)民手上。
這場「AI創(chuàng)造營」到底怎么玩?誰會(huì)成為下一個(gè)出道頂流?讓我們一起揭秘。
LMArena的「選秀起源」
從校園項(xiàng)目到硅谷舞臺(tái)
一切要從2023年說起。當(dāng)時(shí),加州大學(xué)伯克利分校Sky Computing Lab里,一群研究生和教授搞了個(gè)開源小項(xiàng)目,叫Chatbot Arena。
創(chuàng)始人包括伯克利計(jì)算機(jī)科學(xué)教授Ion Stoica(Databricks聯(lián)合創(chuàng)始人)、研究生Anastasios Angelopoulos(現(xiàn)CEO)和Wei-Lin Chiang(現(xiàn)CTO)。
![]()
他們最初只是想做一個(gè)簡單實(shí)驗(yàn):讓網(wǎng)友匿名比拼不同AI聊天機(jī)器人,看哪個(gè)回答更好。
沒想到,這個(gè)項(xiàng)目一上線就火了,迅速變成AI圈最受歡迎的眾包基準(zhǔn)平臺(tái)。
短短三年時(shí)間,Chatbot Arena就積累了海量用戶。2025年5月,它正式轉(zhuǎn)為營利性公司,更名為LMArena,并完成1億美元種子輪融資,估值6億美元。
轉(zhuǎn)折點(diǎn)發(fā)生在2026年1月6日——就在昨天!
LMArena宣布完成1.5億美元新一輪融資,由Felicis和加州大學(xué)投資臂聯(lián)合領(lǐng)投,Andreessen Horowitz、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners等明星機(jī)構(gòu)跟投。
公司估值直接飆升到17億美元,總?cè)谫Y額超過2.5億美元!
如今,LMArena已經(jīng)擁有超過500萬月活躍用戶,覆蓋150個(gè)國家,每月產(chǎn)生超過6000萬次對話。
這些用戶像是投票的「全民制作人」。連最頂級(jí)AI實(shí)驗(yàn)室,都把自家最新模型悄悄送來PK。
![]()
從一個(gè)學(xué)術(shù)小實(shí)驗(yàn),到硅谷新貴,LMArena用三年時(shí)間完成了許多選秀冠軍都羨慕的逆襲。
但真正讓它火起來的秘密武器,正是那個(gè)簡單卻上癮的「盲盒PK」投票機(jī)制。
盲盒PK與網(wǎng)民投票
「全民制作人」的權(quán)利游戲
選秀節(jié)目的高潮,是舞臺(tái)公演和現(xiàn)場打投。LMArena的「公演舞臺(tái)」也一樣刺激:它叫Arena模式,核心就是一個(gè)字——盲!
打開lmarena.ai,進(jìn)入戰(zhàn)斗模式,隨便輸入一個(gè)問題,系統(tǒng)開始隨機(jī)匹配兩個(gè)匿名AI模型,同時(shí)給出答案。
你不知道是誰生成的,只能憑感覺投票。投完票,網(wǎng)站才會(huì)揭曉:哦,原來左邊是Gemini-3-Pro,右邊是Grok-4.1!
這種形式很像拆盲盒——公平又上癮。
總得票數(shù)也算入評(píng)分體系。LMArena用Elo評(píng)分系統(tǒng)實(shí)時(shí)計(jì)算,每贏一次加分,輸了扣分。
![]()
7天前的總分榜單,Gemini-3-pro穩(wěn)居榜首
總得分匯總之后,還會(huì)公開不同類別的榜單:文本對話、網(wǎng)頁開發(fā)、視覺理解文本生成圖像、圖像編輯、搜索、甚至文本/圖像生成視頻。
在熱門類別里,Gemini-3-Pro在文本和視覺領(lǐng)域遙遙領(lǐng)先,Grok-4.1-thinking緊追不舍,而圖像編輯里GPT-Image-1.5和Gemini的變種輪流霸榜。
怎么一場「選秀比賽」能引得這些頂級(jí)模型下場?CEO Anastasios Angelopoulos揭開真相:
領(lǐng)先的AI公司用我們,是因?yàn)樗麄冏约憾己茈y判斷模型到底好不好。
還沒公開發(fā)布的新模型,都會(huì)偷偷托管到LMArena先測試一下,拿網(wǎng)友反饋快速更新迭代。
網(wǎng)友也不只是實(shí)驗(yàn)的小白鼠,甚至還有點(diǎn)爽——不用懂技術(shù),上手幾分鐘就能當(dāng)「全民制作人」,把喜歡的AI投上C位。
數(shù)百萬張票匯成熱搜排行,誰上誰下,全看網(wǎng)友心情。
「黑幕」質(zhì)疑與「付費(fèi)導(dǎo)師」的對決
選秀節(jié)目再火,也逃不過「黑幕」質(zhì)疑和粉絲撕X。LMArena同樣不例外——它一出道就卷入各種爭議,有人喊「太民主了」,有人罵「太亂了」。
吐槽最多的,是眾包投票容易被操縱。
2025年,一篇論文直接曝出黑幕:Meta在Llama 4發(fā)布前,偷偷提交了36個(gè)私有變體模型,反復(fù)測試「刷分」,成功gaming 排行榜。
![]()
研究者來自Cohere、Stanford、MIT等機(jī)構(gòu),直指頂級(jí)實(shí)驗(yàn)室能通過多次私測優(yōu)化,中小玩家根本玩不起。
類似指控還有:某些大公司被懷疑刷票或優(yōu)先托管新模型,讓排行榜看起來「偏心」。
還有人認(rèn)為,網(wǎng)民投票不夠?qū)I(yè)。隨便一個(gè)網(wǎng)友的票,怎么能跟專家比?
這就牽扯出最大競爭對手——Scale AI。Scale的評(píng)價(jià)方式完全不同:他們花大錢雇傭付費(fèi)專家,比如律師、教授、醫(yī)生,來給AI答案打分。
2025年9月,Scale直接推出「Seal Showdown」平臺(tái),公開叫板 LMArena,宣稱自己的方法更有代表性、更嚴(yán)謹(jǐn),避免了眾包的噪音和偏見。
![]()
聯(lián)合創(chuàng)始人Ion Stoica去年接受采訪時(shí)說過:
最高質(zhì)量的評(píng)估——黃金標(biāo)準(zhǔn)——就是讓人們在自己熟悉的話題上投票。
他們認(rèn)為,用戶對自家問題最懂,能給出最誠實(shí)的反饋;付費(fèi)專家反而可能有偏見或不接地氣。
而且,全球150國用戶的多樣性,讓排行榜更全面,避免了單一文化霸權(quán)。
爭議歸爭議,LMArena的排行榜還是成了行業(yè)事實(shí)標(biāo)準(zhǔn)——大公司照樣搶著上。
但選秀不會(huì)止步于打投,LMArena已經(jīng)在憋大招。
從排行榜到「AI經(jīng)紀(jì)公司」
選秀冠軍出道后,最興奮的莫過于「后續(xù)規(guī)劃」:開演唱會(huì)、拍綜藝、接代言,還是轉(zhuǎn)型演員?
LMArena也一樣它不滿足于只辦比賽,已經(jīng)在準(zhǔn)備進(jìn)化成AI界的「全能經(jīng)紀(jì)公司」。
新一輪1.5億美元融資,主要就是砸在這上面。
公司公告明確表示,資金將用于大規(guī)模擴(kuò)充計(jì)算資源、招聘頂級(jí)工程師,并推出企業(yè)級(jí)AI評(píng)估服務(wù)。
![]()
以后,LMArena不光讓網(wǎng)友玩盲測,還會(huì)為OpenAI、Google、xAI這樣的大廠提供付費(fèi)專業(yè)評(píng)估,幫他們跑模型、收集反饋、生成報(bào)告,甚至深度定制基準(zhǔn)測試。
LMArena在強(qiáng)化學(xué)習(xí)方向同樣野心勃勃。聯(lián)合創(chuàng)始人Ion Stoica早前就透露過,公司正考慮用海量用戶投票數(shù)據(jù)來訓(xùn)練AI模型——這就是傳說中的RLHF(Reinforcement Learning from Human Feedback,人類反饋強(qiáng)化學(xué)習(xí))。
把「好回答」當(dāng)獎(jiǎng)勵(lì)、「差回答」當(dāng)懲罰,讓AI像練習(xí)生苦練舞蹈一樣,不斷優(yōu)化自己。
投資者、Felicis合伙人Peter Deng在采訪中直言:
一旦成為事實(shí)上的基準(zhǔn)層,產(chǎn)品自然會(huì)擴(kuò)展。真正價(jià)值在于與AI實(shí)驗(yàn)室的深度合作——結(jié)合他們的內(nèi)部數(shù)據(jù)和我們的比較外部數(shù)據(jù)。”
這場「AI創(chuàng)造營」才剛剛開播,高潮還在后頭。
LMArena用三年時(shí)間證明了一個(gè)瘋狂的事實(shí)——在AI時(shí)代,眾包的力量能碾壓傳統(tǒng)專家,民主投票能成為最鋒利的標(biāo)尺。
更重要的是,它把我們從旁觀者變成了主角。你的每一張票,不只決定了今天的排行榜C位,還可能在悄無聲息中塑造明天的超級(jí)AI。
ChatGPT、Grok、Gemini……誰能持續(xù)霸榜,誰又會(huì)突然被黑馬反超,全看我們這些「全民制作人」的心情。
AI的未來不再遙遠(yuǎn),它就藏在你的下一票里。
參考資料:
https://www.theinformation.com/articles/ai-evaluation-startup-lmarena-valued-1-7-billion-new-funding-round?rc=epv9gi
文章來源:新智元。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.