網(wǎng)民票選AI王者，LMArena一夜變17億美元獨(dú)角獸！

2026-01-29 17:57:59　來源: 算法與數(shù)學(xué)之美

北京舉報(bào)

分享至

一場AI界的《創(chuàng)造101》火了！LMArena讓你盲投選出最強(qiáng)AI，三年從校園項(xiàng)目逆襲，剛剛?cè)?.5億美元，估值飆到17億美元。眾包投票挑戰(zhàn)專家權(quán)威，爭議四起，卻已成行業(yè)標(biāo)桿。你的票，就能決定下一個(gè)AI頂流！

一場AI界的《創(chuàng)造101》火了！

ChatGPT、Claude、Gemini、Grok等一眾AI「練習(xí)生」整齊站好，緊張等待公演。

這不是選秀節(jié)目，而是真實(shí)發(fā)生在lmarena.ai上的AI大亂斗。

這個(gè)曾經(jīng)的校園開源小項(xiàng)目，最近剛?cè)诘?.5億美元，估值17億美元。

頂級(jí)AI實(shí)驗(yàn)室如OpenAI、Google、xAI、Microsoft，都搶著把自家模型送來「試鏡」。

現(xiàn)在，AI強(qiáng)弱不再是大公司自己說了算，決定權(quán)掌握在全球網(wǎng)民手上。

這場「AI創(chuàng)造營」到底怎么玩？誰會(huì)成為下一個(gè)出道頂流？讓我們一起揭秘。

LMArena的「選秀起源」

從校園項(xiàng)目到硅谷舞臺(tái)

一切要從2023年說起。當(dāng)時(shí)，加州大學(xué)伯克利分校Sky Computing Lab里，一群研究生和教授搞了個(gè)開源小項(xiàng)目，叫Chatbot Arena。

創(chuàng)始人包括伯克利計(jì)算機(jī)科學(xué)教授Ion Stoica（Databricks聯(lián)合創(chuàng)始人）、研究生Anastasios Angelopoulos（現(xiàn)CEO）和Wei-Lin Chiang（現(xiàn)CTO）。

他們最初只是想做一個(gè)簡單實(shí)驗(yàn)：讓網(wǎng)友匿名比拼不同AI聊天機(jī)器人，看哪個(gè)回答更好。

沒想到，這個(gè)項(xiàng)目一上線就火了，迅速變成AI圈最受歡迎的眾包基準(zhǔn)平臺(tái)。

短短三年時(shí)間，Chatbot Arena就積累了海量用戶。2025年5月，它正式轉(zhuǎn)為營利性公司，更名為LMArena，并完成1億美元種子輪融資，估值6億美元。

轉(zhuǎn)折點(diǎn)發(fā)生在2026年1月6日——就在昨天！

LMArena宣布完成1.5億美元新一輪融資，由Felicis和加州大學(xué)投資臂聯(lián)合領(lǐng)投，Andreessen Horowitz、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners等明星機(jī)構(gòu)跟投。

公司估值直接飆升到17億美元，總?cè)谫Y額超過2.5億美元！

如今，LMArena已經(jīng)擁有超過500萬月活躍用戶，覆蓋150個(gè)國家，每月產(chǎn)生超過6000萬次對話。

這些用戶像是投票的「全民制作人」。連最頂級(jí)AI實(shí)驗(yàn)室，都把自家最新模型悄悄送來PK。

從一個(gè)學(xué)術(shù)小實(shí)驗(yàn)，到硅谷新貴，LMArena用三年時(shí)間完成了許多選秀冠軍都羨慕的逆襲。

但真正讓它火起來的秘密武器，正是那個(gè)簡單卻上癮的「盲盒PK」投票機(jī)制。

盲盒PK與網(wǎng)民投票

「全民制作人」的權(quán)利游戲

選秀節(jié)目的高潮，是舞臺(tái)公演和現(xiàn)場打投。LMArena的「公演舞臺(tái)」也一樣刺激：它叫Arena模式，核心就是一個(gè)字——盲！

打開lmarena.ai，進(jìn)入戰(zhàn)斗模式，隨便輸入一個(gè)問題，系統(tǒng)開始隨機(jī)匹配兩個(gè)匿名AI模型，同時(shí)給出答案。

你不知道是誰生成的，只能憑感覺投票。投完票，網(wǎng)站才會(huì)揭曉：哦，原來左邊是Gemini-3-Pro，右邊是Grok-4.1！

這種形式很像拆盲盒——公平又上癮。

總得票數(shù)也算入評(píng)分體系。LMArena用Elo評(píng)分系統(tǒng)實(shí)時(shí)計(jì)算，每贏一次加分，輸了扣分。

7天前的總分榜單，Gemini-3-pro穩(wěn)居榜首

總得分匯總之后，還會(huì)公開不同類別的榜單：文本對話、網(wǎng)頁開發(fā)、視覺理解文本生成圖像、圖像編輯、搜索、甚至文本/圖像生成視頻。

在熱門類別里，Gemini-3-Pro在文本和視覺領(lǐng)域遙遙領(lǐng)先，Grok-4.1-thinking緊追不舍，而圖像編輯里GPT-Image-1.5和Gemini的變種輪流霸榜。

怎么一場「選秀比賽」能引得這些頂級(jí)模型下場？CEO Anastasios Angelopoulos揭開真相：

領(lǐng)先的AI公司用我們，是因?yàn)樗麄冏约憾己茈y判斷模型到底好不好。

還沒公開發(fā)布的新模型，都會(huì)偷偷托管到LMArena先測試一下，拿網(wǎng)友反饋快速更新迭代。

網(wǎng)友也不只是實(shí)驗(yàn)的小白鼠，甚至還有點(diǎn)爽——不用懂技術(shù)，上手幾分鐘就能當(dāng)「全民制作人」，把喜歡的AI投上C位。

數(shù)百萬張票匯成熱搜排行，誰上誰下，全看網(wǎng)友心情。

「黑幕」質(zhì)疑與「付費(fèi)導(dǎo)師」的對決

選秀節(jié)目再火，也逃不過「黑幕」質(zhì)疑和粉絲撕X。LMArena同樣不例外——它一出道就卷入各種爭議，有人喊「太民主了」，有人罵「太亂了」。

吐槽最多的，是眾包投票容易被操縱。

2025年，一篇論文直接曝出黑幕：Meta在Llama 4發(fā)布前，偷偷提交了36個(gè)私有變體模型，反復(fù)測試「刷分」，成功gaming 排行榜。

研究者來自Cohere、Stanford、MIT等機(jī)構(gòu)，直指頂級(jí)實(shí)驗(yàn)室能通過多次私測優(yōu)化，中小玩家根本玩不起。

類似指控還有：某些大公司被懷疑刷票或優(yōu)先托管新模型，讓排行榜看起來「偏心」。

還有人認(rèn)為，網(wǎng)民投票不夠?qū)I(yè)。隨便一個(gè)網(wǎng)友的票，怎么能跟專家比？

這就牽扯出最大競爭對手——Scale AI。Scale的評(píng)價(jià)方式完全不同：他們花大錢雇傭付費(fèi)專家，比如律師、教授、醫(yī)生，來給AI答案打分。

2025年9月，Scale直接推出「Seal Showdown」平臺(tái)，公開叫板 LMArena，宣稱自己的方法更有代表性、更嚴(yán)謹(jǐn)，避免了眾包的噪音和偏見。

聯(lián)合創(chuàng)始人Ion Stoica去年接受采訪時(shí)說過：

最高質(zhì)量的評(píng)估——黃金標(biāo)準(zhǔn)——就是讓人們在自己熟悉的話題上投票。

他們認(rèn)為，用戶對自家問題最懂，能給出最誠實(shí)的反饋；付費(fèi)專家反而可能有偏見或不接地氣。

而且，全球150國用戶的多樣性，讓排行榜更全面，避免了單一文化霸權(quán)。

爭議歸爭議，LMArena的排行榜還是成了行業(yè)事實(shí)標(biāo)準(zhǔn)——大公司照樣搶著上。

但選秀不會(huì)止步于打投，LMArena已經(jīng)在憋大招。

從排行榜到「AI經(jīng)紀(jì)公司」

選秀冠軍出道后，最興奮的莫過于「后續(xù)規(guī)劃」：開演唱會(huì)、拍綜藝、接代言，還是轉(zhuǎn)型演員？

LMArena也一樣它不滿足于只辦比賽，已經(jīng)在準(zhǔn)備進(jìn)化成AI界的「全能經(jīng)紀(jì)公司」。

新一輪1.5億美元融資，主要就是砸在這上面。

公司公告明確表示，資金將用于大規(guī)模擴(kuò)充計(jì)算資源、招聘頂級(jí)工程師，并推出企業(yè)級(jí)AI評(píng)估服務(wù)。

以后，LMArena不光讓網(wǎng)友玩盲測，還會(huì)為OpenAI、Google、xAI這樣的大廠提供付費(fèi)專業(yè)評(píng)估，幫他們跑模型、收集反饋、生成報(bào)告，甚至深度定制基準(zhǔn)測試。

LMArena在強(qiáng)化學(xué)習(xí)方向同樣野心勃勃。聯(lián)合創(chuàng)始人Ion Stoica早前就透露過，公司正考慮用海量用戶投票數(shù)據(jù)來訓(xùn)練AI模型——這就是傳說中的RLHF（Reinforcement Learning from Human Feedback，人類反饋強(qiáng)化學(xué)習(xí)）。

把「好回答」當(dāng)獎(jiǎng)勵(lì)、「差回答」當(dāng)懲罰，讓AI像練習(xí)生苦練舞蹈一樣，不斷優(yōu)化自己。

投資者、Felicis合伙人Peter Deng在采訪中直言：

一旦成為事實(shí)上的基準(zhǔn)層，產(chǎn)品自然會(huì)擴(kuò)展。真正價(jià)值在于與AI實(shí)驗(yàn)室的深度合作——結(jié)合他們的內(nèi)部數(shù)據(jù)和我們的比較外部數(shù)據(jù)。”

這場「AI創(chuàng)造營」才剛剛開播，高潮還在后頭。

LMArena用三年時(shí)間證明了一個(gè)瘋狂的事實(shí)——在AI時(shí)代，眾包的力量能碾壓傳統(tǒng)專家，民主投票能成為最鋒利的標(biāo)尺。

更重要的是，它把我們從旁觀者變成了主角。你的每一張票，不只決定了今天的排行榜C位，還可能在悄無聲息中塑造明天的超級(jí)AI。

ChatGPT、Grok、Gemini……誰能持續(xù)霸榜，誰又會(huì)突然被黑馬反超，全看我們這些「全民制作人」的心情。

AI的未來不再遙遠(yuǎn)，它就藏在你的下一票里。

參考資料：

https://www.theinformation.com/articles/ai-evaluation-startup-lmarena-valued-1-7-billion-new-funding-round?rc=epv9gi

文章來源：新智元。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.