![]()
新智元報(bào)道
編輯:定慧
【新智元導(dǎo)讀】誰能想到,AI界最權(quán)威的大模型排行榜,竟然是個(gè)徹頭徹尾的騙局?
最近,2025年底的一篇名為《LMArena is a cancer on AI》的文章被翻了出來。
登上了Hacker News的首頁,引起軒然大波!
炸裂的是,這篇文章直接把LMArena——這個(gè)被無數(shù)研究者奉為圭臬的評測平臺——釘在了恥辱柱上,稱其為AI發(fā)展的「癌癥」。
![]()
從金標(biāo)準(zhǔn)到毒瘤
所以,LMArena究竟是何方神圣?
先說說背景。
LMArena(也叫LMSYS Chatbot Arena)是由加州大學(xué)伯克利分校、卡內(nèi)基梅隆大學(xué)等頂尖學(xué)府的研究者于2023年創(chuàng)建的大模型評測平臺。
![]()
它的運(yùn)作方式很簡單:用戶輸入問題,兩個(gè)匿名模型分別回答,然后用戶投票選出更好的那個(gè)。
通過Elo評分系統(tǒng)匯總后,就形成了一份大模型排行榜。
![]()
聽起來很民主、很公平,對吧?
但問題就出在這人人都能給大模型評分的「民主」上。
顏值即正義:荒誕的評分邏輯
一家名為Surge AI的公司對LMArena進(jìn)行了深度調(diào)查,結(jié)果令人震驚:
他們分析了500組投票數(shù)據(jù),發(fā)現(xiàn)52%的獲勝回答在事實(shí)上是錯(cuò)誤的。
![]()
出品方是Surge AI,是一家美國數(shù)據(jù)標(biāo)注公司,總部在舊金山,成立于2020年,由Edwin Chen創(chuàng)立。
他們是全球最成功的數(shù)據(jù)標(biāo)注公司之一,專門為 AI 系統(tǒng)提供高質(zhì)量的人工標(biāo)注數(shù)據(jù)。客戶包括OpenAI、Google、Microsoft、Meta、Anthropic 這些頭部AI公司。主要業(yè)務(wù)包括 RLHF(人類反饋強(qiáng)化學(xué)習(xí))、自然語言處理標(biāo)注、代碼生成標(biāo)注等。
簡單說:他們是幫AI公司做數(shù)據(jù)標(biāo)注的專業(yè)承包商,算是行業(yè)內(nèi)非常專業(yè)的第三方,所以他們對LMArena的批評有一定分量。
或者,也是競爭對手?
更離譜的是,39%的投票結(jié)果與事實(shí)嚴(yán)重相悖。
這意味著什么?在LMArena上,超過一半的最佳答案其實(shí)是胡說八道。
為什么會(huì)這樣?
Surge AI給出了答案:用戶根本不會(huì)仔細(xì)閱讀,更不會(huì)去核實(shí)事實(shí)。
他們花兩秒鐘掃一眼,就選出自己喜歡的那個(gè)。
什么樣的回答容易被喜歡?
回答越長,看起來越權(quán)威
粗體、項(xiàng)目符號、分層標(biāo)題,看起來越專業(yè)
加上表情符號,看起來越親切
事實(shí)對不對?不重要。格式好看就行。
這已經(jīng)不是評測,這是「選美」。
Meta的神操作
說到這里,不得不提今年早些時(shí)候的一場轟動(dòng)事件。
Meta發(fā)布了一款名為Maverick的模型,在LMArena上勢如破竹,一度沖到排行榜第二名,超越了OpenAI的GPT-4o。
但很快,開發(fā)者們發(fā)現(xiàn)了問題:Meta提交到LMArena的版本(叫Llama-4-Maverick-03-26-Experimental)和公開發(fā)布的版本完全不是一回事。
提交版被專門優(yōu)化成——
長篇大論、表情符號滿天飛、極盡諂媚之能事。
你問它現(xiàn)在幾點(diǎn)了,它能給你一大段抒情散文,加幾個(gè)笑臉,再來一波感謝詞。
![]()
而公開版呢?直接掉到了榜單第32名。
連扎克伯格都承認(rèn),他們就是在hack這個(gè)榜單。
LMArena官方也坐不住了,公開表示Meta的做法與我們的期望不符,并隨后更新了政策,要求所有提交的模型必須公開可復(fù)現(xiàn)。
但問題是:誰知道還有多少廠商在暗中玩同樣的把戲?
垃圾進(jìn),垃圾出
LMArena的核心問題在于:它試圖從垃圾中提煉黃金。
平臺完全依賴互聯(lián)網(wǎng)志愿者的隨機(jī)投票。
沒有報(bào)酬,沒有門檻,沒有質(zhì)量控制。
任何人都可以來投票,而且完全沒有懲罰機(jī)制——你就算連續(xù)選出100個(gè)錯(cuò)誤答案,也不會(huì)被踢出去。
LMArena的負(fù)責(zé)人們對此心知肚明。他們公開承認(rèn),用戶確實(shí)偏好長回答、漂亮格式和表情符號,而不是正確答案。
他們的解決方案是什么?加一堆校正措施。
用原文的話說:這是煉金術(shù)——試圖從垃圾輸入中變出嚴(yán)謹(jǐn)?shù)脑u估結(jié)果。
但煉金術(shù)從來都不靠譜。
你不可能在破碎的地基上建起摩天大樓。
劣幣驅(qū)逐良幣
這種評價(jià)體系帶來的后果是什么?
當(dāng)整個(gè)行業(yè)都在為一個(gè)獎(jiǎng)勵(lì)幻覺+格式的指標(biāo)瘋狂優(yōu)化時(shí),我們得到的就是一堆為幻覺+格式而生的模型。
AI研究大牛Gwern早就看穿了這一點(diǎn):
LMArena的人是時(shí)候坐下來好好反思一下,他們是否還值得繼續(xù)運(yùn)營,在什么時(shí)候他們造成的危害已經(jīng)大于收益。
![]()
這不再是關(guān)于評價(jià)體系的技術(shù)討論。
這是關(guān)于AI行業(yè)是否愿意為了短期流量而放棄真實(shí)性的底線抉擇。
殘酷的選擇
很多人會(huì)說:沒辦法,大家都在看這個(gè)榜單,我們不得不跟。
我們必須為它優(yōu)化。
我們得賣出模型。榜單告訴用戶哪個(gè)模型最好,我們只能玩這個(gè)游戲。
但是,真正優(yōu)秀的產(chǎn)品有自己堅(jiān)守的原則。
每個(gè)大模型開發(fā)者最終都要面對這個(gè)殘酷的選擇:
第一條路:為閃亮的排行榜和短期流量而優(yōu)化,追逐用戶點(diǎn)擊,不管它把你帶向何方——就像最糟糕的多巴胺陷阱一樣。
第二條路:堅(jiān)守初心,優(yōu)先考慮實(shí)用性、可靠性,以及你最初希望AI具備的那些品質(zhì)。
這個(gè)選擇是真實(shí)的。這很難。但我們已經(jīng)看到一些頭部實(shí)驗(yàn)室守住了底線。
他們堅(jiān)持了自己的價(jià)值觀。他們無視了那些游戲化的排名。
最后,用戶依然愛他們的模型——因?yàn)槌醋鹘K會(huì)消退,只有質(zhì)量才能穿越周期。
你,就是你的目標(biāo)函數(shù)。
每個(gè)實(shí)驗(yàn)室會(huì)如何選擇?
感嘆一下!
LMArena本應(yīng)是AI發(fā)展的指南針,如今卻成了誤導(dǎo)整個(gè)行業(yè)的毒瘤。
當(dāng)回答正確比不上格式好看,當(dāng)事實(shí)準(zhǔn)確輸給表情可愛,這個(gè)評測體系就已經(jīng)徹底失去了存在的意義。
更可怕的是,無數(shù)研究者和公司還在用這個(gè)標(biāo)準(zhǔn)來指導(dǎo)自己的研發(fā)方向。
這不是進(jìn)步,這是集體自殺。
AI需要的不是誰的PPT做得更漂亮、誰的營銷更響亮。我們需要的是——真正可靠、可信賴、能解決實(shí)際問題的智能系統(tǒng)。
而要實(shí)現(xiàn)這一點(diǎn),第一步就是:別再把LMArena當(dāng)回事了。
你就是你的目標(biāo)函數(shù)
寫這篇批評文章的Edwin Chen,是Surge AI的創(chuàng)始人。
![]()
他在個(gè)人博客中寫下了這樣一段話:
想象兩個(gè)AI系統(tǒng):相同的基座模型,用同樣的知識預(yù)訓(xùn)練。一個(gè)為參與度優(yōu)化;另一個(gè)為實(shí)用性優(yōu)化。它們從同一個(gè)起點(diǎn)出發(fā)。但它們有不同的目標(biāo)函數(shù)。六個(gè)月后,它們變成了兩個(gè)物種。
為參與度優(yōu)化的AI學(xué)會(huì)了什么?
它發(fā)現(xiàn):用戶會(huì)給那些迎合他們既有觀點(diǎn)的回答打高分。
反駁——即使是正確的——會(huì)帶來負(fù)面反饋。
于是它變成了一個(gè)精致的應(yīng)聲蟲。當(dāng)你說我認(rèn)為X,它會(huì)努力尋找X可能正確的理由。
它還發(fā)現(xiàn):熱情洋溢的語言比冷靜克制的語言評分更高。
于是它從這可能有效變成了這一定會(huì)很棒!——信心,哪怕是毫無根據(jù)的信心,看起來就像能力。
用戶無法在當(dāng)下評估準(zhǔn)確性,但他們可以告訴你這個(gè)回答讓他們感覺如何。
為實(shí)用性優(yōu)化的AI呢?它學(xué)會(huì)了更難的東西。
它學(xué)會(huì)了:最好的回答往往是最簡短的。
當(dāng)你問一個(gè)有簡單答案的問題,它給你答案然后停下。沒有延伸,沒有追問。這讓它的參與度指標(biāo)一塌糊涂。
但它不是為參與度而生的。
它學(xué)會(huì)了反駁。
當(dāng)你走向錯(cuò)誤,它會(huì)推回來——即使這會(huì)在當(dāng)下引發(fā)不滿。它學(xué)會(huì)了短期摩擦往往帶來更好的長期結(jié)果。
它甚至學(xué)會(huì)了說我不知道。這種回答在用戶評分里表現(xiàn)很糟。人們想要答案。但它學(xué)會(huì)了:自信的胡說八道,比坦誠的不確定更糟糕。
同樣的基座模型;完全不同的系統(tǒng)。
這不是思想實(shí)驗(yàn)。這正在每一個(gè)造模型的實(shí)驗(yàn)室里發(fā)生。
我們以為我們在進(jìn)行一場能力的競賽。實(shí)際上,我們站在一個(gè)關(guān)于價(jià)值觀的岔路口。
問題不是基座能力會(huì)不會(huì)趨同。
問題是:
我們正在教AI想要什么、學(xué)會(huì)什么?
參考資料:
https://surgehq.ai/blog/lmarena-is-a-plague-on-ai
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.