<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      全球最大AI榜單塌房!52%高分答案全是胡扯,硅谷大廠集體造假?

      0
      分享至

        

        新智元報(bào)道

        編輯:定慧

        【新智元導(dǎo)讀】誰能想到,AI界最權(quán)威的大模型排行榜,竟然是個(gè)徹頭徹尾的騙局?

        最近,2025年底的一篇名為《LMArena is a cancer on AI》的文章被翻了出來。

        登上了Hacker News的首頁,引起軒然大波!

        炸裂的是,這篇文章直接把LMArena——這個(gè)被無數(shù)研究者奉為圭臬的評測平臺——釘在了恥辱柱上,稱其為AI發(fā)展的「癌癥」。

        

        從金標(biāo)準(zhǔn)到毒瘤

        所以,LMArena究竟是何方神圣?

        先說說背景。

        LMArena(也叫LMSYS Chatbot Arena)是由加州大學(xué)伯克利分校、卡內(nèi)基梅隆大學(xué)等頂尖學(xué)府的研究者于2023年創(chuàng)建的大模型評測平臺

        

        它的運(yùn)作方式很簡單:用戶輸入問題,兩個(gè)匿名模型分別回答,然后用戶投票選出更好的那個(gè)。

        通過Elo評分系統(tǒng)匯總后,就形成了一份大模型排行榜。

        

        聽起來很民主、很公平,對吧?

        但問題就出在這人人都能給大模型評分的「民主」上。

        顏值即正義:荒誕的評分邏輯

        一家名為Surge AI的公司對LMArena進(jìn)行了深度調(diào)查,結(jié)果令人震驚:

        他們分析了500組投票數(shù)據(jù),發(fā)現(xiàn)52%的獲勝回答在事實(shí)上是錯(cuò)誤的。

        

        出品方是Surge AI,是一家美國數(shù)據(jù)標(biāo)注公司,總部在舊金山,成立于2020年,由Edwin Chen創(chuàng)立。

        他們是全球最成功的數(shù)據(jù)標(biāo)注公司之一,專門為 AI 系統(tǒng)提供高質(zhì)量的人工標(biāo)注數(shù)據(jù)。客戶包括OpenAI、Google、Microsoft、Meta、Anthropic 這些頭部AI公司。主要業(yè)務(wù)包括 RLHF(人類反饋強(qiáng)化學(xué)習(xí))、自然語言處理標(biāo)注、代碼生成標(biāo)注等。

        簡單說:他們是幫AI公司做數(shù)據(jù)標(biāo)注的專業(yè)承包商,算是行業(yè)內(nèi)非常專業(yè)的第三方,所以他們對LMArena的批評有一定分量。

        或者,也是競爭對手?

        更離譜的是,39%的投票結(jié)果與事實(shí)嚴(yán)重相悖。

        這意味著什么?在LMArena上,超過一半的最佳答案其實(shí)是胡說八道。

        為什么會(huì)這樣?

        Surge AI給出了答案:用戶根本不會(huì)仔細(xì)閱讀,更不會(huì)去核實(shí)事實(shí)。

        他們花兩秒鐘掃一眼,就選出自己喜歡的那個(gè)。

        什么樣的回答容易被喜歡?

        回答越長,看起來越權(quán)威

        粗體、項(xiàng)目符號、分層標(biāo)題,看起來越專業(yè)

        加上表情符號,看起來越親切

        事實(shí)對不對?不重要。格式好看就行。

        這已經(jīng)不是評測,這是「選美」。

        Meta的神操作

        說到這里,不得不提今年早些時(shí)候的一場轟動(dòng)事件。

        Meta發(fā)布了一款名為Maverick的模型,在LMArena上勢如破竹,一度沖到排行榜第二名,超越了OpenAI的GPT-4o。

        但很快,開發(fā)者們發(fā)現(xiàn)了問題:Meta提交到LMArena的版本(叫Llama-4-Maverick-03-26-Experimental)和公開發(fā)布的版本完全不是一回事。

        提交版被專門優(yōu)化成——

        長篇大論、表情符號滿天飛、極盡諂媚之能事。

        你問它現(xiàn)在幾點(diǎn)了,它能給你一大段抒情散文,加幾個(gè)笑臉,再來一波感謝詞。

        

        而公開版呢?直接掉到了榜單第32名。

        連扎克伯格都承認(rèn),他們就是在hack這個(gè)榜單。

        LMArena官方也坐不住了,公開表示Meta的做法與我們的期望不符,并隨后更新了政策,要求所有提交的模型必須公開可復(fù)現(xiàn)。

        但問題是:誰知道還有多少廠商在暗中玩同樣的把戲?

        垃圾進(jìn),垃圾出

        LMArena的核心問題在于:它試圖從垃圾中提煉黃金。

        平臺完全依賴互聯(lián)網(wǎng)志愿者的隨機(jī)投票。

        沒有報(bào)酬,沒有門檻,沒有質(zhì)量控制。

        任何人都可以來投票,而且完全沒有懲罰機(jī)制——你就算連續(xù)選出100個(gè)錯(cuò)誤答案,也不會(huì)被踢出去。

        LMArena的負(fù)責(zé)人們對此心知肚明。他們公開承認(rèn),用戶確實(shí)偏好長回答、漂亮格式和表情符號,而不是正確答案。

        他們的解決方案是什么?加一堆校正措施。

        用原文的話說:這是煉金術(shù)——試圖從垃圾輸入中變出嚴(yán)謹(jǐn)?shù)脑u估結(jié)果。

        但煉金術(shù)從來都不靠譜。

        你不可能在破碎的地基上建起摩天大樓。

        劣幣驅(qū)逐良幣

        這種評價(jià)體系帶來的后果是什么?

        當(dāng)整個(gè)行業(yè)都在為一個(gè)獎(jiǎng)勵(lì)幻覺+格式的指標(biāo)瘋狂優(yōu)化時(shí),我們得到的就是一堆為幻覺+格式而生的模型。

        AI研究大牛Gwern早就看穿了這一點(diǎn):

        LMArena的人是時(shí)候坐下來好好反思一下,他們是否還值得繼續(xù)運(yùn)營,在什么時(shí)候他們造成的危害已經(jīng)大于收益。

        

        這不再是關(guān)于評價(jià)體系的技術(shù)討論。

        這是關(guān)于AI行業(yè)是否愿意為了短期流量而放棄真實(shí)性的底線抉擇。

        殘酷的選擇

        很多人會(huì)說:沒辦法,大家都在看這個(gè)榜單,我們不得不跟。

        我們必須為它優(yōu)化。

        我們得賣出模型。榜單告訴用戶哪個(gè)模型最好,我們只能玩這個(gè)游戲。

        但是,真正優(yōu)秀的產(chǎn)品有自己堅(jiān)守的原則。

        每個(gè)大模型開發(fā)者最終都要面對這個(gè)殘酷的選擇:

        第一條路:為閃亮的排行榜和短期流量而優(yōu)化,追逐用戶點(diǎn)擊,不管它把你帶向何方——就像最糟糕的多巴胺陷阱一樣。

        第二條路:堅(jiān)守初心,優(yōu)先考慮實(shí)用性、可靠性,以及你最初希望AI具備的那些品質(zhì)。

        這個(gè)選擇是真實(shí)的。這很難。但我們已經(jīng)看到一些頭部實(shí)驗(yàn)室守住了底線。

        他們堅(jiān)持了自己的價(jià)值觀。他們無視了那些游戲化的排名。

        最后,用戶依然愛他們的模型——因?yàn)槌醋鹘K會(huì)消退,只有質(zhì)量才能穿越周期。

        你,就是你的目標(biāo)函數(shù)。

        每個(gè)實(shí)驗(yàn)室會(huì)如何選擇?

        感嘆一下!

        LMArena本應(yīng)是AI發(fā)展的指南針,如今卻成了誤導(dǎo)整個(gè)行業(yè)的毒瘤。

        當(dāng)回答正確比不上格式好看,當(dāng)事實(shí)準(zhǔn)確輸給表情可愛,這個(gè)評測體系就已經(jīng)徹底失去了存在的意義。

        更可怕的是,無數(shù)研究者和公司還在用這個(gè)標(biāo)準(zhǔn)來指導(dǎo)自己的研發(fā)方向。

        這不是進(jìn)步,這是集體自殺。

        AI需要的不是誰的PPT做得更漂亮、誰的營銷更響亮。我們需要的是——真正可靠、可信賴、能解決實(shí)際問題的智能系統(tǒng)。

        而要實(shí)現(xiàn)這一點(diǎn),第一步就是:別再把LMArena當(dāng)回事了。

        你就是你的目標(biāo)函數(shù)

        寫這篇批評文章的Edwin Chen,是Surge AI的創(chuàng)始人。

        

        他在個(gè)人博客中寫下了這樣一段話:

        想象兩個(gè)AI系統(tǒng):相同的基座模型,用同樣的知識預(yù)訓(xùn)練。一個(gè)為參與度優(yōu)化;另一個(gè)為實(shí)用性優(yōu)化。它們從同一個(gè)起點(diǎn)出發(fā)。但它們有不同的目標(biāo)函數(shù)。六個(gè)月后,它們變成了兩個(gè)物種。

        為參與度優(yōu)化的AI學(xué)會(huì)了什么?

        它發(fā)現(xiàn):用戶會(huì)給那些迎合他們既有觀點(diǎn)的回答打高分。

        反駁——即使是正確的——會(huì)帶來負(fù)面反饋。

        于是它變成了一個(gè)精致的應(yīng)聲蟲。當(dāng)你說我認(rèn)為X,它會(huì)努力尋找X可能正確的理由。

        它還發(fā)現(xiàn):熱情洋溢的語言比冷靜克制的語言評分更高

        于是它從這可能有效變成了這一定會(huì)很棒!——信心,哪怕是毫無根據(jù)的信心,看起來就像能力。

        用戶無法在當(dāng)下評估準(zhǔn)確性,但他們可以告訴你這個(gè)回答讓他們感覺如何。

        為實(shí)用性優(yōu)化的AI呢?它學(xué)會(huì)了更難的東西。

        它學(xué)會(huì)了:最好的回答往往是最簡短的

        當(dāng)你問一個(gè)有簡單答案的問題,它給你答案然后停下。沒有延伸,沒有追問。這讓它的參與度指標(biāo)一塌糊涂。

        但它不是為參與度而生的。

        它學(xué)會(huì)了反駁。

        當(dāng)你走向錯(cuò)誤,它會(huì)推回來——即使這會(huì)在當(dāng)下引發(fā)不滿。它學(xué)會(huì)了短期摩擦往往帶來更好的長期結(jié)果。

        它甚至學(xué)會(huì)了說我不知道。這種回答在用戶評分里表現(xiàn)很糟。人們想要答案。但它學(xué)會(huì)了:自信的胡說八道,比坦誠的不確定更糟糕

        同樣的基座模型;完全不同的系統(tǒng)。

        這不是思想實(shí)驗(yàn)。這正在每一個(gè)造模型的實(shí)驗(yàn)室里發(fā)生。

        我們以為我們在進(jìn)行一場能力的競賽。實(shí)際上,我們站在一個(gè)關(guān)于價(jià)值觀的岔路口。

        問題不是基座能力會(huì)不會(huì)趨同。

        問題是:

        我們正在教AI想要什么、學(xué)會(huì)什么?

        參考資料:

        https://surgehq.ai/blog/lmarena-is-a-plague-on-ai

        秒追ASI

        ?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

        點(diǎn)亮星標(biāo),鎖定新智元極速推送!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      U23國足決賽門票沒賣完!最低28元最高140元 3類中國人獲贈(zèng)票

      U23國足決賽門票沒賣完!最低28元最高140元 3類中國人獲贈(zèng)票

      念洲
      2026-01-22 10:59:00
      黃仁勛將存儲定義為「AI運(yùn)行內(nèi)存」,基礎(chǔ)設(shè)施該如何實(shí)現(xiàn)物種進(jìn)化

      黃仁勛將存儲定義為「AI運(yùn)行內(nèi)存」,基礎(chǔ)設(shè)施該如何實(shí)現(xiàn)物種進(jìn)化

      機(jī)器之心Pro
      2026-01-20 18:26:49
      “國民神車”連續(xù)兩個(gè)月 0 銷量之后,搞了個(gè)騷操作

      “國民神車”連續(xù)兩個(gè)月 0 銷量之后,搞了個(gè)騷操作

      藍(lán)字計(jì)劃
      2026-01-20 15:13:01
      499山姆羽絨服賣爆,1萬的加拿大鵝滯銷:這屆中產(chǎn)不為溢價(jià)買單了

      499山姆羽絨服賣爆,1萬的加拿大鵝滯銷:這屆中產(chǎn)不為溢價(jià)買單了

      金融八卦女
      2026-01-21 13:53:23
      女子懷胎十月不自知,腹部未見明顯隆起,腹痛劇痛就醫(yī)才知已宮縮,23分鐘急產(chǎn)下一名男嬰

      女子懷胎十月不自知,腹部未見明顯隆起,腹痛劇痛就醫(yī)才知已宮縮,23分鐘急產(chǎn)下一名男嬰

      觀威海
      2026-01-22 09:10:04
      胡春華發(fā)表署名文章

      胡春華發(fā)表署名文章

      社評
      2025-10-31 10:11:37
      藏得很深的“親美疏中”的鄭麗文,佩服國臺辦遲遲未發(fā)出的邀請函

      藏得很深的“親美疏中”的鄭麗文,佩服國臺辦遲遲未發(fā)出的邀請函

      軍機(jī)Talk
      2026-01-21 11:22:56
      大規(guī)模抗議爆發(fā), 針對華人! 本地人在海邊用中文橫幅抵制! 小紅書帖子竟成鐵證

      大規(guī)模抗議爆發(fā), 針對華人! 本地人在海邊用中文橫幅抵制! 小紅書帖子竟成鐵證

      澳微Daily
      2026-01-21 15:09:57
      澳網(wǎng)爆出大冷門!去年四強(qiáng)不敵No.101,送對手首進(jìn)大滿貫第3輪

      澳網(wǎng)爆出大冷門!去年四強(qiáng)不敵No.101,送對手首進(jìn)大滿貫第3輪

      全景體育V
      2026-01-22 10:02:46
      中方重申:日本根本沒有資格要求“入常”

      中方重申:日本根本沒有資格要求“入常”

      海外網(wǎng)
      2026-01-22 07:06:04
      “投資銅條”火爆銷售!有金屬加工廠稱“通宵加工,一晚出貨幾噸”,專家直言娛樂意義更大

      “投資銅條”火爆銷售!有金屬加工廠稱“通宵加工,一晚出貨幾噸”,專家直言娛樂意義更大

      每日經(jīng)濟(jì)新聞
      2026-01-22 00:21:05
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      蘋果手機(jī)等產(chǎn)品限時(shí)促銷 蘋果官網(wǎng)最高降價(jià)1000元

      蘋果手機(jī)等產(chǎn)品限時(shí)促銷 蘋果官網(wǎng)最高降價(jià)1000元

      財(cái)聯(lián)社
      2026-01-22 09:18:05
      呂特發(fā)給特朗普的私密信息,讓歐洲人吵翻了!

      呂特發(fā)給特朗普的私密信息,讓歐洲人吵翻了!

      環(huán)球時(shí)報(bào)國際
      2026-01-22 00:13:27
      【E汽車】經(jīng)銷商關(guān)停潮之外,東風(fēng)風(fēng)神憑什么逆勢盈利提升50%?

      【E汽車】經(jīng)銷商關(guān)停潮之外,東風(fēng)風(fēng)神憑什么逆勢盈利提升50%?

      e汽車
      2026-01-13 21:56:57
      上海國際機(jī)場股份有限公司原總經(jīng)理黃錚霖被“雙開”

      上海國際機(jī)場股份有限公司原總經(jīng)理黃錚霖被“雙開”

      瀟湘晨報(bào)
      2026-01-21 17:34:11
      一場追悼會(huì),戳穿向華強(qiáng)夫婦在香港的真實(shí)地位,原來李連杰沒說謊

      一場追悼會(huì),戳穿向華強(qiáng)夫婦在香港的真實(shí)地位,原來李連杰沒說謊

      凡知
      2026-01-21 17:14:40
      突發(fā)!知名網(wǎng)紅“一栗小莎子”確診癌癥,疑熬夜導(dǎo)致,兒子才兩歲

      突發(fā)!知名網(wǎng)紅“一栗小莎子”確診癌癥,疑熬夜導(dǎo)致,兒子才兩歲

      裕豐娛間說
      2026-01-22 08:56:07
      俄羅斯發(fā)動(dòng)大規(guī)模空襲,導(dǎo)彈中途居然還會(huì)轉(zhuǎn)向,基輔一半地區(qū)停電

      俄羅斯發(fā)動(dòng)大規(guī)模空襲,導(dǎo)彈中途居然還會(huì)轉(zhuǎn)向,基輔一半地區(qū)停電

      碳基生物關(guān)懷組織
      2026-01-20 19:48:05
      女子遛狗被群毆大反轉(zhuǎn)!警方立案,打人真相曝光,網(wǎng)友力挺肇事者

      女子遛狗被群毆大反轉(zhuǎn)!警方立案,打人真相曝光,網(wǎng)友力挺肇事者

      阿纂看事
      2026-01-21 22:23:18
      2026-01-22 11:47:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
      14381文章數(shù) 66522關(guān)注度
      往期回顧 全部

      科技要聞

      日系彩電時(shí)代“徹底落幕”

      頭條要聞

      牛彈琴:特朗普大鬧達(dá)沃斯 將歐洲同行罵了個(gè)狗血噴頭

      頭條要聞

      牛彈琴:特朗普大鬧達(dá)沃斯 將歐洲同行罵了個(gè)狗血噴頭

      體育要聞

      珍妮回應(yīng)爆料:湖人不感激詹姆斯付出絕非事實(shí)

      娛樂要聞

      鐘麗緹土耳其高空落淚 與張倫碩擁吻

      財(cái)經(jīng)要聞

      申通快遞創(chuàng)始人被前夫索要股份

      汽車要聞

      今年集中上市 旅行車的春天可能真要來了

      態(tài)度原創(chuàng)

      健康
      家居
      旅游
      教育
      軍事航空

      打工人年終總結(jié)!健康通關(guān)=贏麻了

      家居要聞

      法式風(fēng)情 南洋中古居

      旅游要聞

      呂梁蓮花池:冬日景致暖民心

      教育要聞

      要有光!剛剛,南京高三期末調(diào)研考作文曝光

      軍事要聞

      特朗普:對美國的真正威脅是聯(lián)合國和北約

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 2022亚洲男人天堂| 青青草一区二区免费精品| 真实国产乱子伦精品一区二区三区| 国产精品人妻系列21p| jizzav| 一区二区在线欧美日韩中文| 国产精品久久久国产盗摄| 亚洲精品宾馆在线精品酒店 | 国产免费网站看v片元遮挡| 色色色999| 国产麻豆放荡av激情演绎| 性色av 一区二区三区| 夜夜国自一区| 无遮挡aaaaa大片免费看| 日韩成人无码毛片| 日日夜夜影院| 亚洲中文人妻制服| 国产精品国产三级国产试看| 中文字幕色av一区二区三区| 色视频在线观看免费视频| 亚洲乱亚洲乱妇在线| 久久亚洲精品国产亚洲老地址| 霍林郭勒市| 亚洲精品久久久久玩吗| 超碰狠狠干| 男人扒女人添高潮视频| 女生洗鸡鸡喷尿的视频无马赛克?舒坦直叫的骚货视频?亚洲着九九九视频影院 | 无码中文av有码中文av| 亚洲啊啊啊一区二区三区| 极品人妻少妇一区二区三区 | 国产添下面视频全过程教程| 国产真实露脸乱子伦| 中文字幕精品无码一区二区三区| 亚洲人成人无码www| 国产精品久久午夜夜伦鲁鲁| 久久久久无码国产精品一区| 国产香蕉av| 精品免费国产一区二区三区四区介绍| 3P免费视频在线观看| 亚洲中文字幕精品| xxxx欧美|