<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LLM-as-a-judge有30%評測偏差?這篇論文給出修復方案

      0
      分享至

      用LLM給LLM打分,這個看起來很聰明的做法正在讓AI評估變得不可靠。KRAFTON AI的這個工作直指當前LLM評估體系的軟肋:作為評判者的語言模型本身就帶有系統性偏差,而這種偏差在Chatbot Arena等主流基準測試中可以達到30%左右。也就是說排行榜上那些令人興奮的性能提升,有相當一部分可能是評估方法的偏差。

      評判機制的運作方式

      LLM-as-a-judge就是讓一個語言模型去評價另一個模型的輸出,典型的prompt類似于"這個回答正確嗎"或者"兩個回答哪個更好"。評判者返回分數或偏好,匯總后得到準確率、勝率之類的指標。

      這套流程看著非常完美:人工標注既慢又貴,尤其對話、摘要、創意寫作這類開放式任務更是如此,而LLM評判者成本低、速度快、輸出穩定,還能給出看起來很有說服力的理由。

      所以LLM-as-a-judge已經成了事實上的行業標準,Chatbot Arena用它、無數論文也用它。

      偏差從何而來

      語言模型做評估時會犯錯,但問題不在于犯錯本身而在于錯誤不是隨機的它們有規律可循。

      論文用兩個經典統計指標來刻畫這一點:敏感性(q?)表示正確識別好輸出的概率,特異性(q?)表示正確識別差輸出的概率,理想情況下兩者都等于1而實際卻從來不是。

      多數評估直接把評判者標記的"正確"比例當作真實性能,但除非評判者是完美的否則這個觀察值就是有偏估計。

      我們舉個例子:假設評判者對好答案和差答案各有20%的錯誤率,即便誤差對稱估計出的準確率也會是真實值的扭曲版本。這樣差模型被高估而好模型被低估,而且不同論文用不同評判者,比較就徹底失去意義。

      論文里面說在Chatbot Arena數據集上未經校正的偏差接近30%,這個量級足以把一個真正的進步變成看起來的退步或者反過來。

      無標簽數據也不是免費午餐

      我們都會認為觀點認為:只要評判者夠強,無標簽數據就能替代標注數據,這樣測試集規模上去了就會消除這個誤差。

      而這篇論文對此給出了干脆的否定:如果沒有標簽來直接測準確率就必須有標簽來校準評判者。真實值繞不開,只是換了個使用方式。

      如果不做校準模型質量和評判者偏差就分不開,只有做了校準才能分離二者。于是就有了一個實際的資源分配問題:如果給定固定的標注預算,是全部用于直接評估模型還是拿一小部分校準評判者、然后在大規模無標簽集上評估?

      適用邊界在哪里

      這個問題可以清晰的通過統計學進行回答:

      當系統真實準確率在50%附近時直接人工評估的方差最大,需要大量標簽才能得到可靠估計。這時候校準過的LLM評判者配合海量無標簽數據效率確實更高。

      但當系統已經很強或很弱,比如準確率接近0或1那么直接評估反而更好,估計極端概率本身就容易,評判者校準只會引入額外不確定性。

      所以說:LLM-as-a-judge是條件性工具,并且只在特定區間有效盲目套用則適得其反。

      校正方法



      論文借鑒了流行病學中的Rogan-Gladen估計器。原理如下:先在一小批有標簽的樣本上測出評判者與人類的一致率得到敏感性和特異性的估計值;然后用這兩個參數對觀察到的分數做數學校正剝離評判者的系統性誤差。

      結果得到了無偏估計,跨多個模型和基準的實驗顯示校正后大幅偏差基本消失,并且在某些在樸素評估下看起來穩定的排名校正后發生了逆轉。

      不確定性量化

      校正偏差只是第一步,正確的評估還需要報告評估的不確定性。論文給出的置信區間構造方法考慮了兩個方差來源:測試集評估的隨機性,以及校準集估計誤差率的隨機性。

      采用帶穩定性調整的修正Wald方法后,模擬實驗中實現了接近名義的覆蓋率——報告95%區間時,真值落在其中的頻率確實約為95%。

      大量AI論文隱含地宣稱確定性而實際上并不存在。兩個百分點的改進,如果置信區間重疊哪就什么都不是。嚴格的區間能遏制過度宣稱給炒作降溫。

      自適應校準策略

      論文還有個微妙的發現:不同位置的校準標簽價值不等。



      錯誤率在0.5附近時方差最大需要更多樣本才能估準。作者提出自適應方案是先跑小規模試點校準,定位不確定性最高的區域,再把剩余標注預算集中投向那里。

      實測效果是置信區間縮短10%到20%,好的評估是數據量和數據質量的平衡。

      分布偏移下的表現

      現實中校準數據和測試數據往往存在差異,很多現有方法比如prediction-powered inference依賴嚴格的同分布假設,如果假設破了保證也就沒了。



      論文框架只要求評判者的混淆矩陣保持穩定,在模擬的分布偏移場景下,它維持了無偏性而對照方法失效。



      這種泛化性對快速迭代的基準測試尤其有價值:分布漂移是常態不是例外。

      總結

      LLM-as-a-judge是個好想法但它的統計基礎一直沒跟上,而這項工作證明自動化評估可以既可擴展又可靠,但是前提是要承認局限、校正偏差。

      評估方法應該和模型架構得到同等重視:縮放定律再漂亮、訓練技巧再巧妙,測量本身出了問題就全白搭。校準不是可選項而是基礎設施級別的需求,如果打算用自動評判者就得為正確使用它分配資源。

      而且并非所有任務都適合LLM評判,比如創意性、模糊性強的任務可能從校準后的自動化中獲益;數學推理、事實核查這類精確領域,黃金標準標簽仍然是剛需。

      論文:

      https://avoid.overfit.cn/post/17bc4cc132b4453daed96e931c74b6b8

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      歐爾班宣布反制措施:在我們耗盡石油之前,烏克蘭人將先耗盡資金

      歐爾班宣布反制措施:在我們耗盡石油之前,烏克蘭人將先耗盡資金

      陳恧侃故事
      2026-03-07 11:31:12
      現場直擊:伊朗防空系統攔截美以目標

      現場直擊:伊朗防空系統攔截美以目標

      新華社
      2026-03-06 10:54:01
      鄭爽分享美國近況,穿搭不輸當紅明星,自曝做醫美網友直呼認不出

      鄭爽分享美國近況,穿搭不輸當紅明星,自曝做醫美網友直呼認不出

      萌神木木
      2026-03-06 17:33:33
      河南女孩六年前為救父親性命,稱誰給40萬就嫁給誰,如今過得如何

      河南女孩六年前為救父親性命,稱誰給40萬就嫁給誰,如今過得如何

      牛鍋巴小釩
      2026-03-06 19:45:04
      致敬西虹市首富?切爾西眾人開球前將球圍在中間,解說員啞然失笑

      致敬西虹市首富?切爾西眾人開球前將球圍在中間,解說員啞然失笑

      懂球帝
      2026-03-07 13:08:08
      廣西女子發現罕見青竹鯉,時不時側身蹭水底,網友:魚生天花板!

      廣西女子發現罕見青竹鯉,時不時側身蹭水底,網友:魚生天花板!

      貍貓之一的動物圈
      2026-03-06 09:38:48
      小學生實名投訴極氪 建議取消讓她寫作業的小桌板!極氪回應

      小學生實名投訴極氪 建議取消讓她寫作業的小桌板!極氪回應

      快科技
      2026-03-06 23:12:33
      王震堅決反對中顧委副主任排名,薄一波:我是常務,就這么定了

      王震堅決反對中顧委副主任排名,薄一波:我是常務,就這么定了

      芊芊子吟
      2026-03-06 09:45:07
      莫雷加德全家抵達重慶:對這座城市印象深刻,會請樊振東推薦美食

      莫雷加德全家抵達重慶:對這座城市印象深刻,會請樊振東推薦美食

      乒談
      2026-03-07 00:19:01
      中國女籃72-66再勝巴西,不是張子宇王思雨,她17+7成新核

      中國女籃72-66再勝巴西,不是張子宇王思雨,她17+7成新核

      林子說事
      2026-03-07 08:15:14
      速度滑冰世錦賽:寧忠巖收獲短距離全能、男子1000米兩項季軍

      速度滑冰世錦賽:寧忠巖收獲短距離全能、男子1000米兩項季軍

      懂球帝
      2026-03-07 07:21:57
      高市早苗被逼到絕路:派也死,不派也死

      高市早苗被逼到絕路:派也死,不派也死

      鯨探所長
      2026-03-07 12:02:36
      霍爾木茲海峽船只遭襲4死3重傷!兩萬海員被困,伊朗稱不會關閉海峽,但與以美有關船只不得通行;普京與伊總統通話:通過多種渠道保持聯系

      霍爾木茲海峽船只遭襲4死3重傷!兩萬海員被困,伊朗稱不會關閉海峽,但與以美有關船只不得通行;普京與伊總統通話:通過多種渠道保持聯系

      大風新聞
      2026-03-07 10:05:06
      霍震霆也沒想到,46歲的霍啟剛,會在兩會上憑一個舉動給霍家長臉

      霍震霆也沒想到,46歲的霍啟剛,會在兩會上憑一個舉動給霍家長臉

      攬星河的筆記
      2026-03-06 23:55:22
      結束了!整整27年生涯!曝冠軍主帥最后一舞

      結束了!整整27年生涯!曝冠軍主帥最后一舞

      籃球實戰寶典
      2026-03-06 18:57:43
      晴好周末,出游安排起來 | 天氣早知道

      晴好周末,出游安排起來 | 天氣早知道

      上觀新聞
      2026-03-07 11:57:06
      針對“不敢休、不讓休”怪圈,國家出手了!

      針對“不敢休、不讓休”怪圈,國家出手了!

      國是直通車
      2026-03-07 09:12:15
      村里紅白事從不回,男子母親離世,鄰居等著看笑話,結果長了見識

      村里紅白事從不回,男子母親離世,鄰居等著看笑話,結果長了見識

      子芫伴你成長
      2026-02-23 12:21:40
      重回國乒?塵埃落定,劉國梁發聲,崗位曝光,布局國乒男隊發展

      重回國乒?塵埃落定,劉國梁發聲,崗位曝光,布局國乒男隊發展

      卿子書
      2026-03-06 09:25:27
      比賽還沒開打,上海申花先迎來兩個壞消息,新賽季斬獲開門紅懸了

      比賽還沒開打,上海申花先迎來兩個壞消息,新賽季斬獲開門紅懸了

      零度眼看球
      2026-03-07 08:58:12
      2026-03-07 13:40:49
      deephub incentive-icons
      deephub
      CV NLP和數據挖掘知識
      1940文章數 1456關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      游戲
      旅游
      本地
      數碼
      軍事航空

      鍵鼠不是萬能的神!外媒盤點近年適合用手柄玩的游戲

      旅游要聞

      文旅部部長:7名外國游客到上海旅游,買了40箱貨;“成為中國人”成了熱詞

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      數碼要聞

      蘋果M5 Pro芯片GeekBench跑分曝光:多核破2.8萬

      軍事要聞

      伊朗:使用無人機擊中美軍"林肯"號航母

      無障礙瀏覽 進入關懷版