<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ICLR 2026 | 大模型當裁判也「翻車」?北大清華聯合多校提出TrustJudge

      0
      分享至

      來源:市場資訊


      本文共同第一作者王一棟(北京大學)和宋昀澤(新加坡國立大學)主要從事大語言模型評估與對齊研究。通訊作者王存翔(清華大學)和葉蔚、張世琨(北京大學)分別在自然語言處理、軟件工程和知識推理等方向有長期積累。團隊成員來自北大、清華、南大、NUS、CMU、西湖大學、東南大學、東京科學大學等多所高校,長期關注 LLM 可信評估問題。

      讓 GPT-4 給兩篇文章打分,A 拿了 4 分、B 拿了 3 分。按常理 A 應該比 B 好吧?但換成成對比較,同一個模型卻說「B 更好」。更離譜的情況也有——A > B > C > A 的「石頭剪刀布」循環,連傳遞性都守不住。這事還真不少見。

      北京大學、清華大學等八所高校的研究團隊在 ICLR 2026 上提出了 TrustJudge,一個基于概率的評估框架。核心想法不復雜:與其讓模型吐一個離散分數了事,不如把它內部的完整概率分布也用上。不用額外訓練,評估不一致性就降了一大截,準確率還跟著漲了。


      • 論文標題:TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

      • 作者:Yidong Wang*, Yunze Song*, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Cunxiang Wang?, Wei Ye?, Shikun Zhang?

      • 單位:北京大學、清華大學、新加坡國立大學、南京大學、卡內基梅隆大學、西湖大學、東南大學、東京科學大學

      • 論文鏈接:https://arxiv.org/abs/2509.21117

      • 開源代碼:https://github.com/TrustJudge/TrustJudge

      01|問題有多嚴重?

      用大模型給其他模型當裁判,已經是評估界的標配——MT-Bench 用單項評分,AlpacaEval 用成對比較,RLHF/GRPO 做偏好標注。但這個裁判的兩種考法給出的結論,經常打架。

      TrustJudge 的作者做了系統測量,把問題量化成了兩類:

      評分-比較不一致(Score-Comparison Inconsistency)

      打分時 A 比 B 高,拉到一起比較時又說 B 好。用 Llama-3.1-70B 測試,不一致率 23.32%——差不多每四次評估就矛盾一次。

      成對傳遞性不一致(Pairwise Transitivity Inconsistency)

      成對比較出現循環偏好(A > B > C > A)或者等價矛盾(A = B = C 但 A ≠ C)。Llama-3.1-70B 上的不一致率是 15.22%。



      02|問題出在哪?

      數據擺出來了,接下來的問題是:這兩類不一致的根源是什么?作者從信息論的角度做了歸因。

      離散評分丟信息

      5 分制打分,本質上是把模型心里的連續判斷硬塞進幾個整數格子里。比方說兩條回復質量分別是 3.8 和 4.2,5 分制下都成了 4 分,打分看不出差別。但拉到一起做比較,模型是感知得到這 0.4 差距的——矛盾就這么來了。

      作者還在理論上證了一條:存在兩個不同的概率分布,離散評分下完全相同,但信息熵不同。換句話說,離散化在結構上就一定會丟東西。

      模糊平局帶來傳遞性問題

      做成對比較時,模型對質量相近的回復經常給「平局」。但平局和平局不一樣——有的是模型真覺得半斤八兩,有的純粹是拿不準。這些「含糊的平局」在不同組合里不一致地冒出來,A = B、B = C、但 A ≠ C 的情況就出現了。

      03|TrustJudge 怎么做的?

      思路說白了就一句話:別只取模型吐出的那個離散答案,把背后的概率分布也用起來。框架分兩塊:

      分布敏感評分(Distribution-Sensitive Scoring)

      傳統做法是讓模型輸出一個分數然后直接采納。TrustJudge 不這樣干:

      • 把評分尺度從 5 分拉到 100 分,先把粒度給夠。

      • 對所有候選分數的 logits 做 softmax,得到一個完整的概率分布。

      • 算加權期望作為最終分數:


      效果就是:原來 5 分制下都是 4 分的兩條回復,現在一個 3.82、一個 4.17,差異保住了。

      跟 G-Eval 的區別在于,TrustJudge 用 softmax 歸一化確保概率和嚴格為 1,不會被非評分 token 干擾。

      似然感知聚合(Likelihood-Aware Aggregation)

      成對比較這邊,TrustJudge 給了兩種策略來打破平局:

      策略一:基于困惑度(PPL-Based)

      遇到平局時,分別算 A 在前和 B 在前兩種排列的困惑度,選困惑度低的那個方向的結果——模型讀起來更通順的排列,判斷往往更靠譜:


      策略二:雙向概率聚合

      把兩個方向的偏好概率加起來,取置信度最高的:


      由于是兩個方向聚合,位置偏差(position bias)也在這個過程中被抵消了。

      04|理論上也站得住

      上面的方法直覺上說得通,但有沒有更嚴格的保證?作者給出了形式化的理論證明:

      定理 1(信息保持):存在兩個不同的概率分布


      ,離散評分無法區分


      ),但分布敏感評分可以(


      )。

      命題 1(不確定性降低):當裁判模型高度模糊時,基于困惑度得到的置信分布 的熵嚴格低于原始判斷的最大熵:


      一句話概括:信息保留得更多了,判斷的不確定性降下去了。

      05|實驗結果

      實驗數據來自 MT-Bench(80 題)和 ArenaHard(500 題),裁判模型覆蓋 Llama-3 系列(3B / 8B / 70B)和 GPT-4o。

      主實驗


      表 1:所有模型上兩類不一致性都明顯下降,精確匹配率同步上升。其中 Llama-3.2-3B 的傳遞性不一致從 54.69% 直接降到 17.76%,落差接近 37 個點。



      消融實驗

      為了搞清楚每個組件的貢獻,作者做了逐項消融(這里額外加入了 GPT-3.5-Turbo 作為參考):


      表 2:逐個拆開看,softmax 歸一化和 100 分制對評分不一致各有貢獻;似然聚合和 PPL 方法對傳遞性不一致效果都很明顯,似然聚合整體略優。

      06|換個模型還管用嗎?

      上面的主實驗只用了 Llama-3 和 GPT-4o。一個自然的問題是:換成別的架構還有效嗎?

      管用。作者把實驗擴展到 Qwen-2.5(7B / 14B / 32B)、Gemma-2(2B / 9B / 27B)、Llama-3(3B / 8B / 70B)、GPT 四個家族、共 12 個變體。



      圖 3:四個模型家族上的不一致性對比。左圖為評分-比較不一致,右圖為傳遞性不一致,TrustJudge 在所有架構上都有改善。

      幾個值得注意的點:

      • 分布敏感評分的效果跟模型架構無關,都能降不一致性。

      • 加上似然感知聚合后,8B 模型的傳遞性甚至比未使用 TrustJudge 的 70B 模型更好。

      • 9B 的 Gemma 比 27B 的 Gemma 不一致性更低——不是越大越好。

      07|推理模型反而更不靠譜

      一個意外發現:專門練過推理能力的模型,做評估時反而更容易自相矛盾。


      DeepSeek-R1 蒸餾版的評分-比較不一致率 58.75%,是同參數量 Llama 的將近兩倍。看起來在數學數據上做強化訓練這件事,是以評估能力為代價的。

      不過 TrustJudge 在這么高的不一致基線上依然有效:CR 降了將近 10 個點,傳遞性不一致從 63.98% 壓到了 18.50%。

      08|拿來做 Reward 也好使

      除了評估,TrustJudge 還有一個實際用途:給強化學習提供獎勵信號。

      作者把它接到 GRPO(Group Relative Policy Optimization)上訓練 Qwen2.5-7B-Instruct,訓練數據覆蓋摘要、數學推理、指令遵循等,一共 8,600 條。


      表 3:用 Baseline 獎勵訓練的模型在兩種協議下都沒超過原始模型(反而略降);用 TrustJudge 獎勵訓練的模型兩邊都漲了。



      道理也好理解:評估越一致,獎勵信號噪聲越小,模型學得越準。

      09|光提高打分精度夠不夠?

      看完前面的實驗,可能會有人問:TrustJudge 里面既提高了評分粒度(5 分 → 100 分),又加了概率歸一化。那要是我只做前者,不做后者,行不行?


      圖 6:5 分、10 分、100 分三檔粒度下的不一致性變化。粒度越高不一致越低,但在同一粒度下 TrustJudge(虛線)始終低于 Baseline(實線)。

      結論是:提高粒度有幫助,但光靠粒度不夠。TrustJudge 贏在粒度提升 + 概率歸一化兩件事疊加到一起。

      10|小結

      TrustJudge 做的事情可以用兩句話講清楚:

      • 離散評分丟信息 → 改用分布敏感評分,把概率分布的信息保住。

      • 模糊平局壞傳遞性 → 改用似然感知聚合,讓模糊判定變得清晰。

      實際效果上,它不用訓練,開箱即用;跨 Llama、GPT、Qwen、Gemma 四個架構都有效;除了做評估,接上 GRPO 當獎勵信號也能用;而且有理論證明兜底。說到底,如果我們要讓大模型來當裁判,總得先確認這個裁判自己別前后矛盾才行。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      貝克漢姆兒媳大秀“一字馬”:復刻貝嫂招牌動作,豪門內戰太精彩

      貝克漢姆兒媳大秀“一字馬”:復刻貝嫂招牌動作,豪門內戰太精彩

      世界王室那些事
      2026-04-02 16:31:04
      云南美女馬英婕腸癌去世,僅33歲,結婚僅5個月,喜歡喝酒吃燒烤

      云南美女馬英婕腸癌去世,僅33歲,結婚僅5個月,喜歡喝酒吃燒烤

      180視角
      2026-04-01 13:20:01
      為戰爭買單,美國內爆

      為戰爭買單,美國內爆

      南風窗
      2026-04-02 14:32:03
      觀網獨家對話德比斯:“這簡直太瘋狂了!”

      觀網獨家對話德比斯:“這簡直太瘋狂了!”

      觀察者網
      2026-04-01 22:42:08
      唐鶴德發文悼念張國榮,并曬出珍貴老照片,袁詠儀古巨基接力發文

      唐鶴德發文悼念張國榮,并曬出珍貴老照片,袁詠儀古巨基接力發文

      小娛樂悠悠
      2026-04-02 09:07:23
      茅臺逆勢提價!成都經銷商:線下終端價已站上1750元,行業難掀漲價潮→

      茅臺逆勢提價!成都經銷商:線下終端價已站上1750元,行業難掀漲價潮→

      新浪財經
      2026-04-01 18:10:46
      萬科兩年虧損1300多億,如今再看萬寶之爭,難道沒有其他原因?

      萬科兩年虧損1300多億,如今再看萬寶之爭,難道沒有其他原因?

      番外行
      2026-04-02 08:32:31
      騙局,兜不住了

      騙局,兜不住了

      美第奇效應
      2026-04-02 08:27:23
      25年來頭一遭!WTO改對臺稱呼,美國也調整涉臺措辭,賴清德急了

      25年來頭一遭!WTO改對臺稱呼,美國也調整涉臺措辭,賴清德急了

      z千年歷史老號
      2026-04-01 21:04:22
      周杰倫的歌免費授權給劉畊宏跳操,本人回應:“這個完全不用懷疑,談錢傷感情”;劉畊宏:該給還是要給,私下有聊過可以讓我繼續拿來編操

      周杰倫的歌免費授權給劉畊宏跳操,本人回應:“這個完全不用懷疑,談錢傷感情”;劉畊宏:該給還是要給,私下有聊過可以讓我繼續拿來編操

      魯中晨報
      2026-04-01 17:01:06
      中方禁止入境后,古屋圭司口出狂言,背后靠山浮出水面

      中方禁止入境后,古屋圭司口出狂言,背后靠山浮出水面

      探史
      2026-04-01 13:44:46
      奪冠才兩天,人民日報接連點名張雪,釋放三個強烈信號,字字珠璣

      奪冠才兩天,人民日報接連點名張雪,釋放三個強烈信號,字字珠璣

      青橘罐頭
      2026-04-02 07:20:03
      公開喊話西安交大行政樓某部這位1333192的韓姓大爺

      公開喊話西安交大行政樓某部這位1333192的韓姓大爺

      師說新知
      2026-04-02 14:55:56
      大虹橋某盤,已經被逼進了狹縫里!

      大虹橋某盤,已經被逼進了狹縫里!

      新浪財經
      2026-04-02 13:06:47
      徹底掀桌了?伊朗亮出核底牌,硬剛美國重兵集團,寧可同歸于盡!

      徹底掀桌了?伊朗亮出核底牌,硬剛美國重兵集團,寧可同歸于盡!

      黑翼天使
      2026-04-01 04:19:13
      魯山舅舅娶亡姐大結局!新華社通報調查結果,這次終于真相大白了

      魯山舅舅娶亡姐大結局!新華社通報調查結果,這次終于真相大白了

      離離言幾許
      2026-03-30 22:39:30
      張雪家庭現狀,奶奶和父親已去世,兒子也是賽車手,有望拍成電影

      張雪家庭現狀,奶奶和父親已去世,兒子也是賽車手,有望拍成電影

      手工制作阿殲
      2026-03-31 15:57:35
      72只老虎的離世,帶來的沉痛警示

      72只老虎的離世,帶來的沉痛警示

      世界動物保護協會
      2026-03-30 16:01:57
      都別做夢了!哪怕兩岸和平統一,臺灣也不可能讓解放軍在臺駐軍

      都別做夢了!哪怕兩岸和平統一,臺灣也不可能讓解放軍在臺駐軍

      流史歲月
      2026-03-31 13:35:03
      美軍被曝奔赴中東戰場前,在脫衣舞俱樂部揮金如土,俱樂部舞者:他們花光了所有的錢,看起來很年輕,像胎兒一樣

      美軍被曝奔赴中東戰場前,在脫衣舞俱樂部揮金如土,俱樂部舞者:他們花光了所有的錢,看起來很年輕,像胎兒一樣

      觀威海
      2026-03-31 09:51:34
      2026-04-02 18:32:49
      新浪財經 incentive-icons
      新浪財經
      新浪財經是一家創建于1999年8月的財經平臺
      2736437文章數 6345關注度
      往期回顧 全部

      教育要聞

      原來單詞還能這樣記

      頭條要聞

      00后女孩未婚先孕 坐月子期間男方提出"奶粉AA"并拉黑

      頭條要聞

      00后女孩未婚先孕 坐月子期間男方提出"奶粉AA"并拉黑

      體育要聞

      邵佳一的改革,從讓每個人踢舒服開始

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      高油價、AI泡沫...誰將壓垮美國經濟

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      本地
      時尚
      教育
      藝術
      公開課

      本地新聞

      從學徒到世界冠軍,為什么說張雪的底氣在重慶?

      女人有沒有品位看看穿搭就知道,這些造型值得借鑒,溫柔高級

      教育要聞

      「MiniMax」招人啦!300/天!實習津貼+免費餐食!一對一導師帶教

      藝術要聞

      故人西辭黃鶴樓,煙花三月下揚州

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版