<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      大模型作為評估者的「偏好」困境:UDA實現(xiàn)無監(jiān)督去偏對齊

      0
      分享至



      在 LLM 評估體系日益依賴 "大模型擔(dān)任評估者"(LLM-as-a-Judge)的今天,一個隱秘且嚴(yán)重的問題正在扭曲大模型的評估生態(tài):偏好偏差。

      即使是性能強勁的 GPT-4o 和 DeepSeek-V3,在進行成對答案比較時,也會系統(tǒng)性地偏愛特定輸出 —— 尤其是自己生成的內(nèi)容。這種偏差導(dǎo)致不同裁判模型給出的評分和排名天差地別。論文中的實驗數(shù)據(jù)顯示,在 ArenaHard 數(shù)據(jù)集上,自我偏好偏差幅度從 - 38% 到 + 90% 不等。當(dāng)模型既是 "運動員" 又是 "裁判" 時,公平性無從談起。

      現(xiàn)有解決方案依賴提示工程、模型集成或博弈論重排等,但這些方法要么缺乏理論支撐,要么成本爆炸,要么難以擴展。更重要的是,它們都依賴人工設(shè)計的規(guī)則,沒有辦法讓大模型輸出統(tǒng)一的結(jié)果。

      UDA 的出現(xiàn),為破解這一困局提供了新思路。來自智譜 AI 的研究團隊將無監(jiān)督學(xué)習(xí)引入成對 LLM 評判體系,讓模型能夠自主動態(tài)調(diào)整評分規(guī)則,實現(xiàn)去偏對齊。

      該論文已被 AAAI 2026 錄用。



      • 論文標(biāo)題:UDA: Unsupervised Debiasing Alignment for Pair-wise LLM-as-a-Judge
      • 論文鏈接:https://arxiv.org/pdf/2508.09724
      • 代碼倉庫:https://github.com/zhang360428/UDA_Debias

      評判偏差:大模型擔(dān)任評估者的 "偏好之困"

      現(xiàn)有的 LLM 評判系統(tǒng)(如 Chatbot Arena)普遍采用 Elo 評分機制,但面臨著三類挑戰(zhàn):

      • 自我偏好固化:模型系統(tǒng)性高估自己生成的答案,導(dǎo)致 "誰當(dāng)裁判誰占優(yōu)" 的荒謬局面;
      • 異質(zhì)性偏差:不同模型的偏差方向與強度各異,從激進自夸到過度謙遜不一而足;
      • 靜態(tài)評分缺陷:傳統(tǒng) Elo 使用固定 K 因子,無法區(qū)分關(guān)鍵對決與平庸比較,小樣本下信噪比極低。

      結(jié)果就是 "評分失準(zhǔn)"、"排名震蕩" 頻發(fā):如下圖所示,在未經(jīng)優(yōu)化前,10 個主流 LLM 裁判對同一組答案給出的 Elo 分?jǐn)?shù)標(biāo)準(zhǔn)差最高能達到 158.5 分,評分軌跡如脫韁野馬般離散。而經(jīng)過 UDA 對齊后,各裁判軌跡顯著收斂,共識穩(wěn)定度提升近 60%。



      UDA 的核心貢獻在于將去偏問題轉(zhuǎn)化為一個可通過動態(tài)校準(zhǔn)優(yōu)化的序列學(xué)習(xí)問題。與以往依賴人工規(guī)則或監(jiān)督信號的方法不同,UDA 讓評判者在處理每對比較時自主探索最優(yōu)的評分策略,并通過共識最小化目標(biāo)直接獲得反饋。這種無監(jiān)督的優(yōu)化方式使模型能夠?qū)W習(xí)到較為公平的對齊機制。



      方法框架

      如圖所示,UDA 將成對評估建模為實例級自適應(yīng)過程。對每個裁判模型 k,當(dāng)比較答案對 (ai, aj) 時,系統(tǒng)提取多重特征,通過輕量級網(wǎng)絡(luò)動態(tài)生成調(diào)整參數(shù),最終輸出校準(zhǔn)后的 Elo 更新。訓(xùn)練過程中通過共識錨定目標(biāo)獲得反饋。被訓(xùn)練的適配器 () 專注學(xué)習(xí)去偏策略,固定的 Elo 系統(tǒng) (??) 負責(zé)基礎(chǔ)評分。

      特征工程與自適應(yīng)網(wǎng)絡(luò)

      UDA 的精髓在于人類標(biāo)注無關(guān)的特征構(gòu)建。對每對比較,系統(tǒng)提取基于語義的特征向量 φ(k) ij,涵蓋:

      • 高維特征:答案嵌入間的 element-wise 差值、歸一化積,捕捉語義風(fēng)格差異
      • 標(biāo)量特征:余弦相似度、KL 散度、長度差異,量化分布距離
      • 自我感知特征:裁判自身答案與候選答案的相似度,作為偏差預(yù)警信號

      這些特征無需任何人工標(biāo)注,完全從響應(yīng)分布中自動構(gòu)建。

      一個三層 MLP 網(wǎng)絡(luò) fθ 隨后將特征映射到自適應(yīng)參數(shù):

      • 實例級 K 因子 Kij:動態(tài)調(diào)整每輪比較的權(quán)重,可疑對決自動降權(quán)
      • 軟標(biāo)簽 (si, sj):替代硬判決,緩解偏好噪聲,實現(xiàn)平滑更新

      共識錨定:無監(jiān)督對齊的基石

      UDA 的核心創(chuàng)新是無監(jiān)督的共識驅(qū)動訓(xùn)練。在缺乏 "黃金標(biāo)準(zhǔn)" 的困境下,UDA將所有裁判的集體共識視為一個現(xiàn)實可用的優(yōu)化目標(biāo)。雖然共識并非完美真值,但實證表明,異質(zhì)性偏差在聚合時傾向于相互抵消。

      訓(xùn)練目標(biāo)巧妙設(shè)計為多任務(wù)損失:



      三項分別驅(qū)動:(i) 各裁判軌跡向共識收斂,(ii) 保持排名相關(guān)性,(iii) 強化集體一致性。最終,UDA 不追求復(fù)制共識,而是以共識為錨,壓制極端個體偏好。

      理論動機:為什么共識對齊能減少偏差?

      UDA 的核心理論洞見是:對齊多樣化裁判的共識,將降低系統(tǒng)總偏差。

      證明:設(shè) Ri 為模型 i 的真實 Elo 分?jǐn)?shù),ε(k) i 為裁判 k 的偏差項。在線性收縮模型下(實際情況當(dāng)然會比該假設(shè)復(fù)雜,但這種趨勢是相同的),UDA 對齊后的預(yù)期總絕對偏差不超過基線:



      證明思路:對齊過程可視為向平均偏差的凸組合收縮,通過三角不等式和 Jensen 不等式即可得證。雖然個別校準(zhǔn)良好的裁判可能輕微犧牲精度,但集體方差縮減主導(dǎo)了個體成本。

      這一理論為無監(jiān)督對齊提供了動機:即使共識本身有噪聲,減少離散度仍能提升整體可信度。

      實驗結(jié)果

      UDA 在 ArenaHard(500 問題,10 大模型,45 萬對比較)上訓(xùn)練,在零樣本遷移中展現(xiàn)了非常好的效果:

      主實驗

      訓(xùn)練集與測試集上不同大模型評估的方差:



      測試集上評估結(jié)果與人類評估的相關(guān)性系數(shù):



      四大核心發(fā)現(xiàn):

      1.跨模型方差銳減:UDA 將平均裁判間標(biāo)準(zhǔn)差從 158.5 降至 64.8(↓59%),最激進的 gemini-2.0-flash 偏差從 341.9 壓縮至 128.8,證明對極端偏差的強效抑制。

      2.人類對齊躍升:在人工標(biāo)注遷移集上,UDA 將平均 Pearson 相關(guān)性從 0.651 提升至 0.812(+24.7%),將弱裁判(如 glm-4-flash)提升至與頂尖行列大模型(deepseek-r1)相當(dāng)水平,實現(xiàn)評估民主化。

      3.零樣本遷移穩(wěn)健:在未見過的新的遷移數(shù)據(jù)集上,UDA 未經(jīng)重新訓(xùn)練仍實現(xiàn) 63.4% 的方差縮減,證明領(lǐng)域無關(guān)的去偏能力。

      4.自我感知特征的決定性:消融實驗顯示,移除大模型自身回答相關(guān)特征后,雖然方差進一步降至 65.64,但人類相關(guān)性暴跌至 0.510。這可能是因為缺乏自我意識的模型會盲目收斂,卻是卻偏離人類真值。

      消融研究:自我感知特征的關(guān)鍵作用

      為驗證所選特征的必要性,該研究團隊訓(xùn)練了 UDA(Ablated)變體,剔除所有與裁判自身答案相關(guān)的特征:



      實驗結(jié)果顯示:剔除自我感知相關(guān)特征后,模型過度優(yōu)化共識一致性,犧牲了人類對齊。自我感知特征如同 "偏差鏡子",讓裁判能識別并折扣自身偏好,從而引導(dǎo)集體判斷朝向客觀真值。

      總結(jié)

      UDA 讓我們看到一個重要趨勢:"評判校準(zhǔn)不再是提示工程問題,而是可以被學(xué)習(xí)的問題。"通過無監(jiān)督共識信號,模型不再依賴人工撰寫的去偏提示,而是在交互中自主演化出公平評分策略。

      這項研究針對現(xiàn)有評估中不同 LLM 評委存在的系統(tǒng)性自偏好偏差以及評分不一致問題,通過輕量級神經(jīng)網(wǎng)絡(luò)動態(tài)調(diào)整 Elo 評分系統(tǒng)的 K 因子與勝負概率,實現(xiàn)實例級別的去偏矯正正。其核心思想是將所有評委評分的集體共識作為無監(jiān)督優(yōu)化目標(biāo),通過最小化各評委 Elo 軌跡的離散度來抑制極端個性偏差,同時利用評委自身回答的語義等特征檢測自偏好傾向。該框架有效提升了低質(zhì)量評委的表現(xiàn),使其接近高質(zhì)量評委水平,顯著增強了評估的魯棒性、可復(fù)現(xiàn)性與人類對齊度。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      科普100克克
      2025-12-07 18:20:34
      柬泰沖突細節(jié)披露 洪森要求部隊“克制”

      柬泰沖突細節(jié)披露 洪森要求部隊“克制”

      新華社
      2025-12-08 12:54:11
      國內(nèi)多趟飛倫敦航班現(xiàn)100元低價票,在武漢中轉(zhuǎn)還能免費住一晚,系不含稅機票

      國內(nèi)多趟飛倫敦航班現(xiàn)100元低價票,在武漢中轉(zhuǎn)還能免費住一晚,系不含稅機票

      極目新聞
      2025-12-08 13:06:02
      記者:雄鹿已告知各隊他們不會交易字母哥,但其他球隊均無視

      記者:雄鹿已告知各隊他們不會交易字母哥,但其他球隊均無視

      懂球帝
      2025-12-08 14:18:46
      一件“不會再發(fā)生”的事,又站到了普通人的門口!

      一件“不會再發(fā)生”的事,又站到了普通人的門口!

      走讀新生
      2025-11-30 18:50:02
      天妒英才!上海31歲一級教師諸倩蕓去世,獲獎無數(shù),臨終僅剩82斤

      天妒英才!上海31歲一級教師諸倩蕓去世,獲獎無數(shù),臨終僅剩82斤

      烈史
      2025-12-07 21:27:12
      湖人名宿沃西:當(dāng)大家有困難需要大哥時,詹姆斯就挺身而出了

      湖人名宿沃西:當(dāng)大家有困難需要大哥時,詹姆斯就挺身而出了

      懂球帝
      2025-12-08 15:01:06
      質(zhì)疑聲超多,26歲閔某已任浙大馬院博士生導(dǎo)師,博士入學(xué)2年當(dāng)博導(dǎo)?

      質(zhì)疑聲超多,26歲閔某已任浙大馬院博士生導(dǎo)師,博士入學(xué)2年當(dāng)博導(dǎo)?

      趣筆談
      2025-12-08 11:46:24
      林青霞崩潰了!12月7日,有媒體報道林青霞香港的豪宅被蟑螂入侵

      林青霞崩潰了!12月7日,有媒體報道林青霞香港的豪宅被蟑螂入侵

      小娛樂悠悠
      2025-12-08 10:12:09
      收到1.2億歐元罰單后,馬斯克的X平臺關(guān)閉了歐盟委員會的廣告賬戶

      收到1.2億歐元罰單后,馬斯克的X平臺關(guān)閉了歐盟委員會的廣告賬戶

      中國能源網(wǎng)
      2025-12-08 11:14:09
      交易倒計時?科爾DNP庫明加刻意保密,庫明加:這已不是第一次了

      交易倒計時?科爾DNP庫明加刻意保密,庫明加:這已不是第一次了

      體壇野秀才
      2025-12-08 14:29:55
      一輩子都寫不出的金句,為你整理了36句

      一輩子都寫不出的金句,為你整理了36句

      心智成長營
      2025-11-28 14:30:03
      火車員工用裝垃圾的簸箕接開水,12306回應(yīng):暫無規(guī)定不能用簸箕接水,會反饋改進

      火車員工用裝垃圾的簸箕接開水,12306回應(yīng):暫無規(guī)定不能用簸箕接水,會反饋改進

      極目新聞
      2025-12-07 16:35:20
      分走劉鑾雄資產(chǎn),終成人生贏家,如今卻開賬號勾毛線 判若兩人

      分走劉鑾雄資產(chǎn),終成人生贏家,如今卻開賬號勾毛線 判若兩人

      以茶帶書
      2025-11-19 23:13:35
      A股:不必等待了!明天(12月9日),股市或?qū)⒂瓉泶蠹墑e的變化

      A股:不必等待了!明天(12月9日),股市或?qū)⒂瓉泶蠹墑e的變化

      財經(jīng)大拿
      2025-12-08 11:59:21
      戴眼鏡的微胖小姐姐,粉色吊帶搭配瑜伽褲,看上去溫柔可愛

      戴眼鏡的微胖小姐姐,粉色吊帶搭配瑜伽褲,看上去溫柔可愛

      小喬古裝漢服
      2025-12-06 16:15:45
      平價煙擺滿貨架!3 億煙民不用再買貴煙,這波民生轉(zhuǎn)向太實在

      平價煙擺滿貨架!3 億煙民不用再買貴煙,這波民生轉(zhuǎn)向太實在

      老特有話說
      2025-12-08 00:16:34
      李澤鉅近照變化巨大!滿頭白發(fā),身材發(fā)福,帶兩位助理參加選舉!

      李澤鉅近照變化巨大!滿頭白發(fā),身材發(fā)福,帶兩位助理參加選舉!

      阿纂看事
      2025-12-07 22:14:52
      回顧“91大神”秦先生落網(wǎng):原本街頭擺攤,很多白富美被其偷拍

      回顧“91大神”秦先生落網(wǎng):原本街頭擺攤,很多白富美被其偷拍

      就一點
      2025-11-24 16:34:08
      應(yīng)被“開除”軍籍的三位明星,貪財穿和服,一個比一個丟臉

      應(yīng)被“開除”軍籍的三位明星,貪財穿和服,一個比一個丟臉

      老謝談史
      2025-12-03 20:57:41
      2025-12-08 15:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11865文章數(shù) 142510關(guān)注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      40歲北京本地獨生女想結(jié)婚被網(wǎng)暴:樂于生育和相夫教子

      頭條要聞

      40歲北京本地獨生女想結(jié)婚被網(wǎng)暴:樂于生育和相夫教子

      體育要聞

      一位大學(xué)美術(shù)生,如何用4年成為頂級跑者?

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經(jīng)要聞

      養(yǎng)牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰(zhàn)深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態(tài)度原創(chuàng)

      親子
      健康
      數(shù)碼
      本地
      藝術(shù)

      親子要聞

      嬰兒被褥印不雅英文單詞,家長沒法不較真|新京報快評

      甲狀腺結(jié)節(jié)到這個程度,該穿刺了!

      數(shù)碼要聞

      蘋果或于2026年初發(fā)布多款新品:MacBook Pro、平價筆記本及iPad將迎更新

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      藝術(shù)要聞

      一棵樹的力量

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 亚洲精品成人无码熟妇在线| 亚洲av无码专区在线厂| 国产suv精品一区二区69| 波多野结衣美乳人妻hd电影欧美| 国产va在线观看免费| 亚洲精品美女久久久久久久| 天天澡天天狠天天天做| 国产成人中文字幕精品在线| 辛集市| 亚洲第一成人网站| 熟妇导航| 67194国产| 欧美成人www免费全部网站| 日本亚洲欧洲无免费码在线| 国产系列丝袜熟女精品视频| 最近免费中文字幕mv在线视频3 | 纯肉高h啪动漫| 久久综合国产精品一区二区 | 国产午夜伦鲁鲁| 一 级做人爱全视频在线看| 亚洲国产av无码综合原创国产| 久久国产成人午夜av影院| 少妇人妻真实偷人精品视频| 国产成人久久婷婷精品流白浆| 国产精品无码av天天爽| 中文字幕无码不卡免费视频| 五月丁香六月综合av| 中文字幕一区二区三区精华液| 日本丰满妇人成熟免费中文字幕| 免费人成视频在线播放| 亚洲综合另类| 91制片厂天美传媒网站进入| 在线视频免费看3| 婷婷五月AV| 国产在线拍揄自揄拍无码男男| 五月天成人小说| 师宗县| 兴隆县| 亚洲v天堂| 精品日本一区二区三区在线观看 | 日本三级久久|