大模型作為評估者的「偏好」困境：UDA實現(xiàn)無監(jiān)督去偏對齊

2025-11-28 16:58:09　來源: 機器之心Pro

河北舉報

分享至

在 LLM 評估體系日益依賴 "大模型擔(dān)任評估者"（LLM-as-a-Judge）的今天，一個隱秘且嚴(yán)重的問題正在扭曲大模型的評估生態(tài)：偏好偏差。

即使是性能強勁的 GPT-4o 和 DeepSeek-V3，在進行成對答案比較時，也會系統(tǒng)性地偏愛特定輸出 —— 尤其是自己生成的內(nèi)容。這種偏差導(dǎo)致不同裁判模型給出的評分和排名天差地別。論文中的實驗數(shù)據(jù)顯示，在 ArenaHard 數(shù)據(jù)集上，自我偏好偏差幅度從 - 38% 到 + 90% 不等。當(dāng)模型既是 "運動員" 又是 "裁判" 時，公平性無從談起。

現(xiàn)有解決方案依賴提示工程、模型集成或博弈論重排等，但這些方法要么缺乏理論支撐，要么成本爆炸，要么難以擴展。更重要的是，它們都依賴人工設(shè)計的規(guī)則，沒有辦法讓大模型輸出統(tǒng)一的結(jié)果。

UDA 的出現(xiàn)，為破解這一困局提供了新思路。來自智譜 AI 的研究團隊將無監(jiān)督學(xué)習(xí)引入成對 LLM 評判體系，讓模型能夠自主動態(tài)調(diào)整評分規(guī)則，實現(xiàn)去偏對齊。

該論文已被 AAAI 2026 錄用。

論文標(biāo)題：UDA: Unsupervised Debiasing Alignment for Pair-wise LLM-as-a-Judge
論文鏈接：https://arxiv.org/pdf/2508.09724
代碼倉庫：https://github.com/zhang360428/UDA_Debias

評判偏差：大模型擔(dān)任評估者的 "偏好之困"

現(xiàn)有的 LLM 評判系統(tǒng)（如 Chatbot Arena）普遍采用 Elo 評分機制，但面臨著三類挑戰(zhàn)：

自我偏好固化：模型系統(tǒng)性高估自己生成的答案，導(dǎo)致 "誰當(dāng)裁判誰占優(yōu)" 的荒謬局面；
異質(zhì)性偏差：不同模型的偏差方向與強度各異，從激進自夸到過度謙遜不一而足；
靜態(tài)評分缺陷：傳統(tǒng) Elo 使用固定 K 因子，無法區(qū)分關(guān)鍵對決與平庸比較，小樣本下信噪比極低。

結(jié)果就是 "評分失準(zhǔn)"、"排名震蕩" 頻發(fā)：如下圖所示，在未經(jīng)優(yōu)化前，10 個主流 LLM 裁判對同一組答案給出的 Elo 分?jǐn)?shù)標(biāo)準(zhǔn)差最高能達到 158.5 分，評分軌跡如脫韁野馬般離散。而經(jīng)過 UDA 對齊后，各裁判軌跡顯著收斂，共識穩(wěn)定度提升近 60%。

UDA 的核心貢獻在于將去偏問題轉(zhuǎn)化為一個可通過動態(tài)校準(zhǔn)優(yōu)化的序列學(xué)習(xí)問題。與以往依賴人工規(guī)則或監(jiān)督信號的方法不同，UDA 讓評判者在處理每對比較時自主探索最優(yōu)的評分策略，并通過共識最小化目標(biāo)直接獲得反饋。這種無監(jiān)督的優(yōu)化方式使模型能夠?qū)W習(xí)到較為公平的對齊機制。

方法框架

如圖所示，UDA 將成對評估建模為實例級自適應(yīng)過程。對每個裁判模型 k，當(dāng)比較答案對 (ai, aj) 時，系統(tǒng)提取多重特征，通過輕量級網(wǎng)絡(luò)動態(tài)生成調(diào)整參數(shù)，最終輸出校準(zhǔn)后的 Elo 更新。訓(xùn)練過程中通過共識錨定目標(biāo)獲得反饋。被訓(xùn)練的適配器 () 專注學(xué)習(xí)去偏策略，固定的 Elo 系統(tǒng) (??) 負責(zé)基礎(chǔ)評分。

特征工程與自適應(yīng)網(wǎng)絡(luò)

UDA 的精髓在于人類標(biāo)注無關(guān)的特征構(gòu)建。對每對比較，系統(tǒng)提取基于語義的特征向量 φ(k) ij，涵蓋：

高維特征：答案嵌入間的 element-wise 差值、歸一化積，捕捉語義風(fēng)格差異
標(biāo)量特征：余弦相似度、KL 散度、長度差異，量化分布距離
自我感知特征：裁判自身答案與候選答案的相似度，作為偏差預(yù)警信號

這些特征無需任何人工標(biāo)注，完全從響應(yīng)分布中自動構(gòu)建。

一個三層 MLP 網(wǎng)絡(luò) fθ 隨后將特征映射到自適應(yīng)參數(shù)：

實例級 K 因子 Kij：動態(tài)調(diào)整每輪比較的權(quán)重，可疑對決自動降權(quán)
軟標(biāo)簽 (si, sj)：替代硬判決，緩解偏好噪聲，實現(xiàn)平滑更新

共識錨定：無監(jiān)督對齊的基石

UDA 的核心創(chuàng)新是無監(jiān)督的共識驅(qū)動訓(xùn)練。在缺乏 "黃金標(biāo)準(zhǔn)" 的困境下，UDA將所有裁判的集體共識視為一個現(xiàn)實可用的優(yōu)化目標(biāo)。雖然共識并非完美真值，但實證表明，異質(zhì)性偏差在聚合時傾向于相互抵消。

訓(xùn)練目標(biāo)巧妙設(shè)計為多任務(wù)損失：

三項分別驅(qū)動：(i) 各裁判軌跡向共識收斂，(ii) 保持排名相關(guān)性，(iii) 強化集體一致性。最終，UDA 不追求復(fù)制共識，而是以共識為錨，壓制極端個體偏好。

理論動機：為什么共識對齊能減少偏差？

UDA 的核心理論洞見是：對齊多樣化裁判的共識，將降低系統(tǒng)總偏差。

證明：設(shè) Ri 為模型 i 的真實 Elo 分?jǐn)?shù)，ε(k) i 為裁判 k 的偏差項。在線性收縮模型下（實際情況當(dāng)然會比該假設(shè)復(fù)雜，但這種趨勢是相同的），UDA 對齊后的預(yù)期總絕對偏差不超過基線：

證明思路：對齊過程可視為向平均偏差的凸組合收縮，通過三角不等式和 Jensen 不等式即可得證。雖然個別校準(zhǔn)良好的裁判可能輕微犧牲精度，但集體方差縮減主導(dǎo)了個體成本。

這一理論為無監(jiān)督對齊提供了動機：即使共識本身有噪聲，減少離散度仍能提升整體可信度。

實驗結(jié)果

UDA 在 ArenaHard（500 問題，10 大模型，45 萬對比較）上訓(xùn)練，在零樣本遷移中展現(xiàn)了非常好的效果：

主實驗

訓(xùn)練集與測試集上不同大模型評估的方差：

測試集上評估結(jié)果與人類評估的相關(guān)性系數(shù)：

四大核心發(fā)現(xiàn)：

1.跨模型方差銳減：UDA 將平均裁判間標(biāo)準(zhǔn)差從 158.5 降至 64.8（↓59%），最激進的 gemini-2.0-flash 偏差從 341.9 壓縮至 128.8，證明對極端偏差的強效抑制。

2.人類對齊躍升：在人工標(biāo)注遷移集上，UDA 將平均 Pearson 相關(guān)性從 0.651 提升至 0.812（+24.7%），將弱裁判（如 glm-4-flash）提升至與頂尖行列大模型（deepseek-r1）相當(dāng)水平，實現(xiàn)評估民主化。

3.零樣本遷移穩(wěn)健：在未見過的新的遷移數(shù)據(jù)集上，UDA 未經(jīng)重新訓(xùn)練仍實現(xiàn) 63.4% 的方差縮減，證明領(lǐng)域無關(guān)的去偏能力。

4.自我感知特征的決定性：消融實驗顯示，移除大模型自身回答相關(guān)特征后，雖然方差進一步降至 65.64，但人類相關(guān)性暴跌至 0.510。這可能是因為缺乏自我意識的模型會盲目收斂，卻是卻偏離人類真值。

消融研究：自我感知特征的關(guān)鍵作用

為驗證所選特征的必要性，該研究團隊訓(xùn)練了 UDA（Ablated）變體，剔除所有與裁判自身答案相關(guān)的特征：

實驗結(jié)果顯示：剔除自我感知相關(guān)特征后，模型過度優(yōu)化共識一致性，犧牲了人類對齊。自我感知特征如同 "偏差鏡子"，讓裁判能識別并折扣自身偏好，從而引導(dǎo)集體判斷朝向客觀真值。

總結(jié)

UDA 讓我們看到一個重要趨勢："評判校準(zhǔn)不再是提示工程問題，而是可以被學(xué)習(xí)的問題。"通過無監(jiān)督共識信號，模型不再依賴人工撰寫的去偏提示，而是在交互中自主演化出公平評分策略。

這項研究針對現(xiàn)有評估中不同 LLM 評委存在的系統(tǒng)性自偏好偏差以及評分不一致問題，通過輕量級神經(jīng)網(wǎng)絡(luò)動態(tài)調(diào)整 Elo 評分系統(tǒng)的 K 因子與勝負概率，實現(xiàn)實例級別的去偏矯正正。其核心思想是將所有評委評分的集體共識作為無監(jiān)督優(yōu)化目標(biāo)，通過最小化各評委 Elo 軌跡的離散度來抑制極端個性偏差，同時利用評委自身回答的語義等特征檢測自偏好傾向。該框架有效提升了低質(zhì)量評委的表現(xiàn)，使其接近高質(zhì)量評委水平，顯著增強了評估的魯棒性、可復(fù)現(xiàn)性與人類對齊度。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.