![]()
在 LLM 評估體系日益依賴 "大模型擔(dān)任評估者"(LLM-as-a-Judge)的今天,一個隱秘且嚴(yán)重的問題正在扭曲大模型的評估生態(tài):偏好偏差。
即使是性能強勁的 GPT-4o 和 DeepSeek-V3,在進行成對答案比較時,也會系統(tǒng)性地偏愛特定輸出 —— 尤其是自己生成的內(nèi)容。這種偏差導(dǎo)致不同裁判模型給出的評分和排名天差地別。論文中的實驗數(shù)據(jù)顯示,在 ArenaHard 數(shù)據(jù)集上,自我偏好偏差幅度從 - 38% 到 + 90% 不等。當(dāng)模型既是 "運動員" 又是 "裁判" 時,公平性無從談起。
現(xiàn)有解決方案依賴提示工程、模型集成或博弈論重排等,但這些方法要么缺乏理論支撐,要么成本爆炸,要么難以擴展。更重要的是,它們都依賴人工設(shè)計的規(guī)則,沒有辦法讓大模型輸出統(tǒng)一的結(jié)果。
UDA 的出現(xiàn),為破解這一困局提供了新思路。來自智譜 AI 的研究團隊將無監(jiān)督學(xué)習(xí)引入成對 LLM 評判體系,讓模型能夠自主動態(tài)調(diào)整評分規(guī)則,實現(xiàn)去偏對齊。
該論文已被 AAAI 2026 錄用。
![]()
- 論文標(biāo)題:UDA: Unsupervised Debiasing Alignment for Pair-wise LLM-as-a-Judge
- 論文鏈接:https://arxiv.org/pdf/2508.09724
- 代碼倉庫:https://github.com/zhang360428/UDA_Debias
評判偏差:大模型擔(dān)任評估者的 "偏好之困"
現(xiàn)有的 LLM 評判系統(tǒng)(如 Chatbot Arena)普遍采用 Elo 評分機制,但面臨著三類挑戰(zhàn):
- 自我偏好固化:模型系統(tǒng)性高估自己生成的答案,導(dǎo)致 "誰當(dāng)裁判誰占優(yōu)" 的荒謬局面;
- 異質(zhì)性偏差:不同模型的偏差方向與強度各異,從激進自夸到過度謙遜不一而足;
- 靜態(tài)評分缺陷:傳統(tǒng) Elo 使用固定 K 因子,無法區(qū)分關(guān)鍵對決與平庸比較,小樣本下信噪比極低。
結(jié)果就是 "評分失準(zhǔn)"、"排名震蕩" 頻發(fā):如下圖所示,在未經(jīng)優(yōu)化前,10 個主流 LLM 裁判對同一組答案給出的 Elo 分?jǐn)?shù)標(biāo)準(zhǔn)差最高能達到 158.5 分,評分軌跡如脫韁野馬般離散。而經(jīng)過 UDA 對齊后,各裁判軌跡顯著收斂,共識穩(wěn)定度提升近 60%。
![]()
UDA 的核心貢獻在于將去偏問題轉(zhuǎn)化為一個可通過動態(tài)校準(zhǔn)優(yōu)化的序列學(xué)習(xí)問題。與以往依賴人工規(guī)則或監(jiān)督信號的方法不同,UDA 讓評判者在處理每對比較時自主探索最優(yōu)的評分策略,并通過共識最小化目標(biāo)直接獲得反饋。這種無監(jiān)督的優(yōu)化方式使模型能夠?qū)W習(xí)到較為公平的對齊機制。
![]()
方法框架
如圖所示,UDA 將成對評估建模為實例級自適應(yīng)過程。對每個裁判模型 k,當(dāng)比較答案對 (ai, aj) 時,系統(tǒng)提取多重特征,通過輕量級網(wǎng)絡(luò)動態(tài)生成調(diào)整參數(shù),最終輸出校準(zhǔn)后的 Elo 更新。訓(xùn)練過程中通過共識錨定目標(biāo)獲得反饋。被訓(xùn)練的適配器 () 專注學(xué)習(xí)去偏策略,固定的 Elo 系統(tǒng) (??) 負責(zé)基礎(chǔ)評分。
特征工程與自適應(yīng)網(wǎng)絡(luò)
UDA 的精髓在于人類標(biāo)注無關(guān)的特征構(gòu)建。對每對比較,系統(tǒng)提取基于語義的特征向量 φ(k) ij,涵蓋:
- 高維特征:答案嵌入間的 element-wise 差值、歸一化積,捕捉語義風(fēng)格差異
- 標(biāo)量特征:余弦相似度、KL 散度、長度差異,量化分布距離
- 自我感知特征:裁判自身答案與候選答案的相似度,作為偏差預(yù)警信號
這些特征無需任何人工標(biāo)注,完全從響應(yīng)分布中自動構(gòu)建。
一個三層 MLP 網(wǎng)絡(luò) fθ 隨后將特征映射到自適應(yīng)參數(shù):
- 實例級 K 因子 Kij:動態(tài)調(diào)整每輪比較的權(quán)重,可疑對決自動降權(quán)
- 軟標(biāo)簽 (si, sj):替代硬判決,緩解偏好噪聲,實現(xiàn)平滑更新
共識錨定:無監(jiān)督對齊的基石
UDA 的核心創(chuàng)新是無監(jiān)督的共識驅(qū)動訓(xùn)練。在缺乏 "黃金標(biāo)準(zhǔn)" 的困境下,UDA將所有裁判的集體共識視為一個現(xiàn)實可用的優(yōu)化目標(biāo)。雖然共識并非完美真值,但實證表明,異質(zhì)性偏差在聚合時傾向于相互抵消。
訓(xùn)練目標(biāo)巧妙設(shè)計為多任務(wù)損失:
![]()
三項分別驅(qū)動:(i) 各裁判軌跡向共識收斂,(ii) 保持排名相關(guān)性,(iii) 強化集體一致性。最終,UDA 不追求復(fù)制共識,而是以共識為錨,壓制極端個體偏好。
理論動機:為什么共識對齊能減少偏差?
UDA 的核心理論洞見是:對齊多樣化裁判的共識,將降低系統(tǒng)總偏差。
證明:設(shè) Ri 為模型 i 的真實 Elo 分?jǐn)?shù),ε(k) i 為裁判 k 的偏差項。在線性收縮模型下(實際情況當(dāng)然會比該假設(shè)復(fù)雜,但這種趨勢是相同的),UDA 對齊后的預(yù)期總絕對偏差不超過基線:
![]()
證明思路:對齊過程可視為向平均偏差的凸組合收縮,通過三角不等式和 Jensen 不等式即可得證。雖然個別校準(zhǔn)良好的裁判可能輕微犧牲精度,但集體方差縮減主導(dǎo)了個體成本。
這一理論為無監(jiān)督對齊提供了動機:即使共識本身有噪聲,減少離散度仍能提升整體可信度。
實驗結(jié)果
UDA 在 ArenaHard(500 問題,10 大模型,45 萬對比較)上訓(xùn)練,在零樣本遷移中展現(xiàn)了非常好的效果:
主實驗
訓(xùn)練集與測試集上不同大模型評估的方差:
![]()
測試集上評估結(jié)果與人類評估的相關(guān)性系數(shù):
![]()
四大核心發(fā)現(xiàn):
1.跨模型方差銳減:UDA 將平均裁判間標(biāo)準(zhǔn)差從 158.5 降至 64.8(↓59%),最激進的 gemini-2.0-flash 偏差從 341.9 壓縮至 128.8,證明對極端偏差的強效抑制。
2.人類對齊躍升:在人工標(biāo)注遷移集上,UDA 將平均 Pearson 相關(guān)性從 0.651 提升至 0.812(+24.7%),將弱裁判(如 glm-4-flash)提升至與頂尖行列大模型(deepseek-r1)相當(dāng)水平,實現(xiàn)評估民主化。
3.零樣本遷移穩(wěn)健:在未見過的新的遷移數(shù)據(jù)集上,UDA 未經(jīng)重新訓(xùn)練仍實現(xiàn) 63.4% 的方差縮減,證明領(lǐng)域無關(guān)的去偏能力。
4.自我感知特征的決定性:消融實驗顯示,移除大模型自身回答相關(guān)特征后,雖然方差進一步降至 65.64,但人類相關(guān)性暴跌至 0.510。這可能是因為缺乏自我意識的模型會盲目收斂,卻是卻偏離人類真值。
消融研究:自我感知特征的關(guān)鍵作用
為驗證所選特征的必要性,該研究團隊訓(xùn)練了 UDA(Ablated)變體,剔除所有與裁判自身答案相關(guān)的特征:
![]()
實驗結(jié)果顯示:剔除自我感知相關(guān)特征后,模型過度優(yōu)化共識一致性,犧牲了人類對齊。自我感知特征如同 "偏差鏡子",讓裁判能識別并折扣自身偏好,從而引導(dǎo)集體判斷朝向客觀真值。
總結(jié)
UDA 讓我們看到一個重要趨勢:"評判校準(zhǔn)不再是提示工程問題,而是可以被學(xué)習(xí)的問題。"通過無監(jiān)督共識信號,模型不再依賴人工撰寫的去偏提示,而是在交互中自主演化出公平評分策略。
這項研究針對現(xiàn)有評估中不同 LLM 評委存在的系統(tǒng)性自偏好偏差以及評分不一致問題,通過輕量級神經(jīng)網(wǎng)絡(luò)動態(tài)調(diào)整 Elo 評分系統(tǒng)的 K 因子與勝負概率,實現(xiàn)實例級別的去偏矯正正。其核心思想是將所有評委評分的集體共識作為無監(jiān)督優(yōu)化目標(biāo),通過最小化各評委 Elo 軌跡的離散度來抑制極端個性偏差,同時利用評委自身回答的語義等特征檢測自偏好傾向。該框架有效提升了低質(zhì)量評委的表現(xiàn),使其接近高質(zhì)量評委水平,顯著增強了評估的魯棒性、可復(fù)現(xiàn)性與人類對齊度。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.