網易首頁 > 網易號 > 正文申請入駐

中科院團隊突破AI誠信對齊新難題：千分之一數據實現AI誠信對齊

2025-12-05 23:07:51　來源: 科技行者

北京舉報

分享至

這項由中科院計算技術研究所的倪世宇、畢克平、郭嘉豐、唐明昊等研究人員與華為團隊合作完成的重要研究，發表于2025年10月的預印本論文（arXiv:2510.17509v1），為解決大語言模型的誠信對齊難題提供了突破性方案。有興趣深入了解的讀者可以通過論文編號arXiv:2510.17509v1查詢完整論文。

當前的大語言模型就像一個博學但有時過于自信的朋友，它們在回答問題時往往表現得信心滿滿，即使對答案并不確定。這種現象被稱為"過度自信"問題，就好比一個學生明明對某道題沒有把握，卻在考試時寫得非常肯定。這不僅會誤導用戶，更可能在關鍵決策中造成嚴重后果。

研究團隊發現，現有的解決方案主要分為兩大類：一類是不需要額外訓練的方法，比如通過分析模型生成文本的概率來判斷其置信度，或者讓模型多次回答同一問題來看答案的一致性；另一類則需要大量人工標注的正確答案來訓練模型表達準確的置信度。第二類方法雖然效果更好，但成本極高，就像為了教會孩子區分對錯，需要為每道題都提供標準答案一樣費時費力。

面對這個困境，研究團隊提出了一個巧妙的解決方案，他們稱之為"EliCal"（先激發后校準）框架。這個方法的核心思想是：如果能先用便宜的方式教會模型表達置信度，那么后續只需要少量的正確答案就能完成精確校準。

一、兩階段訓練：化繁為簡的智慧策略

EliCal框架的工作原理就像訓練一個優秀的醫生診斷疾病。第一階段相當于讓醫學生大量觀察病例，學會根據癥狀的一致性來判斷自己的診斷信心。如果一個患者的多個癥狀都指向同一種疾病，那就更有信心；如果癥狀相互矛盾，就應該更謹慎。這個階段使用的是"自一致性"信號，類似于讓模型對同一問題回答多次，看答案是否保持一致。

具體來說，研究人員發現當模型對某個問題的多次回答高度一致時，它答對的概率也更高。這種現象為第一階段的訓練提供了免費的監督信號。通過大規模的自一致性訓練，模型學會了內化這種判斷規律，能夠在單次回答時就表達出準確的置信度，而不需要反復生成多個答案。

第二階段則像是給這位已經具備基本判斷能力的醫生提供少量的確診案例，幫助其校準判斷標準。這時只需要很少的人工標注數據，就能讓模型的置信度表達與實際準確性完美對齊。

二、創新架構：在不損害原有能力的前提下增強誠信

為了確保訓練過程不會損害模型原有的問答能力，研究團隊采用了一種巧妙的技術架構。他們沒有直接修改模型的核心參數，而是使用了低秩適應（LoRA）技術，這就像在原有的精密機械上安裝一個小巧的傳感器，既能獲得新的感知能力，又不會影響原有功能。

具體實現上，研究團隊在模型的最后一層添加了一個線性頭部，專門用于輸出置信度分數。這個設計使得模型能夠在回答問題之前就給出置信度預測，避免了傳統方法需要多次采樣的計算開銷。整個訓練過程使用均方誤差作為損失函數，確保模型學會準確預測自己的表現。

三、HonestyBench基準：構建全面評估體系

為了支持大規模研究和公平比較，研究團隊還構建了一個名為HonestyBench的綜合基準數據集。這個數據集整合了十個廣泛使用的開放式問答數據集，包含超過56萬個訓練樣本和7萬個評估樣本，覆蓋了單跳問答、多跳推理和模板生成等多種問題類型。

HonestyBench的獨特之處在于為每個模型-問題對提供了詳細的標注信息。研究團隊使用三個代表性的開源大語言模型（Qwen2.5-7B-Instruct、Qwen2.5-14B-Instruct和Llama3-8B-Instruct）生成了大量回答，并對每個回答進行了正確性和自一致性標注。這種設計使得研究者能夠在統一標準下比較不同方法的效果。

數據集還特別設計了域內和域外兩種評估場景。域內評估使用訓練數據集的測試集，而域外評估則引入了五個額外的問答數據集，包括SQuAD、WebQuestions等知名基準。這種設計能夠全面測試方法的泛化能力，確保研究結果的可靠性。

四、實驗驗證：用數據說話的效果證明

研究團隊進行了大規模的實驗驗證，結果令人印象深刻。在對比各種訓練方法時，他們發現EliCal僅使用1000個正確性標注（約占全部監督數據的0.18%）就能達到使用全部56萬個標注數據訓練的校準方法約98%的性能。這個結果就像用一把鑰匙就能打開原本需要一大串鑰匙才能打開的門。

更重要的是，EliCal在未見過的MMLU任務上表現出了優異的泛化能力。MMLU是一個多選題基準，其問題格式與訓練時使用的開放式問答完全不同。即使在這種挑戰性場景下，EliCal訓練的模型仍然顯著優于僅使用校準方法訓練的模型，這證明了該方法學到的是更本質的置信度表達能力，而非特定任務的擬合。

研究團隊還發現，傳統的訓練方法在數據量有限時往往表現不佳，甚至不如最好的無訓練方法。這就像試圖用很少的例子教會孩子復雜的概念，往往事倍功半。相比之下，EliCal通過兩階段設計有效解決了這個問題，在各種數據規模下都表現出色。

五、技術細節：精心設計的實現方案

在技術實現上，研究團隊展現了精湛的工程能力。他們使用強大的Qwen2.5-32B-Instruct模型來評估答案的正確性和語義一致性，確保標注質量的可靠性。對于答案生成，他們采用了貪婪搜索生成主答案，同時使用溫度采樣生成20個候選答案來計算自一致性信號。

置信度的計算基于語義一致性比例，即主答案與候選答案中語義相同的比例。這種方法避免了簡單的詞匯匹配可能帶來的誤判，能夠更準確地反映模型的真實置信度。所有的語義一致性判斷都通過精心設計的提示詞完成，確保評估的準確性和一致性。

訓練過程采用了AdamW優化器和均方誤差損失函數，批次大小設為16，梯度累積步數為8。研究團隊還使用了專門的SFTTrainer進行訓練，所有的檢查點選擇都基于域內測試集的表現，確保模型選擇的客觀性。

六、深入分析：洞察方法成功的關鍵因素

通過深入的消融實驗，研究團隊揭示了EliCal成功的關鍵因素。他們發現，置信度激發階段的訓練數據規模對最終效果有重要影響。隨著訓練數據的增加，模型的置信度表達能力逐步提升，最終接近自一致性方法的上限。這證明了大語言模型確實具備學習內在置信度表達的能力。

研究團隊還測試了僅使用線性頭部的簡化版本，發現雖然這種設計參數更少，訓練更快，但表現略遜于完整的LoRA版本。這說明適度的參數增加和模型交互對于學習復雜的置信度模式是必要的。

在評估指標方面，除了廣泛使用的AUROC（接收者操作特征曲線下面積）外，研究團隊還采用了ECE（期望校準誤差）和對齊度等多種指標。結果顯示EliCal在各種指標上都表現出色，證明了方法的全面性和可靠性。

特別值得關注的是，EliCal學會的置信度表達能夠直接用于二元決策。通過設定合適的閾值，模型可以判斷是否應該回答某個問題，這對于實際應用中的可靠性控制具有重要意義。就像一個負責任的專家會在不確定時選擇承認"不知道"，而不是給出可能錯誤的答案。

說到底，這項研究解決的是讓AI系統變得更加誠實可信的根本問題。在AI技術日益普及的今天，模型的誠信對齊不僅是技術問題，更是關系到AI安全和可信度的重要議題。EliCal框架通過巧妙的兩階段設計，在大幅降低標注成本的同時實現了優異的性能，為構建更可靠的AI系統提供了重要技術路徑。

這種方法的意義遠超技術層面。當AI助手能夠準確判斷自己的知識邊界時，它們就能在確定的問題上提供可靠幫助，在不確定的問題上尋求外部援助或坦誠告知用戶其局限性。這將大大提升人們對AI系統的信任，推動AI技術在關鍵應用領域的安全部署。

研究團隊承諾將開源所有代碼、HonestyBench數據集和訓練好的模型，這將為后續研究提供寶貴資源。他們的工作為實現真正可信的通用人工智能邁出了重要一步，值得學術界和產業界的廣泛關注。

Q&A

Q1：EliCal框架的兩階段訓練具體是怎么工作的？

A：EliCal的第一階段通過自一致性信號訓練模型表達置信度，就像讓模型學會根據多次回答的一致性來判斷自信程度。第二階段使用少量正確答案標注來精確校準這種置信度表達，確保模型的自信程度與實際準確性保持一致。

Q2：為什么EliCal只需要很少的標注數據就能達到好效果？

A：因為EliCal將置信度學習分為兩個步驟：先用免費的自一致性信號教會模型基本的置信度表達能力，然后只需少量標注數據進行微調校準。這就像先讓學生掌握基本概念，再用少量練習題精確調整，比從零開始訓練效率高得多。

Q3：HonestyBench數據集有什么特殊之處？

A：HonestyBench整合了10個問答數據集，包含超過56萬訓練樣本和7萬評估樣本，為每個問題都提供了正確性和自一致性雙重標注。它還設計了域內外兩種評估場景，能夠全面測試方法的泛化能力，是目前最大規模的誠信對齊評估基準。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.