網易首頁 > 網易號 > 正文申請入駐

清華孫茂松團隊 × 深言科技：以解釋作為訓練信號，讓 8B 模型在幻覺檢測上反超閉源大模型

2026-01-14 12:54:15　來源: 雷峰網

北京舉報

分享至

大語言模型的能力在不斷增強，但幻覺問題仍然是橫亙在現實應用前的一道關鍵障礙。

即便在有文檔和檢索結果作為依據的情況下，模型仍可能生成與事實不符、缺乏依據甚至與原文相矛盾的內容，而且表達通常流暢、自洽，不易被發現。這對法律、醫療、金融、檢索增強生成等對可靠性要求極高的場景帶來了明顯風險。

雖然業內不斷通過“做更大的模型”“更復雜的檢索”“更強的安全對齊”等方式來緩解問題，但成本與算力需求持續攀升，而幻覺為何產生、如何系統檢測與解釋，依然缺乏有效答案。

在這樣的背景下，清華大學孫茂松團隊聯合深言科技提出了新論文《FaithLens: Training Large Language Models to Detect Hallucinations with Useful Explanations》。這項工作不再把幻覺檢測看成簡單的對錯分類，而是把它提升為對模型推理過程與證據一致性的整體評估。

FaithLens 的核心思路是：模型不僅需要判斷是否存在幻覺，還要生成清晰、具體、真正能幫助另一個模型做出正確判斷的解釋，并把這種“解釋是否有用”直接作為訓練信號來優化模型。

為此，研究團隊設計了一套結合監督微調和強化學習的訓練框架，通過合成數據、解釋過濾和獎勵機制，使模型在給出結論的同時，也學會說明依據在哪里、推理是怎么來的。實驗表明，在這一范式下，僅 8B 參數規模的模型，就在多個跨領域幻覺檢測任務上超過多款閉源大模型，同時在解釋質量與推理一致性方面取得明顯優勢。

論文地址：https://arxiv.org/pdf/2512.20182

8B 模型反超多款閉源大模型

這項工作的核心實驗結果表明，研究團隊提出的 FaithLens 模型在忠實性幻覺檢測任務上達到了當前最優甚至超過閉源大模型的效果。

所謂忠實性幻覺，是指大語言模型在給定文檔或檢索信息的基礎上生成了與原文不一致、無法支持甚至相矛盾的內容。實驗覆蓋 12 個跨領域跨任務的數據集，包括新聞摘要、檢索增強生成問答、固定文檔問答、事實核查和多跳推理等廣泛場景。這些任務分別來自 LLM-AggreFact 和 HoVer 兩大標準基準，具有很強代表性。

實驗采用宏平均 F1 值作為評價指標，從實驗結果來看，FaithLens 在這 12 個任務上的整體平均指標超過了所有對比系統。特別是與當前最強開放或閉源的大模型相比，比如 GPT-4.1、GPT-4o、o3、Claude 3.7 Sonnet 以及 Llama-3.1-405B 等，FaithLens 在整體性能上均取得領先。這一結果非常重要，因為 FaithLens 僅基于 8B 參數規模，而這些對比模型大多在百億乃至千億級別。

在多跳推理任務 HoVer 上，FaithLens 尤為突出。該任務要求模型綜合多個證據片段，進行事實鏈推理，再判斷給定斷言是否被支持或被反駁。FaithLens 在這一任務上的顯著領先，說明它不僅依靠淺層模式匹配，而是具備了在文檔基礎上進行結構化推理和一致性分析的能力。

進一步看細節，實驗還比較了 FaithLens 與專門為幻覺檢測而設計的系統，如 AlignScore、FactCG、MiniCheck 和 ClearCheck 等。實驗表明，在絕大部分任務中，FaithLens 的表現明顯優于這些專用系統，而且在任務間的性能方差最低，說明不同類型的幻覺現象（例如摘要中的微扭曲、檢索問答中的無中生有、多跳推理中的推理缺環等）都可以被統一識別，從而具有較強的魯棒性與跨任務泛化能力。

此外，研究人員還對“解釋生成質量”做了專門實驗。他們通過人工評價以及 GPT-4.1 自動評價兩種方式，從可讀性、幫助性和信息量等維度，系統比較不同模型產生的解釋。結果表明，FaithLens 所生成的解釋比大多數模型更清晰、更具體，且能夠有效指出幻覺產生的原因，例如“文檔中不存在該事實”“因果關系被錯誤推出”“數字被曲解”等，而不是簡單重復問題或泛泛而談。

更為關鍵的一點是計算成本。實驗給出了不同模型在同等樣本數量上的推理成本，FaithLens 由于參數規模小，可以用顯著更低的 GPU 資源實現推理，其成本大幅低于 API 級閉源模型，同時性能反而更優。實驗結果綜合表明，FaithLens 在精度、穩定性、解釋性以及成本四個方面都具有明顯優勢。

既要判斷對，也要解釋清，還要格式完整

這項工作的實驗設計依托于一個完整的模型訓練框架，該框架包含兩個核心階段：冷啟動監督微調階段（SFT）和基于規則的強化學習階段（RL）。研究團隊的設計目標不是簡單提高分類準確率，而是希望同時優化兩個輸出維度：一是是否存在忠實性幻覺的判斷結果，二是對此判斷的自然語言解釋。

在冷啟動監督微調階段，首要問題是訓練數據的獲取。傳統做法需要人工標注幻覺與否，同時撰寫解釋，這不僅昂貴且一致性差。雷峰網

研究團隊選擇利用強大的現成推理模型生成合成數據，具體做法是從公開任務數據集中抽取文檔與斷言，輸入到大型推理模型中，令其輸出三種內容：一是推理鏈條（chain-of-thought），二是自然語言解釋，三是標簽。這樣得到的樣本同時包含語義上下文、任務斷言、模型推理、解釋和結論。

然而，合成數據質量并不穩定。為此，研究人員提出了三層過濾機制來對數據質量進行控制。

第一層過濾關注標簽正確性，即比較強模型給出的標簽與原始標注是否一致，若不一致則丟棄該樣本。這一機制可以防止模型學習“錯誤但看起來合理的解釋”，避免解釋與真實標簽脫節。

第二層過濾關注解釋質量。團隊沒有采用人工打分，而是提出了一種“解釋能否提高預測能力”的客觀指標：先計算模型在無解釋情況下預測正確標簽的困惑度，再加入解釋重新預測，如果困惑度下降，則認定解釋確實提供了信息支持；否則，該解釋被視為冗余甚至誤導，從而對應樣本被剔除。

第三層過濾關注數據多樣性。由于前兩層過濾容易保留大量“簡單樣本”，從而導致模型過擬合某些模式，因此研究團隊使用句向量表示文檔-斷言對，通過聚類算法控制不同類別分布，選取具有代表性的樣本，使模型充分暴露于多種幻覺類型之中。

之后，模型在這些通過三重過濾后的數據上進行監督微調，使其獲得初步的幻覺檢測能力和解釋生成能力。然而，該階段主要屬于模仿學習，模型傾向于復制訓練數據中的推理習慣，而不會主動優化解釋質量或判斷可靠性。因此研究人員引入第二階段 —— 基于規則的強化學習。

在強化學習階段，模型針對同一輸入生成多條候選輸出，每條輸出同時包含推理過程、解釋和最終標簽。研究人員采用 GRPO（Group Relative Policy Optimization）算法來更新策略模型。這一算法無需訓練額外獎勵模型，而是直接利用一組候選之間的相對表現進行優化，更加高效。

實驗的關鍵創新在于獎勵設計。首先是預測正確獎勵，判斷模型最終是否正確識別幻覺或忠實內容。該獎勵直接作用于分類準確性。其次是解釋質量獎勵，這是這項工作最重要的貢獻之一。

研究團隊提出使用一個較弱的新手模型作為評價器，將 FaithLens 生成的解釋輸入給新手模型，若新手模型因此更容易作出正確判斷，則說明該解釋具備清晰性和信息性，因而應當給予獎勵。這樣系統便能自動學習生成“對他人有用”的解釋，而不是僅僅“自我感覺良好”的描述。第三項獎勵是格式獎勵，用于約束輸出結構，使其包含完整的推理、解釋和標簽，避免語句缺失或結構混亂。雷峰網

通過三種獎勵的合成，FaithLens 在 RL 階段逐步學會兼顧判斷準確性與解釋質量。實驗還進行了系統性的消融實驗，將三重過濾、解釋質量獎勵、RL 階段等組件依次去除，對性能影響進行分析，結果顯示，這些組件均對最終模型性能具有關鍵貢獻，尤其是解釋質量獎勵對解釋可用性提升顯著。

從黑箱判別，到透明可解釋

從學術層面來看，這項工作最重要的意義在于，它將幻覺檢測從簡單判別問題轉變為可解釋的推理評估問題。以往的多數檢測模型只給出二元判斷，用戶并不知道模型依據何在，也無法定位幻覺的來源。FaithLens 的框架使模型不僅判斷“對或錯”，同時說明“錯在何處、為什么錯”，從而使幻覺檢測從黑箱工具轉向可以審查、可以復核的透明系統。

從應用層面來看，研究解決了現實系統中的兩個矛盾：一方面，先進閉源大模型雖然檢測和解釋能力強，但成本極高，不適合大規模部署。另一方面，小規模模型推理便宜，但質量不足。FaithLens 表明，通過精心設計的數據合成策略與強化學習方案，中等規模模型完全可以實現接近甚至超過閉源大模型的檢測與解釋能力，從而顯著提高系統可落地性。

從方法論角度來看，研究團隊提出了一種新的訓練思想：即通過解釋是否能教會另一模型來衡量解釋質量，這突破了傳統的 BLEU、ROUGE 等表面指標，將解釋從文本評價對象轉變為功能性工具。這一思想不僅適用于幻覺檢測，還可以推廣到推理鏈驗證、數學推理解釋、事實核查說明等領域。

更深層的意義在于，這項研究對 AI 可信性提出了新的標準。它暗含這樣一個觀點：未來的智能系統不能只輸出答案，而必須提供可追溯、可核驗、可被他模型使用的解釋。這與醫療、司法、教育、金融等高風險領域的審計訴求高度契合，具有長遠的社會價值。

成果背后的科研力量

本論文共有三位共同第一作者，分別來自清華大學、復旦大學以及伊利諾伊大學香檳分校（UIUC），三人共同主導了本項工作的研究推進與論文撰寫。

其中，來自清華大學的司書正同時就職于深言科技，現為清華大學計算機系二年級博士生，其導師為孫茂松教授。他的研究方向主要包括自然語言處理和大規模語言模型。在相關領域，他以第一作者或共同第一作者身份在 NeurIPS、ACL、ICLR、EMNLP 等頂級國際會議發表論文 12 篇，其相關論文累計被引用 800 余次，GitHub 項目獲得超過 5000 顆星標，其中一篇第一作者論文獲得 EMNLP 2025 SAC Highlights Award。

參考鏈接：https://s1s-z.github.io/

這項工作的通訊錄為孫茂松，他是清華大學計算機科學與技術系長聘教授、博士生導師，是我國自然語言處理（NLP）與人工智能領域的重要學者之一。他現任清華大學人工智能研究院常務副院長，并兼任清華大學多個重要學術組織與研究機構的負責人，長期在教學、科研與人才培養一線工作，對我國 NLP 學科體系建設產生了深遠影響。

早年求學期間，孫茂松教授在清華大學計算機系完成本科與碩士學習，之后又在海外繼續深造并獲得計算語言學博士學位，形成了扎實的語言學與計算機科學交叉背景。

作為清華大學自然語言處理實驗室（THUNLP）的主要學術帶頭人之一，孫茂松教授長期關注中文信息處理、機器翻譯、語義計算、大模型訓練與推理、語言資源與知識圖譜、社會與人文計算等研究方向，帶領團隊圍繞 NLP 的基礎理論與關鍵技術開展系統性研究。他的研究既覆蓋語言建模、語義表示、推理等核心科學問題，也關注技術在教育、文化與社會治理等領域的落地與影響。

在科研成果方面，他指導和參與的團隊在 ACL、EMNLP、NAACL、COLING、AAAI、IJCAI 等國際頂級會議與期刊上發表了大量論文，并主持或承擔多項國家級重大科研項目。其研究成果涵蓋語言技術基礎理論、中文處理平臺、智能問答與翻譯系統、新一代大規模預訓練語言模型等多個方向，為推動中文 NLP 技術進入國際前列發揮了關鍵作用。

除學術研究外，孫茂松教授也十分重視技術轉化與社會服務。他積極推動語言資源建設與相關國際標準制定，參與組織重要科研平臺與學術組織建設，并倡導人工智能技術在教育普惠、文化傳承與公共治理中的應用。他主持推動了多項具有社會影響力的工程與平臺，使語言智能技術真正走向公眾與產業實際場景。

在學術榮譽方面，孫茂松教授獲得了多項國內外重要學術稱號與獎勵，包括國際學術組織會士等榮譽，充分體現了國際同行對其學術貢獻的認可。他培養的學生與團隊成員已在國內外高校與企業成長為骨干力量，形成了在 NLP 領域具有持續影響力的學術梯隊。

總體而言，孫茂松教授既是中國 NLP 早期開拓者之一，也是近年來大語言模型與可信 AI 研究的重要推動者。面發揮了關鍵作用。

參考鏈接：https://nlp.csai.tsinghua.edu.cn/staff/sms/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.