網易首頁 > 網易號 > 正文申請入駐

大模型「愛你在心口難開」？深度隱藏認知讓推理更可靠

2026-01-09 14:29:36　來源: 機器之心Pro

河北舉報

分享至

近年來，大語言模型在算術、邏輯、多模態理解等任務上之所以取得顯著進展，很大程度上依賴于思維鏈（CoT）技術。所謂 CoT，就是讓模型在給出最終答案前，先生成一系列類似「解題步驟」的中間推理。這種方式可以顯著提高模型在復雜推理類任務上的表現，已成為當前最主流的推理增強方法。

但從實際使用和研究結果來看，CoT 的表現并非始終穩定。一些任務中可以明顯觀察到：

不同推理路徑之間質量差異很大。
模型即使在訓練或提示方式保持一致的情況下，生成的中間步驟仍可能出現偏差。
推理鏈內部的正確性并不總能通過表面概率反映出來。

那么問題來了：大模型有沒有可能「意識到自己正在犯錯」？在 Token 概率不可靠的情況下，是否有其他信號可以指導更可靠的生成？

在這一背景下，合肥工業大學的研究團隊提出了一個觀點：大模型的內部其實存在一種「隱藏的真偽認知」。這種狀態可以形象地理解為「愛你在心口難開」——模型在內部激活中已隱含對推理正確性的判斷，但這種判斷卻在基于 Token 概率的生成過程中被錯誤地表達。因此，模型即便「口頭說錯」，其內部表征中仍保留著對糾錯的可能。

這篇論文的核心，就是讓模型學會用這種隱藏認知來給自己的每一步推理「打分」，進而過濾掉錯誤的推理鏈，讓 CoT 更可靠。該工作已被 AAAI 2026 錄用為 Oral 論文。

論文標題：Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning
論文鏈接
https://arxiv.org/abs/2507.10007
GitHub 開源代碼鏈接
https://github.com/hfutml/cog-cot

研究背景與問題

隨著大語言模型在數學推理、邏輯推理與多模態問答等領域的應用不斷擴大，人們越來越關注一個核心能力：模型是否能夠在生成過程中保持穩定且可靠的推理質量。在實際使用中，模型往往需要連續推導多個中間步驟才能得到最終答案，這使得推理鏈的質量對整體表現具有決定性影響。

然而，推理鏈本身是通過生成式過程逐步展開的，其可靠性受到多種因素影響，例如：模型對問題理解的細微偏差、局部步驟的表達噪聲、長鏈推理中的累積誤差等。即便模型整體能力足夠強，這些因素仍可能導致某些推理步驟偏離正確方向，影響最終回答的準確度。

因此，一個自然且重要的問題是：

在推理過程中，是否存在某種可以反映當前步驟可靠性的內部信號，從而幫助我們判斷哪些推理路徑值得繼續擴展？

大語言模型在生成每一步推理時都會產生豐富的內部激活，這些表示承載了模型對輸入、上下文以及當前推理狀態的理解。如果這些激活中包含區分「合理推理」與「錯誤推理」的信息，那么我們就有可能在生成階段實時利用這些內部線索，從而提升推理鏈的整體質量。

基于這一動機，這項研究聚焦于兩個關鍵問題：

模型的內部激活是否蘊含對推理步驟真偽的有效區分信息？
如果存在，能否構建一個利用這些信息的機制，幫助模型在推理過程中選擇更可靠的路徑？

論文提出的方案正是在回答這兩個問題，并嘗試讓推理過程在模型原有能力基礎上變得更穩健、更具判斷力。

方法與創新

論文提出的框架，核心思想是：雖然模型表面生成的推理步驟可能不夠可靠，但其內部激活在很大程度上「知道」哪些步驟是正確的。為此，作者設計了以下創新方法：

從多層注意力頭中探測「真偽敏感性」

對模型生成的推理步驟進行真偽標注（True/False），然后在模型各層的內部表示上訓練簡單探針（Linear Probe），測試哪些層對推理正確性最敏感。

結果表明：中間層的特定注意力頭能區分「正確步驟」和「錯誤步驟」，準確率可達 80% 以上。這說明模型的內部確實蘊含潛在的認知信號。

構建置信度預測器（Confidence Predictor）

作者選取最敏感的幾個注意力頭，將其激活拼接，作為輸入訓練一個輕量預測器，輸出對每一步推理的可信度評分。該評分不基于 Token 概率，而基于模型內部的深層表示，更能反映推理質量。

基于置信度的推理路徑搜索（Confidence-Guided Search）

結合模型生成概率與可信度，設計新的推理擴展策略：

通過此評分篩選最可信的推理路徑，使生成過程能夠：

主動避開不可靠的步驟；
優先擴展有潛力的推理方向；

從而提高整個 CoT 推理鏈的穩定性。

實驗結果

論文從兩個層面系統評估了所提出方法的有效性：（A）可信度預測器本身是否可靠？（B）將預測器用于推理路徑選擇后，整體推理是否更準確？

下面分兩部分介紹。

A. 置信度預測器的評估

作者首先評估模型內部激活是否真的攜帶「推理真偽」的可判別信號，以及預測器能否有效地從激活中提取這種信號。核心實驗包括：

真偽區分能力

通過在模型不同層、不同注意力頭上訓練線性探針，研究者獲得了以下發現：

中間層的部分注意力頭對推理真偽高度敏感；
特定激活向量可實現 80%–85% 的真偽區分準確率；
早期層和后期層的判別能力相對較弱。

這一結果表明：模型在內部表征中「隱含地知道」某一步推理是否正確。預測器正是利用這些「高敏感」注意力頭，因此具有良好的理論基礎。

可信度預測的校準效果

論文進一步引入 ECE-Loss 進行校準，使預測的可信度分數更可解釋、更穩定。實驗顯示置信度預測器得到的可信度分數校準性更佳，即得到的置信度分數更貼近真實的真偽概率值，作者用 ECE、Brier 和 AUC 這三個校準指標以及多種置信度量化方法來評估，如下表：

這證明預測器不僅能區分真偽，還能提供更具校準性、可用于決策的連續置信度評分，適合作為搜索策略的依據。

B. 基于預測器引導的推理性能

論文將可信度預測器應用于推理路徑選擇，并在多個 Benchmark 上進行驗證，既包括純文本推理任務（單模態），也包括視覺–語言混合的多模態推理任務。評估數據集覆蓋數學、邏輯以及常識推理。

單模態推理任務：包括 GSM8K、SVAMP、StrategyQA、BoolQ 和 Boolean。
多模態推理任務：包括 ScienceQA、RealWorldQA、CLEVR-Math 和 MMStar。
Baseline：Few-Shot CoT、Self-Consistency、Self Evaluation Guided Beam Search、Process Reward Models Search。

結果表明，方法在每種設置下均取得了優異性能。與相同設置下的少樣本思維鏈（Few-Shot CoT）相比，該方法在大多數測試中均展現出顯著提升。例如，在單模態任務的 SVAMP 數據集上，該方法相較于少樣本思維鏈提升了 5 個百分點（48.3 對 43.3）；在多模態任務的 RealWorldQA 數據集上，實現了 10.7 個百分點的提升。

總體而言，無論是在數學與符號推理、常識推理任務中，還是在單模態與多模態任務中，該方法在大多數情況下都優于基線模型少樣本思維鏈以及其他 Baseline。這充分表明，從模型內部狀態中提取的置信度能夠有效引導生成更可靠的推理鏈。

消融實驗表明：可信度預測器對推理提升至關重要。如下圖所示：

若將候選推理步驟「隨機選擇」而非依據可信度，本方法性能顯著下降。隨機策略在若干任務上甚至低于 Few-Shot CoT Baseline。

作者信息

一作：陳紫軍，合肥工業大學博士生，主要研究方向為大模型概率可靠性，曾在 AAAI、COLING 等頂級會議上發表論文。

通訊作者：胡文波，合肥工業大學計算機與信息學院副教授，黃山青年學者。主要研究方向為機器學習，包括貝葉斯概率機器學習、人工智能安全以及科學人工智能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.