![]()
本文的第一作者雍希賢是來中國人民大學的博士生,研究方向聚焦于 Humanoid AI,LLM Coginition & Reasoning。通訊作者為中國人民大學的周驍副教授以及騰訊天衍實驗室的吳賢。
當前,大模型的「推理能力」幾乎成為行業最熱詞。o1、R1、QwQ 類強化學習(RL)推理模型,讓模型會「想」、會解析復雜問題,甚至能像人一樣寫長長的推理過程(Chain-of-Thought,CoT),在數學、邏輯與常識等領域任務中展現出強大的多步推理能力。
看上去很強,但問題也隨之出現:
- 這些模型真的需要思考那么久嗎?
- 長推理鏈條,是幫助模型正確,還是讓它越繞越遠?
如果你用過這些模型,就會感受到:
很多題模型似乎「一眼就能猜中八成」,但它還是堅持把推理寫到幾百、幾千 token,有時甚至越寫越亂、越想越錯。
來自中國人民大學、騰訊 Jarvis Lab、西湖大學的研究團隊,看到了這背后的核心:
當前大模型的「推理機制」其實非常低效,甚至常常在自我制造噪聲。
于是研究團隊從另一個視角切入 ——信息論
通過「熵(entropy)」與「互信息(mutual information)」等底層信息指標,重新衡量模型思考的價值。
最終,他們提出了一個極其實用的機制:Adaptive Think——讓模型在「自信夠了」時自動停止推理
不用訓練,用現有模型就能直接部署。
這項工作已被 NeurIPS 2025 選為 Spotlight。
![]()
- 論文標題: Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens
- 論文鏈接:https://arxiv.org/abs/2505.18237
- 代碼地址:https://github.com/chicosirius/think-or-not
首先,研究團隊借鑒了香農提出的通信三層模型,從技術、語義和實踐三個維度觀察大模型「過度思考」的本質。
![]()
圖 1:基于 Shannon & Weaver 通信模型,研究發現推理過長不僅信息增益逐漸減弱,還可能帶來偏差并降低最終準確率。
- 在技術層面(Technical Level),長推理鏈就像在一個噪聲信道里不斷添加冗余比特。適度的冗余可以增強魯棒性,但一旦超過模型的「推理容量」,額外的推理反而可能會帶來錯誤的積累和偏差。
- 在語義層面(Semantic Level),每一步推理應該減少答案的不確定性。但結果顯示,隨著推理鏈延長,單步推理帶來的信息增益迅速遞減,冗余步驟更多地在制造噪聲,而不是幫助模型更接近正確答案。
- 在實踐層面(Pragmatic Level),更長的推理鏈并不一定帶來更好的結果。跨多個任務和模型,推理長度的增加常常導致邊際收益下降,甚至出現「思考越久、答得越差」的情況。同時,冗長的推理鏈帶來更多 token 消耗、更高延遲和更大算力開銷,使得長推理在實際應用中既昂貴又不可靠。
模型推理為什么會「越想越偏」?
為了進一步量化模型「思考效率」,研究團隊從兩個層面構建了一個系統評價框架。
1. 全局視角:InfoBias(信息偏差)
將模型的推理鏈與理想推理路徑比對,使用互信息估計偏差:
偏差越大,說明模型「越想越偏」。
在 GSM8K 數據集上的實驗清晰地展示了這一規律:錯誤答案往往伴隨更長的推理鏈和更高的 InfoBias。越是錯誤的答案,模型往往輸出更多的 token。
![]()
圖 2:在 GSM8K 數據集上,不同模型的平均推理長度與歸一化后的每個 token 信息偏差關系。
2. 局部視角:InfoGain(信息增益)
定義每個推理步驟降低答案空間熵的量:
![]()
如果某一步沒降低不確定性,說明它提供的不是「有效推理」,而是「填充字數」。
實驗分析表明,模型在推理過程中表現出逐步降低不確定性和提高對正確答案的信心的趨勢,即有效推理可以逐步過濾不確定性并增強預測。
即使在推理開始前,模型在知識密集型任務上也顯示出初始直覺偏向正確答案,而不同任務的推理動態存在差異
![]()
圖 3:QwQ-32B 在不同推理基準下的不確定性動態
Adaptive Think
讓模型「有必要才深思,無必要就直答」
在發現過度思考可能降低推理效率后,研究團隊提出了Adaptive Think策略。其核心理念是通過熵來衡量模型在推理過程中的不確定性,并在模型達到足夠置信度時主動終止推理。
讓模型進行「自我監控式推理」
在這一框架下,每完成一步推理,模型都會計算答案分布的平均熵。當熵低于預設閾值 α 時,表明模型已經具備較高的自信,此時即可停止推理并輸出答案。該機制使模型能夠根據任務難度靈活調整思考深度:
- 對于簡單的常識類問題,僅需少量推理步驟即可得到答案,從而節省計算資源;
- 對于復雜的數學或邏輯問題,則會繼續深入推理,直至置信度達到足夠高的水平才終止。
![]()
圖 4:四種思考方式的示意圖
該策略體現了模型對自身信心的動態感知能力,使其能夠在不同任務類型間自適應調整推理深度,從而兼顧速度與可靠性。
實驗結果
更準、更省、更快
最后,研究團隊在 8 個大模型(包括 5 個非推理和 3 個推理模型)、6 個不同推理類型的 benchmark 上進行了完整評估。
在數學任務 GSM8K 與 AIME2025 上,Adaptive Think 在保持準確率的同時,將平均 Token 消耗減少了一半以上(40.01%-68.25)。例如,在 QwQ-32B 模型上,相比傳統的 Vanilla Think 模式,Adaptive Think 在 AIME2025 上將 Token 使用量減少了 68.25%,而準確率還提高了 0.93%。這說明模型本身早早就「知道正確答案」,冗余的只是大量驗證性推理。
![]()
表 1:在兩個數學推理基準上的性能與效率對比
在知識、邏輯、常識等任務上,Adaptive Think 同樣表現優異。在 MMLU-Pro、CommonsenseQA、ProntoQA、MuSR 等多個數據集上觀察到:QwQ-32B 的平均準確率提升 1.23%,平均 token 減少 42.52%。
在 CommonsenseQA 這種靠直覺的任務最顯著,DeepSeek-R1-32B 模型采用 Adaptive Think 后,準確率幾乎不變,但 Token 消耗減少了超過 80%。這表明對于依賴常識直覺的問題,Adaptive Think 能夠快速終止冗余推理,極大地提升效率
![]()
表 2:在知識、邏輯、常識推理基準上的性能與效率對比
這些實驗驗證了一個關鍵結論:大模型的長推理鏈并非必要,很多時候它們只需要「少想幾步」
什么時候應該「多想」,
什么時候應該「少想」?
研究團隊進一步分析不同任務的「推理需求」,例如:
- 數學題(AIME2025)→ 需要更深的推理鏈
- 常識題(CQA)→ 模型幾乎一開始就知道正確答案
- 多步軟推理(MuSR)→ 有效推理集中在前半段
![]()
圖 5&6:Adaptive Think 輸出 token 數量與題目難度的關系(左);閾值 α 對準確率和 token 數量的影響,揭示了 推理性能與計算效率之間的權衡(右)。
這意味著:
真正成熟的推理大模型,不是輸出固定長度的推理,而是能夠「自動匹配任務難度」。
總結
這篇論文給我們帶來一個很重要的理念:AI 推理的未來不在「更長」,而在「更聰明」
未來的大模型應該:1)在需要深度邏輯時能推理得足夠嚴謹;2)在只需直覺判斷時不浪費 token;3)能動態適應任務難度;4)在推理過程中實時自我評估,隨時剎車。
這項工作既解釋了「為什么模型會過度推理」,也告訴我們「如何簡單有效地解決」。
如果說強化學習讓模型學會了「怎么想」,那么 Adaptive Think 讓模型學會了 「想多久」。
這是推理大模型走向成熟的關鍵一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.