網易首頁 > 網易號 > 正文申請入駐

大模型高效推理新答案：ICLR 2026提出Balanced Thinking

2026-04-27 11:46:27　來源: 機器之心Pro

河北舉報

分享至

在過去一年中，大模型推理中的「過度思考」問題引發了廣泛關注。然而，真正的挑戰并非簡單地縮短思維鏈。面對簡單問題，模型往往在得出正確答案后仍持續進行冗余驗證；而許多旨在抑制過度思考的方法雖能壓縮輸出長度，卻常常將必要的推理探索一并剔除，導致模型從「想太多」直接滑向「想太少」。高效推理的核心目標并非一刀切地削減推理步驟，而是使模型在不同任務中實現恰到好處的思考深度。

針對這一問題，哈爾濱工業大學（深圳）等機構的研究者提出了 ReBalance 方法，并首次系統性引入Balanced Thinking這一新視角。該工作的核心觀點明確：高效推理的關鍵并非盲目壓縮推理長度，而是在過度思考與思考不足之間維持動態平衡。

基于此，ReBalance 利用模型自身的置信度信號，在思考過程中實時調控其內部狀態，無需額外訓練即可實現推理行為的動態引導。實驗表明，在參數規模從 0.5B 至 32B 的四個主流模型上，以及涵蓋數學推理、通用問答和編程任務的九個基準測試中，ReBalance 在精度提升 10.0 的同時，推理長度直降 35.4%。

論文標題：Efficient Reasoning with Balanced Thinking
項目主頁：https://rebalance-ai.github.io
會議：ICLR 2026
方法名稱：ReBalance
作者機構：哈爾濱工業大學（深圳）等

真正的問題，不是「過度思考」，而是「思考失衡」

慢思考模型已展現出強大的推理能力，但「會推理」不等于「高效推理」。在簡單題目上，模型經常在答案收斂后持續分叉、回看、復核，帶來更高的延遲和 token 成本，甚至可能引入額外幻覺。現有方法主要通過抑制反思關鍵詞的生成或直接施加推理長度懲罰來緩解這一問題，但它們往往隱含了一個過于簡化的假設，即推理「越短越好」。

然而，過度思考與思考不足本質不同。前者指在正確推理路徑已然顯現后仍無謂延展，后者則是在探索尚未充分時便倉促得出結論。若將這兩種失衡模式混為一談，許多標榜「高效」的方法實則以犧牲準確率為代價換取推理長度縮減。

ReBalance 的核心貢獻在于將高效推理重新定義為一種「平衡」問題：模型不應一味追求縮短推理，而應在恰當的時機停止冗余思考，在必要時繼續深入探索，從而實現簡潔性與充分性的統一。

圖 1：在同一問題上，慢思考模型在得出正確答案后仍進行冗余反思；現有抑制方法則過度壓縮有效推理，導致思考不足；而 ReBalance 能夠生成既簡潔又充分的推理過程。

關鍵發現：置信度是推理狀態的可靠連續信號

論文中提供了一個具有啟發性的見解。作者通過分析 step-level confidence 及局部 confidence variance 發現，不同推理失衡狀態呈現出顯著差異的置信度軌跡。在過度思考情形下，模型置信度在多個推理步驟中表現出明顯波動，反映出其在不同推理路徑之間反復搖擺，難以收斂。相比之下，思考不足通常表現為持續偏高的置信度與較低的波動性，表明模型并非缺乏推理能力，而是因過度自信而過早鎖定于錯誤的推理路徑。

這一發現具有重要意義。它將高效推理的調控機制從依賴經驗性關鍵詞抑制，推進至基于模型原生信號的動態狀態建模。置信度并非靜態評分，而是一種可在線觀測、連續演化且與推理行為緊密耦合的狀態指標。一旦識別出該連續信號，便為實現細粒度的動態推理控制提供了可能。

圖 2：現有過度思考抑制方法在縮短正確樣本推理長度的同時，也壓縮了錯誤樣本的推理過程，表明其在緩解過度思考的同時引入了思考不足的問題。相比之下，ReBalance 能夠更有效地維持推理平衡。

ReBalance：將模型實時引導至推理平衡區

基于上述洞察，ReBalance 提出了一種無需訓練的兩階段推理調控框架。第一階段為離線數據采集：在小規模已知數據集上執行單次前向推理，依據置信度及其波動程度識別具有過度思考或思考不足傾向的推理步驟，并從深層 hidden states 中分別提取兩類原型表示。兩類原型之差構成一個引導向量（steering vector），用以刻畫模型在兩種失衡狀態之間的內部遷移方向。

第二階段為在線動態引導：在實際思考過程中，ReBalance 持續監測當前推理步驟的置信度與波動幅度，并通過一個基于模型行為擬合的動態控制函數，實時確定引導的方向與強度。當模型處于低置信度、高波動狀態時，方法增強其收斂傾向，抑制冗余反思；當模型處于高置信度、低波動狀態時，則施加反向引導，鼓勵進一步探索，防止過早終止。該方法全程無需重新訓練、不依賴輔助模型，亦不引入額外推理階段。

圖 3：ReBalance 框架示意圖

實驗驗證：兼顧效率與性能的精準壓縮

實驗結果充分驗證了 Balanced Thinking 的有效性與魯棒性。論文在四個參數規模從 0.5B 至 32B 的慢思考模型上開展了系統性評估，涵蓋數學推理、通用問答和代碼生成任務等九項基準測試。結果表明，ReBalance 并非以犧牲性能換取輸出長度的縮減，而是在提升推理效率的同時顯著增強模型表現。

在數學推理任務中，該方法最高實現 10.0 個百分點的 Pass@1 準確率提升，并將生成長度最多壓縮 35.4%。在非數學任務如 GPQA-D、StrategyQA 和 LiveCodeBench 上，ReBalance 同樣展現出穩定的跨領域泛化能力，其中 GPQA-D 準確率最高提升 6.6 個百分點，同時 token 消耗最多降低 29.9%。

尤為關鍵的是，ReBalance 并非對所有輸出進行無差別截斷。論文分析表明，現有方法往往同步縮短正確與錯誤樣本的推理鏈，導致在緩解過度思考的同時誘發思考不足。相比之下，ReBalance 能夠動態調節推理深度：當模型已步入正確推理路徑時，有效削減冗余內容；當模型仍需深入探索時，則保留必要推理步驟。這種自適應機制正是 Balanced Thinking 的核心優勢。

此外，作者在 Ascend 910B NPU 平臺的 openPangu slow-thinking 模式中驗證了該方法的部署兼容性。在 AIME 2025 基準上，ReBalance 在準確率提升 3.4 個百分點的同時，輸出長度減少 35.3%，進一步凸顯其在實際應用中的潛力。

·表 1：數學推理任務驗證

結語

ReBalance 的價值不僅在于提出了一種新的高效推理方法，更在于系統引入了Balanced Thinking這一全新視角。高效推理本質上并非單純的序列壓縮問題，而應是一個動態控制過程。當目標從「縮短推理鏈」轉變為「維持推理過程的平衡」時，置信度自然成為連續可靠的控制信號，而潛空間引導（Latent Steering）則成為輕量且高效的干預機制，從而重構了整個問題的求解范式。

對于面向實際部署的推理模型，這一視角尤為重要。在延遲敏感、算力受限的應用場景中，模型所需并非無限制延長推理時間，而是以更優的方式思考，并恰當地控制推理長度。ReBalance 為此提供了一個簡潔、輕量且具有良好泛化能力的解決方案。目前，該項目已開源，并配套提供了交互式演示及多個模型的引導向量，降低了復現與應用門檻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.