![]()
一、前言:LLM 推理很強,
但 “想多想少” 一直是個問題
近年來,大語言模型在數學推理、指令跟隨、智能規劃等任務上取得了驚人的進展,展現出 “會思考” 的強大能力。然而,當這些模型真正走向落地部署時,一個越來越現實的問題逐漸浮出水面:推理的計算成本正在失控。
在很多看似簡單的問題上,模型常常 “想太多”—— 生成冗長、發散的推理鏈條,反復兜圈,卻并沒有帶來更好的答案。這種現象被我們稱為過度思考(Overthinking)
而在真正復雜、需要精細推理的問題上,模型又可能因為推理預算受限而匆忙作答,關鍵步驟一帶而過,導致答案錯誤,這正是思考不足(Underthinking)
現有的主流做法,往往是通過統一縮短推理 token 上限來 “節省算力”。這種方法雖然簡單直接,卻相當于在不知道題目難度的情況下強行縮短考試時間:確實能防止模型無限 “胡思亂想”,但代價是 —— 在真正需要深度思考的問題上,準確率明顯下降,尤其是在復雜推理任務中表現得尤為突出。
問題的本質并不在于算力多少,而在于算力用在了哪里。
![]()
![]()
- 論文標題:Plan and Budget: Effective and Efficient Test-Time Scaling on Reasoning Large Language Models
- 論文鏈接:https://arxiv.org/abs/2505.16122
- 代碼鏈接:https://github.com/junhongmit/P-and-B
二、核心洞察:
推理失衡(Reasoning Miscalibration)才是根源
為弄清楚問題究竟出在哪里,研究團隊系統分析了多種主流推理模型(DeepSeek R1, QwQ, OpenAI o4-mini 等)在不同推理任務中的行為模式,并提出了一個統一而關鍵的觀察:
大語言模型在推理階段普遍存在一種 “推理失衡(Reasoning Miscalibration)” 現象 —— 模型投入的計算資源,往往與問題在不同推理階段的真實難度并不匹配。
具體來說,模型常常在不那么關鍵的步驟上反復思考,而在真正決定成敗的關鍵步驟上卻一帶而過。這種 “該多想的地方沒多想、不該多想的地方反而想太久” 的現象,正是導致過度思考與思考不足并存的根本原因。
進一步分析發現,這種推理失衡與模型在推理過程中不確定性的動態變化密切相關:
- 在推理的早期階段,模型往往面臨更高的認知不確定性(例如需要判斷整體思路、選擇解題路徑),這些步驟對最終答案影響巨大,值得投入更多計算資源;
- 而隨著推理逐步展開,許多后續步驟其實已經較為確定,此時繼續生成冗長的推理文本,往往邊際收益迅速下降,甚至可能引入新的錯誤。
這一發現揭示了一個重要事實:
推理效率的關鍵,不在于總共用了多少 token,而在于這些 token 被用在了哪一步。
也正是在這一洞察之上,論文進一步提出了如何 “按需分配” 推理計算的理論模型與算法框架。
三、理論突破:
BAM—— 不確定性驅動的計算分配模型
既然問題出在推理階段的算力分配失衡,一個自然的想法是:
我們能不能像考試一樣,更合理地分配 “思考時間”?
1)一個直觀的考試類比
想象你在做一道綜合大題。在一開始,你往往會花不少時間去:
- 理解題目在問什么
- 分析條件之間的關系
- 構思整體解題思路
這個階段充滿不確定性,如果沒想清楚,后面算得再快也可能全錯。但一旦
- 每一步都很確定
- 再花太多時間,收益其實不大
這正是推理過程中不確定性變化的真實寫照。
2)BAM 的核心思想:用 “不確定性” 指導算力分配
基于這一觀察,論文提出了BAM(Budget Allocation Model),將一次 LLM 推理看成由多個子問題(sub-questions)組成的過程,并用一個關鍵概念來指導預算分配 ——認知不確定性(epistemic uncertainty)。認知不確定性刻畫的是:
“在這一步,多想一點,是否真的能讓模型理解得更清楚?”
在理論上,我們借鑒了神經網絡縮放定律的思想,用一個簡潔的模型來描述token 數量與不確定性降低之間的關系
![]()
這個公式可以直觀地理解為:
- bij 表示分配給某個子問題的推理 token(也就是思考時間)
- 分配的 token 越多,不確定性確實會下降
- 但下降速度會越來越慢,存在明顯的邊際收益遞減
也就是說,前幾個 token 非常 “值錢”,而后面的 token 往往越來越 “劃不來”。這正是為什么簡單地拉長推理鏈條,并不能無限提升推理效果。
3)在總預算有限的情況下,token 應該怎么分?
有了上述建模,BAM 進一步提出了一個明確的問題: 在總推理預算有限的前提下,如何把 token 分配給不同的子問題,才能讓整體推理最有效?
通過優化整體不確定性,論文推導出了一個最優預算分配原則:
這條公式背后的含義,其實非常 “人性化”:推理預算應該更多分配給那些一開始不確定性高、但又確實能通過思考被有效消除的步驟。
回到考試的類比:
- 分值高、靠想能拿分的題 —— 值得多花時間
- 已經很確定的計算步驟 —— 快速完成即可
- 怎么想也想不明白的題 —— 及時止損,避免浪費時間
BAM 的核心思想可以用一句話概括:
像考試分配答題時間一樣,把推理算力用在 “想明白思路” 的階段,而不是平均或盲目地拉長整個推理過程。
四、Plan-and-Budget:
讓理論真正落地的推理框架
基于 BAM 的理論原則,研究團隊進一步提出了Plan-and-Budget—— 一個完全在推理階段運行、無需任何訓練或微調的通用推理框架。它的目標很明確:在不改變模型本身的前提下,讓推理算力用在最關鍵的地方。
整個框架可以概括為兩個步驟:先規劃,再分配。
① Plan:先把 “大題” 拆清楚
在推理開始前,Plan-and-Budget 會先對原始問題進行一次高層次的規劃(planning),將復雜問題拆解為一系列結構化的子問題。
這一步的作用并不是讓模型 “想得更長”,而是想得更有方向
- 明確每一步在整體推理中的角色
- 避免在無關分支上反復探索
- 把 “思考路徑” 從一開始就理順
直觀來說,這相當于考試時先寫草稿、定解題思路,而不是一上來就開始亂算。
② Budget:把 token 用在 “最值錢” 的步驟上
在完成規劃之后,Plan-and-Budget并不會給每個子問題平均分配推理 token,而是采用一種前置衰減(decay-based)的預算分配策略(當然,也支持按照問題類型靈活采用其他預算分配策略)。
這種策略的核心思想是:
- 推理早期步驟不確定性更高,對最終答案影響更大
- 推理后期步驟往往更確定,繼續長篇推理的邊際收益較低
因此,框架會:
- 在前幾個關鍵子問題上分配更多 token
- 隨著推理推進,逐步減少每一步的推理預算
這正是在實踐中對 BAM 最優分配原則的一種近似實現。
![]()
五、實驗結果:
不僅更準,還更 “算得值”
前面的理論和算法,最終都要回到一個現實問題:
Plan-and-Budget 到底有沒有在 “省算力” 的同時,真正提升推理質量?
1)先看一個直觀對比:不同難度題目的表現
下圖展示了在 TravelPlanner 任務中,不同方法在 簡單 / 中等 / 困難 三種問題難度下的通過率(Pass Rate)對比:
![]()
這張圖里有一個非常值得注意的現象:
- Global Budget(全局限制 token)在所有難度上都明顯降低了通過率 —— 尤其是在中等和困難問題上,性能下降最為明顯
- 這說明:單純縮短推理過程,確實會 “省 token”,但往往是以犧牲正確性為代價的
相比之下,Plan-and-Budget 在三個難度級別上都取得了最高的通過率
- 簡單問題:避免了無意義的 “過度思考”
- 中等問題:在關鍵步驟上給足思考空間
- 困難問題:顯著優于全局 budget 方法,體現出結構化推理的優勢
2)關鍵不只在 “對不對”,還在 “花了多少 token”
更重要的是,Plan-and-Budget 的提升并不是靠 “多用算力” 換來的。從圖例中可以看到:
- 在通過率更高的同時,Plan-and-Budget 的平均 token 使用量反而更低
- 這說明:結構化規劃 + 局部預算分配,真的把算力用在了最關鍵的地方
也正是因為這個原因,論文認為: 僅用準確率或 token 數量來評價推理方法,都是不夠全面的。
3)E3 指標:把 “準確” 和 “高效” 統一到一個量里
為更客觀地衡量推理方法在真實部署中的價值,論文提出了E3(Efficiency-aware Effectiveness Score)指標。E3 的設計初衷非常簡單:獎勵 “用更少的 token,得到同樣甚至更好答案” 的方法, 懲罰 “靠犧牲準確率或盲目堆算力” 的策略。
![]()
在 E3 指標下,一些 “強行限制推理長度、但正確率明顯下降” 的方法會自然處于劣勢; 而像 Plan-and-Budget 這樣,在保持甚至提升準確率的同時降低計算成本的方法,則會被清晰地凸顯出來。
4)結果總結:為什么這些數字很重要?
綜合多種推理任務(數學推理 Mathematical Reasoning,指令理解與執行 Instruction Following,以及規劃與決策推理 Agentic Planning)和模型規模,Plan-and-Budget 帶來了非常穩定的收益:
- 最高+70%的準確率提升
- 最高?39%的 token 使用量減少
- E3 指標最高提升193.8%
這些結果共同表明:Plan-and-Budget 并不是 “算得少一點”, 而是 “算得更聰明”。
![]()
六、意義與展望:
推理不該是 “算力堆出來的”
隨著大語言模型規模不斷擴大,推理能力的提升似乎越來越依賴于 “多用一點算力”。然而,這項工作傳遞了一個不同的信號:推理效果的關鍵,并不只在于算力多少,而在于算力是否被合理使用。
Plan-and-Budget 從 “推理失衡” 這一普遍但長期被忽視的問題出發,通過不確定性視角建立理論模型,并進一步將其落地為一個無需訓練、僅在推理階段運行的通用框架。實驗結果表明,合理的推理規劃與預算分配,能夠在多種任務和模型上同時提升準確率與計算效率,甚至讓中等規模模型在效率上逼近更大模型。
更重要的是,這項研究提出了一種新的推理范式:從 “推理長度” 轉向 “推理價值”, 從 “算得更多” 轉向 “算得更聰明”。
在未來,隨著 LLM 被部署到越來越多對成本、時延和穩定性要求嚴格的真實場景中,這種 “按需推理” 的思想,或將成為高效、可控智能系統的重要基礎。
當模型學會 “什么時候該多想,什么時候該收手”,
推理,才真正開始變得成熟。
作者信息:
Junhong Lin(林俊宏),麻省理工學院計算機科學與人工智能實驗室(MIT CSAIL)博士研究生,研究方向包括大語言模型推理、圖神經網絡與知識圖譜。其成果發表于 ICLR、ICML、NeurIPS、KDD、ICAIF 等國際頂級會議,并獲得 ACM KDD Best Paper Award 與 ICAIF Best Paper Honorary Mention。研究聚焦于提升大模型在推理效率與可靠性方面的理論建模與系統實踐。
Xinyue Zeng (曾欣悅), Virginia Tech VLOG lab 二年級 PhD,研究方向包括大語言模型推理穩定性和可靠性,相關成果發表于 ICML,ICLR,ICDM 等等國際頂級會議。目前致力于構建可解釋、可部署的 LLM 評估與推理方法。將于今年暑假以研究實習生的身份加入微軟研究院實習。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.