網易首頁 > 網易號 > 正文申請入駐

ACL 2026｜答得更準還寫得更短？華為泰勒實驗室提出SHAPE，給LLM推理裝了個「推理稅」

2026-04-28 15:46:36　來源: 新浪財經

北京舉報

分享至

來源：市場資訊

（來源：機器之心）

用強化學習訓練大模型做數學推理，一個經典的尷尬局面是：模型要么答對了但廢話連篇，要么寫了一大堆最后答錯了，而你根本不知道它到底在哪一步走偏的。

來自華為泰勒實驗室、北京大學和上海財經大學的研究團隊提出了 SHAPE（Stage-aware Hierarchical Advantage via Potential Estimation），給推理鏈裝上了一套「里程碑 + 推理稅」機制——不僅告訴模型每一步推得對不對，還讓它為啰嗦付出代價。結果是：準確率平均提升 3%，token 消耗直降 30%。

該工作已被 ACL 2026 主會接收。

論文標題：SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning
論文鏈接：https://arxiv.org/abs/2604.06636

1. 痛點：模型推理的「稀疏信號」困境

目前強化學習的主流做法（GRPO）只在推理鏈的最末尾給一個對/錯的信號。這就好比一個學生寫了三頁解題過程，老師只在最后批一個「?」——學生完全不知道自己哪一步出了問題。

過程獎勵模型（PRM）可以給每一步打分，但標注成本極高，而且模型容易鉆空子（reward hacking）。近年來 MRT、SPO 等方法另辟蹊徑：通過讓模型在推理中間多次「快速試答」來估計當前走到哪了，以此構造中間信號。但這些方法各有各的短板。

團隊認為，一步好的推理應該同時滿足三件事：1?? 得有實質進展（不能原地踏步）、2?? 越難的階段突破越值錢（雪中送炭＞錦上添花：困惑時的突破更重要）、3?? 越簡潔越好（同樣的進展用更少的字完成應該得到獎勵）。

現有方法要么只管進展不管效率，要么只加長度懲罰但缺乏語義引導。SHAPE 就是為了把這三件事統一到一個框架里。

2. SHAPE 怎么做的？

整個框架分三步走：（A）切段+估勢能 → （B）段級獎勵計算 → （C）token 級信用再分配。

Step A：切段 + 估「推理勢能」

先把推理鏈按語義切成

個段落。切在哪？用每個 token 位置的預測熵來決定——熵高的地方說明模型正在猶豫「接下來該走哪條路」，這些位置就是天然的邏輯分叉點，比用換行符硬切靠譜得多。

切完之后，在每個段落邊界

次短 rollout：把已有推理當 prompt，讓模型快速嘗試給出最終答案，統計答對率，就是該位置的

處做

推理勢能：

打個比方：8 次試答對了 6 次，

模型此刻有七成半把握做對；只對 1 次，

還在迷霧里。相鄰段落的勢能差

直接反映了這段推理有沒有實質推進。

工程上，團隊用vLLM的Prefix Caching避免重復算共享前綴，rollout限制在max_tokens=16，開銷可控。

工程上，團隊用 vLLM 的 Prefix Caching 避免重復算共享前綴，rollout 限制在 max_tokens=16，開銷可控。

Step B：段級獎勵——「推理稅」機制

有了勢能，怎么變成 RL 能用的獎勵？這里借鑒了經典的勢函數獎勵塑形（PBRS）：在每一步構造一個額外獎勵

是常數時，理論保證不改變最優策略。

，勢能漲了就給正反饋，跌了就罰。當

但 LLM 推理有個特殊問題：原始策略傾向「寫多保平安」。所以團隊把固定

換成了

跟段落長度掛鉤的動態折扣——段落越長折扣越狠：

代入后，每段的優勢函數為：

其中

是過程獎勵系數。對塑形項展開，會出現一個很漂亮的結構：

是最終答案對錯，

第二項就是「推理稅」，它同時干了兩件事：稅基是當前勢能——推理早期勢能低，稅幾乎為零，放心探索；后期勢能高，稅就重了，不許靠反復確認來刷分。稅率跟段落長度正相關——越啰嗦稅越高，逼模型精練表達。一個動態折扣因子，同時搞定了階段感知和效率約束。

Step C：token 級信用再分配

段級

，最終每個 token 的優勢值為：

還是粒度太粗，關鍵決策 token 和抄題 token 不該拿一樣的信號。SHAPE 在段內用 token 預測熵做 Z-score 標準化得到重要性權重

高熵的關鍵決策點

，保持不變。這種調制錨定在段級優勢這個局部、密集的信號上，比直接在全局 outcome reward 上做 token 級調制穩定得多。

，信號放大；低熵的常規 token

3. 實驗結果

3.1 主實驗

三個基座模型（DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B、Qwen3-4B），五個數學推理 benchmark，全面評估。

跨模型一致性：無論 1.5B 還是 4B 規模，SHAPE 均同時提升準確率并降低 token 消耗。

準確率：Overall 平均提升約 3%，其中 DeepScaleR-1.5B 在 AIME 2024 上提升 7.0 個百分點（38.6% → 45.6%），Qwen3-4B 在 MinervaMATH 上提升 6.2 個百分點。

Token 效率： Overall 平均減少約 30%，最大降幅達 38.7%（DeepSeek-1.5B on MinervaMATH）。

訓練曲線進一步佐證了這一結論：SHAPE 在訓練全程保持準確率領先，同時驅動 response 長度持續下降，兩條曲線的走勢完美體現了又準又快的雙重優化目標。

3.2 消融實驗

消融實驗揭示了幾個關鍵發現：

熵分段（EBS）的移除導致 token 消耗增加約 3%，驗證了語義對齊的分段策略優于硬規則。

Token 級信用再分配（TCR）的移除導致準確率下降達 2.0 個百分點（AIME 2025），表明細粒度信號在關鍵決策點的放大作用不可或缺。

的靈敏度：

為最佳平衡點；過于寬松（0.95）導致 token 膨脹，過于激進（0.7）則引發性能崩潰——模型為了逃避「推理稅」而過早截斷推理鏈，產出「短但錯」的答案。

4. 深度分析

階段感知驗證。團隊對約 41 萬條 segment 轉移數據做了回歸分析：低勢能起點（

）上實現的勢能增益，對最終正確率的邊際貢獻比高勢能起點（

）高出約 18%。

進一步地，經過 SHAPE 訓練后，模型在勢能增益來源分布上呈現了顯著變化：來自低勢能狀態的增益貢獻占比從初始的 40.6% 上升到 44.4%，而來自高勢能狀態的貢獻從 10.5% 降至 3%。模型學會了把腦子集中在最需要突破的地方。

自適應計算。 SHAPE 按題目難度動態分配 token 預算，長度-難度縮放斜率比 GRPO 更陡、方差更小，這意味著：SHAPE 不是簡單地「寫得少」，而是精準地根據題目難度分配 token 預算。

消除推理坍縮。GRPO 在難題上存在一個顯著的病理現象：response 長度分布在 32k 上下文上限處出現異常 spike。SHAPE 基本消除了這類現象——分布曲線在遠低于上限處就平滑衰減至零。這進一步印證了推理稅的效力：當模型在某條推理路徑上持續消耗 token 卻無實質進展時，累積的稅會迫使模型及時止損。

5. 總結

SHAPE 用一個統一的數學框架——動態折扣的勢函數塑形——同時解決了過程監督中的三個核心問題：勢能增益度量、階段難度感知和 token 效率約束。SHAPE 的核心貢獻不僅在于具體的準確率和效率數字，更在于提出了推理稅這一優雅的機制設計范式，為理解和優化 LLM 推理過程提供了新的理論透鏡。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.