<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ACL 2026|答得更準還寫得更短?華為泰勒實驗室提出SHAPE,給LLM推理裝了個「推理稅」

      0
      分享至

      來源:市場資訊

      (來源:機器之心)


      用強化學習訓練大模型做數學推理,一個經典的尷尬局面是:模型要么答對了但廢話連篇,要么寫了一大堆最后答錯了,而你根本不知道它到底在哪一步走偏的。

      來自華為泰勒實驗室、北京大學和上海財經大學的研究團隊提出了 SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation),給推理鏈裝上了一套「里程碑 + 推理稅」機制——不僅告訴模型每一步推得對不對,還讓它為啰嗦付出代價。結果是:準確率平均提升 3%,token 消耗直降 30%。

      該工作已被 ACL 2026 主會接收。


      • 論文標題:SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning

      • 論文鏈接:https://arxiv.org/abs/2604.06636

      1. 痛點:模型推理的「稀疏信號」困境

      目前強化學習的主流做法(GRPO)只在推理鏈的最末尾給一個對/錯的信號。這就好比一個學生寫了三頁解題過程,老師只在最后批一個「?」——學生完全不知道自己哪一步出了問題。

      過程獎勵模型(PRM)可以給每一步打分,但標注成本極高,而且模型容易鉆空子(reward hacking)。近年來 MRT、SPO 等方法另辟蹊徑:通過讓模型在推理中間多次「快速試答」來估計當前走到哪了,以此構造中間信號。但這些方法各有各的短板。

      團隊認為,一步好的推理應該同時滿足三件事:1?? 得有實質進展(不能原地踏步)、2?? 越難的階段突破越值錢(雪中送炭>錦上添花:困惑時的突破更重要)、3?? 越簡潔越好(同樣的進展用更少的字完成應該得到獎勵)。


      現有方法要么只管進展不管效率,要么只加長度懲罰但缺乏語義引導。SHAPE 就是為了把這三件事統一到一個框架里。

      2. SHAPE 怎么做的?


      整個框架分三步走:(A)切段+估勢能 → (B)段級獎勵計算 → (C)token 級信用再分配。

      Step A:切段 + 估「推理勢能」

      先把推理鏈按語義切成

      個段落。切在哪?用每個 token 位置的預測熵來決定——熵高的地方說明模型正在猶豫「接下來該走哪條路」,這些位置就是天然的邏輯分叉點,比用換行符硬切靠譜得多。

      切完之后,在每個段落邊界

      次短 rollout:把已有推理當 prompt,讓模型快速嘗試給出最終答案,統計答對率,就是該位置的

      處做

      推理勢能:


      打個比方:8 次試答對了 6 次,


      模型此刻有七成半把握做對;只對 1 次,


      還在迷霧里。相鄰段落的勢能差


      直接反映了這段推理有沒有實質推進。

      工程上,團隊用vLLM的Prefix Caching避免重復算共享前綴,rollout限制在max_tokens=16,開銷可控。

      工程上,團隊用 vLLM 的 Prefix Caching 避免重復算共享前綴,rollout 限制在 max_tokens=16,開銷可控。

      Step B:段級獎勵——「推理稅」機制

      有了勢能,怎么變成 RL 能用的獎勵?這里借鑒了經典的勢函數獎勵塑形(PBRS):在每一步構造一個額外獎勵


      是常數時,理論保證不改變最優策略。

      ,勢能漲了就給正反饋,跌了就罰。當

      但 LLM 推理有個特殊問題:原始策略傾向「寫多保平安」。所以團隊把固定

      換成了

      跟段落長度掛鉤的動態折扣——段落越長折扣越狠:


      代入后,每段的優勢函數為:


      其中


      是過程獎勵系數。對塑形項展開,會出現一個很漂亮的結構:

      是最終答案對錯,


      第二項就是「推理稅」,它同時干了兩件事:稅基是當前勢能——推理早期勢能低,稅幾乎為零,放心探索;后期勢能高,稅就重了,不許靠反復確認來刷分。稅率跟段落長度正相關——越啰嗦稅越高,逼模型精練表達。一個動態折扣因子,同時搞定了階段感知和效率約束。

      Step C:token 級信用再分配

      段級

      ,最終每個 token 的優勢值為:

      還是粒度太粗,關鍵決策 token 和抄題 token 不該拿一樣的信號。SHAPE 在段內用 token 預測熵做 Z-score 標準化得到重要性權重


      高熵的關鍵決策點



      ,保持不變。這種調制錨定在段級優勢這個局部、密集的信號上,比直接在全局 outcome reward 上做 token 級調制穩定得多。

      ,信號放大;低熵的常規 token

      3. 實驗結果

      3.1 主實驗

      三個基座模型(DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B、Qwen3-4B),五個數學推理 benchmark,全面評估。


      • 跨模型一致性:無論 1.5B 還是 4B 規模,SHAPE 均同時提升準確率并降低 token 消耗。

      • 準確率:Overall 平均提升約 3%,其中 DeepScaleR-1.5B 在 AIME 2024 上提升 7.0 個百分點(38.6% → 45.6%),Qwen3-4B 在 MinervaMATH 上提升 6.2 個百分點。

      • Token 效率: Overall 平均減少約 30%,最大降幅達 38.7%(DeepSeek-1.5B on MinervaMATH)。


      訓練曲線進一步佐證了這一結論:SHAPE 在訓練全程保持準確率領先,同時驅動 response 長度持續下降,兩條曲線的走勢完美體現了又準又快的雙重優化目標。

      3.2 消融實驗


      消融實驗揭示了幾個關鍵發現:

      • 熵分段(EBS)的移除導致 token 消耗增加約 3%,驗證了語義對齊的分段策略優于硬規則。

      • Token 級信用再分配(TCR)的移除導致準確率下降達 2.0 個百分點(AIME 2025),表明細粒度信號在關鍵決策點的放大作用不可或缺。

      • 的靈敏度:


        為最佳平衡點;過于寬松(0.95)導致 token 膨脹,過于激進(0.7)則引發性能崩潰——模型為了逃避「推理稅」而過早截斷推理鏈,產出「短但錯」的答案。

      4. 深度分析

      階段感知驗證。 團隊對約 41 萬條 segment 轉移數據做了回歸分析:低勢能起點(


      )上實現的勢能增益,對最終正確率的邊際貢獻比高勢能起點(

      )高出約 18%。


      進一步地,經過 SHAPE 訓練后,模型在勢能增益來源分布上呈現了顯著變化:來自低勢能狀態的增益貢獻占比從初始的 40.6% 上升到 44.4%,而來自高勢能狀態的貢獻從 10.5% 降至 3%。模型學會了把腦子集中在最需要突破的地方。


      自適應計算。 SHAPE 按題目難度動態分配 token 預算,長度-難度縮放斜率比 GRPO 更陡、方差更小,這意味著:SHAPE 不是簡單地「寫得少」,而是精準地根據題目難度分配 token 預算。


      消除推理坍縮。GRPO 在難題上存在一個顯著的病理現象:response 長度分布在 32k 上下文上限處出現異常 spike。SHAPE 基本消除了這類現象——分布曲線在遠低于上限處就平滑衰減至零。這進一步印證了推理稅的效力:當模型在某條推理路徑上持續消耗 token 卻無實質進展時,累積的稅會迫使模型及時止損。


      5. 總結

      SHAPE 用一個統一的數學框架——動態折扣的勢函數塑形——同時解決了過程監督中的三個核心問題:勢能增益度量、階段難度感知和 token 效率約束。SHAPE 的核心貢獻不僅在于具體的準確率和效率數字,更在于提出了推理稅這一優雅的機制設計范式,為理解和優化 LLM 推理過程提供了新的理論透鏡。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      狗仔曝楊子去年和李雋子已結婚生子,和黃圣依去年一月才官宣離婚

      狗仔曝楊子去年和李雋子已結婚生子,和黃圣依去年一月才官宣離婚

      童叔不飆車
      2026-04-28 00:55:07
      “全網最暖糖廠”廠長:目前運送甘蔗并非專業人員,未清理的鐵皮等雜物容易損傷機器

      “全網最暖糖廠”廠長:目前運送甘蔗并非專業人員,未清理的鐵皮等雜物容易損傷機器

      瀟湘晨報
      2026-04-28 15:09:10
      AI爆款短劇《菩提臨世》從抖音和紅果下架

      AI爆款短劇《菩提臨世》從抖音和紅果下架

      新腕兒
      2026-04-27 11:15:48
      梁朝偉喝幸運咖,瑞幸恨不得親蜜雪冰城一口

      梁朝偉喝幸運咖,瑞幸恨不得親蜜雪冰城一口

      餐觀局
      2026-04-27 22:22:04
      司機用錫紙包裹ETC偷逃過路費:36次逃費5萬余元 因詐騙罪獲刑

      司機用錫紙包裹ETC偷逃過路費:36次逃費5萬余元 因詐騙罪獲刑

      快科技
      2026-04-28 11:27:26
      殯葬師提醒:臨終老人想從醫院回家,按這4步走才不留遺憾

      殯葬師提醒:臨終老人想從醫院回家,按這4步走才不留遺憾

      健身狂人
      2026-04-28 16:36:21
      1959年陳璧君病逝,臨終前寫信叮囑子女:不要忘記報答國家的恩情

      1959年陳璧君病逝,臨終前寫信叮囑子女:不要忘記報答國家的恩情

      南書房
      2026-04-28 10:15:11
      000004將成絕唱!A股上市35年元老鎖定退市

      000004將成絕唱!A股上市35年元老鎖定退市

      快科技
      2026-04-28 16:14:07
      多家航司再度大幅上調5月航線燃油費

      多家航司再度大幅上調5月航線燃油費

      第一財經資訊
      2026-04-28 11:28:15
      男子稱被違規取保候審10余年 撤案后記錄仍在怕影響孩子 當地警方:收到申訴

      男子稱被違規取保候審10余年 撤案后記錄仍在怕影響孩子 當地警方:收到申訴

      紅星新聞
      2026-04-28 17:18:35
      涉嫌嚴重違紀違法!中船重工原副總經理被查

      涉嫌嚴重違紀違法!中船重工原副總經理被查

      國際船舶網
      2026-04-28 13:45:16
      AI也在“投毒”?國家安全部曝光的內幕,遠比你想象的可怕

      AI也在“投毒”?國家安全部曝光的內幕,遠比你想象的可怕

      忠于法紀
      2026-04-28 18:35:18
      斷崖下滑!曼城昔日真核徹底失寵,瓜迪奧拉愛將或被清洗

      斷崖下滑!曼城昔日真核徹底失寵,瓜迪奧拉愛將或被清洗

      奶蓋熊本熊
      2026-04-28 05:31:23
      CBA宣布重要決定,季后賽的天就要亮了

      CBA宣布重要決定,季后賽的天就要亮了

      宗介說體育
      2026-04-28 09:46:29
      海牙終審定局 杜特爾特回國無望 人民日報一錘定音:中國不救菲律賓

      海牙終審定局 杜特爾特回國無望 人民日報一錘定音:中國不救菲律賓

      林子說事
      2026-04-27 17:41:46
      阿sa蔡卓妍宣布結婚,阿嬌鐘欣潼發文祝福:很開心你等到了那個合拍又珍視你的人,看著你被愛意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

      阿sa蔡卓妍宣布結婚,阿嬌鐘欣潼發文祝福:很開心你等到了那個合拍又珍視你的人,看著你被愛意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

      極目新聞
      2026-04-28 13:14:42
      悲哀!62歲央企老人突然猝死,老伴哭訴工資再高,日子也沒奔頭了

      悲哀!62歲央企老人突然猝死,老伴哭訴工資再高,日子也沒奔頭了

      火山詩話
      2026-04-27 07:11:45
      車還在,廠沒了,40 萬哪吒車主的尷尬

      車還在,廠沒了,40 萬哪吒車主的尷尬

      科技狐
      2026-04-26 22:54:06
      美伊大戰,暴露了中國家底!特朗普終于明白,為啥中國人底氣十足

      美伊大戰,暴露了中國家底!特朗普終于明白,為啥中國人底氣十足

      我不叫阿哏
      2026-04-28 16:44:22
      90%服務器在跑的系統,實習生該怎么學

      90%服務器在跑的系統,實習生該怎么學

      固件更新中
      2026-04-27 16:38:07
      2026-04-28 19:08:49
      新浪財經 incentive-icons
      新浪財經
      新浪財經是一家創建于1999年8月的財經平臺
      3044951文章數 6981關注度
      往期回顧 全部

      教育要聞

      小學數學單位換算:1公頃等于多少平方米?

      頭條要聞

      《奇葩說》辯手稱淘寶上賣毒品前體 有人留言"能吃嗎"

      頭條要聞

      《奇葩說》辯手稱淘寶上賣毒品前體 有人留言"能吃嗎"

      體育要聞

      季后賽最新局勢:雷霆4-0晉級首隊 4隊3-1

      娛樂要聞

      蔡卓妍官宣結婚,老公比她小10歲

      財經要聞

      政治局會議:加強算力網等規劃建設

      科技要聞

      10億周活目標落空!傳OpenAI爆發內部分歧

      汽車要聞

      拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

      態度原創

      本地
      數碼
      游戲
      旅游
      軍事航空

      本地新聞

      用青花瓷的方式,打開西溪濕地

      數碼要聞

      2026大學生全能游戲本怎么選?HyperX暗影精靈PRO 16配置解析必看

      想在開放都市二游里爭當五星好市民,需要一套怎樣的配置?

      旅游要聞

      “五一”爬泰山必看!7條線路任選,多項文旅活動解鎖深度體驗

      軍事要聞

      德國總理默茨:美國正遭受伊朗領導層的羞辱

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: jlzz大jlzz大全免费| 亚洲日韩一区二区| 欧美色欧美亚洲高清在线视频| 漂亮的人妻少妇| 欧美丰满老妇性猛交| 18岁以下禁止观看的网站| av男人的天堂在线观看国产| 3P视频网站视频网站视频网站在线播放| 欧美人与禽交zozo| 亚洲自偷自偷在线成人网站传媒| 人妻忍着娇喘被中进中出视频| 国产精品亚洲精品日韩已方| 鸡泽县| 成年女人免费毛片视频永久| 国产在线啪| 天天狠天天天天透在线| 久久精品国产99国产精偷| 深圳市| 蜜臀av色欲a片无码精品一区| 乱乱网| 少妇高潮视频| 欧美午夜福利| 无码人妻斩一区二区三区| 久久99精品国产麻豆婷婷| 久久国产亚洲偷自| 一级片免费网站| 日韩在线视频线观看一区| 三男一女吃奶添下面视频| 国产ts| 国产欧美日韩一区二区加勒比| 亚洲五月综合| 少妇扒开双腿自慰出白浆 | 3P视频网站视频网站视频网站在线播放| 一本色道久久综合精品婷婷| 蜜桃av在线| 国产亚洲sss在线观看| 中文字幕在线日韩| 真实乱子伦露脸自拍| 男人av无码天堂| 一道本AV免费不卡播放| 成人伊人网|