<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      華為泰勒實驗室提出SHAPE,給LLM推理裝了個「推理稅」

      0
      分享至



      用強化學習訓練大模型做數學推理,一個經典的尷尬局面是:模型要么答對了但廢話連篇,要么寫了一大堆最后答錯了,而你根本不知道它到底在哪一步走偏的。

      來自華為泰勒實驗室、北京大學和上海財經大學的研究團隊提出了SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation),給推理鏈裝上了一套「里程碑 + 推理稅」機制——不僅告訴模型每一步推得對不對,還讓它為啰嗦付出代價。結果是:準確率平均提升 3%,token 消耗直降 30%。

      該工作已被ACL 2026 主會接收。



      • 論文標題:SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning
      • 論文鏈接:https://arxiv.org/abs/2604.06636

      1. 痛點:模型推理的「稀疏信號」困境

      目前強化學習的主流做法(GRPO)只在推理鏈的最末尾給一個對/錯的信號。這就好比一個學生寫了三頁解題過程,老師只在最后批一個「?」——學生完全不知道自己哪一步出了問題。

      過程獎勵模型(PRM)可以給每一步打分,但標注成本極高,而且模型容易鉆空子(reward hacking)。近年來 MRT、SPO 等方法另辟蹊徑:通過讓模型在推理中間多次「快速試答」來估計當前走到哪了,以此構造中間信號。但這些方法各有各的短板。

      團隊認為,一步好的推理應該同時滿足三件事:1??得有實質進展(不能原地踏步)、2??越難的階段突破越值錢(雪中送炭>錦上添花:困惑時的突破更重要)、3??越簡潔越好(同樣的進展用更少的字完成應該得到獎勵)。



      現有方法要么只管進展不管效率,要么只加長度懲罰但缺乏語義引導。SHAPE 就是為了把這三件事統一到一個框架里。

      2. SHAPE 怎么做的?



      整個框架分三步走:(A)切段+估勢能 → (B)段級獎勵計算 → (C)token 級信用再分配。

      Step A:切段 + 估「推理勢能」









      工程上,團隊用vLLM的Prefix Caching避免重復算共享前綴,rollout限制在max_tokens=16,開銷可控。

      Step B:段級獎勵——「推理稅」機制







      代入后,每段的優勢函數為:







      第二項就是「推理稅」,它同時干了兩件事:稅基是當前勢能——推理早期勢能低,稅幾乎為零,放心探索;后期勢能高,稅就重了,不許靠反復確認來刷分。稅率跟段落長度正相關——越啰嗦稅越高,逼模型精練表達。一個動態折扣因子,同時搞定了階段感知和效率約束。

      Step C:token 級信用再分配







      3. 實驗結果

      3.1 主實驗

      三個基座模型(DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B、Qwen3-4B),五個數學推理 benchmark,全面評估。



      • 跨模型一致性:無論 1.5B 還是 4B 規模,SHAPE 均同時提升準確率并降低 token 消耗。
      • 準確率:Overall 平均提升約 3%,其中 DeepScaleR-1.5B 在 AIME 2024 上提升 7.0 個百分點(38.6% → 45.6%),Qwen3-4B 在 MinervaMATH 上提升 6.2 個百分點。
      • Token 效率:Overall 平均減少約 30%,最大降幅達 38.7%(DeepSeek-1.5B on MinervaMATH)。



      訓練曲線進一步佐證了這一結論:SHAPE 在訓練全程保持準確率領先,同時驅動 response 長度持續下降,兩條曲線的走勢完美體現了又準又快的雙重優化目標。

      3.2 消融實驗



      消融實驗揭示了幾個關鍵發現:

      • 熵分段(EBS)的移除導致 token 消耗增加約 3%,驗證了語義對齊的分段策略優于硬規則。
      • Token 級信用再分配(TCR)的移除導致準確率下降達 2.0 個百分點(AIME 2025),表明細粒度信號在關鍵決策點的放大作用不可或缺。



      4. 深度分析





      進一步地,經過 SHAPE 訓練后,模型在勢能增益來源分布上呈現了顯著變化:來自低勢能狀態的增益貢獻占比從初始的 40.6% 上升到 44.4%,而來自高勢能狀態的貢獻從 10.5% 降至 3%。模型學會了把腦子集中在最需要突破的地方。



      自適應計算。SHAPE 按題目難度動態分配 token 預算,長度-難度縮放斜率比 GRPO 更陡、方差更小,這意味著:SHAPE 不是簡單地「寫得少」,而是精準地根據題目難度分配 token 預算。



      消除推理坍縮。GRPO 在難題上存在一個顯著的病理現象:response 長度分布在 32k 上下文上限處出現異常 spike。SHAPE 基本消除了這類現象——分布曲線在遠低于上限處就平滑衰減至零。這進一步印證了推理稅的效力:當模型在某條推理路徑上持續消耗 token 卻無實質進展時,累積的稅會迫使模型及時止損。



      5. 總結

      SHAPE 用一個統一的數學框架——動態折扣的勢函數塑形——同時解決了過程監督中的三個核心問題:勢能增益度量、階段難度感知和 token 效率約束。SHAPE 的核心貢獻不僅在于具體的準確率和效率數字,更在于提出了推理稅這一優雅的機制設計范式,為理解和優化 LLM 推理過程提供了新的理論透鏡。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蔡少芬山姆購物,打扮超酷又瘦又高,買滿三購物車太壕了

      蔡少芬山姆購物,打扮超酷又瘦又高,買滿三購物車太壕了

      小武侃風云
      2026-04-26 18:52:45
      毀三觀!體壇 4 大丑聞曝光:貪財好色、婚內出軌,比娛樂圈還亂

      毀三觀!體壇 4 大丑聞曝光:貪財好色、婚內出軌,比娛樂圈還亂

      橙星文娛
      2026-04-27 16:46:45
      華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

      華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

      以茶帶書
      2026-04-25 16:22:06
      32歲男子:一周多達9次,不幸猝死,妻子:多次勸說,他就是不聽

      32歲男子:一周多達9次,不幸猝死,妻子:多次勸說,他就是不聽

      川渝視覺
      2026-04-27 22:04:50
      上海知青和內蒙姑娘分離25年,當了大官后接到來信:你還有個女兒

      上海知青和內蒙姑娘分離25年,當了大官后接到來信:你還有個女兒

      白云故事
      2025-03-11 21:05:06
      上甘嶺戰場繳獲大量美軍罐頭,裝的全是糞便,美:要怪就怪張桃芳

      上甘嶺戰場繳獲大量美軍罐頭,裝的全是糞便,美:要怪就怪張桃芳

      云霄紀史觀
      2026-04-28 00:48:22
      第二個“恒大”出現!年收入超6000億,老板跟許家印“稱兄道弟”

      第二個“恒大”出現!年收入超6000億,老板跟許家印“稱兄道弟”

      蜉蝣說
      2026-04-28 11:12:03
      網傳五一后醫療行業被查,醫護人員人心惶惶,評論區呼聲十分強烈

      網傳五一后醫療行業被查,醫護人員人心惶惶,評論區呼聲十分強烈

      譚談社會
      2026-04-27 23:01:22
      塞爾比輸給吳宜澤后大怒:球臺質量太差,邊庫彈性不正常導致失誤

      塞爾比輸給吳宜澤后大怒:球臺質量太差,邊庫彈性不正常導致失誤

      楊華評論
      2026-04-28 01:26:55
      收復藏南,必須同時遣返上百萬移民,中國絕不允許出現“印度族”

      收復藏南,必須同時遣返上百萬移民,中國絕不允許出現“印度族”

      朝子亥
      2026-04-27 05:40:03
      陳偉霆稱每次都陪兒子打疫苗,會把寶寶抱在懷里哄,直到他笑,“每次哭都不會超過一分鐘”,現場護士夸他“跟一般的爸爸不一樣”

      陳偉霆稱每次都陪兒子打疫苗,會把寶寶抱在懷里哄,直到他笑,“每次哭都不會超過一分鐘”,現場護士夸他“跟一般的爸爸不一樣”

      臺州交通廣播
      2026-04-28 16:01:48
      太嚇人!高速上開著輔助駕駛突然剎停?小鵬客服回應

      太嚇人!高速上開著輔助駕駛突然剎停?小鵬客服回應

      8099999街頭巷尾
      2026-04-26 10:52:13
      聯合國選舉伊朗為核不擴散條約審議大會副主席,多國公開反對

      聯合國選舉伊朗為核不擴散條約審議大會副主席,多國公開反對

      Nee看
      2026-04-28 11:29:36
      又一窩華人被查,家里被抄底朝天

      又一窩華人被查,家里被抄底朝天

      以希臘之名
      2026-04-27 15:17:12
      溢價15倍,5999元的LABUBU冰箱價格被炒至9萬元

      溢價15倍,5999元的LABUBU冰箱價格被炒至9萬元

      第一財經資訊
      2026-04-28 15:12:50
      A股:今天收在4078點,做好準備了,周三股市行情分析!

      A股:今天收在4078點,做好準備了,周三股市行情分析!

      明心
      2026-04-28 15:19:15
      俞敏洪主播集體辭職越扒越有,董宇輝意外遭殃,其實頓頓早有提醒

      俞敏洪主播集體辭職越扒越有,董宇輝意外遭殃,其實頓頓早有提醒

      攬星河的筆記
      2026-04-28 14:23:37
      43歲男歌手爆車禍被斬斷“命根子”,參加師姐演唱會又遭重擊

      43歲男歌手爆車禍被斬斷“命根子”,參加師姐演唱會又遭重擊

      娛說瑜悅
      2026-04-27 16:07:47
      菲律賓戰隊選手致歉 做瞇瞇眼動作涉嫌種族歧視

      菲律賓戰隊選手致歉 做瞇瞇眼動作涉嫌種族歧視

      3DM游戲
      2026-04-28 07:03:04
      特斯拉財報崩了,北京車展瘋了

      特斯拉財報崩了,北京車展瘋了

      字節漫游指南
      2026-04-27 16:55:33
      2026-04-28 18:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12881文章數 142638關注度
      往期回顧 全部

      科技要聞

      10億周活目標落空!傳OpenAI爆發內部分歧

      頭條要聞

      14歲男生殺害女同學被判無期 聽到宣判時幾乎面無表情

      頭條要聞

      14歲男生殺害女同學被判無期 聽到宣判時幾乎面無表情

      體育要聞

      季后賽最新局勢:雷霆4-0晉級首隊 4隊3-1

      娛樂要聞

      蔡卓妍官宣結婚,老公比她小10歲

      財經要聞

      政治局會議:加強算力網等規劃建設

      汽車要聞

      拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

      態度原創

      本地
      藝術
      健康
      數碼
      家居

      本地新聞

      用青花瓷的方式,打開西溪濕地

      藝術要聞

      深圳極具未來感的“外星”建筑亮相

      干細胞治療燒燙傷三大優勢!

      數碼要聞

      2026旗艦天花板?HyperX暗影精靈MAX 300W+性能深度解析

      家居要聞

      江景風格 流動的秩序

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲熟妇自偷自拍另类| 国产成人精品三级在线影院| 国产成人精品日本亚洲直接| 国产成人精品三级在线影院 | 尹人成人| 洮南市| 久久av老司机精品网站导航| 成人午夜视频一区二区无码| 国产偷国产偷亚洲高清午夜| 国产无套精品一区二区| 久久久受www免费人成| 亚洲午夜精品国产电影在线观看 | 无码人妻精品中文字幕免费东京热| 国产偷国产偷亚洲高清午夜| 午夜成午夜成年片在线观看| 卢湾区| 亚洲久悠悠色悠在线播放| 99色区| 一本色道久久综合亚洲精品按摩| 亚洲国产午夜精品福利| 精品视频在线观看你懂的一区| 微拍福利一区二区三区| 国产成人精品三级在线影院| 亚洲 日韩 欧美 成人 在线| 亚洲一卡久久4卡5卡6卡7卡| av无码av天天av天天爽| 营口市| 女人18片毛片60分钟| 兰州市| 成年女人免费碰碰视频| 国产黄色在线| 日韩人妻无码精品无码中文字幕| 91在线网址| 精品国产乱码久久久久乱码| 亚洲欧美色欲天天| 亚洲欧洲另类| 亚洲精品久综合蜜| 3Pav图| 亚洲欧美另类精品二区| 俄罗斯老熟妇乱子伦视频| 国产乱子伦无套一区二区三区|