<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      快手提出熵比裁剪方法,從局部約束到全局穩定的關鍵一躍

      0
      分享至



      本研究由快手科技語言大模型團隊完成,核心作者蘇振鵬,潘雷宇等。快手語言大模型團隊聚焦在基礎語言大模型研發、Agent RL 等前沿技術創新等方向,積累務實的探索 AGI 的能力邊界,并不斷推進 AI 領域新技術和新產品的發展。此前,該團隊已開源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在數學和代碼的基準測試上達到了同參數級別模型的 SOTA 效果。

      在大語言模型的后訓練階段,強化學習已成為提升模型能力和對齊質量的核心范式。然而,在廣泛采用的 off-policy 的訓練范式中,更新當前策略的數據由舊的行為策略生成,導致分布漂移的問題的發生,這通常會將策略推至信任域之外,使強化學習的訓練變得不穩定。

      盡管 PPO 通過重要性采樣的裁剪機制緩解了部分問題,但它僅能約束已采樣動作的概率變化,忽略了未采樣動作的全局分布漂移。為了應對這些挑戰,快手研究團隊提出了一種創新的熵比裁剪方法。該方法從全新的視角切入,通過約束策略熵的相對變化來穩定全局分布,為強化學習訓練提供了更加可靠的控制手段。



      • 論文標題:Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning
      • 論文地址:https://arxiv.org/pdf/2512.05591

      研究背景

      強化學習訓練過程中長期面臨信任域偏離的挑戰。目前,業界用于大模型的強化學習常采用 off-policy 訓練范式,用于更新當前策略的數據由舊的行為策略生成,導致新舊策略之間存在分布漂移。主流方法通常采用重要性采樣來糾正此類偏差,但其固有的高方差可能導致更新步長不穩定,仍存在信任域偏離的風險。這種偏離具體表現為訓練過程中梯度范數和策略熵的劇烈波動。

      PPO 算法是解決信任域偏離問題的主流方案,主要有兩種形式:

      • PPO-penalty:在目標函數中加入 KL 散度懲罰項,對新舊策略的分布差異進行全局約束。但是懲罰系數非常敏感,且對每個動作概率施加逐點約束可能會抑制探索。
      • PPO-Clip:通過將重要性采樣比率限制在固定區間內,形成局部信任域,裁剪過大的更新以降低方差。該方法更魯棒且易于調參,但其約束僅作用于已采樣的動作,未采樣的動作則完全不受約束。

      隨著訓練迭代的不斷進行,這部分未受約束的動作分布會持續漂移,最終威脅策略的穩定性。例如,假設動作空間為 {a, b, c, d},舊策略的概率分布為 {0.85, 0, 0.15, 0},經過多次迭代后,新策略的概率分布變為 {0.82, 0.064, 0.07, 0.046}。盡管采樣動作 a 的概率變化微小,PPO-Clip 不會觸發裁剪,但其余動作的分布已發生顯著偏移。

      ERC 機制:從全局視角穩定策略分布

      受 PPO-clip 啟發,論文提出了熵比裁剪(ERC)機制,當新舊策略間的熵變化超出允許范圍時,ERC 直接對樣本梯度進行截斷。ERC 并非取代 PPO-Clip,而是對其形成補充:PPO-Clip 僅約束采樣動作的局部更新幅度,而 ERC 將熵比限制在一個適中的區間內,從而緩解整體策略分布的漂移。

      首先,論文提出了熵比指標,其被定義為新舊策略在同一 token 上熵的相對變化。具體的,它被形式化定義為下式:



      不同于重要性采樣比率,熵比可以測量整個動作分布(包括未采樣動作)的變化,提供了對策略全局漂移的度量。另外,論文還對采樣動作概率與熵比的關系進行可視化,如下圖所示:



      當采樣動作較低或者較高時,全局分布偏移變得更加明顯。

      在將熵比作為策略分布的全局變化指標引入后,論文進一步將其集成到現有強化學習目標中,旨在約束新舊策略之間全局分布的變化。以 DAPO 為例,其 ERC 目標可形式化如下:



      如果某個 token 的更新導致熵比超出預設范圍,ERC 會直接截斷其對應的梯度,以防止全局分布和策略熵的劇烈波動。與在整個訓練過程中持續限制策略的 KL 約束不同,熵比僅在新策略的熵發生顯著偏離時才被激活。這種方法既能防止策略分布的突然崩潰,又保留了足夠的探索能力。

      實驗結果

      為驗證 ERC 方法的穩定性和性能上的有效性,論文在多個數學推理基準上進行了系統實驗,包括 AIME24、AIME25、HMMT25、MATH500 、AMC23 和 Olympiad。所有實驗均基于 DeepSeek-R1-Distill-Qwen 模型(1.5B 與 7B)進行訓練。實驗結果如下表所示。



      與現有的 RL 基線方法相比,集成 ERC 后,模型幾乎在所有基準測試上的性能都得到了一致提升。值得注意的是,在 AIME25 和 HMMT25 等更具挑戰性的基準上,性能增益更為顯著,凸顯了 ERC 在復雜推理場景中的強大潛力。此外,該方法在 1.5B 和 7B 兩種參數規模上均取得了一致的改進,進一步證明了其在不同模型容量下的魯棒性和可擴展性。



      為了進一步驗證 ERC 對訓練動態的影響,論文比較了不同方法下熵和梯度范數的演化過程,如上圖所示。傳統的裁剪方法在訓練過程中常表現出較大的熵值波動和不穩定的梯度。相比之下,ERC 引入了全局熵比約束,熵值軌跡和梯度范數更加穩定,在基準上的評測結果也不斷提升。

      深入分析:ERC 如何工作?

      增強信任域約束

      如下圖所示,ERC 的裁剪機制有效地強化了信任域約束。具體而言,被熵比邊界裁剪的 token 主要位于信任域的邊界附近。這表明,ERC 從全局分布的視角出發,能夠識別并限制可能導致策略偏離的更新,而這些更新正是 PPO-Clip 的局部約束所忽略的。因此,ERC 與 PPO-Clip 以互補的方式協同工作,共同減輕信任域偏離,增強訓練穩定性。



      通過 ERC 保持探索

      為了理解 ERC 對模型探索行為的影響,論文分析了在訓練中被熵比約束裁剪的 token 的熵分布,如下圖所示,大多數被 ERC 裁剪的 token 集中在低熵區域,而高熵 token 在優化過程中通常被保留。這表明 ERC 優先抑制那些過于確定性、信息增益有限的 token 的更新,而不會過度約束模型的探索動態。



      裁剪比例分析

      實驗結果顯示,ERC 引入的全局分布約束顯著提高了裁剪比例。PPO-Clip 下的裁剪比例通常保持在 0.02% 左右,而 ERC 將此數值提高了近三個數量級,達到約 20%。這種顯著差異源于兩種約束機制的根本不同:PPO-Clip 僅調控局部采樣動作的重要性比率,越界情況本就罕見;而 ERC 超越了這種局部約束,通過熵比融入了全局分布信號,使其能夠識別并裁剪大量在全局分布層面偏離信任區域的 token 更新。

      盡管 ERC 的裁剪比例顯著更高,但其在最終性能和訓練穩定性上均持續超越 PPO-Clip 基線。這個看似違反直覺的結果揭示了一個關鍵見解:ERC 主要移除了那些會使訓練不穩定的噪聲更新。被 ERC 裁剪的 token 大多集中在低熵區域,這表明 ERC 抑制了過于確定性且可能有害的更新,同時保留了模型在其他地方的探索行為。

      對比與泛化能力

      論文還將 ERC 與其他穩定方法進行了對比,并驗證了其在其他強化學習算法中的泛化能力。

      • 與 KL 正則化的對比:ERC 在 AIME24 和 AIME25 基準上均優于 PPO-penalty(即 KL 正則化方法)。KL 散度施加的是逐點約束,要求新舊策略對每個動作的概率分布都保持接近,這種嚴格的局部調控雖然可以穩定訓練,但不可避免地限制了有效的策略探索。而 ERC 實現了分布層面的軟約束,通過監控熵比來關注整體策略分布的演變,在維持訓練穩定性的同時鼓勵更高效的探索。
      • 與熵正則化的對比:ERC 的表現顯著優于在強化學習訓練中直接加入熵懲罰項的方法。熵正則化只能緩解單向的不穩定性(熵崩塌),而 ERC 的雙向裁剪機制能有效應對策略演化中熵值波動的兩個方向,確保策略的探索行為在合理可控的范圍內平穩演變。
      • 與序列級裁剪(GSPO)的對比:在 DeepSeek-R1-Distill-Qwen-7B 上的實驗表明,結合了 PPO-Clip 和 ERC 的 token 級裁剪方法相較于序列級裁剪方法(如 GSPO)仍具有明顯優勢。值得注意的是,ERC 與序列級裁剪是正交的,可以同時使用。
      • 更廣泛的適用性:除了 DAPO,論文還將 ERC 與 GPPO 方法結合。實驗表明,將 ERC 集成到 GPPO 中同樣能帶來一致的性能提升,為 ERC 在不同 RL 算法中的普遍有效性提供了有力證據。這表明 ERC 不僅是現有重要性比率裁剪技術的補充組件,也有潛力作為一個獨立且魯棒的約束機制來穩定策略優化。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      全球首款,成功試飛!

      全球首款,成功試飛!

      極目新聞
      2025-12-16 21:27:34
      是時候說出真相!打越南時損失或超乎想象,從犧牲的名將后代便知

      是時候說出真相!打越南時損失或超乎想象,從犧牲的名將后代便知

      明月清風閣
      2025-12-02 13:20:07
      狂輸18分!快船4連敗,哈登迷失自我!這一戰,我必須承認5個事實

      狂輸18分!快船4連敗,哈登迷失自我!這一戰,我必須承認5個事實

      籃球掃地僧
      2025-12-16 17:07:43
      “戴琳欠錢不還事件”上熱搜,這些年他到底經歷了什么?

      “戴琳欠錢不還事件”上熱搜,這些年他到底經歷了什么?

      澎湃新聞
      2025-12-16 17:24:27
      83歲高明近況:兒子高亮去世后,兒媳已成他和妻子的晚年依靠

      83歲高明近況:兒子高亮去世后,兒媳已成他和妻子的晚年依靠

      小熊侃史
      2025-12-16 10:49:09
      放棄爭奪數百億遺產,帶著女兒遠遁美國,如今才知道她有多清醒

      放棄爭奪數百億遺產,帶著女兒遠遁美國,如今才知道她有多清醒

      夢史
      2025-12-16 11:07:49
      演員朱珠疑似塌房?照片流出,驚呆網友!

      演員朱珠疑似塌房?照片流出,驚呆網友!

      大眼妹妹
      2025-12-15 10:39:19
      吳秀波再遭6200萬強制執行!累計債務超7.5億,7年爆款劇成催命符

      吳秀波再遭6200萬強制執行!累計債務超7.5億,7年爆款劇成催命符

      行者聊官
      2025-12-16 16:23:07
      一個地級市居然在建全國最大央企總部

      一個地級市居然在建全國最大央企總部

      環球通信
      2025-12-16 19:38:49
      價格大跳水!廣州正大批上市,上架就售空,網友:饞了

      價格大跳水!廣州正大批上市,上架就售空,網友:饞了

      環球網資訊
      2025-12-16 17:22:06
      日本成功開發1.4nm納米“光刻機”

      日本成功開發1.4nm納米“光刻機”

      EETOP半導體社區
      2025-12-16 08:42:11
      黑海突發!澤連斯基:普京為中國放棄主權?停火談判背后暗藏博弈

      黑海突發!澤連斯基:普京為中國放棄主權?停火談判背后暗藏博弈

      小舟談歷史
      2025-12-16 22:51:59
      泰柬沖突升級背后:泰國沒收柬埔寨重案要犯資產 專家:此時戰火重燃并非巧合

      泰柬沖突升級背后:泰國沒收柬埔寨重案要犯資產 專家:此時戰火重燃并非巧合

      紅星新聞
      2025-12-16 17:36:15
      廣東高校排名大變:深大、廣工進步明顯,3校飆升!深技大首上榜

      廣東高校排名大變:深大、廣工進步明顯,3校飆升!深技大首上榜

      高三倒計時
      2025-12-16 18:05:03
      日本最美混血女主播:42歲挺孕肚嫁前首相之子,丈夫出軌不吵不鬧

      日本最美混血女主播:42歲挺孕肚嫁前首相之子,丈夫出軌不吵不鬧

      毒舌小紅帽
      2025-12-15 18:29:29
      茅臺漲價!一天之內批發價從1500跳到1600,茅臺出現瘋搶囤貨局面

      茅臺漲價!一天之內批發價從1500跳到1600,茅臺出現瘋搶囤貨局面

      火山詩話
      2025-12-16 16:12:26
      AMD首席執行官蘇姿豐到訪中國

      AMD首席執行官蘇姿豐到訪中國

      財聯社
      2025-12-16 15:05:08
      央行降準0.5個百分點!你的房貸、存款、理財該怎么調?

      央行降準0.5個百分點!你的房貸、存款、理財該怎么調?

      移動智觀察
      2025-12-16 10:54:25
      女老師咒罵“全班得甲流”!炫耀有編制,現已被停職,長相曝光

      女老師咒罵“全班得甲流”!炫耀有編制,現已被停職,長相曝光

      鋭娛之樂
      2025-12-16 20:14:01
      拿600萬2戰三分14投11鐵,賴著球權傷害球隊,粵蜜:分一半給徐杰

      拿600萬2戰三分14投11鐵,賴著球權傷害球隊,粵蜜:分一半給徐杰

      弄月公子
      2025-12-16 22:50:04
      2025-12-17 00:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11934文章數 142511關注度
      往期回顧 全部

      科技要聞

      360:玉紅惡意詆毀周鴻祎 將追究其法律責任

      頭條要聞

      快遞員將女子快遞"送偏"幾百米被殺 兇手靜等警方抓捕

      頭條要聞

      快遞員將女子快遞"送偏"幾百米被殺 兇手靜等警方抓捕

      體育要聞

      楊瀚森18+10首次兩雙 關鍵攻防統治G聯賽

      娛樂要聞

      《雙軌》遭網友舉報,稱劇情三觀不正

      財經要聞

      浙金中心暴雷始末:祥源控股設計的騙局?

      汽車要聞

      打造全域安全2.0,吉利的新“長征”

      態度原創

      藝術
      房產
      數碼
      家居
      健康

      藝術要聞

      16位畫家17幅靜物花卉,你喜歡哪位的呢?

      房產要聞

      6.66億摘地,海南封關大動作,千畝海澄新城震撼登場

      數碼要聞

      曜越推出TH360 V3 Ultra ARGB Sync白色版一體式水冷散熱器

      家居要聞

      溫馨獨棟 駝色與淺色碰撞

      這些新療法,讓化療不再那么痛苦

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩精品亚洲精品第一页| 亚洲成人九九| 最新av播放| 瑞昌市| 国产第一页屁屁影院| 亚洲人妻av伦理| 亚洲女同精品中文字幕| 黑人巨大超大另类videos| 伊人无码视频| 色狠狠色男人| 少妇高潮喷水久久久久久久久久| 最近免费中文字幕mv在线视频3| 日韩男人天堂| 久久国模| 五月婷女| 亚洲伊人影院| 中文字幕热久久久久久久| 亚洲乱码一区av春药高潮| AV最新高清无码专区| 阿片免费看| 九九国产| 2024av天堂手机在线观看| 国产99久久亚洲综合精品西瓜tv| 在线观看视频91| 金阳县| 日本天天躁天天搡久久| 亚洲乱人伦| 性色av 一区二区三区| 亚洲AV永久无码嘿嘿嘿嘿| 亚洲老熟女一区二区三区| 国产超碰无码最新上传| 婷婷久久五月天| www夜片内射视频日韩精品成人| 牛牛在线视频| 老鸭窝在线视频| 日本狠狠干| 少妇高潮惨叫喷水在线观看| 超碰色偷偷男人的天堂| 影音先锋91| 桦南县| 内射中出无码护士在线|