<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AEPO:智能體熵平衡策略優化,讓探索更穩,推理更深!

      0
      分享至



      在智能體強化學習的快速發展中,如何在探索與穩定之間取得平衡已成為多輪智能體訓練的關鍵。主流的熵驅動式智能體強化學習(Agentic RL)雖鼓勵模型在高不確定性處分支探索,但過度依賴熵信號常導致訓練不穩、甚至策略熵坍塌問題。

      為此,中國人民大學高瓴人工智能學院與快手 Klear 語言大模型團隊聯合提出 Agentic Entropy-Balanced Policy Optimization(AEPO),一種面向多輪智能體的熵平衡強化學習優化算法。

      AEPO 系統性揭示了「高熵 Rollout 采樣坍縮」和「高熵梯度裁剪」問題,并設計了「動態熵平衡 Rollout 采樣」與「熵平衡策略優化」兩項核心機制。前者通過熵預監控與連續分支懲罰實現全局與局部探索預算的自適應分配,后者在策略更新階段引入梯度停止與熵感知優勢估計以保留高熵 token 的探索梯度。



      圖 1:AEPO 性能概覽:左圖對比深度搜索任務性能,右圖對比通用推理任務性能

      實驗結果表明,AEPO 在 14 個跨領域基準上顯著優于七種主流強化學習算法。特別是深度搜索任務的 Pass@5 指標:GAIA (65.0%), Humanity’s Last Exam (26.0%), WebWalkerQA (70.0%)。在保持訓練穩定性的同時進一步提升了采樣多樣性與推理效率,為通用智能體的可擴展強化訓練提供了新的優化范式。



      • 論文標題:Agentic Entropy-Balanced Policy Optimization
      • 論文鏈接:https://arxiv.org/abs/2510.14545
      • 代碼倉庫:https://github.com/dongguanting/ARPO
      • 開源數據 & 模型:https://huggingface.co/collections/dongguanting/aepo-68ef6832c99697ee03d5e1c7

      目前AEPO 在 X 上收獲極高關注度,Github 倉庫已獲星標 700 余枚,同時榮登 Huggingface Paper 日榜第二名!





      研究動機:在高熵中尋求平衡

      隨著 Agentic RL 的發展,如何在持續探索與訓練穩定之間取得平衡已成制約智能體性能的關鍵。現有方法(如 ARPO)通常依賴熵信號作為依據,并在高熵時刻觸發分支采樣探索潛在推理路徑。我們的研究發現熵驅動的探索雖能提升多樣性,卻也帶來了顯著的訓練不穩定:模型在連續高熵的工具調用階段容易出現單一鏈條過度分支,導致探索受限(如下圖左側);同時在策略更新階段,高熵 token 的梯度常被無差別裁剪,使模型難以學習的探索行為(如下圖右側)。這種熵失衡也使智能體在強化學習中容易陷入局部最優解。



      圖 2:智能體中的高熵 Rollout 坍縮與高熵梯度裁剪現象

      因此,如何在高熵驅動下同時實現高效探索與穩定優化,成為智能體強化學習亟待突破的核心瓶頸。為此,我們提出 AEPO,一種面向多輪智能體的熵平衡強化學習優化算法。我們的貢獻如下:

      • 我們系統性分析并揭示了現有熵驅動的 Agentic RL 在高熵階段易出現的「rollout 坍縮」和「梯度裁剪」問題,為后續算法設計提供了經驗與理論依據。
      • 我們提出了 AEPO 算法,旨在通過「動態熵平衡 Rollout 采樣」與「熵感知策略優化」兩個階段實現強化學習探索與穩定的協同優化。
      • 在 14 個挑戰性基準上的實驗結果表明,AEPO 在采樣多樣性、訓練穩定性及工具調用效率方面均優于 7 種主流強化學習算法,為智能體在復雜開放環境下的可擴展訓練提供了新的啟發。

      工具調用的熵變現象:高熵集聚與梯度困境

      通過分析智能體在多輪工具調用強化學習中的 token 熵變與訓練過程,我們發現以下核心現象:

      1. 高熵工具調用步驟存在連續性:連續的高熵工具調用輪次占比達 56.5%,部分軌跡甚至出現 6 次連續高熵調用,這種連續性導致 rollout 階段的分支預算分配嚴重傾斜(如下圖左側);
      2. 高熵 Token 梯度裁剪:傳統 Agentic RL 算法在策略更新階段存在「無差別梯度裁剪」問題,未區分其是否包含有價值的探索行為,這些 token 大多是在推理中激發工具調用,反思等行為的提示(如下圖右側)。



      圖 3:智能體強化學習訓練中兩種熵相關問題的量化統計

      上述現象本質是高熵信號的雙重矛盾:高熵是智能體探索工具使用潛力的必要條件,但無約束的高熵連續性會破壞 rollout 資源分配,激進的梯度裁剪又會扼殺高熵的探索價值。

      AEPO 算法:熵驅動的精準探索與梯度保護



      圖 4:AEPO 概述

      動態熵平衡 Rollout 采樣:

      1.熵預監測:按信息增益分配采樣預算

      傳統 RL 算法(如 ARPO)憑經驗分配全局采樣與分支采樣的坍縮資源,AEPO 則基于信息增益理論,根據問題與工具的信息增益動態調整采樣預算,具體來說,在總 rollout 采樣的預算為 k(包含 m 次全局采樣與 k-m 次高熵分支采樣)的條件下,將 Rollout 階段的信息增益簡單地建模為:



      在語言模型的自回歸解碼過程中,輸入問題的信息增益通常由模型解碼的 token 熵值來衡量,因此我們可以得到如下正相關關系:



      因此,我們的目標是盡可能增大 Rollout 階段的信息增益,基于上述公式,AEPO 按信息增益分配采樣預算:





      2.連續高熵分支懲罰:避免單一軌跡過度分支

      即使預算分配合理,連續高熵調用仍可能導致單一軌跡過度分支。因此 AEPO 通過動態分支概率施加懲罰:



      實驗驗證:如下圖所示,相比于 ARPO 通常僅分支 2-3 條軌跡,而AEPO 可覆蓋全部 8 條預算軌跡(右圖),采樣聚類數從 54 提升至 62(左 2 圖),大幅提升 Rollout 采樣的多樣性。



      圖 5:采樣多樣性 ARPO vs AEPO(左)與 Rollout 的分支采樣分布(右)

      熵平衡策略優化:

      1.熵裁剪平衡機制:保留高熵 Token 梯度

      收到 GPPO 啟發,AEPO 將「梯度停止」操作融入到策略更新的高熵裁剪項中,保證了前向傳播不受影響,同時保護了高熵 token 的梯度在反向傳播時不被裁剪。AEPO 在策略更新時使用如下公式:











      這一設計讓高熵探索性 Token 的梯度得以保留,避免訓練初期探索能力流失。

      2.熵感知優勢估計:優先學習高價值探索行為





      實驗結果:14 個基準驗證 AEPO 的高效與穩定

      為了充分評估 AEPO 的泛化性和高效性,我們考慮以下三種測試集:

      • 計算型推理任務:評估模型的計算推理能力,包括 AIME24、AIME25、MATH500、GSM8K、MATH。
      • 知識密集型推理任務:評估模型結合外部知識推理的能力,包括 WebWalker、HotpotQA、2WIKI、MisiQue、Bamboogle。
      • 深度搜索任務:評估模型的深度搜索能力,包括 HLE、GAIA、SimpleQA、XBench、Frames。

      深度信息檢索任務:小樣本實現大突破





      如上表所示,僅用 1K RL 訓練樣本,Qwen3-14B+AEPO 在關鍵任務上表現優異:

      • AEPO 在 Pass@1 上較 ARPO 平均提升 3.9%;在 Pass@5 上較 ARPO 平均提升 5.8%;
      • 對比梯度裁剪優化 RL 算法(DAPO、CISPO、GPPO):AEPO 在 GAIA 任務上領先 7%-10%,在 Qwen3-14B 基座上取得了 47.6% 的 Pass@1 與 65% 的 Pass@5,這證明熵平衡機制優于單純的梯度裁剪優化 RL 算法;
      • 對比傳統 RL(GRPO、Reinforce++):AEPO 在 HLE 任務上領先 2.6%-3.4%,在 Qwen3-14B 基座上取得了 11.2% 的 Pass@1 與 26% 的 Pass@5,凸顯 Agentic RL 中熵平衡的必要性。



      我們比較了 7 種強化學習算法在 10 個推理任務中的表現,發現:

      • 梯度裁剪優化算法的穩定性差:在 Qwen 2.5-7B-instruct 上,梯度裁剪優化算法表現良好,但在 Llama3-8B 上未顯著優于 GRPO,且易導致熵崩潰。
      • Agentic RL 算法具備泛化能力:ARPO,GIGPO,AEPO 等算法在不同模型上表現穩定,證明在高熵環境下的分支探索有效。
      • AEPO 優勢顯著:AEPO 在所有測試中表現突出,一致性高于 7 種主流 RL 算法。并且平均準確率比 GRPO 高 5%,更適合訓練多輪次 Web 智能體。

      實驗:熵穩定與準確率分析

      在 Agentic RL 訓練中,熵動態穩定性與訓練準確率收斂性是衡量算法有效性的核心指標:熵過高易導致探索失控,熵過低則會引發探索不足;而準確率的持續提升則直接反映模型對有效工具使用行為的學習能力。

      我們對比 AEPO 與主流 RL 算法(含 ARPO、GRPO、DAPO 等)在 10 個推理任務中的訓練動態,清晰揭示了 AEPO 在「熵穩定」與「準確率提升」雙維度的優勢。實驗發現訓練的熵損失驟增與下降都不會對性能帶來增益;相比之下,AEPO 的熵損失全程維持高且穩定,對應穩定的性能增益。其表現遠超其他 RL 算法,且解決了 ARPO 在訓練后期熵波動的問題。



      圖 5:訓練指標可視化,包括各訓練步驟的熵損失(左)和準確率(右)

      總結與未來展望

      未來可從三個方向進一步拓展:

      • 多模態 Agent:當前 AEPO 與 ARPO 均聚焦文本任務,未來可擴展至圖像、視頻等多模態輸入,探索多模態工具的熵平衡優化,解決多模態反饋帶來的熵波動問題。
      • 工具生態擴展:引入更復雜工具(如 MCP 服務、外部訂機票酒店服務調用、代碼調試器),基于 AEPO 的熵感知機制優化多工具協作策略,提升復雜任務表現,超越現有工具協作能力。
      • 多智能體強化學習:探索在更多智能體的協作學習,互相任務交互與博弈中找到平衡,實現收斂。

      作者介紹

      董冠霆目前就讀于中國人民大學高瓴人工智能學院,博士二年級,導師為竇志成教授和文繼榮教授。他的研究方向主要包括智能體強化學習、深度搜索智能體,大模型對齊等。在國際頂級會議如 ICLR、ACL、AAAI 等發表了多篇論文,并在快手快意大模型組、阿里通義千問組等大模型團隊進行實習。其代表性工作包括 ARPO、AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。

      • 個人主頁:dongguanting.github.io

      本文的通信作者為中國人民大學的竇志成教授與快手科技的周國睿。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      賈躍亭:法拉第未來FX Super One首批車將于21日下線

      賈躍亭:法拉第未來FX Super One首批車將于21日下線

      IT之家
      2025-12-08 09:02:08
      中日戰機對峙,不到12小時中俄官宣大行動,特朗普把高市當冤大頭

      中日戰機對峙,不到12小時中俄官宣大行動,特朗普把高市當冤大頭

      時時有聊
      2025-12-07 17:59:43
      國家出手!陳震全網賬號被禁不到1天,再迎噩耗,這次恐徹底涼涼

      國家出手!陳震全網賬號被禁不到1天,再迎噩耗,這次恐徹底涼涼

      阿纂看事
      2025-12-05 14:07:29
      特朗普還沒啟程訪華,中國突然公布黃金庫存,美國霸權地位已不保

      特朗普還沒啟程訪華,中國突然公布黃金庫存,美國霸權地位已不保

      影孖看世界
      2025-12-07 20:36:12
      糞不顧身!東莞男子在廁所蹲坑,聽到妻子慘叫,提起褲子破門而出

      糞不顧身!東莞男子在廁所蹲坑,聽到妻子慘叫,提起褲子破門而出

      火山詩話
      2025-12-08 11:43:50
      上調存款利率!部分銀行出手

      上調存款利率!部分銀行出手

      中國財富網
      2025-12-08 09:34:10
      剛剛結束中國訪問的馬克龍,幾乎是腳剛沾地就立刻翻臉不認賬

      剛剛結束中國訪問的馬克龍,幾乎是腳剛沾地就立刻翻臉不認賬

      我心縱橫天地間
      2025-12-07 16:03:04
      日本向中國發出抗議后,遼寧艦突然調頭北上,直沖日本本島而去?

      日本向中國發出抗議后,遼寧艦突然調頭北上,直沖日本本島而去?

      頭條爆料007
      2025-12-08 07:45:10
      結束了!澤連斯基發表全國講話,烏克蘭人狂歡:終于不用提心吊膽

      結束了!澤連斯基發表全國講話,烏克蘭人狂歡:終于不用提心吊膽

      愛下廚的阿釃
      2025-12-08 09:54:44
      Galaxy 手機即將改變:三星終于實現了我期待已久的事

      Galaxy 手機即將改變:三星終于實現了我期待已久的事

      小柱解說游戲
      2025-12-08 09:58:36
      恭喜!霍啟剛換屆選舉成功連任,帶郭晶晶拉票,冠軍江旻憓也當選

      恭喜!霍啟剛換屆選舉成功連任,帶郭晶晶拉票,冠軍江旻憓也當選

      四斤
      2025-12-08 10:38:05
      誤會太深,官媒親揭王健林真實現狀,王思聰的話,終于有人信了

      誤會太深,官媒親揭王健林真實現狀,王思聰的話,終于有人信了

      寒士之言本尊
      2025-12-07 17:49:13
      山寨貨橫行,中產涌入山姆,瘋搶夫勞倫平替,網友:智商稅

      山寨貨橫行,中產涌入山姆,瘋搶夫勞倫平替,網友:智商稅

      財經八卦
      2025-12-07 21:06:56
      女教師因病請假25年,退休時發現編制已取消

      女教師因病請假25年,退休時發現編制已取消

      王誙自駕
      2025-12-08 10:13:10
      被謝賢養了12年,用青春換來兩千萬的coco,已經走上了另一條道路

      被謝賢養了12年,用青春換來兩千萬的coco,已經走上了另一條道路

      墨印齋
      2025-12-04 19:46:02
      演員金晨回應妝容被嘲:我錯了,我再也不自己亂化妝了,“真的很丑”

      演員金晨回應妝容被嘲:我錯了,我再也不自己亂化妝了,“真的很丑”

      極目新聞
      2025-12-07 20:24:25
      國內賺錢國外花,產品全抄別人家,富家女程曉玥終于翻車了

      國內賺錢國外花,產品全抄別人家,富家女程曉玥終于翻車了

      娛小北
      2025-12-07 19:52:53
      最瘆人文物:裝人頭的青銅蒸鍋!這個15歲少女經歷了什么?

      最瘆人文物:裝人頭的青銅蒸鍋!這個15歲少女經歷了什么?

      收藏大視界
      2025-12-06 20:35:41
      邦本宜裕:我本人非常愿意與遼寧鐵人協商并完成續約合同

      邦本宜裕:我本人非常愿意與遼寧鐵人協商并完成續約合同

      懂球帝
      2025-12-08 08:37:15
      美記點評:楊瀚森尚未做好成為首發準備 不可否認他蘊藏巨大潛力

      美記點評:楊瀚森尚未做好成為首發準備 不可否認他蘊藏巨大潛力

      羅說NBA
      2025-12-08 13:33:52
      2025-12-08 14:31:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11864文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      牛彈琴:對日斗爭突發新情況 中國軍方回應火力全開

      頭條要聞

      牛彈琴:對日斗爭突發新情況 中國軍方回應火力全開

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      健康
      藝術
      教育
      公開課
      軍事航空

      甲狀腺結節到這個程度,該穿刺了!

      藝術要聞

      50億美元!迪拜真能建成一個“月球”?

      教育要聞

      重磅!27年起,綿陽中考總分變為700分!明年執行過渡方案!征求意見中

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      日本稱中方雷達照射日戰機 國防部回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品一二| 久久精品99国产国产精| 人妻人人操| 精品人妻无码一区二区三区四川人| 人妻[21p]大胆| 好了av四色综合无码| free性丰满白嫩白嫩的HD| 国产精品久久| 少妇高潮喷水惨叫久久久久电影 | 日韩人妻网站| 小黄片入口| 精品国产AV无码一区二区三区| 日本丰满少妇xxxx| 国产福利一区二区三区在线观看| 青浦区| 亚洲中文在线观看| 内地自拍三级在线观看| 丰满大肥婆肥奶大屁股| 激情无码人妻又粗又大| 人妻少妇亚洲| 成人午夜av| 国产熟女a?v| 蜜臀98精品国产免费观看| 丁香五月情| 亚洲成a人片在线观看久| 六十路熟妇乱子伦| 秋霞鲁丝片成人无码国产| 少妇私密会所按摩到高潮呻吟| 中文字幕?人妻熟女| 国产看黄网站又黄又爽又色| 三级色网| 国产精品又黄又爽又色无遮挡| 日韩无| 超碰成人人人做人人爽| 欧美精品videossex少妇| 97资源人妻| 久久久婷| 亚洲成a人片| 久久久久久久AV| 国产精品自在自线免费观看| 亚洲AV无码国产永久播放蜜芽|