<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      多獎勵場景全面領先!清華新作高熵驅動,強化學習效率飆升

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】面對流模型強化學習中獎勵信號稀疏、歸因模糊的核心痛點,清華大學團隊提出熵感知的E-GRPO框架,通過合并低熵步驟、聚焦高熵探索,在單獎勵與多獎勵場景下均實現性能突破,相比主流方法HPS指標提升10.8%,ImageReward指標最高提升32.4%,為視覺生成的人類偏好對齊提供了更高效的解決方案。

      近年來,擴散模型與流匹配模型等生成式 AI 技術在視覺內容創作領域取得突破性進展,從藝術設計到醫療成像,應用場景不斷拓展。而強化學習從人類反饋(RLHF)技術的引入,更是讓生成模型能夠精準對齊人類偏好,大幅提升內容質量。

      然而,當前基于分組相對策略優化(GRPO)的流模型強化學習方法,在多步去噪過程中面臨嚴重的獎勵信號稀疏與歸因模糊問題,低熵步驟的探索價值有限,卻占用大量計算資源,導致模型優化效率低下、偏好對齊效果不佳。

      近日,清華大學團隊提出熵感知分組相對策略優化(E-GRPO)框架,通過深入分析去噪步驟的熵特性,創新性地將連續低熵步驟合并為高熵有效步驟,同時保留確定性ODE采樣的穩定性,成功解決了獎勵歸因模糊難題,實現了更高效的探索與更精準的偏好對齊。


      論文地址:https://arxiv.org/abs/2601.00423v1

      代碼地址:https://github.com/shengjun-zhang/VisualGRPO

      模型地址:https://huggingface.co/studyOverflow/E-GRPO

      E-GRPO研究背景

      主流GRPO-based方法在流模型訓練中,會對所有去噪時間步進行均勻優化,但清華大學團隊通過實驗發現,不同去噪步驟的探索價值存在顯著差異:

      高熵步驟具有更大的探索空間,能夠生成多樣性豐富、獎勵差異明顯的樣本,是模型優化的核心驅動力;

      低熵步驟的樣本差異極小,獎勵信號區分度低,類似給最終圖像添加10%隨機噪聲的效果,不僅難以引導有效優化,還會因累積隨機性導致獎勵歸因模糊 —— 某一步的有效探索可能被后續軌跡偏差「懲罰」,使模型優化方向跑偏。

      實驗數據顯示,僅優化前8個高熵步驟的模型性能,顯著優于優化全部16個步驟的模型,證實了低熵步驟的「無效性」。如何充分利用高熵步驟的探索價值,同時避免低熵步驟帶來的干擾,成為提升流模型強化學習效率的關鍵。


      熵對采樣步驟的影響

      E-GRPO框架通過熵驅動的步驟合并策略與多步分組歸一化優勢估計兩大核心創新。

      1. 熵驅動自適應步驟合并:低熵「打包」,高熵聚焦

      團隊設計了自適應熵閾值,將所有去噪步驟劃分為高熵組與低熵組。對于連續的低熵步驟,通過合并形成單一高熵有效步驟,在保留總擴散效果的前提下,將多個低熵 SDE 步驟轉化為一個高熵 SDE 步驟,其余步驟則采用確定性 ODE 采樣。

      這種合并策略不僅大幅減少了無效計算,還通過擴大單一步驟的探索范圍提升了熵值,同時避免了多步 SDE 采樣帶來的累積隨機性,讓獎勵信號能夠精準歸因到有價值的探索步驟上。

      2. 多步分組歸一化優勢:獎勵信號更密集、更可靠

      針對合并后的高熵步驟,E-GRPO引入多步分組歸一化優勢估計方法。在每個合并步驟對應的樣本組內,直接計算組內相對優勢,確保獎勵信號能夠一致歸因到合并步驟,避免了跨步驟的獎勵混淆。這種設計讓模型獲得了更密集、更可靠的反饋信號,能夠快速鎖定優化方向,提升訓練效率與穩定性。


      E-GRPO采樣策略

      性能亮點

      在HPD數據集上,以FLUX.1-dev為骨干模型,在單獎勵和多獎勵兩種設置下,對E-GRPO進行了全面評估,結果顯示其性能超越現有主流方法。


      E-GRPO數值結果測評

      單獎勵設置下,E-GRPO的HPS指標達到0.391,相比DanceGRPO提升10.8%,ImageScore指標達到1.324,穩居同類方法第一;多獎勵設置下(有效避免獎勵作弊),E-GRPO不僅保持HPS指標領先,還在跨域指標上實現突破:ImageReward提升32.4%,PickScore提升4.4%,展現出更強的泛化能力。


      訓練獎勵曲線

      E-GRPO的訓練獎勵曲線呈現更快的早期增長與更平滑的收斂趨勢,相比基線方法能夠更快達到穩定性能,同時因減少了無效步驟的計算,降低了訓練成本。


      可視化結果

      在定性對比中,E-GRPO生成的內容更精準貼合文本提示,兼具語義一致性與細節豐富度:

      對于「裝扮成水手的木瓜」提示,E-GRPO成功將木瓜結構與人形服飾自然融合,而基線方法或生成「手持木瓜的人」,或出現視覺邏輯混亂;對于「帶眼睛和微笑的勺子」提示,E-GRPO在保留勺子金屬質感的同時,生成了表情生動、視覺協調的擬人化效果,其他方法則存在面部融合不自然或材質失真問題。

      總結與展望

      E-GRPO通過深入挖掘去噪步驟的熵特性,創新性地提出步驟合并與分組優勢估計方法,成功解決了流模型強化學習中獎勵稀疏與歸因模糊的核心痛點,為視覺生成模型的人類偏好對齊提供了更高效、更穩定的解決方案。

      未來研究將聚焦于更魯棒的獎勵模型設計。當前獎勵模型仍存在「獎勵作弊」風險,模型可能通過獎勵函數漏洞獲取高分,而非真正滿足人類偏好。開發能夠精準捕捉審美、語義一致性、上下文適配性等復雜人類偏好的獎勵模型,將是視覺生成強化學習的重要發展方向。

      E-GRPO的提出,不僅為流模型的優化提供了新范式,也為其他生成模型的強化學習訓練提供了重要啟發:基于熵等物理特性引導探索,或許是提升AI模型效率的關鍵路徑。

      參考資料:

      https://arxiv.org/abs/2601.00423v1


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      媒體人:俱樂部、體育局極力挽留無果,楊鳴未跟隨遼寧隊前往四川

      媒體人:俱樂部、體育局極力挽留無果,楊鳴未跟隨遼寧隊前往四川

      懂球帝
      2026-01-26 13:46:40
      隨著太陽102-111憾負熱火馬刺輸球 西部積分榜:西部2-7名太亂了

      隨著太陽102-111憾負熱火馬刺輸球 西部積分榜:西部2-7名太亂了

      籃球看比賽
      2026-01-26 12:43:04
      離譜!挪威帝王蟹堆成山,中國人買一只卻要花上千,原因太現實

      離譜!挪威帝王蟹堆成山,中國人買一只卻要花上千,原因太現實

      掉了顆大白兔糖
      2026-01-25 07:34:58
      隊記報道庫里曾試圖干預勇士管理層交易,但被管理層拒絕!

      隊記報道庫里曾試圖干預勇士管理層交易,但被管理層拒絕!

      氧氣是個地鐵
      2026-01-26 15:46:56
      杭州富豪為癱瘓女兒招婿,窮小伙咬牙接受,新婚當晚他卻傻眼了

      杭州富豪為癱瘓女兒招婿,窮小伙咬牙接受,新婚當晚他卻傻眼了

      牛魔王與芭蕉扇
      2025-03-10 11:10:01
      梅洛尼:強烈憤慨,決定召回大使

      梅洛尼:強烈憤慨,決定召回大使

      上觀新聞
      2026-01-25 20:27:05
      解鎖四大滿貫全八強!穆塞蒂橫掃9號種子,下輪將戰十冠王德約

      解鎖四大滿貫全八強!穆塞蒂橫掃9號種子,下輪將戰十冠王德約

      全景體育V
      2026-01-26 13:23:36
      歐洲人終于發現了:俄烏鬧了4年,合著是華強北在打代理人戰爭?

      歐洲人終于發現了:俄烏鬧了4年,合著是華強北在打代理人戰爭?

      壹知眠羊
      2026-01-25 19:32:42
      黃仁勛一大早天沒亮,便坐車出發前往北京,上車有人開車門真豪橫

      黃仁勛一大早天沒亮,便坐車出發前往北京,上車有人開車門真豪橫

      小娛樂悠悠
      2026-01-26 11:40:41
      致死率75%!無藥可救!印度突發人傳人病毒!WHO拉響最高警報……

      致死率75%!無藥可救!印度突發人傳人病毒!WHO拉響最高警報……

      趣味探索
      2026-01-25 22:08:12
      11分半,美國給世界演示了一遍什么叫打仗,中國專家:這題超綱了

      11分半,美國給世界演示了一遍什么叫打仗,中國專家:這題超綱了

      歷史回憶室
      2026-01-05 11:15:08
      黃多多引爆‘三通一達’爭議!留學圈黑話背后藏著什么秘密?

      黃多多引爆‘三通一達’爭議!留學圈黑話背后藏著什么秘密?

      沒有偏旁的常慶
      2026-01-26 06:12:04
      中央定調,延遲退休實施后,每晚1年退休,養老金能增加8%嗎?

      中央定調,延遲退休實施后,每晚1年退休,養老金能增加8%嗎?

      阿纂看事
      2026-01-26 09:29:08
      美航母開啟戰前靜默!外網瘋傳16架次運-20緊急交付紅旗-9BE!

      美航母開啟戰前靜默!外網瘋傳16架次運-20緊急交付紅旗-9BE!

      議紀史
      2026-01-26 12:40:03
      工齡36年10個月,個賬79050.95,在江蘇退休能領到多少退休金?

      工齡36年10個月,個賬79050.95,在江蘇退休能領到多少退休金?

      阿燕姐說育兒
      2026-01-26 14:11:44
      一粒速效救心丸可治10多種病,別只用來治療心梗了,一定要收藏

      一粒速效救心丸可治10多種病,別只用來治療心梗了,一定要收藏

      路醫生健康科普
      2026-01-24 08:30:03
      再貴也要吃,它是公認的“蔬菜一絕”,比蘿卜鮮,比山藥補

      再貴也要吃,它是公認的“蔬菜一絕”,比蘿卜鮮,比山藥補

      阿龍美食記
      2026-01-24 10:32:12
      中國哪的醬油最好吃?經評比,這6種醬油榜上有名,你喜歡哪種?看看有沒有你家鄉?

      中國哪的醬油最好吃?經評比,這6種醬油榜上有名,你喜歡哪種?看看有沒有你家鄉?

      美食格物
      2026-01-26 14:06:13
      國安部披露:個別社交平臺賬號打著“歷史科普”的旗號,通過未經核實的內容、渲染陰謀論等方式歪曲事實,企圖讓網民陷入歷史虛無主義陷阱

      國安部披露:個別社交平臺賬號打著“歷史科普”的旗號,通過未經核實的內容、渲染陰謀論等方式歪曲事實,企圖讓網民陷入歷史虛無主義陷阱

      揚子晚報
      2026-01-26 07:17:27
      反擊利器!曼聯7500萬歐簽姆伯莫 本賽季8球1助 攻破四大Big6

      反擊利器!曼聯7500萬歐簽姆伯莫 本賽季8球1助 攻破四大Big6

      智道足球
      2026-01-26 14:00:52
      2026-01-26 16:40:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14415文章數 66536關注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      女子乘二等座買到"單人座":空間較寬敞 旁邊能放行李

      頭條要聞

      女子乘二等座買到"單人座":空間較寬敞 旁邊能放行李

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被實名舉報代孕、插足婚姻

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      藝術
      教育
      游戲
      公開課
      軍事航空

      藝術要聞

      溥心畬的花鳥,淡雅清新

      教育要聞

      巧解無限套娃題,學會這種多拿10分

      屠村也未必是壞人?Xbox《神鬼寓言》系統大改引爭議

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      委代總統稱遭美威脅:馬杜羅已死

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品99在线观看| 日本少妇被黑人xxxxx| 欧洲精品成人免费视频在线观看| 久久精品国产精品第一区| 亚洲无码| 国产成人啪精品视频免费软件| 无码午夜福利片| 级r片内射在线视频播放| 牛牛视频一区二区三区| 国产免费无码一区二区三区| 无码国产成人午夜电影在线观看| 一本无码在线观看| 中文字幕一区二区三区擦澡| 九九碰九九爱97超碰| 皮山县| 手机在线免费av网站| free性欧美精品videos| 日韩精品一区二区三区视频网| 亚洲国产精品成人精品无码区在线 | 国产愉拍91九色国产愉拍| 熟女丝袜潮喷内裤视频网站| 亚洲综合无码一区二区三区不卡| 国产精品麻豆欧美日韩ww | 亚洲色成人网站www永久| 亚洲成a人片在线观看www| 成人裸男自慰gv网站| 久久无码高潮喷水| 18禁美女网站| 午夜男在线一本| 乱人伦中文字幕成人网站在线| 男人J放进女人J无遮挡免费看| 国精无码欧精品亚洲一区| 疯狂做受xxxx高潮欧美日本 | 免费看久久精品99| 中文字幕无码家庭乱欲| 男女一边摸一边做爽爽| 久久国产精品免费一区二区三区| 亚洲欧美一区二区成人片| www.91自拍| 五月婷之久久综合丝袜美腿| 尤物网址|