<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      港科聯合快手可靈提出高效強化學習后訓練擴散模型新范式

      0
      分享至



      在使用強化學習(RL)微調擴散模型(如 Stable Diffusion, Flux)以對齊人類偏好時,我們常面臨一個棘手的 “兩難困境”:追求高獎勵會導致圖像質量崩壞(即 Reward Hacking),而為了防止崩壞引入的 KL 正則化又會嚴重阻礙模型的探索和收斂。

      最近,來自于香港科技大學,快手可靈 AI,港中文以及愛丁堡大學的研究團隊提出了一種全新的框架 GARDO。它通過門控自適應正則化和多樣性感知優(yōu)化,成功在防止 Reward Hacking 的同時,實現了高效的樣本探索和多樣性生成。研究工作已經全面開源。

      論文第一作者何浩然是香港科技大學博士生,研究方向包括強化學習和多模態(tài)基礎模型等,研究目標是開發(fā)下一代可擴展強化學習后訓練算法。通訊作者為香港科技大學電子及計算機工程系、計算機科學與工程系助理教授潘玲。



      • 論文標題:GARDO: Reinforcing Diffusion Models without Reward Hacking
      • 項目主頁:https://tinnerhrhe.github.io/gardo_project
      • 論文鏈接:https://arxiv.org/pdf/2512.24138

      背景與動機:RL 后訓練中的陷阱

      強化學習(RL)在視覺領域的后訓練中展現出了不錯的效果,逐漸成為當前研究的熱點。最近半年,如 flow-grpo,dancegrpo 以及 DiffusionNFT 等工作受到了大家廣泛關注。

      然而,在視覺任務中,定義一個完美的 “獎勵函數(Reward Function)” 極其困難。我們通常使用的是一個代理獎勵(Proxy Reward),例如 ImageReward、Aesthetic Score 或者 OCR 識別率。

      這就導致了一個典型的問題:Reward Hacking。當模型過度優(yōu)化這個代理獎勵時,它會找到獎勵模型的漏洞(Out-of-Distribution, OOD 區(qū)域)。結果就是,代理分數(Proxy Score)極高,但生成的圖像充滿了噪點、偽影,甚至完全失去了真實感。



      Reward Hacking 定義

      下面展示文生圖出現 hacking 的例子:



      為了解決這個問題,傳統方法(如 DPOK, Flow-GRPO)通常引入 KL 散度正則化,強迫微調后的策略 π_θ 不要偏離原始參考策略 π_ref 太遠。但研究團隊發(fā)現,這種 “一刀切” 的 KL 正則化帶來了新的問題:

      1. 樣本效率低:RL 目標函數會被 KL 懲罰項的 π_ref 拖后腿,學習速度變慢。
      2. 阻礙探索:π_ref 本身通常是次優(yōu)的,強制 π_θ 貼近它會阻止模型探索那些參考模型 π_ref 未發(fā)現的高獎勵區(qū)域。

      核心問題來了,能否在不犧牲樣本效率和探索能力的前提下,防止 Reward Hacking?

      GARDO:門控、自適應與多樣性

      為了打破上述困境,作者提出了GARDO (Gated and Adaptive Regularization with Diversity-aware Optimization) 框架



      GARDO 方法概覽圖

      KL-regularized RL 的最優(yōu)解可以寫成:







      基于上述觀察,GARDO 的框架基于三個核心洞察:

      洞察一:正則化不需要 “雨露均沾”

      方法:門控 KL 機制 (Gated KL Mechanism)

      根據定義 1,只有當模型 π_θ 生成的樣本落在代理獎勵不可靠的區(qū)域(即 OOD 區(qū)域)時,才真正需要 KL 正則化。對于那些既高質量又在分布內的樣本,施加懲罰只會阻礙學習。

      GARDO 引入了不確定性估計(通過獎勵模型集成 ranking 差異來衡量)。





      • 做法:只對那些具有高不確定性 (Reward Model 拿不準,可能是 Hacking)的樣本施加 KL 懲罰。
      • 效果:實驗發(fā)現,僅對約 10% 的高不確定性樣本進行懲罰,就足以有效防止 Reward Hacking,讓其余 90% 的樣本自由探索。從而實現在不犧牲樣本效率的情況下,有效抑制 hacking 現象的出現。

      洞察二:靜態(tài)的 π_ref 會限制 RL 優(yōu)化的上限

      方法:自適應正則化目標 (Adaptive Regularization Target)

      如果 π_ref 一直不變,隨著 π_θ 的變強,KL 懲罰會主導整個 learning Loss,導致優(yōu)化停滯。

      • 做法:定期更新 Reference Model π_ref(將其重置為當前的策略)。
      • 效果:這就像給模型設立了動態(tài)更新的 “錨點”,既保證了訓練的穩(wěn)定性,又允許模型持續(xù)進化,探索更廣闊的空間。

      洞察三:RL 容易 mode collapse,需要鼓勵多樣性生成

      方法:多樣性感知優(yōu)勢重塑 (Diversity-Aware Advantage Shaping)

      RL 訓練容易導致 Mode Collapse(模式坍塌),即模型發(fā)現一種高分畫法后就只會畫這一種。這不僅降低了生成質量,也加劇了 Reward Hacking。

      • 做法:利用 DINOv3 提取特征,計算樣本在特征空間中的稀疏度作為 “多樣性分數”。將此分數以乘法形式作用于優(yōu)勢函數(Advantage)。



      • 注意:只獎勵那些既有正向優(yōu)勢(高質量)又具有高多樣性的樣本,防止模型為了多樣性而生成亂七八糟的東西。

      研究團隊在高斯混合分布(預訓練分布)上訓練了一個包含三層 MLP 的擴散模型,目標是捕捉獎勵景觀中所示的多模態(tài)高獎勵聚類。使用較大 KL 系數 β 的傳統強化學習方法約束過強,無法提升獎勵。與之相對,過小的 β 則會導致嚴重的模式坍縮。團隊提出的多樣性感知優(yōu)化方法單獨使用時,已成功捕捉到多模態(tài)聚類,包括參考策略 π_ref 中概率密度最低的中心聚類。而團隊提出的完整的 GARDO 框架則能同時實現獎勵最大化并發(fā)現所有高獎勵聚類。



      實驗結果:全方位的提升

      作者在 SD3.5-Medium 和 Flux.1-dev 等多個基底模型上,針對不同的獎勵任務(GenEval, OCR, Aesthetic 等)和不同的 RL 算法(flow-grpo,DiffusioNFT 等)進行了廣泛實驗。

      定量評估

      相比于 Flow-GRPO 等基線方法,GARDO 展現了顯著的優(yōu)勢:

      1. 拒絕 Hacking:在 OCR 等易被 Hack 的任務中,GARDO 在保持高識別率的同時,圖像質量指標(如 Aesthetic, PickScore)沒有下降,甚至有所提升。
      2. 樣本效率:學習曲線顯示,GARDO 能夠以更少的步數達到更高的獎勵水平。
      3. 泛化性:在未見過的測試指標上(Unseen Metrics),GARDO 表現出極強的魯棒性。



      GARDO 和 baseline 在不同 metric 上的表現。訓練優(yōu)化代理任務黃色高亮。



      涌現能力

      最令人印象深刻的是 GARDO 激發(fā)了模型的涌現能力(Emergent Behavior)。

      在極具挑戰(zhàn)性的 “數數任務”(生成特定數量的物體)中,基底模型和傳統 RL 方法很難生成超過 9 個物體。

      而 GARDO 成功學會了生成 10 個甚至 11 個物體。



      總結

      GARDO 針對擴散模型 RL 后訓練中的痛點,提出以下解決方案:

      • 拒絕盲目正則化 →→ 門控 KL(只懲罰不可靠的)
      • 拒絕靜態(tài)錨點 →→ 自適應更新(不斷提升上限)
      • 拒絕模式坍塌 →→ 多樣性感知(鼓勵百花齊放)

      這項工作證明了:在視覺生成的強化學習中,精準的控制比強力的約束更重要。對于希望利用 RL 進一步釋放擴散模型潛力的研究者和開發(fā)者來說,GARDO 提供了一個極具價值的通用框架。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      A股:今天沖到4160后回落,種種跡象表明,A股或將開啟更大級別行情

      A股:今天沖到4160后回落,種種跡象表明,A股或將開啟更大級別行情

      股市皆大事
      2026-01-26 12:03:29
      梅婷《太平年》爆了,4集下線幾十人,網友:央視這尺度必須5星

      梅婷《太平年》爆了,4集下線幾十人,網友:央視這尺度必須5星

      糊咖娛樂
      2026-01-26 11:49:30
      重磅! 澳洲或重擊中國, 猛增50%關稅! 兩國關系受影響! 中國一個決定, 澳洲直接年損10個億

      重磅! 澳洲或重擊中國, 猛增50%關稅! 兩國關系受影響! 中國一個決定, 澳洲直接年損10個億

      澳洲紅領巾
      2026-01-26 13:15:04
      國補后3999元起!史上最便宜iPhone悄悄上架 連發(fā)布會都直接省了

      國補后3999元起!史上最便宜iPhone悄悄上架 連發(fā)布會都直接省了

      小柱解說游戲
      2026-01-24 02:11:35
      廣西男子爬衡山丟80.88克金牌,失主:民警會帶金屬探測儀尋找,已做好找不回的最壞打算了;按最新金價,金牌若找不回損失或超10萬元

      廣西男子爬衡山丟80.88克金牌,失主:民警會帶金屬探測儀尋找,已做好找不回的最壞打算了;按最新金價,金牌若找不回損失或超10萬元

      極目新聞
      2026-01-26 14:07:32
      ICE又制造慘案,特朗普可能加快打擊伊朗

      ICE又制造慘案,特朗普可能加快打擊伊朗

      山河路口
      2026-01-26 13:16:18
      汽車圈“大地震”!比亞迪大將投奔行業(yè)巨頭,叫囂:三年內沒對手

      汽車圈“大地震”!比亞迪大將投奔行業(yè)巨頭,叫囂:三年內沒對手

      長星寄明月
      2026-01-20 21:00:46
      釋永信塌房后,被曝為女明星開光,除了李湘外,多名女星被拉下水

      釋永信塌房后,被曝為女明星開光,除了李湘外,多名女星被拉下水

      阿器談史
      2026-01-08 13:16:09
      株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

      株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

      今日搞笑分享
      2026-01-25 06:26:33
      本科畢業(yè)于上海大學,博士畢業(yè)于清華大學,上海交通大學副教授以通訊作者身份在一區(qū)Top期刊上發(fā)表研究論文

      本科畢業(yè)于上海大學,博士畢業(yè)于清華大學,上海交通大學副教授以通訊作者身份在一區(qū)Top期刊上發(fā)表研究論文

      植物研究進展
      2026-01-24 18:16:42
      朱元璋的姐夫是真聰明,朱元璋稱帝后問他想當什么官,他回了四字

      朱元璋的姐夫是真聰明,朱元璋稱帝后問他想當什么官,他回了四字

      千秋文化
      2026-01-24 22:30:14
      海歸光環(huán)已經消失?49.5萬留學生涌回國,殘酷真相:企業(yè)只認這個

      海歸光環(huán)已經消失?49.5萬留學生涌回國,殘酷真相:企業(yè)只認這個

      南宗歷史
      2026-01-24 22:48:56
      僅售55元的iPhone 4S,在拼多多徹底賣爆

      僅售55元的iPhone 4S,在拼多多徹底賣爆

      雷科技
      2026-01-26 12:10:21
      黃曉明與前妻Angelababy罕見合體,一起帶兒子小海綿前往迪士尼慶祝其9歲生日

      黃曉明與前妻Angelababy罕見合體,一起帶兒子小海綿前往迪士尼慶祝其9歲生日

      魯中晨報
      2026-01-26 11:11:04
      拿600萬頂薪,7戰(zhàn)一共得9分!CBA頭號“混子”,慘不忍睹

      拿600萬頂薪,7戰(zhàn)一共得9分!CBA頭號“混子”,慘不忍睹

      弄月公子
      2026-01-26 08:53:27
      1936 錢壯飛烏江失蹤成謎,尋 50 年 1986 金沙縣考證結局唏噓

      1936 錢壯飛烏江失蹤成謎,尋 50 年 1986 金沙縣考證結局唏噓

      磊子講史
      2026-01-08 15:47:38
      退休老干部頻繁“聯系”女幼師,聊天記錄被公開,網友看上癮了!

      退休老干部頻繁“聯系”女幼師,聊天記錄被公開,網友看上癮了!

      林林先生
      2026-01-26 13:28:11
      研究癌癥53年,湯釗猷院士忠告:癌癥屬于身體內亂,不要輕易手術

      研究癌癥53年,湯釗猷院士忠告:癌癥屬于身體內亂,不要輕易手術

      墜入二次元的海洋
      2026-01-22 13:07:00
      20歲浙江獨生女泰國留學25天遭撕票!兇手是3名同胞,男友是主謀

      20歲浙江獨生女泰國留學25天遭撕票!兇手是3名同胞,男友是主謀

      一盅情懷
      2026-01-24 17:01:22
      日本新首相人選出爐,高市早苗參選,對華態(tài)度受關注

      日本新首相人選出爐,高市早苗參選,對華態(tài)度受關注

      攬星辰入夢
      2026-01-25 22:25:15
      2026-01-26 15:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12192文章數 142549關注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      伊朗最高領袖哈梅內伊轉入地堡 日常事務交由兒子接管

      頭條要聞

      伊朗最高領袖哈梅內伊轉入地堡 日常事務交由兒子接管

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被實名舉報代孕、插足婚姻

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發(fā)布 解鎖四項定制創(chuàng)新

      態(tài)度原創(chuàng)

      教育
      游戲
      親子
      家居
      軍事航空

      教育要聞

      “把這種視頻發(fā)網上,真是好媽”,女兒的尊嚴被扒的一絲不剩

      SLG×RTS 《王于興師》將于2月6日開啟Steam Demo測試!同步釋出游戲宣傳片

      親子要聞

      你們聽,287天,9個多月的昂薩梅朵是開口喊爸爸媽媽嗎?

      家居要聞

      流韻雅居,讓復雜變純粹

      軍事要聞

      委代總統稱遭美威脅:馬杜羅已死

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大香蕉资源网 | 国产亚洲精品综合99久久| 国产午夜aaa片无码无片久久| 精品国产乱码久久久久久婷婷| 欧美人妖另类| 亚洲伊人色| 亚洲精品字幕| 996久久国产精品线观看导航| 亚洲a人片在线观看网址| 91青青草视频在线观看| 亚洲国产av一区二区三区四区| 婷婷开心激情综合五月天| 少妇被粗大的猛烈进出视频| 肉大榛一出一进免费观看在线| 伊人久久精品无码二区麻豆| 欧美另类潮喷| 亚洲无码一| 91人人妻| 7777久久亚洲中文字幕蜜桃| 在线免费观看毛片av| 国产内射一区二区三区| 国产偷窥熟妇高潮呻吟| 亚洲男人的天堂在线观看| 亚洲www啪成人一区二区| 额济纳旗| 亚洲三区在线观看无套内射 | 亚洲日产专区| 国产精品自在自线视频| 欧美乱子伦xxxx12| 国产精品无码无卡在线播放| 欧美性受xxxx白人性爽| 在线日韩一区二区| 免费在线观看av毛片| 老太脱裤让老头玩ⅹxxxx| 日韩区一区二区三区视频| 成人综合婷婷国产精品久久| 亚洲香蕉av一区二区蜜桃| 国精品99久9在线 | 免费 | 正在播放东北夫妻内射| 97成人精品一区二区三区狼人| 成人综合精品|