<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      北大團(tuán)隊(duì)提出新范式,遞歸似然比梯度優(yōu)化器賦能擴(kuò)散模型后訓(xùn)練

      0
      分享至



      在 AI 視覺生成領(lǐng)域,擴(kuò)散模型(DM)憑借其強(qiáng)大的高保真數(shù)據(jù)生成能力,已成為圖像合成、視頻生成等多模態(tài)任務(wù)的核心框架。然而,預(yù)訓(xùn)練后的擴(kuò)散模型如何高效適配下游應(yīng)用需求,一直是行業(yè)面臨的關(guān)鍵挑戰(zhàn)。近日,北京大學(xué)彭一杰教授團(tuán)隊(duì)在國際頂會 ICLR 2026 上發(fā)表重磅研究,提出遞歸似然比(RLR)優(yōu)化器,為擴(kuò)散模型后訓(xùn)練提供了兼顧效率與性能的半階微調(diào)新方案。該研究第一作者為彭教授指導(dǎo)的博士生任韜,相關(guān)成果已被 ICLR 2026 接收為 oral。



      • 論文鏈接:https://openreview.net/forum?id=AZ6lqcvHLX
      • 開源代碼:https://github.com/RTkenny/RLR-Optimizer



      生成效果

      現(xiàn)有方法瓶頸凸顯,擴(kuò)散模型后訓(xùn)練亟待突破

      擴(kuò)散模型通過遞歸去噪過程生成數(shù)據(jù),其強(qiáng)大的表達(dá)能力依賴于海量數(shù)據(jù)預(yù)訓(xùn)練。但在實(shí)際應(yīng)用中,需要通過后訓(xùn)練對模型進(jìn)行精準(zhǔn)對齊,以滿足特定場景的質(zhì)量要求或人類偏好。當(dāng)前主流的后訓(xùn)練方法主要分為兩類:基于強(qiáng)化學(xué)習(xí)(RL)的方法和基于截?cái)喾聪騻鞑ィ˙P)的方法,但兩者均存在顯著缺陷。

      截?cái)?BP 方法為降低內(nèi)存開銷,會終止部分梯度計(jì)算,導(dǎo)致梯度估計(jì)存在結(jié)構(gòu)性偏差,嚴(yán)重時會引發(fā)模型崩潰,生成內(nèi)容退化為純噪聲;而 RL 方法雖能降低內(nèi)存需求,但梯度估計(jì)方差極高,樣本效率低下,訓(xùn)練收斂緩慢。例如,使用全 BP 訓(xùn)練 Stable Diffusion 1.4 僅需 50 個時間步就需約 1TB GPU 內(nèi)存,完全不具備實(shí)用價值;而截?cái)?BP 和 RL 方法又難以兼顧訓(xùn)練穩(wěn)定性與生成質(zhì)量。



      截?cái)?BP 導(dǎo)致訓(xùn)練崩潰,獎勵曲線在后期快速下降

      RLR 優(yōu)化器,實(shí)現(xiàn)無偏低方差梯度估計(jì)

      為突破上述困境,彭一杰教授團(tuán)隊(duì)提出遞歸似然比(RLR)優(yōu)化器,創(chuàng)新性地設(shè)計(jì)了半階梯度估計(jì)范式(Half-Order Estimator)。該方法通過利用擴(kuò)散模型固有的噪聲特性,重構(gòu)遞歸擴(kuò)散鏈中的計(jì)算圖,實(shí)現(xiàn)了無偏且低方差的梯度估計(jì),同時有效平衡了計(jì)算成本與優(yōu)化效果。

      RLR 優(yōu)化器的核心設(shè)計(jì)包含三大模塊:

      1. 一階估計(jì)模塊:在第一個時間步直接對獎勵模型進(jìn)行反向傳播,充分利用模型結(jié)構(gòu)信息,避免黑箱處理帶來的精度損失;

      2. 半階優(yōu)化模塊:引入長度為 h 的局部子鏈,隨機(jī)選擇起始位置,精準(zhǔn)捕捉多尺度視覺信息,同時最小化方差;

      3. 零階估計(jì)模塊:對剩余時間步采用參數(shù)擾動策略,確保梯度估計(jì)的無偏性,且無需緩存中間潛變量,大幅降低計(jì)算開銷。



      算法框架

      半階估計(jì)量的核心可控參數(shù)為局部子鏈長度 h,而h 的取值直接決定了內(nèi)存開銷與梯度方差的此消彼長關(guān)系,這也是 RLR 優(yōu)化器實(shí)現(xiàn) memory-variance tradeoff 的核心調(diào)控旋鈕。研究團(tuán)隊(duì)將 h 的求解轉(zhuǎn)化為帶內(nèi)存預(yù)算約束的方差最小化優(yōu)化問題,從理論上定量解決了擴(kuò)散模型微調(diào)的內(nèi)存 - 方差的權(quán)衡,為 h 的選擇提供了明確的數(shù)學(xué)依據(jù)。



      給定內(nèi)存約束下的方差最小化問題

      研究團(tuán)隊(duì)基于該方差最小化問題推導(dǎo)出半階估計(jì)量子鏈長度 h 的最優(yōu)解析解 h*,并經(jīng)消融實(shí)驗(yàn)驗(yàn)證了工程最優(yōu)取值:理論上 h * 取內(nèi)存約束下最大可行 h 與方差最小化理論最優(yōu) h 的較小值。在 30~40GB 主流 GPU 內(nèi)存預(yù)算(8 張 V100 GPU)下,h=2 為工程黃金取值,該取值可讓半階子鏈捕捉擴(kuò)散鏈關(guān)鍵尺度信息、將整體方差降至飽和區(qū)間,若將 h 增至 3 或 4,單步訓(xùn)練時間從 1.61 分鐘飆升至 5.65 分鐘、9.23 分鐘,獎勵分?jǐn)?shù)卻僅微幅提升,性價比較低。這一設(shè)計(jì)實(shí)現(xiàn)了內(nèi)存與梯度方差的定量最優(yōu)權(quán)衡,讓 RLR 在有限硬件下兼顧無偏性、低方差與高計(jì)算效率。



      無偏性證明

      團(tuán)隊(duì)通過嚴(yán)格的理論分析,證明了 RLR 估計(jì)器的無偏性,并給出了方差邊界和收斂速率保證。與現(xiàn)有方法相比,RLR 既解決了截?cái)?BP 的偏差問題,又克服了 RL 方法的高方差缺陷,在計(jì)算效率與優(yōu)化性能之間實(shí)現(xiàn)了最優(yōu)平衡。



      收斂性證明

      實(shí)驗(yàn)結(jié)果驚艷,圖像視頻生成任務(wù)全面超越 SOTA

      為驗(yàn)證 RLR 優(yōu)化器的有效性,團(tuán)隊(duì)在文本到圖像(Text2Image)和文本到視頻(Text2Video)兩大核心任務(wù)上開展了大規(guī)模實(shí)驗(yàn),與 DDPO、AlignProp、VADER 等基于 RL 和截?cái)?BP 的主流方法進(jìn)行了全面對比。

      在 Text2Image 任務(wù)中,基于 Stable Diffusion 1.4 和 2.1 的實(shí)驗(yàn)結(jié)果顯示,RLR 在 PickScore、HPSv2、AES 等多個人類偏好獎勵模型上均取得最高獎勵分?jǐn)?shù)。其中,在 HPD v2 數(shù)據(jù)集上,RLR 將 Stable Diffusion 1.4 的 ImageReward 分?jǐn)?shù)從 32.90 提升至 76.55,較 DDPO 提升約 47%,較 AlignProp 提升約 14%。



      圖像任務(wù)的測評表現(xiàn)

      在 Text2Video 任務(wù)的 VBench 基準(zhǔn)測試中,RLR 在主體一致性、運(yùn)動流暢度、動態(tài)程度等 6 個核心指標(biāo)上表現(xiàn)突出,加權(quán)平均分?jǐn)?shù)達(dá)到 84.63,超越了 VideoCrafter、Pika、Gen-2 等開源及 API-based 模型,其中動態(tài)程度指標(biāo)達(dá)到 70.69,顯著領(lǐng)先于其他方法的最高值 66.94。



      視頻任務(wù)上的測評表現(xiàn)

      此外,團(tuán)隊(duì)還為 RLR 優(yōu)化器量身設(shè)計(jì)了擴(kuò)散思維鏈提示詞技術(shù),通過將原始提示詞分解為粗、中、細(xì)多尺度提示詞,讓半階子鏈精準(zhǔn)針對生成缺陷的尺度進(jìn)行梯度更新,進(jìn)一步挖掘 RLR 的性能潛力,在手部生成等細(xì)粒度任務(wù)中實(shí)現(xiàn)了顯著的性能提升。



      適配 RLR 優(yōu)化器的擴(kuò)散思維鏈

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      心酸!80后媽媽哭訴與丈夫異地打工,不溝通不見面,過年形同陌路

      心酸!80后媽媽哭訴與丈夫異地打工,不溝通不見面,過年形同陌路

      火山詩話
      2026-03-10 06:30:01
      我的媽呀,2026年汽車價格戰(zhàn)正式拉開序幕。

      我的媽呀,2026年汽車價格戰(zhàn)正式拉開序幕。

      流蘇晚晴
      2026-03-10 18:57:11
      這還是民國四大美男之一的張學(xué)良嗎?

      這還是民國四大美男之一的張學(xué)良嗎?

      黎庶文史
      2026-03-09 22:01:15
      特朗普深夜驚聞噩耗,美國內(nèi)憂外患一起襲來,美債被大規(guī)模拋售

      特朗普深夜驚聞噩耗,美國內(nèi)憂外患一起襲來,美債被大規(guī)模拋售

      牛鍋巴小釩
      2026-03-10 18:26:03
      身價僅80萬!前皇馬7號沉淪:西甲10場0球 球隊(duì)瀕臨降級區(qū)

      身價僅80萬!前皇馬7號沉淪:西甲10場0球 球隊(duì)瀕臨降級區(qū)

      葉青足球世界
      2026-03-10 15:18:17
      到東北喝了頓酒,才知道為啥東北白酒走不出東三省,不是價格問題

      到東北喝了頓酒,才知道為啥東北白酒走不出東三省,不是價格問題

      濤哥美食匯
      2026-03-10 09:16:10
      開戰(zhàn)以來,最讓中俄擔(dān)心的一件事發(fā)生了!

      開戰(zhàn)以來,最讓中俄擔(dān)心的一件事發(fā)生了!

      說話之外
      2026-03-10 22:50:14
      祝賀伊朗女足獲得庇護(hù),拿到人道簽證

      祝賀伊朗女足獲得庇護(hù),拿到人道簽證

      蔥哥說
      2026-03-10 12:24:47
      即將首秀!你好,崔永熙!等了整整1年時間

      即將首秀!你好,崔永熙!等了整整1年時間

      籃球?qū)崙?zhàn)寶典
      2026-03-10 15:41:23
      陳都靈太嫩了

      陳都靈太嫩了

      阿廢冷眼觀察所
      2026-02-28 11:28:38
      伊朗這回真不給面子!美國想求和?直接打臉還捏蛋!

      伊朗這回真不給面子!美國想求和?直接打臉還捏蛋!

      紀(jì)史行者
      2026-03-10 08:04:41
      “白宮所有男士都有一雙”:特朗普癡迷于一款145美元的皮鞋,不送人一雙就不讓走

      “白宮所有男士都有一雙”:特朗普癡迷于一款145美元的皮鞋,不送人一雙就不讓走

      娛樂小可愛蛙
      2026-03-10 08:43:46
      13中10!21分!恭喜楊瀚森,開拓者憾負(fù),斯普利特尋理由

      13中10!21分!恭喜楊瀚森,開拓者憾負(fù),斯普利特尋理由

      林子說事
      2026-03-10 07:36:28
      伊朗還能高強(qiáng)度作戰(zhàn)至少半年?專家:影響戰(zhàn)爭長短和走向的因素有很多

      伊朗還能高強(qiáng)度作戰(zhàn)至少半年?專家:影響戰(zhàn)爭長短和走向的因素有很多

      紅星新聞
      2026-03-09 20:44:41
      美論壇:為什么中國明知很容易被摧毀,卻還要在南海建造基地?

      美論壇:為什么中國明知很容易被摧毀,卻還要在南海建造基地?

      深度解析熱點(diǎn)
      2026-03-07 19:10:18
      演都不演了,剛復(fù)出就開演唱會,票價賣到1280,到底誰給的自信?

      演都不演了,剛復(fù)出就開演唱會,票價賣到1280,到底誰給的自信?

      一娛三分地
      2026-03-03 13:51:03
      崩了!三分53中11+三分13%,鐵出天際,5年1.25億大合同徹底飛了

      崩了!三分53中11+三分13%,鐵出天際,5年1.25億大合同徹底飛了

      球童無忌
      2026-03-10 19:40:23
      恐慌蔓延!伊朗數(shù)千巴斯基收匿名死亡威脅,基層鐵拳徹底慌了

      恐慌蔓延!伊朗數(shù)千巴斯基收匿名死亡威脅,基層鐵拳徹底慌了

      老馬拉車莫少裝
      2026-03-09 00:03:46
      3月10日人民幣對美元中間價調(diào)升176個基點(diǎn)

      3月10日人民幣對美元中間價調(diào)升176個基點(diǎn)

      證券時報
      2026-03-10 09:43:08
      已停訓(xùn)達(dá)4個月!18歲全紅嬋解鎖新身份:穿西裝亮相 首次個人代言

      已停訓(xùn)達(dá)4個月!18歲全紅嬋解鎖新身份:穿西裝亮相 首次個人代言

      風(fēng)過鄉(xiāng)
      2026-03-10 12:37:34
      2026-03-10 23:36:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12467文章數(shù) 142581關(guān)注度
      往期回顧 全部

      科技要聞

      全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      頭條要聞

      小伙輾轉(zhuǎn)8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風(fēng)波升級!315評論區(qū)淪陷

      財(cái)經(jīng)要聞

      “龍蝦補(bǔ)貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      藝術(shù)
      時尚
      數(shù)碼
      本地
      房產(chǎn)

      藝術(shù)要聞

      30000畝杏花開了,新疆的春天這么美!

      看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

      數(shù)碼要聞

      羅德R?DE新推一體化音視頻方案,功能超強(qiáng)大!

      本地新聞

      云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

      房產(chǎn)要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      無障礙瀏覽 進(jìn)入關(guān)懷版