<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北大團隊提出新范式,遞歸似然比梯度優化器賦能擴散模型后訓練

      0
      分享至



      在 AI 視覺生成領域,擴散模型(DM)憑借其強大的高保真數據生成能力,已成為圖像合成、視頻生成等多模態任務的核心框架。然而,預訓練后的擴散模型如何高效適配下游應用需求,一直是行業面臨的關鍵挑戰。近日,北京大學彭一杰教授團隊在國際頂會 ICLR 2026 上發表重磅研究,提出遞歸似然比(RLR)優化器,為擴散模型后訓練提供了兼顧效率與性能的半階微調新方案。該研究第一作者為彭教授指導的博士生任韜,相關成果已被 ICLR 2026 接收為 oral。



      • 論文鏈接:https://openreview.net/forum?id=AZ6lqcvHLX
      • 開源代碼:https://github.com/RTkenny/RLR-Optimizer



      生成效果

      現有方法瓶頸凸顯,擴散模型后訓練亟待突破

      擴散模型通過遞歸去噪過程生成數據,其強大的表達能力依賴于海量數據預訓練。但在實際應用中,需要通過后訓練對模型進行精準對齊,以滿足特定場景的質量要求或人類偏好。當前主流的后訓練方法主要分為兩類:基于強化學習(RL)的方法和基于截斷反向傳播(BP)的方法,但兩者均存在顯著缺陷。

      截斷 BP 方法為降低內存開銷,會終止部分梯度計算,導致梯度估計存在結構性偏差,嚴重時會引發模型崩潰,生成內容退化為純噪聲;而 RL 方法雖能降低內存需求,但梯度估計方差極高,樣本效率低下,訓練收斂緩慢。例如,使用全 BP 訓練 Stable Diffusion 1.4 僅需 50 個時間步就需約 1TB GPU 內存,完全不具備實用價值;而截斷 BP 和 RL 方法又難以兼顧訓練穩定性與生成質量。



      截斷 BP 導致訓練崩潰,獎勵曲線在后期快速下降

      RLR 優化器,實現無偏低方差梯度估計

      為突破上述困境,彭一杰教授團隊提出遞歸似然比(RLR)優化器,創新性地設計了半階梯度估計范式(Half-Order Estimator)。該方法通過利用擴散模型固有的噪聲特性,重構遞歸擴散鏈中的計算圖,實現了無偏且低方差的梯度估計,同時有效平衡了計算成本與優化效果。

      RLR 優化器的核心設計包含三大模塊:

      1. 一階估計模塊:在第一個時間步直接對獎勵模型進行反向傳播,充分利用模型結構信息,避免黑箱處理帶來的精度損失;

      2. 半階優化模塊:引入長度為 h 的局部子鏈,隨機選擇起始位置,精準捕捉多尺度視覺信息,同時最小化方差;

      3. 零階估計模塊:對剩余時間步采用參數擾動策略,確保梯度估計的無偏性,且無需緩存中間潛變量,大幅降低計算開銷。



      算法框架

      半階估計量的核心可控參數為局部子鏈長度 h,而h 的取值直接決定了內存開銷與梯度方差的此消彼長關系,這也是 RLR 優化器實現 memory-variance tradeoff 的核心調控旋鈕。研究團隊將 h 的求解轉化為帶內存預算約束的方差最小化優化問題,從理論上定量解決了擴散模型微調的內存 - 方差的權衡,為 h 的選擇提供了明確的數學依據。



      給定內存約束下的方差最小化問題

      研究團隊基于該方差最小化問題推導出半階估計量子鏈長度 h 的最優解析解 h*,并經消融實驗驗證了工程最優取值:理論上 h * 取內存約束下最大可行 h 與方差最小化理論最優 h 的較小值。在 30~40GB 主流 GPU 內存預算(8 張 V100 GPU)下,h=2 為工程黃金取值,該取值可讓半階子鏈捕捉擴散鏈關鍵尺度信息、將整體方差降至飽和區間,若將 h 增至 3 或 4,單步訓練時間從 1.61 分鐘飆升至 5.65 分鐘、9.23 分鐘,獎勵分數卻僅微幅提升,性價比較低。這一設計實現了內存與梯度方差的定量最優權衡,讓 RLR 在有限硬件下兼顧無偏性、低方差與高計算效率。



      無偏性證明

      團隊通過嚴格的理論分析,證明了 RLR 估計器的無偏性,并給出了方差邊界和收斂速率保證。與現有方法相比,RLR 既解決了截斷 BP 的偏差問題,又克服了 RL 方法的高方差缺陷,在計算效率與優化性能之間實現了最優平衡。



      收斂性證明

      實驗結果驚艷,圖像視頻生成任務全面超越 SOTA

      為驗證 RLR 優化器的有效性,團隊在文本到圖像(Text2Image)和文本到視頻(Text2Video)兩大核心任務上開展了大規模實驗,與 DDPO、AlignProp、VADER 等基于 RL 和截斷 BP 的主流方法進行了全面對比。

      在 Text2Image 任務中,基于 Stable Diffusion 1.4 和 2.1 的實驗結果顯示,RLR 在 PickScore、HPSv2、AES 等多個人類偏好獎勵模型上均取得最高獎勵分數。其中,在 HPD v2 數據集上,RLR 將 Stable Diffusion 1.4 的 ImageReward 分數從 32.90 提升至 76.55,較 DDPO 提升約 47%,較 AlignProp 提升約 14%。



      圖像任務的測評表現

      在 Text2Video 任務的 VBench 基準測試中,RLR 在主體一致性、運動流暢度、動態程度等 6 個核心指標上表現突出,加權平均分數達到 84.63,超越了 VideoCrafter、Pika、Gen-2 等開源及 API-based 模型,其中動態程度指標達到 70.69,顯著領先于其他方法的最高值 66.94。



      視頻任務上的測評表現

      此外,團隊還為 RLR 優化器量身設計了擴散思維鏈提示詞技術,通過將原始提示詞分解為粗、中、細多尺度提示詞,讓半階子鏈精準針對生成缺陷的尺度進行梯度更新,進一步挖掘 RLR 的性能潛力,在手部生成等細粒度任務中實現了顯著的性能提升。



      適配 RLR 優化器的擴散思維鏈

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      32.3萬起!全新奧迪A6L開啟預售,價格直降10萬,BBA格局要變天?

      32.3萬起!全新奧迪A6L開啟預售,價格直降10萬,BBA格局要變天?

      三農老歷
      2026-03-10 18:07:46
      “戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

      “戲混子”沒走,比資本家丑孩子更可怕的是“星二代”開始世襲了

      流史歲月
      2026-01-26 10:58:30
      出大事了,特朗普誤判鬧出笑話,以總理或入獄,美前總統出面發聲

      出大事了,特朗普誤判鬧出笑話,以總理或入獄,美前總統出面發聲

      說歷史的老牢
      2026-03-09 12:27:54
      中東最后一套薩德系統被伊朗摧毀,現在最后悔的,估計是韓國!

      中東最后一套薩德系統被伊朗摧毀,現在最后悔的,估計是韓國!

      青青子衿
      2026-03-09 19:47:45
      伊朗頂住了,兩大援軍已到!特朗普宣布一件事,臺當局坐不住了

      伊朗頂住了,兩大援軍已到!特朗普宣布一件事,臺當局坐不住了

      各生歡喜者
      2026-03-06 03:23:56
      為了巴結英日,撕毀中國百億投資項目,被耍后還想和中國再續前緣

      為了巴結英日,撕毀中國百億投資項目,被耍后還想和中國再續前緣

      流史歲月
      2026-02-26 16:45:04
      回顧奧運冠軍張成龍:因長得帥被富婆倒追,如今家庭美滿幸福

      回顧奧運冠軍張成龍:因長得帥被富婆倒追,如今家庭美滿幸福

      沒有偏旁的常慶
      2026-03-09 07:50:03
      美軍前高官發出警告:以色列可不是中美俄,打急眼了它真敢丟核彈

      美軍前高官發出警告:以色列可不是中美俄,打急眼了它真敢丟核彈

      Ck的蜜糖
      2026-03-08 04:32:39
      小哈梅內伊點燃三把火,特朗普:希望結束戰爭

      小哈梅內伊點燃三把火,特朗普:希望結束戰爭

      東極妙嚴
      2026-03-09 19:13:07
      小三上位!買超新歡挺孕肚備婚,全家認可,張嘉倪8年終是錯付了

      小三上位!買超新歡挺孕肚備婚,全家認可,張嘉倪8年終是錯付了

      翰飛觀事
      2026-03-09 19:20:15
      父親大鬧花店后續:孩子狀態讓人心疼,父親身份曝光,被警方帶走

      父親大鬧花店后續:孩子狀態讓人心疼,父親身份曝光,被警方帶走

      阿纂看事
      2026-03-10 16:41:43
      就地解散嗎?火藥耗盡后的伊朗革命衛隊

      就地解散嗎?火藥耗盡后的伊朗革命衛隊

      民間鐵血柔情
      2026-03-09 06:04:26
      江西6大房企全軍覆沒

      江西6大房企全軍覆沒

      地產微資訊
      2026-03-10 08:55:18
      美專家:中國人不可怕,可怕的是他們買了光刻機,卻不用來造芯片

      美專家:中國人不可怕,可怕的是他們買了光刻機,卻不用來造芯片

      世界有奇事
      2026-01-13 16:34:40
      央視主持李靜:事業遭滑鐵盧,55歲對男人失去興趣,原因令人唏噓

      央視主持李靜:事業遭滑鐵盧,55歲對男人失去興趣,原因令人唏噓

      白面書誏
      2026-03-09 13:28:02
      干得漂亮!新領袖上臺不到24小時,伊朗就換了打法,將了美國一軍

      干得漂亮!新領袖上臺不到24小時,伊朗就換了打法,將了美國一軍

      軍機Talk
      2026-03-10 17:24:35
      張藝興被曝多個活動取消,疑違規被國家話劇院開除,本人發聲明!

      張藝興被曝多個活動取消,疑違規被國家話劇院開除,本人發聲明!

      陳意小可愛
      2026-03-10 15:29:02
      重慶冠軍賽還未開始,五大名將退賽,誕生四大沒想到,孫穎莎在列

      重慶冠軍賽還未開始,五大名將退賽,誕生四大沒想到,孫穎莎在列

      阿策聊實事
      2026-03-09 18:09:44
      奪取伊朗的高濃縮鈾?這需要美國出動大量地面部隊,后勤和風險都難以承受

      奪取伊朗的高濃縮鈾?這需要美國出動大量地面部隊,后勤和風險都難以承受

      互聯網大觀
      2026-03-10 11:20:08
      消失的彭加木:一場精心計劃的逃亡?隱藏在羅布泊中的離奇秘密

      消失的彭加木:一場精心計劃的逃亡?隱藏在羅布泊中的離奇秘密

      史之銘
      2026-02-10 15:35:39
      2026-03-10 23:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142581關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      小伙輾轉8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      頭條要聞

      小伙輾轉8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風波升級!315評論區淪陷

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      本地
      房產
      時尚
      親子
      公開課

      本地新聞

      云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

      房產要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質

      親子要聞

      程曉玥自曝喜歡懷孕:我愛我的工作,然后我愛懷孕懷著孕工作

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版