![]()
在 AI 視覺生成領域,擴散模型(DM)憑借其強大的高保真數據生成能力,已成為圖像合成、視頻生成等多模態任務的核心框架。然而,預訓練后的擴散模型如何高效適配下游應用需求,一直是行業面臨的關鍵挑戰。近日,北京大學彭一杰教授團隊在國際頂會 ICLR 2026 上發表重磅研究,提出遞歸似然比(RLR)優化器,為擴散模型后訓練提供了兼顧效率與性能的半階微調新方案。該研究第一作者為彭教授指導的博士生任韜,相關成果已被 ICLR 2026 接收為 oral。
![]()
- 論文鏈接:https://openreview.net/forum?id=AZ6lqcvHLX
- 開源代碼:https://github.com/RTkenny/RLR-Optimizer
![]()
生成效果
現有方法瓶頸凸顯,擴散模型后訓練亟待突破
擴散模型通過遞歸去噪過程生成數據,其強大的表達能力依賴于海量數據預訓練。但在實際應用中,需要通過后訓練對模型進行精準對齊,以滿足特定場景的質量要求或人類偏好。當前主流的后訓練方法主要分為兩類:基于強化學習(RL)的方法和基于截斷反向傳播(BP)的方法,但兩者均存在顯著缺陷。
截斷 BP 方法為降低內存開銷,會終止部分梯度計算,導致梯度估計存在結構性偏差,嚴重時會引發模型崩潰,生成內容退化為純噪聲;而 RL 方法雖能降低內存需求,但梯度估計方差極高,樣本效率低下,訓練收斂緩慢。例如,使用全 BP 訓練 Stable Diffusion 1.4 僅需 50 個時間步就需約 1TB GPU 內存,完全不具備實用價值;而截斷 BP 和 RL 方法又難以兼顧訓練穩定性與生成質量。
![]()
截斷 BP 導致訓練崩潰,獎勵曲線在后期快速下降
RLR 優化器,實現無偏低方差梯度估計
為突破上述困境,彭一杰教授團隊提出遞歸似然比(RLR)優化器,創新性地設計了半階梯度估計范式(Half-Order Estimator)。該方法通過利用擴散模型固有的噪聲特性,重構遞歸擴散鏈中的計算圖,實現了無偏且低方差的梯度估計,同時有效平衡了計算成本與優化效果。
RLR 優化器的核心設計包含三大模塊:
1. 一階估計模塊:在第一個時間步直接對獎勵模型進行反向傳播,充分利用模型結構信息,避免黑箱處理帶來的精度損失;
2. 半階優化模塊:引入長度為 h 的局部子鏈,隨機選擇起始位置,精準捕捉多尺度視覺信息,同時最小化方差;
3. 零階估計模塊:對剩余時間步采用參數擾動策略,確保梯度估計的無偏性,且無需緩存中間潛變量,大幅降低計算開銷。
![]()
算法框架
半階估計量的核心可控參數為局部子鏈長度 h,而h 的取值直接決定了內存開銷與梯度方差的此消彼長關系,這也是 RLR 優化器實現 memory-variance tradeoff 的核心調控旋鈕。研究團隊將 h 的求解轉化為帶內存預算約束的方差最小化優化問題,從理論上定量解決了擴散模型微調的內存 - 方差的權衡,為 h 的選擇提供了明確的數學依據。
![]()
給定內存約束下的方差最小化問題
研究團隊基于該方差最小化問題推導出半階估計量子鏈長度 h 的最優解析解 h*,并經消融實驗驗證了工程最優取值:理論上 h * 取內存約束下最大可行 h 與方差最小化理論最優 h 的較小值。在 30~40GB 主流 GPU 內存預算(8 張 V100 GPU)下,h=2 為工程黃金取值,該取值可讓半階子鏈捕捉擴散鏈關鍵尺度信息、將整體方差降至飽和區間,若將 h 增至 3 或 4,單步訓練時間從 1.61 分鐘飆升至 5.65 分鐘、9.23 分鐘,獎勵分數卻僅微幅提升,性價比較低。這一設計實現了內存與梯度方差的定量最優權衡,讓 RLR 在有限硬件下兼顧無偏性、低方差與高計算效率。
![]()
無偏性證明
團隊通過嚴格的理論分析,證明了 RLR 估計器的無偏性,并給出了方差邊界和收斂速率保證。與現有方法相比,RLR 既解決了截斷 BP 的偏差問題,又克服了 RL 方法的高方差缺陷,在計算效率與優化性能之間實現了最優平衡。
![]()
收斂性證明
實驗結果驚艷,圖像視頻生成任務全面超越 SOTA
為驗證 RLR 優化器的有效性,團隊在文本到圖像(Text2Image)和文本到視頻(Text2Video)兩大核心任務上開展了大規模實驗,與 DDPO、AlignProp、VADER 等基于 RL 和截斷 BP 的主流方法進行了全面對比。
在 Text2Image 任務中,基于 Stable Diffusion 1.4 和 2.1 的實驗結果顯示,RLR 在 PickScore、HPSv2、AES 等多個人類偏好獎勵模型上均取得最高獎勵分數。其中,在 HPD v2 數據集上,RLR 將 Stable Diffusion 1.4 的 ImageReward 分數從 32.90 提升至 76.55,較 DDPO 提升約 47%,較 AlignProp 提升約 14%。
![]()
圖像任務的測評表現
在 Text2Video 任務的 VBench 基準測試中,RLR 在主體一致性、運動流暢度、動態程度等 6 個核心指標上表現突出,加權平均分數達到 84.63,超越了 VideoCrafter、Pika、Gen-2 等開源及 API-based 模型,其中動態程度指標達到 70.69,顯著領先于其他方法的最高值 66.94。
![]()
視頻任務上的測評表現
此外,團隊還為 RLR 優化器量身設計了擴散思維鏈提示詞技術,通過將原始提示詞分解為粗、中、細多尺度提示詞,讓半階子鏈精準針對生成缺陷的尺度進行梯度更新,進一步挖掘 RLR 的性能潛力,在手部生成等細粒度任務中實現了顯著的性能提升。
![]()
適配 RLR 優化器的擴散思維鏈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.