北大團(tuán)隊(duì)提出新范式，遞歸似然比梯度優(yōu)化器賦能擴(kuò)散模型后訓(xùn)練

2026-03-10 10:00:03　來源: 機(jī)器之心Pro

河北舉報

分享至

在 AI 視覺生成領(lǐng)域，擴(kuò)散模型（DM）憑借其強(qiáng)大的高保真數(shù)據(jù)生成能力，已成為圖像合成、視頻生成等多模態(tài)任務(wù)的核心框架。然而，預(yù)訓(xùn)練后的擴(kuò)散模型如何高效適配下游應(yīng)用需求，一直是行業(yè)面臨的關(guān)鍵挑戰(zhàn)。近日，北京大學(xué)彭一杰教授團(tuán)隊(duì)在國際頂會 ICLR 2026 上發(fā)表重磅研究，提出遞歸似然比（RLR）優(yōu)化器，為擴(kuò)散模型后訓(xùn)練提供了兼顧效率與性能的半階微調(diào)新方案。該研究第一作者為彭教授指導(dǎo)的博士生任韜，相關(guān)成果已被 ICLR 2026 接收為 oral。

論文鏈接：https://openreview.net/forum?id=AZ6lqcvHLX
開源代碼：https://github.com/RTkenny/RLR-Optimizer

生成效果

現(xiàn)有方法瓶頸凸顯，擴(kuò)散模型后訓(xùn)練亟待突破

擴(kuò)散模型通過遞歸去噪過程生成數(shù)據(jù)，其強(qiáng)大的表達(dá)能力依賴于海量數(shù)據(jù)預(yù)訓(xùn)練。但在實(shí)際應(yīng)用中，需要通過后訓(xùn)練對模型進(jìn)行精準(zhǔn)對齊，以滿足特定場景的質(zhì)量要求或人類偏好。當(dāng)前主流的后訓(xùn)練方法主要分為兩類：基于強(qiáng)化學(xué)習(xí)（RL）的方法和基于截?cái)喾聪騻鞑ィ˙P）的方法，但兩者均存在顯著缺陷。

截?cái)?BP 方法為降低內(nèi)存開銷，會終止部分梯度計(jì)算，導(dǎo)致梯度估計(jì)存在結(jié)構(gòu)性偏差，嚴(yán)重時會引發(fā)模型崩潰，生成內(nèi)容退化為純噪聲；而 RL 方法雖能降低內(nèi)存需求，但梯度估計(jì)方差極高，樣本效率低下，訓(xùn)練收斂緩慢。例如，使用全 BP 訓(xùn)練 Stable Diffusion 1.4 僅需 50 個時間步就需約 1TB GPU 內(nèi)存，完全不具備實(shí)用價值；而截?cái)?BP 和 RL 方法又難以兼顧訓(xùn)練穩(wěn)定性與生成質(zhì)量。

截?cái)?BP 導(dǎo)致訓(xùn)練崩潰，獎勵曲線在后期快速下降

RLR 優(yōu)化器，實(shí)現(xiàn)無偏低方差梯度估計(jì)

為突破上述困境，彭一杰教授團(tuán)隊(duì)提出遞歸似然比（RLR）優(yōu)化器，創(chuàng)新性地設(shè)計(jì)了半階梯度估計(jì)范式（Half-Order Estimator）。該方法通過利用擴(kuò)散模型固有的噪聲特性，重構(gòu)遞歸擴(kuò)散鏈中的計(jì)算圖，實(shí)現(xiàn)了無偏且低方差的梯度估計(jì)，同時有效平衡了計(jì)算成本與優(yōu)化效果。

RLR 優(yōu)化器的核心設(shè)計(jì)包含三大模塊：

1. 一階估計(jì)模塊：在第一個時間步直接對獎勵模型進(jìn)行反向傳播，充分利用模型結(jié)構(gòu)信息，避免黑箱處理帶來的精度損失；

2. 半階優(yōu)化模塊：引入長度為 h 的局部子鏈，隨機(jī)選擇起始位置，精準(zhǔn)捕捉多尺度視覺信息，同時最小化方差；

3. 零階估計(jì)模塊：對剩余時間步采用參數(shù)擾動策略，確保梯度估計(jì)的無偏性，且無需緩存中間潛變量，大幅降低計(jì)算開銷。

算法框架

半階估計(jì)量的核心可控參數(shù)為局部子鏈長度 h，而h 的取值直接決定了內(nèi)存開銷與梯度方差的此消彼長關(guān)系，這也是 RLR 優(yōu)化器實(shí)現(xiàn) memory-variance tradeoff 的核心調(diào)控旋鈕。研究團(tuán)隊(duì)將 h 的求解轉(zhuǎn)化為帶內(nèi)存預(yù)算約束的方差最小化優(yōu)化問題，從理論上定量解決了擴(kuò)散模型微調(diào)的內(nèi)存 - 方差的權(quán)衡，為 h 的選擇提供了明確的數(shù)學(xué)依據(jù)。

給定內(nèi)存約束下的方差最小化問題

研究團(tuán)隊(duì)基于該方差最小化問題推導(dǎo)出半階估計(jì)量子鏈長度 h 的最優(yōu)解析解 h*，并經(jīng)消融實(shí)驗(yàn)驗(yàn)證了工程最優(yōu)取值：理論上 h * 取內(nèi)存約束下最大可行 h 與方差最小化理論最優(yōu) h 的較小值。在 30~40GB 主流 GPU 內(nèi)存預(yù)算（8 張 V100 GPU）下，h=2 為工程黃金取值，該取值可讓半階子鏈捕捉擴(kuò)散鏈關(guān)鍵尺度信息、將整體方差降至飽和區(qū)間，若將 h 增至 3 或 4，單步訓(xùn)練時間從 1.61 分鐘飆升至 5.65 分鐘、9.23 分鐘，獎勵分?jǐn)?shù)卻僅微幅提升，性價比較低。這一設(shè)計(jì)實(shí)現(xiàn)了內(nèi)存與梯度方差的定量最優(yōu)權(quán)衡，讓 RLR 在有限硬件下兼顧無偏性、低方差與高計(jì)算效率。

無偏性證明

團(tuán)隊(duì)通過嚴(yán)格的理論分析，證明了 RLR 估計(jì)器的無偏性，并給出了方差邊界和收斂速率保證。與現(xiàn)有方法相比，RLR 既解決了截?cái)?BP 的偏差問題，又克服了 RL 方法的高方差缺陷，在計(jì)算效率與優(yōu)化性能之間實(shí)現(xiàn)了最優(yōu)平衡。

收斂性證明

實(shí)驗(yàn)結(jié)果驚艷，圖像視頻生成任務(wù)全面超越 SOTA

為驗(yàn)證 RLR 優(yōu)化器的有效性，團(tuán)隊(duì)在文本到圖像（Text2Image）和文本到視頻（Text2Video）兩大核心任務(wù)上開展了大規(guī)模實(shí)驗(yàn)，與 DDPO、AlignProp、VADER 等基于 RL 和截?cái)?BP 的主流方法進(jìn)行了全面對比。

在 Text2Image 任務(wù)中，基于 Stable Diffusion 1.4 和 2.1 的實(shí)驗(yàn)結(jié)果顯示，RLR 在 PickScore、HPSv2、AES 等多個人類偏好獎勵模型上均取得最高獎勵分?jǐn)?shù)。其中，在 HPD v2 數(shù)據(jù)集上，RLR 將 Stable Diffusion 1.4 的 ImageReward 分?jǐn)?shù)從 32.90 提升至 76.55，較 DDPO 提升約 47%，較 AlignProp 提升約 14%。

圖像任務(wù)的測評表現(xiàn)

在 Text2Video 任務(wù)的 VBench 基準(zhǔn)測試中，RLR 在主體一致性、運(yùn)動流暢度、動態(tài)程度等 6 個核心指標(biāo)上表現(xiàn)突出，加權(quán)平均分?jǐn)?shù)達(dá)到 84.63，超越了 VideoCrafter、Pika、Gen-2 等開源及 API-based 模型，其中動態(tài)程度指標(biāo)達(dá)到 70.69，顯著領(lǐng)先于其他方法的最高值 66.94。

視頻任務(wù)上的測評表現(xiàn)

此外，團(tuán)隊(duì)還為 RLR 優(yōu)化器量身設(shè)計(jì)了擴(kuò)散思維鏈提示詞技術(shù)，通過將原始提示詞分解為粗、中、細(xì)多尺度提示詞，讓半階子鏈精準(zhǔn)針對生成缺陷的尺度進(jìn)行梯度更新，進(jìn)一步挖掘 RLR 的性能潛力，在手部生成等細(xì)粒度任務(wù)中實(shí)現(xiàn)了顯著的性能提升。

適配 RLR 優(yōu)化器的擴(kuò)散思維鏈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.