![]()
盡管擴(kuò)散模型(Diffusion Model)與流匹配(Flow Matching)已經(jīng)把文本到圖像生成(Text-to-Image, T2I)推向了更高的視覺質(zhì)量與可控性,但他們通常在推理時(shí)需要數(shù)十步網(wǎng)絡(luò)迭代,限制了其對于一些需要低延遲,Real-Time 的應(yīng)用。
為了把推理步數(shù)降下來,現(xiàn)有路線通常依賴知識蒸餾(Distillation):先訓(xùn)練一個(gè)多步教師模型,再把能力遷移到少步學(xué)生模型。但這條路的代價(jià)同樣明顯 —— 既依賴預(yù)訓(xùn)練教師,又引入了額外的訓(xùn)練開銷,并在「從零訓(xùn)練(from scratch)」與「極少步高質(zhì)量」之間留下了長期空白。
近日,香港大學(xué)(The University of Hong Kong)與 Adobe Research 聯(lián)合發(fā)布 Self-E(Self-Evaluating Model):一種無需預(yù)訓(xùn)練教師蒸餾、從零開始訓(xùn)練的任意步數(shù)文生圖框架。其目標(biāo)非常直接:讓同一個(gè)模型在極少步數(shù)也能生成語義清晰、結(jié)構(gòu)穩(wěn)定的圖像,同時(shí)在 50 步等常規(guī)設(shè)置下保持頂級質(zhì)量,并且隨著步數(shù)增加呈現(xiàn)單調(diào)提升。
![]()
- 論文標(biāo)題:Self-Evaluation Unlocks Any-Step Text-to-Image Generation
- 項(xiàng)目主頁:https://xinyu-andy.github.io/SelfE-project/
- 論文 PDF:https://www.arxiv.org/pdf/2512.22374
![]()
引言:從「軌跡匹配」到「落點(diǎn)評估」
擴(kuò)散 / 流匹配范式本質(zhì)上是在學(xué)習(xí)一張「局部向量場」:給定噪聲狀態(tài),預(yù)測下一步該往哪里走。這個(gè)監(jiān)督信號在「小步、密集積分」時(shí)非常有效,但一旦嘗試「大步跳躍」,誤差會(huì)被軌跡曲率放大,生成往往滑向平均解、語義漂移或結(jié)構(gòu)坍塌。
Self-E 的切入點(diǎn)是一個(gè)根本上的范式改變:我們能否不再執(zhí)著于「每一步走得對不對」,而是把訓(xùn)練重心轉(zhuǎn)向「落點(diǎn)好不好」?也就是把目標(biāo)從「軌跡匹配(trajectory matching)」轉(zhuǎn)變?yōu)椤嘎潼c(diǎn)評估(destination/landing evaluation)」。
換句話說,傳統(tǒng) Diffusion Model 訓(xùn)練強(qiáng)調(diào)「在起點(diǎn)對齊局部方向」;Self-E 強(qiáng)調(diào)「在落點(diǎn)評估結(jié)果并給出糾偏方向」。監(jiān)督位置的改變,帶來了訓(xùn)練信號性質(zhì)的改變:從靜態(tài)監(jiān)督變成動(dòng)態(tài)反饋。
作者在項(xiàng)目主頁用動(dòng)圖展示了這兩者的區(qū)別:


這也是為什么模型在測試階段有少步推理能力:擴(kuò)散模型在測試時(shí)只能逐步跟隨當(dāng)前點(diǎn)預(yù)測的最好局部路徑,最終走到全局最優(yōu);而 Self-E 在訓(xùn)練階段就逐步學(xué)會(huì)了走向全局最優(yōu)的落點(diǎn)。
這也不同于目前多數(shù)少步生成模型所采用的學(xué)習(xí)軌跡的積分,如 Consistency Model, Mean Flow;Self-E不局限于沿著預(yù)定義的軌跡走,而是直接關(guān)心每步結(jié)果好不好,對不對。
Self-E 的核心:兩條互補(bǔ)訓(xùn)練信號(Two Complementary Signals)
Self-E 用同一個(gè)網(wǎng)絡(luò)在兩種「模式」下工作:一方面像 Flow Matching 一樣從真實(shí)數(shù)據(jù)學(xué)習(xí)分布的局部結(jié)構(gòu);另一方面用「模型自身正在學(xué)到的局部估計(jì)」去評估自生成樣本,形成自反饋閉環(huán)。
1)從數(shù)據(jù)學(xué)習(xí):Learning from Data
- 學(xué)什么:分布的局部結(jié)構(gòu)(local score /velocity 的期望形式),即「在鄰域內(nèi)密度如何變化」。
- 怎么學(xué):采樣真實(shí)圖像與文本條件,加噪得到噪聲輸入,用條件流匹配式目標(biāo)訓(xùn)練模型去預(yù)測干凈樣本(或等價(jià)參數(shù)化),提供穩(wěn)定的局部監(jiān)督。
2)自我評估學(xué)習(xí):Learning by Self-Evaluation
- 學(xué)什么:分布層面的正確性(distribution-level correctness)——生成樣本是否與真實(shí)分布一致、是否與描述的文本對齊。
- 關(guān)鍵機(jī)制:模型先做一次「長距離跳躍」(從起始時(shí)間步跳到落點(diǎn)時(shí)間步),然后在落點(diǎn)處用自己當(dāng)前學(xué)到的局部估計(jì)產(chǎn)生一個(gè)「方向信號」,告訴生成樣本應(yīng)如何移動(dòng)才能進(jìn)入更高質(zhì)量、更符合文本的概率分布區(qū)域。
- 最大差異:評估信號不來自外部教師(pretrained diffusion teacher),而是來自模型自身的在訓(xùn)估計(jì)(dynamic self-teacher)。
![]()
訓(xùn)練細(xì)節(jié):把「自我評估」做成可反傳的學(xué)習(xí)信號
Self-E 在理論上把評估寫成分布級目標(biāo)(例如以反向 KL 為代表的分布匹配視角),但真正落地的難點(diǎn)在于:真實(shí)分布與生成分布的 score 都不可得。
Self-E 的關(guān)鍵觀察是:模型在「從數(shù)據(jù)學(xué)習(xí)」階段會(huì)逐步學(xué)到某種條件期望形式,而該量與 score 通過 Tweedie’s formula 存在聯(lián)系,因此可以用「正在訓(xùn)練的模型」去近似提供評估方向。
在實(shí)現(xiàn)上,作者發(fā)現(xiàn)理論目標(biāo)中包含「classifier score term」等項(xiàng),并實(shí)證發(fā)現(xiàn)僅使用 classifier score 項(xiàng)就足夠有效,甚至更利于收斂,從而避免早期還要額外訓(xùn)練一個(gè)用于 fake score 的模型分支。
![]()
為了把這種「評估方向」變成可訓(xùn)練的損失,Self-E 采用 stop-gradient 的雙前向構(gòu)造 pseudo-target,通過最小化 MSE 誘導(dǎo)出與所需方向一致的梯度;并在最終目標(biāo)中將數(shù)據(jù)驅(qū)動(dòng)損失與自評估損失進(jìn)行混合加權(quán)。
![]()
最終,我們可以用一個(gè)統(tǒng)一的形式來訓(xùn)練:
![]()
其中,等式右邊第一項(xiàng)正是 Learning-from-data 的目標(biāo),而第二項(xiàng)對應(yīng) Self-Evaluation。
推理:任意步數(shù)(Any-Step Inference),并隨步數(shù)單調(diào)變好
在推理階段,Self-E 與擴(kuò)散 / 流匹配一樣進(jìn)行迭代去噪,但不同之處在于:由于訓(xùn)練中已經(jīng)顯式學(xué)習(xí)「長距離落點(diǎn)」的質(zhì)量與糾偏方向,它可以在非常少的步數(shù)下保持可用的語義與結(jié)構(gòu),同時(shí)在增加步數(shù)時(shí)繼續(xù)提升細(xì)節(jié)與真實(shí)感。
性能:GenEval 全步數(shù)段 SOTA,少步優(yōu)勢尤其顯著
在 GenEval 基準(zhǔn)上,Self-E 對比其他方法取得全面領(lǐng)先,并且隨著步數(shù)增加呈現(xiàn)單調(diào)提升。更關(guān)鍵的是少步區(qū)間的「斷層式」優(yōu)勢:在 2-step 設(shè)置下,Self-E 相比當(dāng)時(shí)最佳對比方法的提升約為+0.12(0.7531 相比 0.6338),而多種傳統(tǒng)擴(kuò)散 / 流匹配模型在 2-step 下幾乎無法生成可用結(jié)果。
![]()
![]()
另一角度解讀:把「預(yù)訓(xùn)練」與「反饋學(xué)習(xí)」拉到同一條線上
從更宏觀的視角看,Self-E 把訓(xùn)練過程組織成一個(gè)類似強(qiáng)化學(xué)習(xí)中的「環(huán)境 — 智能體(environment–agent)閉環(huán)」:
- Data Phase:模型從真實(shí)數(shù)據(jù)學(xué)習(xí)分布的局部結(jié)構(gòu),得到越來越可靠的局部估計(jì)(可視作學(xué)習(xí)環(huán)境,并給出評估)。
- Self-Evaluation Phase:模型提出長距離跳躍方案(可視作智能體執(zhí)行動(dòng)作),在落點(diǎn)處用內(nèi)部估計(jì)產(chǎn)生反饋方向并更新參數(shù)(可視作獲得環(huán)境的反饋)。
- Closed Loop:評估器隨訓(xùn)練變強(qiáng),反饋信號質(zhì)量隨之提升,反過來又進(jìn)一步強(qiáng)化少步生成能力。
作者在項(xiàng)目主頁指出:這種內(nèi)部評估器在角色上接近「可查詢的學(xué)習(xí)型獎(jiǎng)勵(lì)模型」,為后續(xù)把強(qiáng)化學(xué)習(xí)(RL)更系統(tǒng)地引入視覺生成訓(xùn)練提供了新的接口與想象空間。
結(jié)語
Self-E 的價(jià)值不只是在「少步生成」這一條指標(biāo)上跑得更快,而在于它把文生圖訓(xùn)練范式從「沿著既定軌跡走」推進(jìn)到「學(xué)會(huì)評估落點(diǎn)并自我糾偏」:在不依賴預(yù)訓(xùn)練教師蒸餾的前提下,讓單一模型同時(shí)覆蓋極低時(shí)延與高質(zhì)量長軌跡兩種需求,并在不同推理預(yù)算下保持可擴(kuò)展的性能曲線。
對內(nèi)容創(chuàng)作與生成式系統(tǒng)落地而言,「one model, any compute」的工程意義非常直接:同一個(gè) checkpoint 可以按場景動(dòng)態(tài)選擇步數(shù) —— 交互式場景用 1~4 步追求即時(shí)反饋,高質(zhì)量離線渲染用 50 步追求細(xì)節(jié)上限;而訓(xùn)練側(cè)則繞開了教師蒸餾鏈路,把「從零訓(xùn)練 + 少步推理」真正拉回到可討論、可復(fù)現(xiàn)、可擴(kuò)展的主流路徑上。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.