henry 發自 凹非寺
量子位 | 公眾號 QbitAI
剛剛,何愷明團隊提出全新生成模型范式漂移模型(Drifting Models)。
這篇論文的一作也是人大附中校友,奧賽雙料金牌得主鄧明揚加入愷明團隊的第一篇一作論文。
![]()
論文中,漂移模型將生成模型分布演化的過程從“推理階段”轉向了神經網絡的“訓練階段”,實現了真正意義上的單步生成(One-step Generation)
漂移模型的核心創新在于引入了“漂移場”(Drifting Field)機制。
其通過在訓練中直接對齊先驗分布與真實數據分布,不僅消除了GANs中常見的對抗訓練不穩定性,更徹底擺脫了流匹配(Flow Matching)或擴散模型(Diffusion)對多步ODE/SDE求解的依賴。
在ImageNet 256x256基準測試中,漂移模型在1-NFE(單步推理)下取得了1.54FID的成績,證明了從頭開始訓練的單步模型在質量上完全可以媲美甚至超越經過數百步迭代的傳統模型。
![]()
生成模型新范式:漂移模型
漂移模型 (Drifting Model)的核心可以總結為以下兩點:
- 將迭代從推理轉為訓練:不同于擴散模型在生成時需要多次迭代(去噪),它將深度學習固有的“迭代訓練過程”視為分布演化的動力,從而實現單步 (one-step) 高質量生成。
- 利用“漂移場”趨向平衡:通過引入一個受數據吸引和自身排斥的“漂移場”作為損失函數,當生成的分布與真實數據分布完全匹配時,漂移場歸零達到平衡,從而完成模型學習。
接下來,我們具體來看。
不同于側重于樣本與標簽映射的判別模型,生成模型的核心在于學習分布之間的轉換。
其本質是學習一個映射函數f,將簡單的先驗分布(如高斯噪聲)轉換為與真實數據匹配的推移分布(Pushforward Distribution)
目前,擴散模型(Diffusion)或流匹配模型(Flow Matching)等主流范式,將這種分布的演變放在推理階段迭代執行。
這意味著生成一張圖像需要多次調用神經網絡,導致計算開銷大、生成速度慢。
而漂移模型則提出了一種全新的范式:將分布的演化從推理階段轉移到了訓練階段。
這一設計的可行性植根于深度學習的本質——
神經網絡的訓練本身就是一個迭代優化的過程(如 SGD)
在傳統的視角下,我們只關注損失函數的下降;但在漂移模型中,訓練的每一輪迭代都被賦予了物理意義:模型參數的微小更新,會直接驅動輸出樣本在空間中產生相應的位移。
論文將這種隨訓練步次發生的樣本位移定義為漂移(Drift)
這意味著,映射函數f隨著參數不斷被優化,它所產生的推移分布(Pushforward Distribution)也隨之自然地發生動態演變。
換句話說,模型訓練的軌跡,在本質上就等同于分布演化的路徑。 既然訓練過程已經完成了這一演化,推理時自然不再需要多步迭代。
由此,漂移模型將原本昂貴的迭代開銷內化在了訓練階段,使得模型在推理時僅需單次前向傳播(One-step generation)即可生成高質量樣本。
這不僅消除了多步推理的計算負擔,也避開了GANs對抗訓練帶來的不穩定性。
通過漂移場來引導樣本移動,控制推移分布
在具體的實現上,論文引入了一個漂移場(Drifting Field)來引導樣本移動,進而控制推移分布。
與流匹配(Flow Matching)在推理階段引導樣本移動的向量場(Vector Field)不同,漂移場(Drifting Field)是一個作用于訓練階段、用于刻畫樣本空間演化趨勢的函數。
![]()
在給定樣本的情況下,漂移場會計算出該位置的修正位移。
修正位移本質上是為神經網絡的參數更新提供導航:通過在訓練迭代中最小化漂移量,強制模型在出廠前就將輸出分布與目標分布對齊,從而實現單步生成。
隨著訓練步數的增加,模型序列對應的推移分布會受該場驅動,逐漸向真實數據分布靠攏。
訓練目標在于建立一種平衡機制:當生成的分布與真實數據分布完全匹配時,漂移場將歸于零。
接下來,論文將此更新規則轉化為一種基于梯度停止(Stop-gradient)的損失函數。
![]()
該損失函數并不直接對復雜的漂移場求導,而是將當前步的漂移后位置視為一個凍結的目標,驅使模型預測向該目標靠攏,從而間接最小化漂移量。
在算法層面,具體的隨機訓練步驟如下:
- 生成樣本:從先驗分布采樣噪聲,生成樣本。
- 獲取參考:從數據集中采樣真實樣本作為正樣本。
- 計算位移:根據正、負樣本的分布,計算出每個樣本位置的漂移向量。
- 優化更新:將(x+V)設為目標值(并停止梯度),更新網絡參數使其輸出向該目標靠攏。
此外,為了處理圖像等高維數據,論文還引入了以下關鍵設計:
首先,該方法超越了單一的像素空間,轉而利用MAE或MoCo等預訓練自監督模型構建特征空間映射,在更高維的語義層面上引導分布匹配,從而顯著提升了生成結果的保真度。
在此基礎上,漂移場被具體實例化為吸引與排斥的動態結合
![]()
生成的樣本受到真實數據分布的強力吸引以確保細節精準,同時又受到當前生成分布的排斥力,從而有效維持了樣本的多樣性并防止模式坍縮。
![]()
為了使這種力場估計更加精確且穩定,研究引入了指數核函數來衡量樣本間的相似度,并借鑒對比學習(如InfoNCE)的思想,通過Softmax進行歸一化處理。
更重要的是,該范式將分類器自由引導(CFG)機制直接內化于訓練階段:通過在計算漂移時向負樣本中混入無條件的真實數據,模型在訓練迭代中便自發學會了條件外推。
這種設計使得模型在推理時不再需要額外的NFE開銷,僅憑單步采樣就能獲得極強的引導效果。”
實驗結論
在實驗驗證環節,漂移模型在最具挑戰性的ImageNet 256×256基準測試中。
該模型在單步推理(1-NFE)下表現卓越:其在潛空間(Latent space)達到了1.54 FID。在像素空間(Pixel space)則達到了1.61 FID。
![]()
這一成績不僅刷新了單步生成的紀錄,其效果甚至優于許多需要 250 步迭代推理的傳統擴散模型(Diffusion)或流匹配模型(Flow Matching)。
除了圖像生成,該范式在具身智能控制任務(Robot Control)中也表現出極強的泛化能力。
![]()
實驗表明,其單步推理的決策質量即可匹配甚至超越需要100步推理的 Diffusion Policy,極大地降低了實時控制系統的延遲。
總結來看,漂移模型成功地將原本屬于推理階段的生成壓力轉移到了訓練階段,實現了真正意義上的一步到位。
這一成就不僅提供了一種不同于傳統微分方程(SDE/ODE)的生成視角,更將神經網絡的訓練過程重新詮釋為分布演變的動力機制。
論文作者簡介
這篇論文的一作,是競賽圈鼎鼎有名的鄧明揚,人稱“乖神”。
![]()
鄧明揚出自北京人大附中,是IMO、IOI雙料金牌得主,同時也是IOI歷史上第三位滿分選手。
他高一拿下IMO金牌,高三拿下IOI金牌,高中畢業后,他本科與博士均就讀于MIT。
目前是博士二年級,師從何愷明。
![]()
在進入學術界之前,他還曾在Google DeepMind、Meta(FAIR)、Citadel Securities、Pika等機構實習。
這篇論文的其他作者,同樣來頭不小:
李赫,清華姚班校友,目前大三在讀,曾于2025年2月至5月在 MIT何愷明課題組擔任研究實習生。
黎天鴻,清華姚班校友,于2024 年9月加入何愷明課題組,擔任博士后。
Yilun Du,現任哈佛大學Kempner Institute與計算機科學系助理教授,領導Embodied Minds實驗室。
他本科畢業于MIT,曾任OpenAI研究員、Google DeepMind高級研究科學家,并獲得 國際生物奧林匹克競賽金牌。
論文鏈接:https://arxiv.org/html/2602.04770v1
項目主頁:https://lambertae.github.io/projects/drifting/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.