夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
何愷明,再次出手精簡架構。
新方法Pixel Mean Flow(pMF),突破傳統擴散模型/流模型限制。
兩大傳統組件多步采樣和潛空間都被砍了,現在只需一步,直接在像素空間生成圖像。
![]()
在ImageNet 256×256分辨率上,pMF達到了2.22 FID;512×512分辨率上則是2.48 FID。這是目前單步、無潛空間擴散模型在該基準上取得的最佳成績之一。
![]()
砍掉擴散模型的兩大件
現代擴散模型生成圖像,一直離不開多步采樣和潛空間編碼。
多步采樣意味著生成一張圖需要跑幾十甚至上百次神經網絡,潛空間則需要先把圖像壓縮到一個低維空間再進行操作。兩者的共同目的是把一個極度復雜的生成問題拆解成若干個相對簡單的子問題。
近年來,研究社區分別在這兩個方向上取得了進展:
一致性模型(Consistency Models)和何愷明團隊2025年提出的MeanFlow在少步、單步采樣上持續突破。
![]()
何愷明團隊2026年1月提出的JiT(Just image Transformers)則證明了在原始像素空間做擴散模型的可行性。
![]()
但把這兩條路合到一起,難度陡增。
少步模型要求單個網絡能夠處理不同起點和終點的軌跡;像素空間模型則需要在沒有預訓練tokenizer的情況下完成壓縮和抽象。
兩邊的挑戰疊加在一起,對架構設計提出了更高的要求。
pMF的核心設計
pMF的思路可以概括為:網絡直接輸出像素級別的去噪圖像,但訓練時用速度場來計算損失。
具體來說,pMF定義了一個新的場x,它是從平均速度場u通過簡單變換得到的。
x場的關鍵特性是看起來像干凈的圖像。
![]()
論文通過追蹤ODE軌跡進行可視化發現,平均速度場u對應的是噪聲圖像,而變換后的x場則對應近乎干凈或略微模糊的圖像。
![]()
這背后的假設是流形假設(manifold hypothesis):自然圖像實際上位于一個低維流形上,讓網絡直接預測這個低維流形上的量,比預測高維噪聲空間中的量要容易得多。
![]()
團隊用一個2D玩具模型驗證了這一點。
當把2D數據投影到512維觀察空間時,傳統的u-prediction直接崩潰,而x-prediction仍然能夠正常工作。
![]()
在真實的ImageNet實驗中也是如此:256×256分辨率下,patch維度達到768(16×16×3),u-prediction的FID直接飆到164.89,而 x-prediction則保持在個位數。
![]()
pMF還有一個獨特優勢:
因為網絡直接輸出像素圖像,可以自然地使用感知損失(perceptual loss)。
這本是潛空間方法在訓練VAE時才能用的技巧,pMF把它帶到了生成器本身的訓練中。實
實驗顯示,加入感知損失后,FID從9.56直接降到3.53,提升了約6個點。
![]()
實驗結果與對比
在ImageNet 256×256上,pMF-H/16模型以2.22 FID的成績,超越了此前唯一的同類方法EPG(8.82 FID)。與GAN方法相比,pMF達到了相近的FID,但計算量大幅下降——StyleGAN-XL每次前向傳播需要1574 Gflops,是pMF-H/16的5.8倍。
![]()
在512×512分辨率上,pMF采用了32×32的大patch尺寸,保持與256×256相近的計算開銷,達到了2.48 FID。
![]()
另外,潛空間方法還有一筆經常被忽略的開銷:VAE解碼器。
標準SD-VAE解碼器在256分辨率下需要310 Gflops,512分辨率下需要1230 Gflops,這個開銷已經超過了pMF整個生成器的計算量。
論文還進行了大量消融實驗:
優化器方面,Muon比Adam收斂更快且效果更好;
![]()
時間采樣方面,MeanFlow的全平面采樣策略不可或缺,只在r=t或r=0單線上采樣都會導致失敗;
預條件器(pre-conditioner)方面,傳統的EDM和sCM風格設計在這個高維場景下不如直接的 x-prediction有效。
![]()
團隊介紹
一個圖像生成模型,本質上就是從噪聲到像素的映射。
多步采樣和潛空間編碼都是歷史上為了降低難度而引入的折中方案,但隨著模型能力的提升和訓練技巧的進步,這些“拐杖”正在變得不那么必要。
團隊在結尾寫道:希望這項工作能夠鼓勵未來對直接、端到端生成建模的探索。從實驗結果來看,單步無潛空間生成已經從“是否可行”進入到“如何做得更好”的階段了。
![]()
共同一作Yiyang Lu(陸伊煬)、Susie Lu、Qiao Sun(孫啟傲)、Hanhong Zhao(趙瀚宏)為MIT本科生。
其中孫啟傲是IMO金牌得主,趙瀚宏是國際物理奧林匹克競賽IPhO金牌得主,陸伊煬是全國中學生物理競賽CPhO金牌得主。
論文地址:
https://arxiv.org/abs/2601.22158
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.