![]()
機器之心報道
編輯:Panda
鄒忌曾經有一個問題:吾與徐公孰美?
而對于 REPA,也有一個類似的問題:全局信息空間結構,哪個對表征對齊更重要?
表征對齊(REPA)可通過將強大的預訓練視覺編碼器的表征蒸餾為中間擴散特征,來指導生成式訓練。該方法于去年十月份問世,一直以來都備受關注,已成為加速擴散 Transformer(Diffusion Transformers)訓練的一項有力技術。參閱報道《擴散模型訓練方法一直錯了!謝賽寧:Representation matters》。
但是,其還有一個很基本的問題懸而未決:對生成而言,目標表征的哪個方面更重要?是其「全局」語義信息(例如,以 ImageNet-1K 準確率衡量),還是其空間結構(即,圖像塊 token 之間的成對余弦相似度)?
此前,普遍觀點認為,如果使用更強的全局語義性能作為目標表征,可以帶來更好的生成效果。
為了研究這一點,Adobe Research、澳大利亞國立大學和紐約大學的一個聯合團隊對 27 種不同的視覺編碼器和不同的模型規模進行了大規模的實證分析。
然后他們得到了一個出人意料的結果:驅動目標表征生成性能的是空間結構,而非全局性能!
![]()
更令人驚訝的是,基于此發現,他們還構建了一種簡單方法(代碼實現少于 4 行),即iREPA,其能在各種視覺編碼器、模型大小和訓練變體(如 REPA、REPA-E、Meanflow、JiT 等)中持續提高 REPA 的收斂速度。
![]()
- 論文標題:What matters for Representation Alignment: Global Information or Spatial Structure?
- 論文地址:https://arxiv.org/abs/2512.10794v1
- 項目頁面:https://end2end-diffusion.github.io/irepa/
本論文的第一作者是 Jaskirat Singh,澳大利亞國立大學二年級博士生,他在 Adobe 實習期間完成了此研究。目前也正在 Meta 實習。
此外,作者名單中還有多位萬引大佬,包括 Adobe 資深研究科學家 Richard Zhang、Adobe 高級首席科學家 Eli Shechtman 以及我們熟悉的紐約大學謝賽寧。
下面我們來看看這項研究的具體內容。
反直覺的發現:全局強,不代表生成強
在深入探究之前,我們先來看幾個令人費解的現象。
長期以來,研究人員通常假設:一個視覺編碼器在 ImageNet-1K 上的分類準確率越高,它提取的特征就越好,用來指導擴散模型生成圖像的效果也就應該越好。
然而,論文作者在測試了 27 種不同的編碼器后,發現事實并非如此。
該團隊舉了幾個非常有力的反例:
- SAM2 的逆襲:分割模型 SAM2-S 的 ImageNet 準確率僅為 24.1%,這在分類任務上可以說表現平平。然而,當它被用作 REPA 的目標表征時,其生成的圖像質量(FID 分數)竟然優于那些準確率比它高出 60% 的模型(如 PE-Core-G)。
- 大模型的困境:在同一個模型家族中,更大的參數量通常意味著更高的分類準確率。但在表征對齊中,更大的模型(如 DINOv2-g)并不一定能帶來更好的生成效果,有時甚至更差。
- 畫蛇添足的 CLS token:如果強行將包含全局信息的 [CLS] token 融合到圖像塊(patch)特征中,雖然線性探測(Linear Probing)準確率上升了,但生成質量(FID)卻顯著下降了。
![]()
這些現象指向了一個結論:更高的驗證準確率,并不意味著它是更好的生成表征。
真正的主宰:空間結構
如果不是全局語義信息在起作用,那究竟是什么在驅動生成性能?
作者提出假設:是空間結構,即圖像塊 token 之間的成對余弦相似度。
為了量化這一指標,作者引入了空間自相似性(Spatial Self-Similarity)的概念。簡單來說,就是衡量特征圖在空間上的「紋理」和「關系」是否清晰。作者使用了幾種不同的度量標準,其中最直觀的是LDS(Local vs. Distant Similarity):
![]()
通俗點說,LDS 衡量的是:在特征空間中,相鄰的圖像塊是否比相距較遠的圖像塊更相似?如果一個編碼器能很好地保留這種「近親遠疏」的空間結構,它的 LDS 分數就高。
![]()
令人震驚的相關性出現了(如上圖所示):傳統的線性探測準確率(代表全局信息)與生成質量(FID)的相關性極低,皮爾遜相關系數僅為 r = -0.260。而空間結構指標(LDS) 與生成質量的相關性高達 |r| = 0.852!
這完美解釋了之前的反例:SAM2 雖然不懂「這張圖是貓」,但它極其擅長理解「貓的輪廓在哪里」,因此擁有極佳的空間結構,進而帶來了出色的生成效果。
iREPA:不到 4 行代碼的改進
既然明確了「空間結構」才是核心,那么與其盲目追求更強的語義編碼器,不如想辦法在訓練過程中強化空間信息的傳遞。
基于此,該團隊提出了iREPA。但其核心改動非常簡單,代碼實現甚至不到 4 行,主要包含兩個修改:
1. 用卷積層替代 MLP 投影層
標準的 REPA 使用 MLP 將擴散模型的特征映射到目標表征的維度。作者指出,MLP 是「有損」的,會破壞 patch 之間的空間對比度。
其改進方法是:將其替換為一個簡單的3×3 卷積層。卷積天然具有歸納偏置(Inductive Bias),能夠更好地保留局部的空間關系。
2. 引入空間歸一化層
作者發現,預訓練視覺編碼器的 patch token 中往往包含大量的全局信息(就像一層籠罩全圖的「霧」),導致前景和背景的 token 居然有不低的相似度。
其改進方法是:既然這層全局均值信息對生成沒用甚至有害,那就把它去掉。作者對目標表征引入了一個空間歸一化(Spatial Normalization)層,減去均值,除以標準差。這犧牲了全局信息,但極大地增強了 patch 之間的空間對比度。
算法代碼如下:
![]()
效果:提升顯著
iREPA 的有效性并非僅停留在理論層面,作者通過一系列大規模實驗,證明了這一改進方案具有極強的魯棒性和通用性。
![]()
收斂速度更快
對于擴散 Transformer(如 SiT-XL/2)的訓練而言,收斂速度就是金錢。實驗結果表明,無論使用何種視覺編碼器作為「教師」,iREPA 都能顯著加速「學生」模型的訓練收斂。
從下圖可以看到,在各種模型規模(SiT-XL/2, SiT-B/2)和編碼器(DINOv3, WebSSL, CLIP 等)下,iREPA 都顯著提高了收斂速度 。
![]()
編碼器通用性
通常一種優化方法可能只對特定類型的模型有效,但 iREPA 展現出了驚人的通用性。作者測試了多達 27 種不同的視覺編碼器,涵蓋了監督學習(如 DeiT)、自監督學習(如 DINOv2, MoCo v3, MAE)以及多模態模型(如 CLIP)。
如下圖所示,在橫跨所有測試的編碼器中,iREPA(紅色柱狀圖)的生成 FID 分數均低于標準 REPA(藍色柱狀圖)。
![]()
可以看到,即使是像 SAM2 這樣分類準確率極低(24.1%)的分割模型,在經過 iREPA 的空間增強處理后,其指導生成的 FID 分數甚至優于許多分類強模型。
同時,對于 DINOv3 和 WebSSL 等目前最強的特征提取器,iREPA 依然能進一步壓低 FID,提升生成上限。
擴展性:模型越大,收益越高
這是一個非常符合「Scaling Law」趨勢的發現。作者探究了 iREPA 在不同規模模型上的表現:
- 編碼器規模:當視覺編碼器從 PE-B (90M) 增大到 PE-G (1.88B) 時,iREPA 帶來的性能提升百分比也隨之增加(從 22.2% 提升至 39.6%)。
- 擴散模型規模:當生成模型從 SiT-B (130M) 擴展到 SiT-XL (675M) 時,iREPA 帶來的相對增益同樣在擴大。這意味著,模型做得越大,空間結構的重要性就越顯著,iREPA 的價值也就越高
![]()
廣泛適用性
iREPA 并不僅限于特定的 Transformer 架構,它能無縫集成到各種現有的先進訓練流中.
像素空間擴散 (Pixel-space Diffusion):在下圖中,作者展示了將 iREPA 應用于 JiT (Just-in-Time) 模型的結果。即使在像素空間操作,強化空間信息傳遞依然能顯著加速收斂.
![]()
先進配方兼容: 如下表所示,當結合 REPA-E(一種端到端調優 VAE 的方法)或 MeanFlow 等最新技術時,iREPA 依然能穩定地提供額外的性能增益。這說明它觸及了生成模型訓練的一個底層共性問題,而非僅僅是某種特定設置下的特例。
![]()
視覺質量有肉眼可見的結構改善
除了枯燥的數據,生成的圖像本身最有說服力。
如下圖所示,對比標準 REPA 和 iREPA 生成的樣本(如魚、公雞、貓等類別),可以發現 iREPA 生成的圖像在物體輪廓、紋理細節和整體結構的連貫性上都要優于前者。
![]()
而在下圖中,作者可視化了經過卷積投影和空間歸一化后的特征圖。可以看到,通過 iREPA 處理后,特征圖(右側)明顯比標準 REPA(左側)保留了更清晰的語義邊界和空間對比度,前景與背景的區分更加鮮明。
![]()
該團隊也進行了消融實驗,驗證了各組件的有效性。
![]()
結語
這篇論文與其說是提出了一種新方法,不如說是通過扎實的實證分析,撥正了社區的關注點。它告訴我們,在利用預訓練模型加速生成任務時,不要被「ImageNet 準確率」這一單一指標所迷惑。
對于生成模型而言,理解像素之間的空間關系,遠比知道「這圖里有只狗」要重要得多。正如作者在文中總結的那樣:Spatial structure not global information determines the generation performance.
更多詳情請訪問原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.