<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      謝賽寧REPA得到大幅改進,只需不到4行代碼

      0
      分享至



      機器之心報道

      編輯:Panda

      鄒忌曾經有一個問題:吾與徐公孰美?

      而對于 REPA,也有一個類似的問題:全局信息空間結構,哪個對表征對齊更重要?

      表征對齊(REPA)可通過將強大的預訓練視覺編碼器的表征蒸餾為中間擴散特征,來指導生成式訓練。該方法于去年十月份問世,一直以來都備受關注,已成為加速擴散 Transformer(Diffusion Transformers)訓練的一項有力技術。參閱報道《擴散模型訓練方法一直錯了!謝賽寧:Representation matters》。

      但是,其還有一個很基本的問題懸而未決:對生成而言,目標表征的哪個方面更重要?是其「全局」語義信息(例如,以 ImageNet-1K 準確率衡量),還是其空間結構(即,圖像塊 token 之間的成對余弦相似度)?

      此前,普遍觀點認為,如果使用更強的全局語義性能作為目標表征,可以帶來更好的生成效果。

      為了研究這一點,Adobe Research、澳大利亞國立大學和紐約大學的一個聯合團隊對 27 種不同的視覺編碼器和不同的模型規模進行了大規模的實證分析。

      然后他們得到了一個出人意料的結果:驅動目標表征生成性能的是空間結構,而非全局性能!



      更令人驚訝的是,基于此發現,他們還構建了一種簡單方法(代碼實現少于 4 行),即iREPA,其能在各種視覺編碼器、模型大小和訓練變體(如 REPA、REPA-E、Meanflow、JiT 等)中持續提高 REPA 的收斂速度。



      • 論文標題:What matters for Representation Alignment: Global Information or Spatial Structure?
      • 論文地址:https://arxiv.org/abs/2512.10794v1
      • 項目頁面:https://end2end-diffusion.github.io/irepa/

      本論文的第一作者是 Jaskirat Singh,澳大利亞國立大學二年級博士生,他在 Adobe 實習期間完成了此研究。目前也正在 Meta 實習。

      此外,作者名單中還有多位萬引大佬,包括 Adobe 資深研究科學家 Richard Zhang、Adobe 高級首席科學家 Eli Shechtman 以及我們熟悉的紐約大學謝賽寧。

      下面我們來看看這項研究的具體內容。

      反直覺的發現:全局強,不代表生成強

      在深入探究之前,我們先來看幾個令人費解的現象。

      長期以來,研究人員通常假設:一個視覺編碼器在 ImageNet-1K 上的分類準確率越高,它提取的特征就越好,用來指導擴散模型生成圖像的效果也就應該越好。

      然而,論文作者在測試了 27 種不同的編碼器后,發現事實并非如此。

      該團隊舉了幾個非常有力的反例:

      • SAM2 的逆襲:分割模型 SAM2-S 的 ImageNet 準確率僅為 24.1%,這在分類任務上可以說表現平平。然而,當它被用作 REPA 的目標表征時,其生成的圖像質量(FID 分數)竟然優于那些準確率比它高出 60% 的模型(如 PE-Core-G)。
      • 大模型的困境:在同一個模型家族中,更大的參數量通常意味著更高的分類準確率。但在表征對齊中,更大的模型(如 DINOv2-g)并不一定能帶來更好的生成效果,有時甚至更差。
      • 畫蛇添足的 CLS token:如果強行將包含全局信息的 [CLS] token 融合到圖像塊(patch)特征中,雖然線性探測(Linear Probing)準確率上升了,但生成質量(FID)卻顯著下降了。



      這些現象指向了一個結論:更高的驗證準確率,并不意味著它是更好的生成表征。

      真正的主宰:空間結構

      如果不是全局語義信息在起作用,那究竟是什么在驅動生成性能?

      作者提出假設:是空間結構,即圖像塊 token 之間的成對余弦相似度。

      為了量化這一指標,作者引入了空間自相似性(Spatial Self-Similarity)的概念。簡單來說,就是衡量特征圖在空間上的「紋理」和「關系」是否清晰。作者使用了幾種不同的度量標準,其中最直觀的是LDS(Local vs. Distant Similarity):



      通俗點說,LDS 衡量的是:在特征空間中,相鄰的圖像塊是否比相距較遠的圖像塊更相似?如果一個編碼器能很好地保留這種「近親遠疏」的空間結構,它的 LDS 分數就高。



      令人震驚的相關性出現了(如上圖所示):傳統的線性探測準確率(代表全局信息)與生成質量(FID)的相關性極低,皮爾遜相關系數僅為 r = -0.260。而空間結構指標(LDS) 與生成質量的相關性高達 |r| = 0.852!

      這完美解釋了之前的反例:SAM2 雖然不懂「這張圖是貓」,但它極其擅長理解「貓的輪廓在哪里」,因此擁有極佳的空間結構,進而帶來了出色的生成效果。

      iREPA:不到 4 行代碼的改進

      既然明確了「空間結構」才是核心,那么與其盲目追求更強的語義編碼器,不如想辦法在訓練過程中強化空間信息的傳遞。

      基于此,該團隊提出了iREPA。但其核心改動非常簡單,代碼實現甚至不到 4 行,主要包含兩個修改:

      1. 用卷積層替代 MLP 投影層

      標準的 REPA 使用 MLP 將擴散模型的特征映射到目標表征的維度。作者指出,MLP 是「有損」的,會破壞 patch 之間的空間對比度。

      其改進方法是:將其替換為一個簡單的3×3 卷積層。卷積天然具有歸納偏置(Inductive Bias),能夠更好地保留局部的空間關系。

      2. 引入空間歸一化層

      作者發現,預訓練視覺編碼器的 patch token 中往往包含大量的全局信息(就像一層籠罩全圖的「霧」),導致前景和背景的 token 居然有不低的相似度。

      其改進方法是:既然這層全局均值信息對生成沒用甚至有害,那就把它去掉。作者對目標表征引入了一個空間歸一化(Spatial Normalization)層,減去均值,除以標準差。這犧牲了全局信息,但極大地增強了 patch 之間的空間對比度。

      算法代碼如下:



      效果:提升顯著

      iREPA 的有效性并非僅停留在理論層面,作者通過一系列大規模實驗,證明了這一改進方案具有極強的魯棒性和通用性。



      收斂速度更快

      對于擴散 Transformer(如 SiT-XL/2)的訓練而言,收斂速度就是金錢。實驗結果表明,無論使用何種視覺編碼器作為「教師」,iREPA 都能顯著加速「學生」模型的訓練收斂。

      從下圖可以看到,在各種模型規模(SiT-XL/2, SiT-B/2)和編碼器(DINOv3, WebSSL, CLIP 等)下,iREPA 都顯著提高了收斂速度 。



      編碼器通用性

      通常一種優化方法可能只對特定類型的模型有效,但 iREPA 展現出了驚人的通用性。作者測試了多達 27 種不同的視覺編碼器,涵蓋了監督學習(如 DeiT)、自監督學習(如 DINOv2, MoCo v3, MAE)以及多模態模型(如 CLIP)。

      如下圖所示,在橫跨所有測試的編碼器中,iREPA(紅色柱狀圖)的生成 FID 分數均低于標準 REPA(藍色柱狀圖)。



      可以看到,即使是像 SAM2 這樣分類準確率極低(24.1%)的分割模型,在經過 iREPA 的空間增強處理后,其指導生成的 FID 分數甚至優于許多分類強模型。

      同時,對于 DINOv3 和 WebSSL 等目前最強的特征提取器,iREPA 依然能進一步壓低 FID,提升生成上限。

      擴展性:模型越大,收益越高

      這是一個非常符合「Scaling Law」趨勢的發現。作者探究了 iREPA 在不同規模模型上的表現:

      • 編碼器規模:當視覺編碼器從 PE-B (90M) 增大到 PE-G (1.88B) 時,iREPA 帶來的性能提升百分比也隨之增加(從 22.2% 提升至 39.6%)。
      • 擴散模型規模:當生成模型從 SiT-B (130M) 擴展到 SiT-XL (675M) 時,iREPA 帶來的相對增益同樣在擴大。這意味著,模型做得越大,空間結構的重要性就越顯著,iREPA 的價值也就越高



      廣泛適用性

      iREPA 并不僅限于特定的 Transformer 架構,它能無縫集成到各種現有的先進訓練流中.

      像素空間擴散 (Pixel-space Diffusion):在下圖中,作者展示了將 iREPA 應用于 JiT (Just-in-Time) 模型的結果。即使在像素空間操作,強化空間信息傳遞依然能顯著加速收斂.



      先進配方兼容: 如下表所示,當結合 REPA-E(一種端到端調優 VAE 的方法)或 MeanFlow 等最新技術時,iREPA 依然能穩定地提供額外的性能增益。這說明它觸及了生成模型訓練的一個底層共性問題,而非僅僅是某種特定設置下的特例。



      視覺質量有肉眼可見的結構改善

      除了枯燥的數據,生成的圖像本身最有說服力。

      如下圖所示,對比標準 REPA 和 iREPA 生成的樣本(如魚、公雞、貓等類別),可以發現 iREPA 生成的圖像在物體輪廓、紋理細節和整體結構的連貫性上都要優于前者。



      而在下圖中,作者可視化了經過卷積投影和空間歸一化后的特征圖。可以看到,通過 iREPA 處理后,特征圖(右側)明顯比標準 REPA(左側)保留了更清晰的語義邊界和空間對比度,前景與背景的區分更加鮮明。



      該團隊也進行了消融實驗,驗證了各組件的有效性。



      結語

      這篇論文與其說是提出了一種新方法,不如說是通過扎實的實證分析,撥正了社區的關注點。它告訴我們,在利用預訓練模型加速生成任務時,不要被「ImageNet 準確率」這一單一指標所迷惑。

      對于生成模型而言,理解像素之間的空間關系,遠比知道「這圖里有只狗」要重要得多。正如作者在文中總結的那樣:Spatial structure not global information determines the generation performance.

      更多詳情請訪問原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      西安最新通報:張某、宋某等5人被查處!

      西安最新通報:張某、宋某等5人被查處!

      金周至
      2025-12-15 15:32:43
      創紀錄!籃網9人上雙狂勝雄鹿45分 小波特無緣連5場30+

      創紀錄!籃網9人上雙狂勝雄鹿45分 小波特無緣連5場30+

      醉臥浮生
      2025-12-15 09:16:54
      片長198分鐘!卡梅隆史詩巨制《阿凡達3》本周上映

      片長198分鐘!卡梅隆史詩巨制《阿凡達3》本周上映

      萬達電影
      2025-12-15 18:36:30
      收藏!穿羽絨服不暖和,關鍵在“內搭”!學會這樣,-15℃也不怕

      收藏!穿羽絨服不暖和,關鍵在“內搭”!學會這樣,-15℃也不怕

      三農老歷
      2025-12-15 13:08:27
      76歲王馥荔現狀:丈夫離世8個月后,兒子王驍成了她最大的底氣?

      76歲王馥荔現狀:丈夫離世8個月后,兒子王驍成了她最大的底氣?

      小熊侃史
      2025-12-15 10:52:25
      比黃巖島更狠!駐守338天擠走對手,這塊"長出來"的陸地到底多重要

      比黃巖島更狠!駐守338天擠走對手,這塊"長出來"的陸地到底多重要

      科普100克克
      2025-12-08 14:21:29
      果然還是邁出了這一步,日本即將部署戰斧導彈

      果然還是邁出了這一步,日本即將部署戰斧導彈

      軍機圖
      2025-12-15 14:58:33
      徐萌別高興太早:范家這筆母親遺產,才是范仲達范一夫翻盤的底牌

      徐萌別高興太早:范家這筆母親遺產,才是范仲達范一夫翻盤的底牌

      老籣說體育
      2025-12-13 18:08:50
      據說全球僅20例!巴西一女子在同一晚與2名男子發生了關系

      據說全球僅20例!巴西一女子在同一晚與2名男子發生了關系

      忠于法紀
      2025-12-04 11:25:07
      中國在爭議區建了22個村莊,不丹已經拆光建筑,印度只能干著急了

      中國在爭議區建了22個村莊,不丹已經拆光建筑,印度只能干著急了

      削桐作琴
      2025-12-14 16:43:23
      平頂山28歲女老師婚禮前墜亡!絕筆信戳穿死因,遺體晾曬無人管!

      平頂山28歲女老師婚禮前墜亡!絕筆信戳穿死因,遺體晾曬無人管!

      天天熱點見聞
      2025-12-14 08:19:11
      何晴兒子:父親再婚生了弟弟,他未成年就出去租房,稱許亞軍霸道

      何晴兒子:父親再婚生了弟弟,他未成年就出去租房,稱許亞軍霸道

      好叫好伐
      2025-12-15 15:43:15
      大張偉和老婆膩歪,當一個42歲叛逆“小嬌夫”,終為愛向催生低頭

      大張偉和老婆膩歪,當一個42歲叛逆“小嬌夫”,終為愛向催生低頭

      凌風的世界觀
      2025-12-15 10:06:42
      你所不知道的,全面抗戰時期,國民政府為中共提供超過3000萬軍費

      你所不知道的,全面抗戰時期,國民政府為中共提供超過3000萬軍費

      老謝談史
      2025-11-09 04:34:28
      老領導落馬前塞給我一個藍布包,叮囑我辭職回鄉躲五年才安全

      老領導落馬前塞給我一個藍布包,叮囑我辭職回鄉躲五年才安全

      曉艾故事匯
      2025-12-12 08:10:43
      吃他汀不能喝牛奶?醫生建議:不只是牛奶,這3物再愛也要管住嘴

      吃他汀不能喝牛奶?醫生建議:不只是牛奶,這3物再愛也要管住嘴

      搖感軍事
      2025-12-12 22:04:53
      張文宏直言:患高血壓的人,天冷寧可出門散步,也不要去做這幾事

      張文宏直言:患高血壓的人,天冷寧可出門散步,也不要去做這幾事

      華庭講美食
      2025-12-02 15:34:13
      章澤天婚變傳聞僅10天,31歲高調官宣喜訊,喜結良緣終成真

      章澤天婚變傳聞僅10天,31歲高調官宣喜訊,喜結良緣終成真

      何嗀愛捕漁
      2025-11-18 19:00:17
      美國3次出手不管用,黎智英終極審判來了!反恐特勤現場持槍戒備

      美國3次出手不管用,黎智英終極審判來了!反恐特勤現場持槍戒備

      趣文說娛
      2025-12-15 18:20:22
      采用華為方案,工信部批準兩款車L3自動駕駛許可,但限制有點多

      采用華為方案,工信部批準兩款車L3自動駕駛許可,但限制有點多

      熱點科技
      2025-12-15 17:07:43
      2025-12-15 19:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11925文章數 142509關注度
      往期回顧 全部

      科技要聞

      大佬冷酷預言:未來15年 人形機器人成廢鐵

      頭條要聞

      美方稱將同菲方一起共同應對中方挑釁行為 外交部回應

      頭條要聞

      美方稱將同菲方一起共同應對中方挑釁行為 外交部回應

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現場,前夫許亞軍雙眼泛紅?

      財經要聞

      新農合漲到400元 農民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態度原創

      健康
      教育
      藝術
      時尚
      軍事航空

      這些新療法,讓化療不再那么痛苦

      教育要聞

      孩子很聰明,就是不認真

      藝術要聞

      Gustav Klimt 高清風景油畫作品集

      伊姐周日熱推:電視劇《老舅》;電視劇《啞舍》......

      軍事要聞

      澤連斯基稱烏方已妥協不加入北約 俄方發聲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 少妇人妻偷人精品无码视频新浪 | 人妻人久久精品中文字幕| 欧美日韩精品一区二区三区钱| 亚洲乱伦| 中国无码mv| 日韩成人无码毛片| 久久无码一区二区三区| 色啪综合| 国产尻逼| 色中色中文字幕| 国产又色又爽又黄的网站免费| 国产一区二区三区色噜噜| 亚洲激情偷拍| 亚洲不卡| 亚洲无码一卡二卡三卡| 日产久久久| 亚洲精品99| 日本欧美大码aⅴ在线播放| 丰满熟妇人妻av无码区| 亚洲精品久久久久玩吗| 中文天堂最新版在线www| 99久热在线精品996热是什么| 人妻中文字幕精品系列| 国产av剧情无码精品色午夜| 亚洲一区精品视频在线| 好吊妞这里有精品| 祥云县| 亚洲日韩成人综合| 久久久久国产精品熟女影院| 台湾佬中文娱乐网址| 开心色怡人综合网站| 男人天堂2025| 中文字幕精品久久久久人妻红杏Ⅰ| 扒开双腿疯狂进出爽爽爽| 国产乱子伦精品免费女| 国产美女被遭强高潮免费网站 | 亚洲男人天堂网| 亚洲色鬼| 国产精品午夜福利视频234区| 国产成人综合在线观看不卡| 日本伊人色综合网|