網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

推特吵架吵出篇論文！謝賽寧團(tuán)隊新作iREPA只要3行代碼

2025-12-16 15:04:35　來源: 量子位

北京舉報

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號 QbitAI

要說真學(xué)術(shù)，還得看推特。

剛剛，謝賽寧自曝團(tuán)隊新作iREPA其實來自4個多月前的，一次與網(wǎng)友的辯論。

這場短暫的線上辯論雖然以謝賽寧被網(wǎng)友說服告終，但在3個多月后，居然有了意料之外的后續(xù)——

多個團(tuán)隊合作，沿著這一思路寫出了一篇完整的論文，而且核心框架僅需3行代碼。

致謝部分還感謝了當(dāng)時參與討論的網(wǎng)友。

一篇推特引發(fā)的學(xué)術(shù)論文

事情是這樣的。

一位網(wǎng)友在8月份表示：

別再癡迷于ImageNet-1K的分類分?jǐn)?shù)了！自監(jiān)督學(xué)習(xí)（SSL）模型應(yīng)該專門為稠密任務(wù)（如REPA、VLM等）進(jìn)行訓(xùn)練，因為這些任務(wù)真正依賴的是patch tokens中的空間和局部信息，而不是[CLS]token所代表的全局分類性能。

（注：稠密任務(wù)就是要求模型對圖像中的“每一個像素”或“每一個局部區(qū)域”都做出預(yù)測的計算機(jī)視覺任務(wù)，這類任務(wù)需要精確的空間和局部細(xì)節(jié)信息，而不僅僅是全局分類標(biāo)簽）

對于網(wǎng)友的觀點，謝賽寧表示：

不，使用patch token并不意味著就是在做稠密任務(wù)。VLM和REPA的性能與它們在IN1K上的得分高度相關(guān)，而與patch級別的對應(yīng)關(guān)系只有很弱的關(guān)聯(lián)。這并不是[CLS]token的問題，而是高層語義與低層像素相似性之間的差別。

對于謝賽寧的反駁，網(wǎng)友舉出了SigLIPv2和PE-core優(yōu)于DINOv2 for REPA的例子。

與此同時，另一位網(wǎng)友也加入了戰(zhàn)斗：

這是個合理的問題。為了做直接對比，在沒有DINOv3早期checkpoint的情況下，或許可以用REPA來比較PEspatial和PEcore。其中，PEspatial可以理解為：將PEcore的Gram-anchor對齊到更早的網(wǎng)絡(luò)層，并結(jié)合SAM2.1。

對此，謝賽寧表示：

非常好！感謝你的指路/提示。我很喜歡這個方案。否則干擾因素會太多了。兩個checkpoint都已經(jīng)有了（G/14，448 分辨率），希望我們很快就能拿到一些結(jié)果。

3個多月后，謝賽寧表示自己之前的判斷站不住腳，而且這次的論文反而帶來了更深入的理解。

還有貼心小貼士，提示網(wǎng)友可以看看致謝部分。

對于自己在致謝中被提到，參與討論的網(wǎng)友之一表示很有意思：

也謝謝你一路跟進(jìn)！被致謝提到我也很受寵若驚。

謝賽寧還表示，這次討論本身就是一次小實驗——他想看看，一種新的“線上茶水間效應(yīng)”是否真的能夠發(fā)生。

他很享受這種狀態(tài)：先有分歧、有爭論，再通過真正的實驗和投入，把直覺拉回到可被驗證的科學(xué)結(jié)論上。

不得不說，這樣開放、即時、可糾錯的學(xué)術(shù)討論，確實值得多來一些。

接下來，我們就一起來看看由此催生的最新論文。

空間結(jié)構(gòu)才是驅(qū)動目標(biāo)表征生成性能的主要因素

承接上面的討論，這篇最新論文探討了一個核心的基礎(chǔ)問題：

在用預(yù)訓(xùn)練視覺編碼器表征來指導(dǎo)生成模型時，究竟是表征的哪一部分在決定生成質(zhì)量？

是其全局語義信息（ImageNet-1K上的分類準(zhǔn)確率）還是其空間結(jié)構(gòu)（即補(bǔ)丁tokens之間的成對余弦相似度）？

論文給出的結(jié)論是：更好的全局語義信息并不等于更好的生成，空間結(jié)構(gòu)（而非全局語義）才是表征生成性能的驅(qū)動力。

傳統(tǒng)觀念（包括謝賽寧本人）認(rèn)為具有更強(qiáng)全局語義性能的表征會帶來更好的生成效果，但研究卻表明更大的視覺編碼器反而可能帶來更差的生成性能

其中，線性檢測準(zhǔn)確率只有約20%的視覺編碼器，反而可以超過準(zhǔn)確率>80%的編碼器。

而且，如果試圖通過CLS token向patch token注入更多全局語義，生成性能還會被拉低。

與此同時，研究還發(fā)現(xiàn)生成效果更好的表征，往往具有更強(qiáng)的空間結(jié)構(gòu)（可通過空間自相似性指標(biāo)來衡量）

也就是說，圖像中某一部分的token會如何關(guān)注圖像中其他區(qū)域的token。

在具體的研究方法上，研究通過一次大規(guī)模的定量相關(guān)性分析對這一觀察進(jìn)行了細(xì)化驗證：分析覆蓋了27 種不同的視覺編碼器（包括 DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP 等）以及3種模型規(guī)模（B、L、XL）。

而在進(jìn)一步的評測中，空間信息的重要性被進(jìn)一步拔高：即便是像SIFT、HOG這樣的經(jīng)典空間特征，也能帶來與PE-G等現(xiàn)代、更大規(guī)模視覺編碼器相當(dāng)、具有競爭力的提升。

在測試得出結(jié)論后，論文又基于現(xiàn)有的表征對齊（REPA）框架進(jìn)行分析和修改，提出了iREPA。

投影層改進(jìn)：將REPA中標(biāo)準(zhǔn)的MLP投影層替換為一個簡單的卷積層。
空間規(guī)范化：為外部表征引入一個空間規(guī)范化層。

這些簡單的修改（如在DeCo框架下的實現(xiàn)）旨在保留并強(qiáng)化空間結(jié)構(gòu)信息，相比原始的REPA方法能顯著提升性能。

值得一提的是iREPA，只需3行代碼即可添加到任何表示對齊方法中，并且在各種訓(xùn)練方案（如REPA、REPA-E、Meanflow 以及最近推出的 JiT）中都能實現(xiàn)持續(xù)更快的收斂。

[1]https://x.com/YouJiacheng/status/1957073253769380258

[2]https://arxiv.org/abs/2512.10794

[3]https://x.com/sainingxie/status/2000709656491286870

[4]https://x.com/1jaskiratsingh/status/2000701128431034736

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.