henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
要說真學(xué)術(shù),還得看推特。
剛剛,謝賽寧自曝團(tuán)隊新作iREPA其實來自4個多月前的,一次與網(wǎng)友的辯論。
![]()
這場短暫的線上辯論雖然以謝賽寧被網(wǎng)友說服告終,但在3個多月后,居然有了意料之外的后續(xù)——
多個團(tuán)隊合作,沿著這一思路寫出了一篇完整的論文,而且核心框架僅需3行代碼。
![]()
致謝部分還感謝了當(dāng)時參與討論的網(wǎng)友。
![]()
一篇推特引發(fā)的學(xué)術(shù)論文
事情是這樣的。
一位網(wǎng)友在8月份表示:
- 別再癡迷于ImageNet-1K的分類分?jǐn)?shù)了!自監(jiān)督學(xué)習(xí)(SSL)模型應(yīng)該專門為稠密任務(wù)(如REPA、VLM等)進(jìn)行訓(xùn)練,因為這些任務(wù)真正依賴的是patch tokens中的空間和局部信息,而不是[CLS]token所代表的全局分類性能。
![]()
(注:稠密任務(wù)就是要求模型對圖像中的“每一個像素”或“每一個局部區(qū)域”都做出預(yù)測的計算機(jī)視覺任務(wù),這類任務(wù)需要精確的空間和局部細(xì)節(jié)信息,而不僅僅是全局分類標(biāo)簽)
對于網(wǎng)友的觀點,謝賽寧表示:
- 不,使用patch token并不意味著就是在做稠密任務(wù)。VLM和REPA的性能與它們在IN1K上的得分高度相關(guān),而與patch級別的對應(yīng)關(guān)系只有很弱的關(guān)聯(lián)。這并不是[CLS]token的問題,而是高層語義與低層像素相似性之間的差別。
![]()
對于謝賽寧的反駁,網(wǎng)友舉出了SigLIPv2和PE-core優(yōu)于DINOv2 for REPA的例子。
![]()
與此同時,另一位網(wǎng)友也加入了戰(zhàn)斗:
- 這是個合理的問題。為了做直接對比,在沒有DINOv3早期checkpoint的情況下,或許可以用REPA來比較PEspatial和PEcore。其中,PEspatial可以理解為:將PEcore的Gram-anchor對齊到更早的網(wǎng)絡(luò)層,并結(jié)合SAM2.1。
![]()
對此,謝賽寧表示:
- 非常好!感謝你的指路/提示。我很喜歡這個方案。否則干擾因素會太多了。兩個checkpoint都已經(jīng)有了(G/14,448 分辨率),希望我們很快就能拿到一些結(jié)果。
![]()
3個多月后,謝賽寧表示自己之前的判斷站不住腳,而且這次的論文反而帶來了更深入的理解。
還有貼心小貼士,提示網(wǎng)友可以看看致謝部分。
![]()
對于自己在致謝中被提到,參與討論的網(wǎng)友之一表示很有意思:
- 也謝謝你一路跟進(jìn)!被致謝提到我也很受寵若驚。
![]()
謝賽寧還表示,這次討論本身就是一次小實驗——他想看看,一種新的“線上茶水間效應(yīng)”是否真的能夠發(fā)生。
他很享受這種狀態(tài):先有分歧、有爭論,再通過真正的實驗和投入,把直覺拉回到可被驗證的科學(xué)結(jié)論上。
不得不說,這樣開放、即時、可糾錯的學(xué)術(shù)討論,確實值得多來一些。
接下來,我們就一起來看看由此催生的最新論文。
空間結(jié)構(gòu)才是驅(qū)動目標(biāo)表征生成性能的主要因素
承接上面的討論,這篇最新論文探討了一個核心的基礎(chǔ)問題:
在用預(yù)訓(xùn)練視覺編碼器表征來指導(dǎo)生成模型時,究竟是表征的哪一部分在決定生成質(zhì)量?
是其全局語義信息(ImageNet-1K上的分類準(zhǔn)確率)還是其空間結(jié)構(gòu)(即補(bǔ)丁tokens之間的成對余弦相似度)?
論文給出的結(jié)論是:更好的全局語義信息并不等于更好的生成,空間結(jié)構(gòu)(而非全局語義)才是表征生成性能的驅(qū)動力。
傳統(tǒng)觀念(包括謝賽寧本人)認(rèn)為具有更強(qiáng)全局語義性能的表征會帶來更好的生成效果,但研究卻表明更大的視覺編碼器反而可能帶來更差的生成性能
其中,線性檢測準(zhǔn)確率只有約20%的視覺編碼器,反而可以超過準(zhǔn)確率>80%的編碼器。
而且,如果試圖通過CLS token向patch token注入更多全局語義,生成性能還會被拉低。
![]()
與此同時,研究還發(fā)現(xiàn)生成效果更好的表征,往往具有更強(qiáng)的空間結(jié)構(gòu)(可通過空間自相似性指標(biāo)來衡量)
也就是說,圖像中某一部分的token會如何關(guān)注圖像中其他區(qū)域的token。
![]()
在具體的研究方法上,研究通過一次大規(guī)模的定量相關(guān)性分析對這一觀察進(jìn)行了細(xì)化驗證:分析覆蓋了27 種不同的視覺編碼器(包括 DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP 等)以及3種模型規(guī)模(B、L、XL)。
![]()
而在進(jìn)一步的評測中,空間信息的重要性被進(jìn)一步拔高:即便是像SIFT、HOG這樣的經(jīng)典空間特征,也能帶來與PE-G等現(xiàn)代、更大規(guī)模視覺編碼器相當(dāng)、具有競爭力的提升。
![]()
在測試得出結(jié)論后,論文又基于現(xiàn)有的表征對齊(REPA)框架進(jìn)行分析和修改,提出了iREPA。
- 投影層改進(jìn): 將REPA中標(biāo)準(zhǔn)的MLP投影層替換為一個簡單的卷積層。
- 空間規(guī)范化: 為外部表征引入一個空間規(guī)范化層。
![]()
這些簡單的修改(如在DeCo框架下的實現(xiàn))旨在保留并強(qiáng)化空間結(jié)構(gòu)信息,相比原始的REPA方法能顯著提升性能。
值得一提的是iREPA,只需3行代碼即可添加到任何表示對齊方法中,并且在各種訓(xùn)練方案(如REPA、REPA-E、Meanflow 以及最近推出的 JiT)中都能實現(xiàn)持續(xù)更快的收斂。
![]()
[1]https://x.com/YouJiacheng/status/1957073253769380258
[2]https://arxiv.org/abs/2512.10794
[3]https://x.com/sainingxie/status/2000709656491286870
[4]https://x.com/1jaskiratsingh/status/2000701128431034736
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.