文章來源:我愛計算機(jī)視覺(ID:aicvml)
大家好,我是CV君。今天想和大家聊一篇來自清華大學(xué)和北京大學(xué)的最新研究,它給熱門的Vision Transformer(ViT)帶來了一次相當(dāng)漂亮的“線性提速”。
這篇被 NeurIPS 2025 錄用的論文,標(biāo)題為《Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials》,提出了一種名為“視覺對比注意力”(Visual-Contrast Attention, VCA)的新模塊。簡單來說,VCA就像是給ViT裝上了一雙“火眼金睛”,讓它不再是“一視同仁”地看圖中所有內(nèi)容,而是學(xué)會了主動“找不同”,聚焦于那些真正具有區(qū)分度的信息。最關(guān)鍵的是,這個新模塊幾乎不增加計算量,卻能實打?qū)嵉靥嵘P托阅堋?/p>
下面是論文的基本信息,感興趣的朋友可以深入研究:
![]()
論文標(biāo)題 : Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials
作者團(tuán)隊 : Yifan Pu, Jixuan Ying, Qixiu Li, Tianzhu Ye, Dongchen Han, Xiaochen Wang, Ziyi Wang, Xinyu Shao, Gao Huang, Xiu Li
所屬機(jī)構(gòu) : 清華大學(xué)、北京大學(xué)
論文地址 : https://arxiv.org/abs/2511.00833
項目主頁 : https://github.com/LeapLabTHU/LinearDiff
熟悉CV的朋友們都知道,Vision Transformer(ViT)現(xiàn)在是遍地開花,無論圖像識別還是圖像生成,都能看到它的身影。但ViT也有個“甜蜜的煩惱”——它的核心部件,多頭自注意力(Multi-Head Self-Attention, MHSA),計算量太大了。
MHSA會對圖像中的每一對圖塊(token)都進(jìn)行相似度計算,這是一個平方級別的復(fù)雜度(O(N2))。這意味著,圖像越大、圖塊越多,計算成本就呈指數(shù)級增長。很多時候,模型把大量的算力都浪費(fèi)在了計算那些沒啥信息量或者重復(fù)的區(qū)域關(guān)系上。
為了解決這個問題,研究者們想了不少辦法。有的方法限制注意力范圍,比如只在局部窗口內(nèi)計算,但這又可能丟失全局信息。有的方法用低秩分解或傅里葉變換來近似注意力矩陣,但它們還是平等地對待所有信息,沒能抓住重點。
而這篇論文的作者們另辟蹊徑,他們認(rèn)為,與其被動地處理所有信息,不如讓模型主動去發(fā)現(xiàn)“對比”和“差異”。這個想法催生了 視覺對比注意力(VCA)。
VCA如何實現(xiàn)“找不同”?
VCA的設(shè)計非常巧妙,可以即插即用地替換掉原來ViT中的MHSA模塊。它的核心思想分為兩步:
第一階段:生成全局對比信息
首先,VCA不再讓所有的查詢(query)都去和鍵(key)直接硬碰硬。它選擇了一種更聰明的方式:
信息壓縮 :對于每個注意力頭,VCA先把整個圖像的查詢特征圖(Query Feature Map)通過平均池化(Average Pooling)操作,壓縮成一個很小的網(wǎng)格(比如8x8)。這樣,原來成百上千的圖塊(token)就被濃縮成了幾十個“視覺對比令牌”(visual-contrast tokens)。
創(chuàng)建正負(fù)“視角” :接下來是關(guān)鍵一步。VCA為這些濃縮后的令牌添加兩種不同的、可學(xué)習(xí)的位置編碼,從而創(chuàng)造出兩個“流”:一個“正向流”(positive stream)和一個“負(fù)向流”(negative stream)。你可以把它們想象成從兩個略有不同的角度去觀察同一份濃縮信息。
差分交互 :這兩個流分別與全局的鍵(key)和值(value)進(jìn)行交互,然后將得到的結(jié)果相減。這一減,神奇的事情發(fā)生了——那些在兩個“視角”下都差不多的普通信息被抵消了,而那些有顯著差異的、真正重要的對比信息就被凸顯了出來。
通過這個過程,VCA用很小的計算代價,就提煉出了一份信息量極高的“全局對比圖”。
第二階段:基于對比圖進(jìn)行精細(xì)化注意力
有了這份“全局對比圖”,第二階段就簡單高效多了。原始的每個圖塊查詢(patch query)不再需要跟所有其他圖塊去比較,而是直接與這份濃縮的“對比圖”進(jìn)行交互。
這個交互同樣是差分式的,查詢會同時關(guān)注對比圖的“正向”和“負(fù)向”信息,最終計算出每個圖塊在“對比”視角下的重要性。
整個過程下來,VCA成功地將計算復(fù)雜度從 O(N2C) 降低到了 O(NnC),其中 n 是對比令牌的數(shù)量,遠(yuǎn)小于 N。這意味著計算成本與圖塊數(shù)量 N 之間變成了線性關(guān)系,ViT終于可以“減負(fù)”了。
效果如何?數(shù)據(jù)說話
理論說得再好,還得看實際效果。作者們在圖像分類和圖像生成兩大任務(wù)上對VCA進(jìn)行了充分驗證。
圖像分類:精度顯著提升
在ImageNet-1K分類任務(wù)上,VCA的效果非常驚人。
![]()
從上表可以看到:
給輕量的DeiT-Tiny模型換上VCA后,參數(shù)量只增加了0.3M,計算量(FLOPs)不變,但Top-1準(zhǔn)確率直接從72.2%提升到了 75.6% ,足足高了 3.4 個百分點!
即使是對于Swin Transformer這類已經(jīng)經(jīng)過優(yōu)化的層級式ViT,VCA同樣能帶來穩(wěn)定的性能提升,最高提升了 3.1 個百分點(在PVT-Tiny上)。
CV君認(rèn)為,這個結(jié)果說明VCA的“對比”機(jī)制確實抓住了圖像識別的關(guān)鍵,而且它的普適性很好,能給各種ViT架構(gòu)帶來增益。
圖像生成:生成質(zhì)量更高
在類條件圖像生成任務(wù)上,作者們將VCA應(yīng)用到了DiT(Diffusion Transformer)和SiT(Flow Transformer)模型上。評價指標(biāo)是FID,這個值越低說明生成圖像的質(zhì)量越高。
![]()
結(jié)果同樣令人印象深刻:
在各種模型尺寸和配置下,VCA都穩(wěn)定地降低了FID分?jǐn)?shù)。
對于DiT-S/4模型,F(xiàn)ID分?jǐn)?shù)降低了 5.2 點;對于DiT-S/2模型,F(xiàn)ID降低了 4.9 點。
無論是基于擴(kuò)散的DiT還是基于流的SiT,VCA都能起作用,證明了它對生成范式的普適性。
為了證明VCA的設(shè)計不是“玄學(xué)”,作者還做了詳盡的消融實驗。
![]()
上表驗證了VCA兩個階段的協(xié)同作用。無論是只用第一階段的全局對比,還是只用第二階段的差分注意力,性能都有提升,但將兩者結(jié)合起來效果最好。
![]()
而這張表則證明了“空間池化”和“雙位置編碼”這兩個設(shè)計的必要性。簡單地使用可學(xué)習(xí)的嵌入(Embedding)雖然也有效果,但遠(yuǎn)不如從圖像本身通過池化(Pooling)獲取信息,并用正負(fù)位置編碼來區(qū)分“視角”來得有效。這說明,讓模型從數(shù)據(jù)中學(xué)習(xí)對比線索,才是VCA成功的關(guān)鍵。
總結(jié)
總的來說,VCA用一個簡單、輕量且高效的“差分”思想,漂亮地解決了ViT的計算瓶頸,并帶來了實實在在的性能飛躍。它提醒我們,有時候注意力機(jī)制不一定非得是“相似性”的度量,也可以是“差異性”的發(fā)現(xiàn)者。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.