文章來源:我愛計算機視覺(ID:aicvml)
今天和大家聊一篇非常有意思的新工作,來自馬克斯·普朗克計算機科學研究所、谷歌、蘇黎世聯邦理工學院和慕尼黑工業大學的研究者們聯手打造的 AnyUp。
顧名思義,“AnyUp”就是“任意上采樣”的意思。它的核心亮點在于,這是一個通用的特征上采樣模型,能夠處理來自任意視覺編碼器(比如DINO、CLIP)的特征,在任意分辨率之間進行上采樣,而且最關鍵的是——無需為特定的編碼器進行重新訓練。這解決了現有方法一個很大的痛點。
![]()
一起來看看這項工作的基本信息:
論文標題 : AnyUp: Universal Feature Upsampling
作者 : Thomas Wimmer, Prune Truong, Marie-Julie Rakotosaona, Michael Oechsle, Federico Tombari, Bernt Schiele, Jan Eric Lenssen
機構 : 馬克斯·普朗克計算機科學研究所, 蘇黎世聯邦理工學院, 谷歌, 慕尼黑工業大學
論文地址 : https://arxiv.org/abs/2510.12764
項目主頁 : https://wimmerth.github.io/anyup/
代碼倉庫 : https://github.com/wimmerth/anyup
大家知道,像DINO、CLIP這類強大的預訓練視覺模型,已經成為計算機視覺領域的基石。但它們通常基于Transformer架構,為了計算效率,輸出的特征圖分辨率往往比較低(比如16x16或32x32)。這對于需要像素級預測的下游任務,如語義分割、深度估計等,是一個天然的限制。
![]()
為了解決這個問題,學術界提出了不少特征上采樣的方法。但現有方法,特別是那些基于學習的方法(如FeatUp, LoftUp, JAFAR),通常存在一個“綁定”問題:它們需要針對某一個特定的特征提取器(encoder)進行訓練。如果你想換一個編碼器,比如從DINOv2換到SigLIP,對不起,請重新訓練你的上采樣模型。這不僅耗時耗力,有時甚至不可行(比如最新的大模型沒有開放訓練接口)。
![]()
AnyUp的出現,就是為了打破這種“一對一”的束縛,目標是創建一個“萬能”的上采樣器,訓練一次,就能服務于所有視覺模型。
AnyUp的核心方法
AnyUp的整體架構基于一個Attention機制,這和近期的JAFAR、LoftUp等工作思路相似。但它通過幾個關鍵設計,實現了“編碼器無關”(encoder-agnostic)的特性。
![]()
特征無關層 (Feature-Agnostic Layer)
這是實現通用性的核心。傳統的上采樣模型在處理輸入特征時,通常會用一個卷積層,但這個卷積層的輸入通道數是固定的,所以只能處理特定維度的特征。
AnyUp設計了一個巧妙的“特征無關層”。它的工作方式是:
對輸入特征的 每一個通道 (channel) 都獨立地與一組共享的、可學習的卷積核 (basis filters) 進行卷積。
對每個通道的卷積結果,在“卷積核維度”上進行Softmax歸一化。
最后,將 所有通道 的結果進行平均,得到最終的輸出。
通過這種方式,無論輸入特征有多少個通道(維度),輸出的維度都是固定的,并且模型能夠學習到跨通道的通用結構信息,而不是綁定在特定特征的語義上。CV君認為這個設計非常簡潔且有效。
局部窗口注意力 (Local Window Attention)
之前的方法(如JAFAR)使用全局注意力,即高分辨率圖像中的每個像素可以關注到低分辨率特征圖中的任何一個位置。作者發現,這有時會導致模型錯誤地關聯上圖像中距離很遠且不相關的區域,產生偽影。
![]()
AnyUp對此進行了簡化,將注意力計算限制在一個 局部窗口 內。這樣做不僅提升了效率,也讓模型的學習任務變得更簡單,因為它只需要關注局部信息,從而避免了不必要的“遠距離聯想”,使得上采樣結果更穩定。
基于圖像塊的訓練策略
在訓練中如何獲得用于監督訓練的“真值”高分辨率特征呢?直接用大尺寸圖像輸入編碼器計算,成本太高。AnyUp采用了一種高效的策略:
從一張高分辨率圖像
I中,隨機裁剪出一個小塊I'。將完整圖像
I縮放到與I'同樣的分辨率,并提取低分辨率特征p。將
p通過AnyUp上采樣到目標分辨率,得到q。同時,直接從圖像塊
I'提取“真值”特征?。監督信號來自于上采樣結果
q中對應I'的區域q'與?之間的差異。
這個策略非常高效,因為它避免了對超大分辨率圖像進行特征提取。
實驗效果如何?
AnyUp在多個下游任務上都展示了卓越的性能和泛化能力。
視覺質量對比
從PCA可視化的特征圖可以看出,相比之前的方法(如LoftUp、JAFAR、FeatUp),AnyUp生成的特征圖邊緣更銳利,細節保留得更好,并且沒有出現明顯的偽影或特征分布偏移。
![]()
下游任務性能
在語義分割、深度估計和表面法線估計等任務上,AnyUp全面超越了之前的SOTA方法。
語義分割 : 在ADE20k數據集上取得了SOTA表現。
深度和法線估計 : 同樣達到了SOTA,這表明AnyUp很好地保留了特征的局部幾何信息,而這正是LoftUp等方法所欠缺的。
下面是更多在語義分割和深度估計任務上的定性結果,可以看到AnyUp的結果在細節和邊界上都非常出色。
![]()
![]()
強大的泛化能力
這是AnyUp最令人印象深刻的地方。
跨模型泛化 : 一個僅在DINOv2特征上訓練的AnyUp模型,可以直接用于上采樣SigLIP、DINOv3等完全不同的編碼器特征,并且性能依然強大,甚至接近或超過了為這些特定模型專門訓練的上采樣器。
跨分辨率泛化 : AnyUp支持從任意分辨率到任意分辨率的上采樣,在各種分辨率組合下都保持了強大的性能。

特征空間保持 : 實驗證明,AnyUp上采樣后的特征很好地保留了原始低分辨率特征的分布,這意味著一個在低分辨率特征上訓練好的線性分類器(probe)可以直接用在高分辨率特征上,性能幾乎無損,甚至有所提升。

消融研究證實了AnyUp每個設計的重要性,無論是特征無關層、局部窗口注意力還是數據采樣策略,都對最終性能有顯著貢獻。
![]()
總結
總而言之,AnyUp通過簡潔而創新的設計,實現了一個真正意義上的“即插即用”的通用特征上采樣器。它不僅性能達到了SOTA,更重要的是其出色的泛化能力,極大地提升了預訓練視覺模型在下游任務中的易用性和靈活性。作者已經開源了代碼,感興趣的同學可以去試試看!
大家對這個“萬能”上采樣方法怎么看?歡迎在評論區留下你的看法!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.