![]()
作者來自 Nanyang Technological University(MMLab) 與 SenseTime Research,提出 Prism Hypothesis(棱鏡假說) 與 Unified Autoencoding(UAE),嘗試用 “頻率譜” 的統(tǒng)一視角,把語義編碼器與像素編碼器的表示沖突真正 “合并解決”。
![]()
- 論文標題:The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
- 代碼倉庫:https://github.com/WeichenFan/UAE
- 論文地址:https://arxiv.org/pdf/2512.19693
背景:為什么 “懂語義” 和 “還原細節(jié)” 總是很難兼得?
在視覺基礎(chǔ)模型里,我們經(jīng)常同時依賴兩類能力:
- 語義理解:像 DINOv2 / CLIP 這類 “語義編碼器” 更擅長類別、屬性、關(guān)系等抽象信息;
- 像素保真:像 SD 系列 VAE 這類 “像素編碼器” 更擅長紋理、邊緣、小字等細節(jié)重建。
但現(xiàn)實問題是:很多系統(tǒng)被迫把兩套表示 “拼在一起用”:語義一套、像素一套,訓(xùn)練效率下降、表示互相干擾、而且很難得到一個既 “語義強” 又 “細節(jié)強” 的統(tǒng)一潛空間。
論文把這種矛盾歸結(jié)為一個更本質(zhì)的問題:世界的信息到底如何被表示,才能既共享語義,又保留各自模態(tài)的細粒度。
核心洞察:Prism Hypothesis(棱鏡假說)
![]()
論文給出了一個非常直觀的統(tǒng)一解釋:
- 可以把真實世界的輸入看成投影到同一條 “特征頻譜” 上的不同切片;
- 低頻更像 “全局結(jié)構(gòu) / 語義”(類別、布局、關(guān)系);
- 高頻更像 “局部細節(jié) / 質(zhì)感”(紋理、邊緣、微小文字)。
![]()
![]()
為了驗證,作者做了兩類證據(jù):
1. 能量譜分析:語義編碼器(如 DINOv2、CLIP)能量更集中在低頻,而像素型編碼器(如 SD-VAE)保留更多中高頻細節(jié)。
2. 頻率過濾下的檢索魯棒性:文本 - 圖像檢索的 R@5 在低通情況下較穩(wěn)定,但在高通 / 去掉低頻基座后會明顯崩塌、趨近隨機,說明跨模態(tài)語義對齊主要來自共享低頻基座。
方法:Unified Autoencoding(UAE)怎么把兩種表示 “合成一套”?
![]()
圍繞 “低頻語義基座 + 高頻細節(jié)殘差” 的思路,UAE 的核心是把一個統(tǒng)一編碼器學(xué)成多頻段潛變量,并把 “語義該管什么、細節(jié)該放哪里” 結(jié)構(gòu)化地拆開。
1) Unified Encoder:從語義編碼器初始化,走向統(tǒng)一潛空間
以 DINOv2 為例,UAE 的統(tǒng)一編碼器從預(yù)訓(xùn)練語義模型初始化,進入后續(xù)頻域處理。
2) Residual Split Flow:在頻域做 “可控的分帶分解”
UAE 用 FFT 做頻段投影(平滑徑向 mask),并采用迭代殘差拆分,把潛變量拆成多個頻帶:
- 低頻帶(低頻)承載語義 / 全局結(jié)構(gòu)
- 更高 band(高頻)逐步承載邊緣、紋理等細節(jié)殘差
同時強調(diào)分解的可逆性與空間一致性。
3) Frequency Band Modulator:只 “擾動細節(jié)”,再做頻帶融合給解碼器
訓(xùn)練時對高頻帶進行噪聲擾動以增強魯棒性;然后把各頻帶在通道維拼接,融合后作為解碼器唯一輸入。
4) Semantic-wise Loss:語義只約束低頻,細節(jié)放開學(xué)像素
為了既繼承語義先驗、又擴展到高頻細節(jié),UAE 的語義對齊損失只施加在最低頻的前 K 個 band 上:
- 低頻對齊 ;
- 高頻不強行對齊;
論文也明確把 UAE 定位為 tokenizer,并強調(diào)其 “能與現(xiàn)有 diffusion transformers 無縫對齊”。
實驗結(jié)果:一個潛空間,同時要 “語義” 也要 “細節(jié)”
重建質(zhì)量(ImageNet / MS-COCO)
在 256×256 重建任務(wù)上,UAE(DINOv2-L)在 ImageNet 上達到 PSNR=33.08、SSIM=0.94、rFID=0.16,在 MS-COCO 上達到 PSNR=32.84、SSIM=0.94、rFID=0.17。
同時,論文指出在相同 DINOv2 編碼器設(shè)置下,UAE 相比 RAE 基線在 PSNR/SSIM 更高,并且 rFID 下降超過 90%。
![]()
![]()
生成能力(ImageNet 類條件生成)
在 ImageNet 256×256 類條件生成上,UAE 達到 gFID=1.68、IS=301.6。
語義理解(Linear Probing)
在 ImageNet-1K 上,UAE 在 ViT-B 骨干下達到 Top-1=83.0%,與 RAE 持平。
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.