<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      視覺模型既懂語義,又能還原細節,南洋理工&商湯提出棱鏡假說

      0
      分享至



      作者來自 Nanyang Technological University(MMLab) 與 SenseTime Research,提出 Prism Hypothesis(棱鏡假說) 與 Unified Autoencoding(UAE),嘗試用 “頻率譜” 的統一視角,把語義編碼器與像素編碼器的表示沖突真正 “合并解決”。



      • 論文標題:The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
      • 代碼倉庫:https://github.com/WeichenFan/UAE
      • 論文地址:https://arxiv.org/pdf/2512.19693

      背景:為什么 “懂語義” 和 “還原細節” 總是很難兼得?

      在視覺基礎模型里,我們經常同時依賴兩類能力:

      • 語義理解:像 DINOv2 / CLIP 這類 “語義編碼器” 更擅長類別、屬性、關系等抽象信息;
      • 像素保真:像 SD 系列 VAE 這類 “像素編碼器” 更擅長紋理、邊緣、小字等細節重建。

      但現實問題是:很多系統被迫把兩套表示 “拼在一起用”:語義一套、像素一套,訓練效率下降、表示互相干擾、而且很難得到一個既 “語義強” 又 “細節強” 的統一潛空間。

      論文把這種矛盾歸結為一個更本質的問題:世界的信息到底如何被表示,才能既共享語義,又保留各自模態的細粒度。

      核心洞察:Prism Hypothesis(棱鏡假說)




      論文給出了一個非常直觀的統一解釋:

      • 可以把真實世界的輸入看成投影到同一條 “特征頻譜” 上的不同切片;
      • 低頻更像 “全局結構 / 語義”(類別、布局、關系);
      • 高頻更像 “局部細節 / 質感”(紋理、邊緣、微小文字)。





      為了驗證,作者做了兩類證據:

      1. 能量譜分析:語義編碼器(如 DINOv2、CLIP)能量更集中在低頻,而像素型編碼器(如 SD-VAE)保留更多中高頻細節。

      2. 頻率過濾下的檢索魯棒性:文本 - 圖像檢索的 R@5 在低通情況下較穩定,但在高通 / 去掉低頻基座后會明顯崩塌、趨近隨機,說明跨模態語義對齊主要來自共享低頻基座。

      方法:Unified Autoencoding(UAE)怎么把兩種表示 “合成一套”?





      圍繞 “低頻語義基座 + 高頻細節殘差” 的思路,UAE 的核心是把一個統一編碼器學成多頻段潛變量,并把 “語義該管什么、細節該放哪里” 結構化地拆開。

      1) Unified Encoder:從語義編碼器初始化,走向統一潛空間

      以 DINOv2 為例,UAE 的統一編碼器從預訓練語義模型初始化,進入后續頻域處理。

      2) Residual Split Flow:在頻域做 “可控的分帶分解”

      UAE 用 FFT 做頻段投影(平滑徑向 mask),并采用迭代殘差拆分,把潛變量拆成多個頻帶:

      • 低頻帶(低頻)承載語義 / 全局結構
      • 更高 band(高頻)逐步承載邊緣、紋理等細節殘差

      同時強調分解的可逆性與空間一致性。

      3) Frequency Band Modulator:只 “擾動細節”,再做頻帶融合給解碼器

      訓練時對高頻帶進行噪聲擾動以增強魯棒性;然后把各頻帶在通道維拼接,融合后作為解碼器唯一輸入。

      4) Semantic-wise Loss:語義只約束低頻,細節放開學像素

      為了既繼承語義先驗、又擴展到高頻細節,UAE 的語義對齊損失只施加在最低頻的前 K 個 band 上:

      • 低頻對齊 ;
      • 高頻不強行對齊;

      論文也明確把 UAE 定位為 tokenizer,并強調其 “能與現有 diffusion transformers 無縫對齊”。

      實驗結果:一個潛空間,同時要 “語義” 也要 “細節”

      重建質量(ImageNet / MS-COCO)

      在 256×256 重建任務上,UAE(DINOv2-L)在 ImageNet 上達到 PSNR=33.08、SSIM=0.94、rFID=0.16,在 MS-COCO 上達到 PSNR=32.84、SSIM=0.94、rFID=0.17。

      同時,論文指出在相同 DINOv2 編碼器設置下,UAE 相比 RAE 基線在 PSNR/SSIM 更高,并且 rFID 下降超過 90%。





      生成能力(ImageNet 類條件生成)

      在 ImageNet 256×256 類條件生成上,UAE 達到 gFID=1.68、IS=301.6。

      語義理解(Linear Probing)

      在 ImageNet-1K 上,UAE 在 ViT-B 骨干下達到 Top-1=83.0%,與 RAE 持平。





      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為什么老一輩說財不外露?網友 :炫耀了一下,就帶著全家跪下借錢

      為什么老一輩說財不外露?網友 :炫耀了一下,就帶著全家跪下借錢

      夜深愛雜談
      2026-01-10 23:00:25
      被裁判針對,男籃為何得罪國際籃聯?姚明埋禍根,郭振明兩招補救

      被裁判針對,男籃為何得罪國際籃聯?姚明埋禍根,郭振明兩招補救

      籃球看比賽
      2026-02-27 13:43:42
      我國停產消失的25個汽車品牌,你還記得幾個?

      我國停產消失的25個汽車品牌,你還記得幾個?

      藍色海邊
      2026-02-26 02:11:42
      臺灣地區領導人賴清德:我是臺獨工作者,但是我“反共不反中”啊

      臺灣地區領導人賴清德:我是臺獨工作者,但是我“反共不反中”啊

      安逸安逸
      2026-02-27 06:14:24
      美國警方承認谷愛凌曾遭毆打,手臂抓傷嚴重,未來人身安全存隱患

      美國警方承認谷愛凌曾遭毆打,手臂抓傷嚴重,未來人身安全存隱患

      楊華評論
      2026-02-27 23:36:24
      唐鑒軍直播說漏嘴:閆學晶在東北圈里穩坐頭把交椅的根本原因

      唐鑒軍直播說漏嘴:閆學晶在東北圈里穩坐頭把交椅的根本原因

      樂悠悠娛樂
      2026-02-27 13:20:26
      沒工夫跟高市耗著了,中國全面封鎖日本軍工,美國這次也愛莫能助

      沒工夫跟高市耗著了,中國全面封鎖日本軍工,美國這次也愛莫能助

      成視Talk
      2026-02-28 08:30:06
      一彩民中獎127億元!

      一彩民中獎127億元!

      美麗漢中mlhz
      2026-02-27 22:06:43
      反轉!中國男籃贏球后,FIBA改口,執法裁判身份曝光,或遭重罰

      反轉!中國男籃贏球后,FIBA改口,執法裁判身份曝光,或遭重罰

      法老不說教
      2026-02-27 19:09:37
      45歲吉賽爾·邦辰素顏遛娃,狀態依舊能打!

      45歲吉賽爾·邦辰素顏遛娃,狀態依舊能打!

      述家娛記
      2026-02-26 13:11:46
      劉亦菲100g黃金鐲疊戴封神!原來黃金戴對了,高級感拉滿

      劉亦菲100g黃金鐲疊戴封神!原來黃金戴對了,高級感拉滿

      白宸侃片
      2026-02-26 18:05:06
      在小縣城名聲很臭是啥體驗?網友:臉皮夠厚,一切不成問題

      在小縣城名聲很臭是啥體驗?網友:臉皮夠厚,一切不成問題

      解讀熱點事件
      2026-02-04 00:05:07
      松原市紀委監委通報:王爽被查

      松原市紀委監委通報:王爽被查

      吉刻新聞
      2026-02-27 16:45:33
      新加坡大滿貫 | 陳垣宇掀翻雨果晉級 國乒女單將迎內戰

      新加坡大滿貫 | 陳垣宇掀翻雨果晉級 國乒女單將迎內戰

      揚子晚報
      2026-02-28 08:47:18
      河南鄭州打響第一槍?2027年起取消教師統招?師范生就業還能保證公平嗎

      河南鄭州打響第一槍?2027年起取消教師統招?師范生就業還能保證公平嗎

      朗威談星座
      2026-02-28 00:43:37
      女演員長相多重要?《好好時光》34歲陳昊宇VS31歲李雪琴差別明顯

      女演員長相多重要?《好好時光》34歲陳昊宇VS31歲李雪琴差別明顯

      娛君墜星河
      2026-02-27 23:00:08
      CBA最新消息!曝頂級小外援加盟北京首鋼,廣東宏遠新星賽季報銷

      CBA最新消息!曝頂級小外援加盟北京首鋼,廣東宏遠新星賽季報銷

      體壇瞎白話
      2026-02-28 08:43:38
      特朗普“低俗玩笑”惹眾怒!美國冰球女隊隊長奈特強勢回擊:令人不快!

      特朗普“低俗玩笑”惹眾怒!美國冰球女隊隊長奈特強勢回擊:令人不快!

      去山野間追風
      2026-02-27 15:08:16
      利好蘋果,不利好國產,智能手機領域寒風刮起

      利好蘋果,不利好國產,智能手機領域寒風刮起

      科技鋒說
      2026-02-27 08:57:10
      國際籃聯正式致歉!日本媒體點名郭士強,認為中國男籃勝之不武

      國際籃聯正式致歉!日本媒體點名郭士強,認為中國男籃勝之不武

      十點街球體育
      2026-02-27 20:17:35
      2026-02-28 09:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12374文章數 142573關注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創融資神話

      頭條要聞

      牛彈琴:伊朗面臨生死存亡關鍵時刻 信號已經很明顯了

      頭條要聞

      牛彈琴:伊朗面臨生死存亡關鍵時刻 信號已經很明顯了

      體育要聞

      一場必須要贏的比賽,男籃何止擊敗了裁判

      娛樂要聞

      郭晶晶霍啟剛現身香港藝術節盡顯恩愛

      財經要聞

      沈明高提共富建議 百姓持科技股國家兜底

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      家居
      教育
      時尚
      親子
      游戲

      家居要聞

      素色肌理 品意式格調

      教育要聞

      剛剛!考研,出分!(附歷年國家線)

      被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質!

      親子要聞

      春節后兒科門診人數激增20%,醫生提醒:積食傷脾胃

      《007:初露鋒芒》近戰系統借鑒阿卡姆和神海

      無障礙瀏覽 進入關懷版