<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ImageNet分數越高,生成反而越糊?iREPA給出解釋

      0
      分享至


      新智元報道

      編輯:傾傾

      【新智元導讀】學霸的謊言被揭穿!一篇來自Adobe Research的論文發現,高語義理解并不會提升生成質量,反而可能破壞空間結構。用iREPA簡單修改,削弱全局干擾,生成質量立即飆升 。

      我們經常會疑惑:為什么視覺模型越高級,生成效果反而越差?

      最近,Adobe Research發了一篇論文,專門解釋了這個看起來有點反常、但反復出現的現象。


      論文地址:https://arxiv.org/pdf/2512.10794

      按直覺,模型要先知道「這是什么」,才能把它畫出來。

      ImageNet上的分類準確率越高,說明模型的語義理解越強,生成的內容越穩定、越靠譜。

      但這篇論文給出的結果,完全相反:

      一些在識別任務中表現平平、甚至看起來「很不聰明」的視覺編碼器,反而能生成出結構更清晰、質量更高的圖像。

      全局語義能力越強,生成反而越容易出問題。

      很可能我們從一開始,就誤會了生成模型真正擅長的是什么。


      為什么視覺模型越「聰明」,生成的反而越差?

      先看一個已經被反復驗證的事實:一個模型在ImageNet上的線性探測準確率越高,并不意味著它更適合用來做生成。

      最直觀的例子是SAM2。這是一個在識別任務里不出彩的模型,驗證準確率只有24.1%,遠低于主流視覺大模型。

      但當這些編碼器被用于REPA時,SAM2的生成質量反而優于一批準確率高出約60%的模型。


      SAM2的ImageNet驗證準確率僅為24.1%,但在REPA框架下的生成gFID明顯優于多種準確率超過70%的視覺編碼器。

      這還不是某一個模型的偶然表現。

      論文進一步比較了同一編碼器家族中不同規模的模型,結果發現:模型越大、分類準確率越高,生成質量反而可能相似或更差。


      隨著模型規模和分類準確率提升,生成gFID反而整體變差,表明這一現象并非由個別模型導致。

      顯然,「高語義能力=好生成」這條默認路徑,在大量實驗中并不成立 。

      更關鍵的是,這種現象并不是噪聲。

      在跨模型、跨設置的系統性分析中,全局語義指標與生成質量之間的相關性始終非常弱。


      分類能力與生成質量幾乎無關,空間結構卻高度相關。左:線性探測準確率與生成 gFID 的相關性極弱(Pearson r=-0.26)。中:空間結構指標(LDS)與生成質量呈現出顯著強相關(Pearson r=-0.85)。右:基于空間結構改進的iREPA,在多種編碼器上穩定優于REPA。

      論文進一步對多種視覺編碼器做了相關性分析,結果非常明確:

      線性探測準確率與生成質量之間幾乎不存在相關性。

      相比之下,反映patch空間結構的指標,與生成質量呈現出極強的正相關關系。

      如果不是「懂得多」,那生成模型到底依賴的是什么?

      反復確認會壓扁空間結構

      在理解了「高語義≠好生成」之后,真正的問題變成了:

      為什么模型越是反復確認,生成反而越容易出問題?

      關鍵就是,全局語義會在生成過程中壓扁空間結構。

      在生成任務中,模型并不是一次性輸出圖像,而是在訓練和采樣過程中,不斷對局部patch之間的關系做判斷。

      論文將這種能力概括為「空間結構」:即相鄰patch之間應保持更高相似性,而遠處patch不應被全局語義過早拉近。

      但當模型過度追求全局語義一致性,比如通過CLS token ,或對所有patch做全局平均來強化「這是什么」,這些局部差異就會被系統性地削弱。

      這種做法會導致一個直接后果:前景物體的patch,與本應無關的背景patch之間,出現異常高的相似性。

      空間對比度下降,邊界變得模糊,生成結果因此糊成一片。


      PE-G和WebSSL-1B在ImageNet上具有更高的分類準確率,但它們的空間自相似性顯示,前景與背景被過度拉近,邊界模糊。相比之下,空間結構更清晰的SpatialPE-B,生成質量顯著更好。

      研究員向模型中逐步加入全局語義信息,觀察分類能力和生成質量的變化。

      結果如下圖所示:


      增強全局語義信息會損害生成質量

      隨著全局信息權重α從0增加到0.5,模型的線性探測準確率持續上升。

      但生成質量卻顯著下降,FID明顯惡化。

      也就是說,「更懂這是什么」確實在發生;但與此同時,模型也失去生成所依賴的空間結構。

      這并不是優化不充分的副作用,而是因為全局語義在生成階段扮演了一個「過強約束」的角色。

      它讓模型更快達成結論,卻也更早放棄了對局部結構的精細刻畫。

      既然語義會干擾生成,iREPA選擇退后一步

      如果說前面的實驗回答了「問題出在哪」,那 iREPA 回答的就是另一個問題:

      既然全局語義會干擾生成,那該怎么對齊表示,才不會把結構壓扁?

      iREPA給出了答案。它對原本的REPA訓練流程做了兩處非常簡單的修改,總共不到四行代碼 。

      第一處,是投影方式的改變。

      在標準REPA中,patch表征通常會經過MLP投影層進行對齊。

      但論文指出,MLP在這一過程中容易混合不同位置的信息,無意中削弱了空間對比度 。

      因此,iREPA用一個3×3的卷積層(padding=1)替換了MLP投影。

      卷積的歸納偏置能保留局部鄰域關系:相鄰patch的相互影響被保留,遠處區域則不會被過早混在一起 。

      第二處修改,直接針對全局語義。

      iREPA在對齊過程中引入了一個空間歸一化層,移除了patch特征中的全局均值分量 ,讓模型專注于局部之間的差異與邊界。


      iREPA如何通過兩處修改,恢復生成所需的空間結構。 (a) 使用卷積投影替代MLP,可更好地保留局部空間關系。 (b) 空間歸一化層通過移除全局分量,提高patch之間的空間對比度。 (c) 經過這兩步修改后,iREPA生成的diffusion特征呈現出更清晰的空間結構。

      正是這兩點改動,讓iREPA在機制上與前一節的問題形成了嚴格對應:

      全局語義太強會抹平結構,那就在對齊階段削弱全局分量、強化空間關系 。

      結果也在意料之中。

      無論是在ImageNet規模的生成任務,還是更高分辨率的設置,亦或是文本到圖像的多模態生成任務中,iREPA都表現出更快的收斂速度和更好的最終生成質量。

      更重要的是,這種提升并不依賴于某一個特定編碼器。

      在不同模型規模、不同視覺骨干網絡、不同訓練設置下,iREPA都能穩定改進。

      這不僅是一個技巧,而是順著生成任務本身對結構的需求,把表示對齊這件事做得更克制、更精細。

      很多時候,我們討論生成模型時,會下意識沿用一個標準。

      但這篇論文提醒了我們,生成并不是理解的自然下游。

      對生成來說,最重要的并不是「這是什么」,而是「哪些地方該靠近,哪些地方該分開」。

      當我們一味強化全局語義,反復催促模型給出答案,其實是在替它提前下結論。

      iREPA并沒有試圖讓模型變得更聰明。它做的更像是退后一步,把空間還給空間,把結構還給結構。

      結果不是理解能力的飛躍,而是生成質量的回歸。

      參考資料:

      https://x.com/1jaskiratsingh/status/2000701128431034736?s=20

      https://end2end-diffusion.github.io/irepa/

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      硬抗42天,日本走出了危險一步,中方發出警告,條件已經成熟

      硬抗42天,日本走出了危險一步,中方發出警告,條件已經成熟

      策略述
      2025-12-22 15:09:07
      幸好我國沒有采納這5位專家的建議,不然老百姓就真跟著遭殃了!

      幸好我國沒有采納這5位專家的建議,不然老百姓就真跟著遭殃了!

      小lu侃侃而談
      2025-12-19 18:22:37
      劉震云:當有一天,你發現周圍的人變得客氣了,是你的實力變強了

      劉震云:當有一天,你發現周圍的人變得客氣了,是你的實力變強了

      清風拂心
      2025-12-20 19:02:55
      另有隱情!黃維之女透露父親被俘的真正原因:被一個姓胡的人害的

      另有隱情!黃維之女透露父親被俘的真正原因:被一個姓胡的人害的

      歷史龍元閣
      2025-12-21 08:55:11
      丹麥給烏克蘭送了8個多億歐的軍火。一查賬單,付款方:俄羅斯。

      丹麥給烏克蘭送了8個多億歐的軍火。一查賬單,付款方:俄羅斯。

      南權先生
      2025-12-16 16:26:47
      中小學將改“522學制”?官方最新回應來了,落地時間表明確

      中小學將改“522學制”?官方最新回應來了,落地時間表明確

      慧眼看世界哈哈
      2025-12-19 11:50:03
      亂!U16國足隊長前女友成韓國少年國腳女友 曾爆料盧琦政出軌裸聊

      亂!U16國足隊長前女友成韓國少年國腳女友 曾爆料盧琦政出軌裸聊

      念洲
      2025-12-22 13:44:57
      聲稱拿下庫皮揚斯克的俄軍司令庫佐夫列夫被曝消失!或已身亡

      聲稱拿下庫皮揚斯克的俄軍司令庫佐夫列夫被曝消失!或已身亡

      項鵬飛
      2025-12-21 20:34:23
      2026央視春晚全網票選名單,3人呼聲高,1人被罵,趙本山直覺沒錯

      2026央視春晚全網票選名單,3人呼聲高,1人被罵,趙本山直覺沒錯

      榮亭小吏
      2025-12-20 13:49:32
      丁嘉麗:我這輩子最后悔的決定,就是捧紅孫紅雷這個“白眼狼”

      丁嘉麗:我這輩子最后悔的決定,就是捧紅孫紅雷這個“白眼狼”

      小熊侃史
      2025-12-17 09:46:44
      朱棣死在榆木川,榆木川位于現在的哪里?說出來你可能不信

      朱棣死在榆木川,榆木川位于現在的哪里?說出來你可能不信

      小楊歷史
      2025-12-22 13:21:55
      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      24歲美女被騙到緬北,經歷兩個月“雙開門”折磨,被救已不成人形

      阿妹講故事
      2025-03-12 22:39:50
      朱德元帥的獨特地位:警衛、車輛、住房為何與其他九大元帥不同?

      朱德元帥的獨特地位:警衛、車輛、住房為何與其他九大元帥不同?

      云霄紀史觀
      2025-12-22 18:16:49
      最美港姐近日被指靚樣崩壞面型起角,低詾新相力證重回顏值巔峰

      最美港姐近日被指靚樣崩壞面型起角,低詾新相力證重回顏值巔峰

      粵睇先生
      2025-12-23 00:57:39
      人民幣連續大漲,意味著什么?

      人民幣連續大漲,意味著什么?

      子木聊房
      2025-12-22 10:25:04
      張子楓,竟被抵制了

      張子楓,竟被抵制了

      黎兜兜
      2025-12-21 12:09:51
      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      古書記史
      2025-12-12 11:21:38
      大羅計劃“四進宮”巴西足協,安切洛蒂深得薩烏德的信任

      大羅計劃“四進宮”巴西足協,安切洛蒂深得薩烏德的信任

      任意球后
      2025-12-23 02:13:03
      香港再無董建華

      香港再無董建華

      華人星光
      2025-11-25 12:01:27
      知人知面不知心,換心、換皮的李連杰,被向太將體面撕個粉碎

      知人知面不知心,換心、換皮的李連杰,被向太將體面撕個粉碎

      瓜農娟姐
      2025-11-14 12:47:02
      2025-12-23 03:07:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14161文章數 66395關注度
      往期回顧 全部

      科技要聞

      商湯聯創親自下場 痛批主流機器人技術大錯

      頭條要聞

      高市早苗政府創下一項27年來最差紀錄

      頭條要聞

      高市早苗政府創下一項27年來最差紀錄

      體育要聞

      戴琳,中國足球的反向代言人

      娛樂要聞

      張柏芝不再隱瞞,三胎生父早有答案?

      財經要聞

      央行信用新政:為失信者提供"糾錯"通道

      汽車要聞

      可享88元抵2000元等多重權益 昊鉑A800開啟盲訂

      態度原創

      教育
      游戲
      時尚
      健康
      藝術

      教育要聞

      高二英語成績120分左右,看英文原版小說是大坑,和提分南轅北轍

      德瑪西亞杯:Viper完美首秀,BLG零封LNG

      珍珠配美人,最老派也最高級的時髦

      這些新療法,讓化療不再那么痛苦

      藝術要聞

      萬年松樹開花,震驚你的雙眼!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人人操超碰| 99国精产品自偷自偷综合| 中文字幕欧美人妻精品一区蜜臀| 7777精品伊人久久久大香价格| av一卡二卡| 欧美、另类亚洲日本一区二区 | 叶城县| 亚洲AV无码破坏版在线观看 | 欧美性受xxxx白人性爽| 苍山县| 人妻人久久精品中文字幕| 国产成人AV在线| 日本免费视频| 寿阳县| 亚洲色图导航| jizz国产| 新营市| 亚洲第一综合天堂另类专| 国产乱人对白| 日韩91| 99在线国内在线视频22| 久久午夜电影网| 精品人妻一二| 肉大榛一出一进免费观看| 丰满的女邻居2| 黄瓜视频在线观看| 综合激情五月综合激情五月激情1| 国产偷倩视频| 日本高清在线一区二区三区| bt天堂新版中文在线| 成人午夜视频一区二区无码| 1024在线免费观看| 伊人综合成人| 熟女性饥渴一区二区三区| 丁香婷婷激情综合俺也去| 自拍 另类 综合 欧美小说| 国产精品国产三级国产试看 | 野花社区日本免费图片| 性色综合| 久久久久亚洲精品中文字幕| 台湾佬中文娱乐网址|