<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      僅用64個token生成高清圖像,MacTok攻破連續分詞器后驗坍塌難題

      0
      分享至



      本文作者團隊來自復旦大學,共同第一作者為復旦大學曾恒宇(生物醫學工程專業二年級碩士)和高鑫(應用數學專業三年級碩士,即將赴耶魯大學攻讀計算機科學博士),通訊作者為浦劍教授。

      在視覺生成領域,提升擴散模型或自回歸模型的推理效率,關鍵在于將圖像壓縮為更少量的 token。當前主流的圖像分詞器分為離散(如 VQ-VAE、VQ-GAN)與連續(如 KL-VAE)兩派。離散分詞器雖然應用廣泛,但其不可求導的量化過程需要進行梯度近似,容易引入量化誤差。相比之下,連續分詞器摒棄了硬性的離散碼本,保留了連續平滑的潛在空間,原生支持梯度優化并能容納更豐富的表征細節,因此被視為更具潛力的壓縮范式。

      然而,連續分詞器在極度壓縮(例如僅使用 64 個 token)時,會面臨一個核心挑戰:強 KL 正則化會導致潛在空間嚴重退化。編碼器常常無法有效寫入語義特征,而是直接向先驗分布妥協,引發嚴重的「后驗坍塌」(posterior collapse)。這往往會導致重建或生成的圖像失去細節。

      本文提出的MacTok(Masked Augmenting 1D Continuous Tokenizer)從連續分詞器的底層邏輯出發,提出了一種簡潔實用的核心洞察:只有讓潛在空間學會真正「富含語義」的表征,才能徹底杜絕后驗坍塌。為了達成這一目標,MacTok 脫離了單一層面的局部魔改,而是在圖像空間與表征空間進行了雙管齊下的協同設計。



      • 論文標題:MacTok: Masked Augmenting 1D Continuous Tokenizer for Efficient Image Generation
      • 論文鏈接:
      • https://arxiv.org/pdf/2603.29634

      在圖像空間層面,MacTok 引入了隨機掩碼與語義掩碼(Semantic Masking)的混合機制,強迫模型在最殘缺的條件下補全最高信息密度的焦點區域;在表征空間層面,則利用全局(Global)與局部(Local)的表征同時對齊來直接約束潛在空間的語義結構。

      結合兩者的協同機制,MacTok 僅需 64 或 128 個 token,便在 ImageNet 256×256 上實現了 1.44 的 gFID,在 512×512 上達到了 1.52 的 gFID,其實際使用的 token 數量相比傳統方法壓縮了 64 倍。該工作已被 CVPR 2026 錄用并入選為Highlight論文!



      「化繁為簡」:重新認知連續分詞器與后驗坍塌

      既然離散分詞器技術已相對成熟,為何業界仍需深入探討連續分詞器?主要原因在于離散碼本的表征瓶頸逐漸顯現,而連續空間擁有良好的數學連續性和原生梯度優勢,具備更高的優化潛力。但是,要讓連續分詞器走向商業可用,就必須解決「后驗坍塌」這一技術阻礙。

      后驗坍塌的直觀表現是,潛在空間中的各類特征嚴重重疊,解碼器生成的往往是一片模糊。從本質上看,這是由于在強正則約束與稀缺 Token 的雙重限制下,模型傾向于選擇最容易滿足先驗分布的優化路徑,而非去刻畫復雜的圖像語義。



      學術界此前的解法大多專注于調低正則強度或加入循環退火系數,這類基于損失函數層面的調整難以觸及問題根源。若直接套用普通的隨機掩碼策略(如直接遮擋 Latent Token),在 64 Token 的苛刻限制下,也會因后期訓練的信息流失而再度引發坍塌。

      MacTok 團隊提出,改變模型這種「優化怠情」的唯一做法是促使其學習到具備豐富語義信息的表征。為此,MacTok 放棄了單一維度的修修補補,提出了一個統籌圖像空間(Image Space)與表征空間(Representation Space)的雙管齊下方案:在圖像端通過掩碼提高「考題難度」,在表征端通過對齊直接注入語義引導,構建了一個魯棒的抗坍塌學習環境。

      雙空間協同設計:從圖像到表征的語義注入

      MacTok 團隊意識到,避免后驗坍塌的核心宗旨只有一個:必須迫使模型學到具有豐富語義信息的表征。為了達成這一目標,不能僅僅依賴常規的特征對齊,必須在圖像空間和表征空間同時作用,完成雙管齊下的語義注入。

      首先是在圖像空間的設計。在輸入端施加重度掩碼可以為模型提供一個更難的預測目標,從而提升模型特征提取的魯棒性。為進一步強化對語義的關注,MacTok 引入了混合掩碼策略:

      • 隨機掩碼(Random Masking):提供基礎的重建挑戰,促使模型建立更穩健的結構映射。

      • 語義掩碼(Semantic Masking):這是在圖像層面注入語義保留意識的關鍵。系統會評估圖像各個區域的語義重要性,并優先遮擋「富含最高語義」的區域。使得模型在預測殘缺圖像時,必須更加關注深層語義信息的推理與關聯,而非基于簡單紋理的像素填補。

      如下方曲線圖所示,引入語義掩碼后其生成質量有顯著提升,實驗測定最優的圖像掩碼比例在 70% 左右:



      其次是在表征空間的直接約束。在圖像空間的重建約束之外,MacTok 還引入了全局與局部表征對齊(Global and Local Alignment)。具體而言,分詞器的 Latent token 不僅在局部維度上與細粒度的 Patch 特征對齊,還在全局維度上與高度濃縮宏觀語義的 CLS 特征對齊。

      圖像空間層面的語義掩碼(增加理解難度),配合表征空間層面的全局-局部對齊(指明優化方向),兩者相輔相成。這套雙空間協同機制共同構筑了連續潛在空間高度的語義魯棒性,從根本上阻斷了后驗坍塌的發生。



      突破壓縮極限:主流 Benchmark 上的表現

      在主流驗證基準上,主打極少 token 的 MacTok 保持了極高的運行效率和視覺質量。

      1. 256×256 分辨率下的表現



      與使用大基數 token 的生成模型相比,MacTok 具備較為明顯的單 token 信息密度優勢。

      可以看到,僅使用 64 個 token 的 MacTok,在無 CFG 的測試條件下獲得了優于 SoftVQ-VAE 的生成結果(gFID 降低了 2.21)。128 token 的 MacTok 則達到了與擁有 1024 token 的主流基線模型(如 REPA 對應 gFID 1.42)相近的水平。

      2. 512×512 分辨率下的擴展能力

      在 512×512 分辨率下,模型需處理的圖像信息量成倍增長,而 MacTok 的各項核心指標并未出現衰減:



      在 512×512 測試中,MacTok 的 128 token 與 64 token 版本均取得了 1.52 的 gFID 與超過 306.0 的 IS(Inception Score),在大幅縮減序列長度的同時維持了該量級的領先效果。

      總結

      借助 UMAP 降維可視化,我們可以客觀地評估該方法在潛在空間特征分布上的改善:相比以往方法常出現的因坍塌而嚴重重疊的隨機點陣,MacTok 更能明確保持各語義類別的聚類結構。



      MacTok 的研究成果說明,后驗坍塌的根源在于強正則條件體系下缺乏足夠有效的數據特征引導約束。在不改變原生分詞架構基礎結構的前提下,僅僅通過在圖像輸入層引入具有挑戰性的語義掩碼重建任務,即可極大激活連續潛在空間編碼深層信息的潛能。面對未來對圖像生成分辨率、吞吐延遲要求越來越苛刻的大模型場景,MacTok 提供了一項具有較高實用價值的技術參照方案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      如果一個家庭長期沒酒局、沒社交,也少走親戚,只能說明一個問題

      如果一個家庭長期沒酒局、沒社交,也少走親戚,只能說明一個問題

      大熊歡樂坊
      2026-04-19 12:07:22
      僅獲6.3分 姆巴佩單刀踢飛+傷退 復出后皇馬僅1勝 賽季0冠成定局

      僅獲6.3分 姆巴佩單刀踢飛+傷退 復出后皇馬僅1勝 賽季0冠成定局

      我愛英超
      2026-04-25 06:18:49
      事件反轉!福建女司機腳踹保安反被扇耳光,耳膜穿孔!保安大叔攤上大事了……

      事件反轉!福建女司機腳踹保安反被扇耳光,耳膜穿孔!保安大叔攤上大事了……

      新民周刊
      2026-04-24 19:24:17
      749局退休人員自述:秦嶺惡龍事件,從發現到斬殺僅用了三天

      749局退休人員自述:秦嶺惡龍事件,從發現到斬殺僅用了三天

      千秋文化
      2026-04-10 20:03:43
      黃仁勛說對了!華為宣布全面支持DeepSeek V4,性能是H20的兩倍多

      黃仁勛說對了!華為宣布全面支持DeepSeek V4,性能是H20的兩倍多

      互聯魚
      2026-04-24 16:05:31
      美軍還沒打贏,“第二個伊朗”冒頭?解放軍“滅國艦隊”開進南海

      美軍還沒打贏,“第二個伊朗”冒頭?解放軍“滅國艦隊”開進南海

      春序娛樂
      2026-04-25 05:33:41
      喊了36年“董事長”,陳麗華頭七剛過遲重瑞的結局讓所有人都傻眼

      喊了36年“董事長”,陳麗華頭七剛過遲重瑞的結局讓所有人都傻眼

      小娛樂悠悠
      2026-04-16 13:32:37
      結婚第二天公婆裝病騙我的陪嫁房,老公怒吼:房子是我岳父母買的

      結婚第二天公婆裝病騙我的陪嫁房,老公怒吼:房子是我岳父母買的

      云端小院
      2026-04-25 07:01:27
      里程碑!弗格生涯得分達到8249分,超越哈里斯升至歷史第17位

      里程碑!弗格生涯得分達到8249分,超越哈里斯升至歷史第17位

      懂球帝
      2026-04-25 00:06:57
      田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

      田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

      以茶帶書
      2026-04-23 16:11:50
      年輕人上班帶飯的“飯盒”,能有多邪修?我也是被驚艷到了

      年輕人上班帶飯的“飯盒”,能有多邪修?我也是被驚艷到了

      美家指南
      2026-04-23 15:53:51
      徹底遇冷?暴跌149%虧損6211萬,庫存翻倍,高端電驢為何沒人買了

      徹底遇冷?暴跌149%虧損6211萬,庫存翻倍,高端電驢為何沒人買了

      青梅侃史啊
      2026-04-24 14:53:38
      醫生自己舉報自己!山東醫藥大學深夜通報

      醫生自己舉報自己!山東醫藥大學深夜通報

      醫脈圈
      2026-04-24 12:20:48
      為啥末代皇帝往往是昏君 看網友分析 思想境界都上了一個大臺階

      為啥末代皇帝往往是昏君 看網友分析 思想境界都上了一個大臺階

      侃神評故事
      2026-04-23 15:40:03
      無數身價過億的大佬,都在想方設法把國內的錢偷偷轉移到海外

      無數身價過億的大佬,都在想方設法把國內的錢偷偷轉移到海外

      流蘇晚晴
      2026-04-14 19:58:25
      模板,原來不讀mó bǎn,我讀錯了三十年!

      模板,原來不讀mó bǎn,我讀錯了三十年!

      未央看點
      2026-04-25 00:18:14
      無緣3連冠!阿爾卡拉斯宣布因傷退出今年法網 辛納沖全滿貫獲利好

      無緣3連冠!阿爾卡拉斯宣布因傷退出今年法網 辛納沖全滿貫獲利好

      我愛英超
      2026-04-25 00:10:36
      從越南難民到掌舵海軍:終結美軍政治正確的時代

      從越南難民到掌舵海軍:終結美軍政治正確的時代

      斌聞天下
      2026-04-25 07:00:03
      42戰全敗!四川主帥:只要有人堅守四川男籃就不會倒下,對不起大家

      42戰全敗!四川主帥:只要有人堅守四川男籃就不會倒下,對不起大家

      懂球帝
      2026-04-24 22:52:11
      國資委46號令實施!1996-2026全面清查,退休也追責到底

      國資委46號令實施!1996-2026全面清查,退休也追責到底

      林子說事
      2026-04-25 00:14:10
      2026-04-25 08:31:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12852文章數 142635關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4牽手華為,價格依然"屠夫級"

      頭條要聞

      兩屆奧運冠軍、中國羽協主席張軍"失聯" 知情人士發聲

      頭條要聞

      兩屆奧運冠軍、中國羽協主席張軍"失聯" 知情人士發聲

      體育要聞

      上海男籃23連勝+主場全勝 姚明之后最強一季

      娛樂要聞

      停工16個月!趙露思證實接拍新劇

      財經要聞

      LG財閥內斗:百億美元商業帝國爭奪戰

      汽車要聞

      零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

      態度原創

      教育
      房產
      游戲
      家居
      親子

      教育要聞

      教室火鍋”被人民日報點贊,卻被家長瘋狂舉報

      房產要聞

      新一輪教育大爆發來了!海口,開始瘋狂建學校!

      Steam新一代手柄要來了!突發上架或暗示快要開賣

      家居要聞

      自然肌理 溫潤美學

      親子要聞

      小獅子也只是個大寶寶呀,看到小朋友的車車滿眼羨慕

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品久久久久久下一站| 夜夜躁很很躁日日躁麻豆| 国产97色在线 | 免费| 精品黑人一区二区三区| 国产无遮挡aaa片爽爽| 武邑县| 色综合色国产热无码一| 精品无码一区二区三区的天堂| 破了亲妺妺的处免费视频国产| 久久av无码精品人妻糸列| 中文字幕一区二区三区擦澡| 网友偷拍久久精品视频| 亚洲精品免费一二三区| 人妻夜夜爽天天爽三区丁香花| 国产女人在线视频| 亚洲精品二区| 欧美3p视频| 中文有码亚洲制服av片| 色欲AV涩爱AV蜜芽AV三区| 亚洲国产精品无码观看久久| 久久不卡精品| 亚洲多毛视频| 无码AV一区在线观看免费| 果冻传媒mv免费播放在线观看| 国产精品一二三区蜜臀av| 宿州市| 国产精品成人亚洲| 国产欧美另类久久久精品图片| 日韩不卡在线观看视频不卡| 久热官网| 国产va精品免费观看| 蜜桃av一卡二卡三卡| 无码专区无码专区视频网址| 中国xxx农村性视频| 久久久精品国产sm调教网站| 五月香蕉网| 一本大道久久久久精| 岛国在线视频| 手机永久无码国产av毛片| 无码av中文字幕免费放| 亚洲av麻豆aⅴ无码电影|