<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      VFMTok: Visual Foundation Models驅動的Tokenizer時代來臨

      0
      分享至



      視覺 Tokenizer 的困境與破局

      近年來,自回歸(Autoregressive, AR)模型在語言生成領域的成功激發了其在圖像生成領域的應用,涌現出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。這類技術高度依賴于 VQGAN 等視覺 Tokenizer,它負責將高維、冗余的像素空間映射到一個低維、緊湊的離散潛在空間,是決定生成模型上限的基石。

      然而,以 VQGAN 為代表的傳統 Tokenizer 通常需要從零開始訓練,其訓練目標由像素級重建損失函數主導,導致其產生的潛在空間:

      1. 富含低層細節特征卻缺乏高層語義信息:能很好地還原圖像細節,但潛在編碼本身缺乏高層語義信息。
      2. 較高的潛在空間冗余:VAGAN 基于圖像塊 (patch) 逐一進行量化,而圖像中的物體通常是不規則的區域,基于圖像塊的量化降低了 tokens 的編碼效率。
      3. 無視結構特性的表征:潛在空間的組織較為混亂,使得生成模型不僅需要更長的訓練時間來學習其潛在空間分布,而且往往得借助 CFG(Classifier-Free Guidance, CFG)等技巧來實現高保真度的圖像生成,增加了模型推理時間。

      與此同時,預訓練的視覺基礎模型(Visual Foundation Models, VFMs),如 CLIP、DINOv2、SigLIP2 等,在提取豐富語義且可泛化視覺特征方面表現出了強大的能力。這些模型通過自監督或語言監督的方式進行訓練,它們能夠有效抽象出圖像中的高層語義信息,因此這些預訓練的視覺基礎模型大多應用于圖像內容理解任務當中。直接將其應用于圖像重建和生成任務上卻鮮有人探索。

      基于此,香港大學 CVMI Lab 和階躍星辰 AIGC 團隊提出一個大膽假設:原本為視覺理解任務設計的預訓練視覺基礎模型,其潛在特征是否也能直接作為圖像重建與生成的魯棒結構化表征?

      為了驗證這一猜想,我們探索了一個基礎視覺模型新的應用新方向:用凍結的預訓練視覺基礎模型構造離散的視覺 Tokenizer,將其應用于圖像重建和自回歸圖像生成任務上。

      我們發現,相比于傳統的視覺 Tokenizer 模型,視覺基礎模型驅動的圖像 Tokenizer 在這兩項任務上均表現出優異的性能。



      • 論文標題: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation
      • 論文地址: https://arxiv.org/pdf/2507.08441
      • Huggingface: https://huggingface.co/papers/2507.08441
      • Github:
      • https://github.com/CVMI-Lab/VFMTok.git (Vanilla version)
      • https://github.com/CVMI-Lab/VFMTok-RAR.git (Ultra version)

      探索性發現

      為了驗證視覺基礎模型 (VFMs) 能否構造高質量的視覺 Tokenizer,我們首次嘗試使用不同的凍結的預訓練基礎視覺模型 (VFMs) 提取圖像特征,將其送入 VQGAN 的編碼器中進行端到端訓練。訓練階段只有量化器(quantilizer)和解碼器中的參數會進行更新,隨后用它完成自回歸圖像生成任務。

      實驗表明:凍結的視覺基礎模型 (VFMs) 提取的圖像特征可以直接用于圖像重建,且訓練好的視覺 Tokenizer 在自回歸圖像生成任務上的表現優于傳統的視覺 Tokenizer 模型。

      這一發現凸顯了預訓練視覺基礎模型 (VFMs) 構造高質量視覺 Tokenizer 的巨大潛力。



      核心思想

      基于我們的探索性發現:凍結的視覺基礎模型 (VFMs) 可以直接構造高質量的視覺 Tokenizer 并進行端到端地訓練,我們對構造的視覺 Tokenizer 的結構進行進一步的優化 —— 利用視覺基礎模型 (VFMs)提取圖像的多層特征 (Multi-level Features Extraction),這有助于同時捕獲圖像中的低層細節特征和高層語義信息。

      同時,我們注意到現有的量化機制 (quantization) 都是對圖像塊 (patch) 逐一量化,而圖像中物體一般都是形狀不規則的,因此我們設計了區域自適應的量化 (Region-Adaptive Quantization) 方案。該方案可以進一步降低潛在特征空間的冗余度,提高視覺 tokens 的利用效率。

      此外,因為視覺基礎模型的參數是凍結的,因此在重建圖像內容的同時,我們也設計了語義特征重建的目標函數 (Semantic Reconstruction Objective),來提升視覺 Tokenizer 的語義保真度。我們將基于視覺基礎模型 (VFMs) 的 Tokenizer 稱之為VFMTok。



      VFMTok 架構圖

      關鍵技術細節

      • 多層圖像特征提取 (Multi-level Features Extraction)

      為了同時捕獲圖像低層細節特征和高層語義信息方便圖像重建,VFMTok 采用凍結的預訓練的視覺基礎模型 (VFMs) 作為編碼器提取多層級語義特征。VFMTok 按照等間隔的方式從預訓練基礎模型 (VFMs) 中提取多層特征 (multi-level features)。

      • 區域自適應量化 (Region-Adaptive Quantization)

      為了實現區域自適應量化 (Region-Adaptive Quantization) 機制,VFMTok 通過可學習「錨點查詢」(Anchor Queries)結合可變形注意力機制(Deformable Attention)自適應地從多層級特征 (multi-level features) 中進行區域自適應的特征采樣 (Region-Adaptive Sampling)。

      這種方式能聚焦于采樣圖像中模式一致的區域。隨后,VFMToks 對可學習「錨點查詢」(Anchor Queries)進行量化 (quantization)。這種方式可以有效提升 token 的利用效率 —— 用更少的 tokens(256)來表征一張圖像。



      • 語義重建目標(Semantic Reconstruction Objective)

      因為視覺基礎模型在 Tokenizer 的訓練階段參數是凍結的,因此 VFMTok 在重建圖像的同時,也會重建凍結的基礎模型(VFM)最后一層的語義特征。

      為了實現這一點,VFMTok 解碼階段設計了一個共享的輕量級 Vision Transformer(ViT)。這個 ViT 接收區域自適應量化后的 tokens,結合一個可學習的 mask token 以及一組可學習的位置編碼(Positional Embedding)作為輸入,分別產生用于圖像重建和語義重建的特征。共享 ViT 的設計既減少了參數量又保證了語義保真度。其雙重目標函數是:





      訓練完成后,VFMTok 可以被應用于圖像自適應回歸任務上,基于 next-token prediction 的方式生成高質量的圖像內容。

      實驗亮點與分析

      1.卓越的重建生成質量與效率

      大量實驗表明,基于視覺基礎模型 (VFMs) 構造的視覺 Tokenizer——VFMTok,具備高質量、高效率的圖像重建和自回歸圖像生成能力。

      • 更好的圖像重建質量:相較于傳統的視覺 Tokenizer,VFMTok 可以用更少的 token 數量(僅用 256 個)實現更優的重建質量(0.89 rFID, 215.4 rIS)和更高的碼本利用率 (100%),超越了之前大部分傳統的離散 Tokenizers。



      • 更快的生成訓練收斂速度:相比于經典的 VQGAN 這類 Tokenizer,VFMTok 能夠顯著提升自回歸模型訓練階段的收斂速度 ——訓練收斂速度提升了 3 倍。



      • 更好的生成性能:在 ImageNet 256x256 的 class-to-image 生成任務上,VFMTok-1.4B 模型在參數量更少、訓練迭代次數更少的情況下,自回歸生成性能超越了同類 LlamaGen-3B。此外,在接入更好的自回歸圖像生成框架 RAR 后,實現了SOTA 的圖像生成性能(gFID: 1.36)。



      • CFG-free 優越性:值得注意的是,VFMTok 在有無 CFG 的情況下性能幾乎一致(gFID: 2.07 vs 2.04),而 LlamaGen 則會從 2.19 急劇惡化至 9.38。這證明了其潛在空間具有極強的語義一致性,無需 CFG 即可實現高保真度的 class-to-image 圖像生成,可以進一步減少圖像生成時間。
      • 更快的推理速度:由于 tokens 數量減半(256 vs. 576),自回歸模型的生成過程長度減半,推理速度因此獲得了約 4 倍的提升。

      2.消融實驗的有力證明

      僅使用凍結的 VFM 作為編碼器,線性探針準確率(linear probing)就從 VQGAN 的 23.1% 提升至56.4%。引入區域自適應量化 (Region-Adaptive Quantization) 和語義特征重建 (Semantic Reconstruction Objective) 后,VFMTok 僅用 256 個 Token 就能在重建質量(rFID 0.89 vs 0.95) 上全面超越使用 576 個 Token 的 VQGAN 基線 Tokenizer。



      總結與展望

      VFMTok 首次證明了凍結的視覺基礎模型 (VFMs) 提取的圖像特征能有效用于圖像重建與生成,同時可以提升 Tokenizer 語義表征能力,使自回歸 (AR) 圖像生成模型收斂更快,并能實現 CFG-free 的高保真圖像合成。VFMTok 提出的區域自適應量化機制,通過有效利用圖像區域的固有冗余實現緊湊編碼,在減少視覺 token 數量的同時提升性能,實現高效且高質量的自回歸圖像生成。

      大量實驗驗證了 VFMTok 在圖像重建和自回歸生成中的有效性,確立了預訓練視覺基礎模型 (VFMs) 構造高質量、高效率 Tokenizer 的主導地位。

      由此可見,利用 VFM 的先驗知識是構建高質量潛在空間的必由之路,也是構建下一代 Tokenizer 的關鍵,這比任何從零開始的正則化或約束都更根本、更有效。預訓練視覺基礎模型的巨大潛力值得我們在未來深入挖掘,最終可能探索出一個能夠有效兼容所有生成模型的、語義豐富、高質高效的「統一 Tokenizer」。

      VFMTok 論文與代碼均已公開,歡迎感興趣的同學閱讀、復現以及深入討論。

      作者介紹

      本文作者主要來自于香港大學 CVMI Lab 和階躍星辰 AIGC 團隊。階躍星辰 AIGC 團隊主要致力于圖像生成底模、圖像編輯底模、世界模型以及 RL 后訓練研究和落地。歡迎志同道合的同學交流和加入,一起為 AIGC 社區貢獻力量。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      英軍3200人正式駐扎烏克蘭,歐洲局勢驟然升級。

      英軍3200人正式駐扎烏克蘭,歐洲局勢驟然升級。

      世界探索者探索
      2025-12-03 19:12:12
      中方嚴厲警告:如果日艦再闖臺海就擊沉,會被視為侵略可無限反擊

      中方嚴厲警告:如果日艦再闖臺海就擊沉,會被視為侵略可無限反擊

      愛吃醋的貓咪
      2025-12-06 21:02:16
      中央再提“穩樓市”,這些信號你看懂了嗎?

      中央再提“穩樓市”,這些信號你看懂了嗎?

      大道微言
      2025-12-06 21:57:33
      道歉!下架!第一個遭遇反噬的電動車廠商來了

      道歉!下架!第一個遭遇反噬的電動車廠商來了

      數字財經智庫
      2025-12-07 10:51:38
      馬克龍結束訪華后公開發文,對中國印象一目了然,釋放了3個信號

      馬克龍結束訪華后公開發文,對中國印象一目了然,釋放了3個信號

      史鹷的生活科普
      2025-12-07 07:21:43
      太突然:湖南一中學宣布倒閉

      太突然:湖南一中學宣布倒閉

      時刻
      2025-12-08 12:28:55
      臺日竟然還想夾擊解放軍,笑話!

      臺日竟然還想夾擊解放軍,笑話!

      環球時報新聞
      2025-12-08 10:23:36
      準備收網?中方發出最后通牒,高市緊急派人訪華,我大使下死命令

      準備收網?中方發出最后通牒,高市緊急派人訪華,我大使下死命令

      艾米手工作品
      2025-12-08 10:18:09
      中國軍人最慘烈的一仗:七千多將士身亡,日軍無一人生還

      中國軍人最慘烈的一仗:七千多將士身亡,日軍無一人生還

      阿柒的訊
      2025-12-07 22:10:22
      壓軸王者!新機官宣:12月25日,即將發布上市!

      壓軸王者!新機官宣:12月25日,即將發布上市!

      科技堡壘
      2025-12-07 12:02:22
      最瘆人文物:裝人頭的青銅蒸鍋!這個15歲少女經歷了什么?

      最瘆人文物:裝人頭的青銅蒸鍋!這個15歲少女經歷了什么?

      收藏大視界
      2025-12-06 20:35:41
      茅臺價格,繼續下跌

      茅臺價格,繼續下跌

      都市快報橙柿互動
      2025-12-08 10:42:34
      千萬粉網紅大店突然關停,一切都結束了

      千萬粉網紅大店突然關停,一切都結束了

      李東陽朋友圈
      2025-12-07 14:39:29
      國乒抵香港!林詩棟犯困,王楚欽吃雪糕,曼昱脫外套,莎莎衣品好

      國乒抵香港!林詩棟犯困,王楚欽吃雪糕,曼昱脫外套,莎莎衣品好

      籃球資訊達人
      2025-12-08 14:17:51
      50歲男子心梗搶救無效,每天堅持快走,醫生表明:3個習慣要了命

      50歲男子心梗搶救無效,每天堅持快走,醫生表明:3個習慣要了命

      卡西莫多的故事
      2025-12-07 11:07:35
      許家印深圳打工時的老板,如今許家印被抓了,他依然是億萬富豪

      許家印深圳打工時的老板,如今許家印被抓了,他依然是億萬富豪

      霹靂炮
      2025-12-07 23:14:53
      詹姆斯:馬克西現在跑得比我快得多,我很欣賞他的球技更欣賞他這個人

      詹姆斯:馬克西現在跑得比我快得多,我很欣賞他的球技更欣賞他這個人

      懂球帝
      2025-12-08 14:50:10
      三大賽第三套大滿貫!塞爾比10-8特魯姆普,9年后再奪英錦賽冠軍

      三大賽第三套大滿貫!塞爾比10-8特魯姆普,9年后再奪英錦賽冠軍

      全景體育V
      2025-12-08 07:07:05
      俄羅斯戰機誤襲別爾哥羅德變電站!投擲1千磅炸彈

      俄羅斯戰機誤襲別爾哥羅德變電站!投擲1千磅炸彈

      項鵬飛
      2025-12-07 20:53:39
      欠債166億,頂流顧不得體面了

      欠債166億,頂流顧不得體面了

      陳天宇
      2025-12-02 00:10:05
      2025-12-08 15:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11865文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      游戲
      房產
      健康
      手機
      教育

      V社從未公開的科幻大作《Stars of Blood》概念圖泄露

      房產要聞

      碧桂園,開始甩賣海口家底!

      甲狀腺結節到這個程度,該穿刺了!

      手機要聞

      OPPO全場景旁路供電適配計劃公布,覆蓋一加13、Reno 14等機型

      教育要聞

      祝孩子的同學生日快樂怎么說

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲男人在线天堂| 国产毛a片啊久久久久久保和丸 | 亚洲国产精彩中文乱码av| 国产乱人伦1区2区3区| 国产v在线| 久久亚洲精品日本波多野结衣| 狼色精品人妻在线视频| 亚洲?无码?人妻| 91热| 精品无人乱码一区二区三区的优势 | 康马县| 亚洲无码丝袜| 玖玖国产| 99RE6在线观看国产精品| 亚洲成av人在线观看网站| 久久国产av影片| 黑山县| 无码黑人| 中文字幕丅V在线观看| 内射干少妇亚洲69XXX| 中国少妇内射xxxhd| 亚洲高清国产拍精品网络战| 欧美怡春院| 超碰狠狠干| 又长又大又黑又粗欧美| 日韩欧美aⅴ综合网站发布| 中国少妇内射xxxhd| 国产精品久久久久久人妻精品| 丰满人妻被黑人猛烈进入| 龙山县| 96人妻| 91人人干| 精品国产国产2021| 97国产视频| 日本一区二区三区在线 |观看| 在线观看的av网站| 久久无码av中文出轨人妻| 久久精品人妻无码白浆| 国产免费av网站| 青娱乐AV| 天天躁日日躁狠狠躁中文字幕|