MiniMax 的視頻向來很頂,但技術上一直是個黑盒
剛剛,海螺團隊第一次自揭面紗,帶來了首個開源項目:VTPVisual Tokenizer Pre-training
VTP 這東西非常有趣:搞圖像、視頻生成的團隊,或都能因此受益
![]()
Tech Report
先做個信息鋪墊,現在主流的 AI 生圖模型,底層都是兩步走:
第一步,壓縮
把一張圖像壓縮成一組數字,這組數字能代表這張圖的核心信息
第二步,生成
AI 在這組數字的空間里做生成,生成完再還原成圖像
![]()
兩階段架構
其中,負責第一步的模塊,就叫「分詞器」,Tokenizer;負責第二步的,則是擴散模型Diffusion Model
論文中,發現一個反直覺的現象
分詞器訓練得越久,還原能力越強,生成效果反而越差
論文把這個困境叫做預訓練縮放問題
![]()
預訓練縮放問題
進一步,論文中也發現了
讓分詞器學會「理解」,比學會「還原」更重要
論文管這叫理解力驅動生成
于是,對于分詞器,就有了
理解力越強,壓出的數字越有意義,擴散模型越容易學,生成效果越好問題在哪
視覺分詞器是怎么訓練的?
傳統做法,是讓它學「重建」:把圖像壓縮成一組數字,再從這組數字還原回圖像,還原得越接近原圖越好
這個訓練目標聽起來很合理
壓縮再還原,損失越小,說明這組數字保留的信息越完整
但論文做了一組實驗,發現了問題
![]()
訓練越久,重建越好,生成越差
具體來說,就是,隨著訓練時間增加,模型產生了一些有趣的現象
重建能力持續變強rFID(衡量還原質量,越小越好)從2.0降到0.5
生成能力持續變差gFID(衡量生成質量,越小越好)從55漲到58
這就是論文定義的「預訓練縮放問題」(Pre-training Scaling Problem):你往視覺分詞器里砸再多算力,也換不來更好的生成效果
![]()
持續投入,并不會帶來顯著結果
對于做圖像生成、視頻生成的團隊來說,這是個壞消息
論文數據顯示,傳統方法在總算力的1/10處就開始停滯了
之后再加算力,生成效果不升反降
為什么會這樣
重建任務,讓模型學錯了東西
論文給出了這樣的解釋
當視覺分詞器學習「還原像素」時,它會把注意力放在「底層信息」上:邊緣在哪、紋理是什么樣、顏色的精確數值是多少
這些信息對于「還原」很重要
像素級的細節越準確,還原出來的圖像越接近原圖
![]()
底層信息(重建) vs 高層語義(生成)
但生成的時候,其實需要的不是這些
生成模型需要的是「高層語義」:這張圖里有什么東西、是什么場景、物體之間是什么關系、整體氛圍是什么
在分詞器被過度訓練后,通過它的到的信息,就會更偏向于「底層信息」,而非「高層語義」
到了生成的時候,,很難從中「理解」圖像應該是什么樣的,效果自然變差
于是,從結果上,我們就看到了做得越好,效果越差
(像不像辦公室里,讓你加班改細節的老板)
![]()
理解力與生成質量的關系
可以看一下這個圖,是論文的核心發現
對于傳統自編碼器,理解力和生成質量都卡在左下角,增加訓練量也不動
對于 VTP(紅色點),理解力越強,生成質量越好,持續往右上角走
綜上:理解力才是驅動生成的關鍵因素
怎么解決
既然問題定位到了:分詞器學偏了
那么,解決方案也很清晰:讓分詞器學全
一邊學重建,一邊學理解
VTP 正式這個思路
把三種訓練目標合在一起,聯合優化
其一、圖文對比學習
在圖文對比學習這一過程中,VTP 采用 CLIP 的訓練方式
大致是這樣 給模型看大量的「圖像 + 文字描述」配對數據,讓圖像壓縮出來的數字表示和對應文字的數字表示靠近
比如,給一張狗的照片,壓縮后的數字表示要和「一只金毛犬在草地上奔跑」這句話的數字表示相似
![]()
圖文對比學習
這樣視覺分詞器在壓縮圖像時,就會保留語義信息,知道這張圖「是什么」
其二、感知空間結構
在感知空間結構中,VTP 采用 DINOv2 的訓練方式,具體包括兩類任務
第一類:
遮住圖像的一部分,讓模型預測被遮住的內容
這迫使模型理解圖像的整體結構,而不是只記住局部像素
第二類
是對同一張圖像做不同的裁剪和變換,讓模型輸出的表示保持一致
這樣,模型就會被迫使著學習圖像的本質特征,而不是被具體的像素值干擾
![]()
通過自監督,學習空間結構其三、像素重建
上面說了,要一邊學重建,一邊學理解
所以,傳統的還原任務不能完全丟掉,但權重要調低
論文發現,把重建任務的損失權重設成0.1,對生成效果最好
(相比而言,理解任務的權重為1.0)
![]()
權重需要調整
至此,把這三個目標聯合訓練,讓視覺分詞器同時具備三種能力理解圖像內容、感知空間結構、保留像素細節
![]()
就這樣,VTP 有了三種能力
額外的,VTP 用的是 Vision Transformer(ViT),不是傳統的 CNN
實驗數據顯示,ViT 架構在同等配置下生成效果更好,計算量還更低
還有一個有關于 batch size 的細節
不同訓練任務,對 batch size 的需求差異很大:
? 圖文對比學習需要很大的 batch(
16k)? 自監督和重建任務用小 batch 就夠(
4k和2k)
![]()
對于 batch 這個問題,解決方法是這樣:
每個 batch 里,全部樣本用于圖文對比學習,隨機抽取一部分用于自監督和重建
效果如何
論文做了大量對比實驗,從三個維度驗證 VTP 的效果
維度一:理解、重建、生成的關系
先看下對比吧
純重建訓練:越練越差
![]()
重建越好、生成越差
隨著訓練時間增加:
? 重建能力持續變強:
rFID從2.07降到0.51? 生成能力反而變差:
gFID從55.04漲到58.56
加入理解任務:三項全漲
![]()
CLIP+SSL+AE 聯合訓練
用 CLIP + SSL + 重建 聯合訓練后:
? 生成能力大幅提升:
gFID降到27.8? 理解能力同步提升:Linear Probe 達到
74.9%? 重建能力也沒掉:
rFID降到0.36
三種能力不沖突,可以同時提升
維度二:縮放特性
傳統方法存在天花板,VTP 則打破了這個天花板
![]()
縮放特性對比:算力、參數、數據
數據縮放
? 傳統自編碼器:訓練數據從 10 萬張擴到 1 億張,
gFID只從58.37降到56.71? VTP:同樣的數據擴展,
gFID從47.59降到27.45
算力縮放
? 傳統自編碼器:算力增加到
1/10處就停滯,之后gFID不降反升? VTP:算力增加
10倍,gFID提升65.8%,曲線仍在下降
參數縮放
? 傳統自編碼器:模型從
20M參數擴到300M參數,gFID卡在57不動? VTP:模型從 Small 到 Large,
gFID從31.28降到26.12
這意味著:在視覺分詞器階段投入更多資源,終于能換來持續的回報了
維度三:與現有方法對比
VTP 與主流方案的效果對比
? VTP-L 在理解能力上超過了原版 CLIP(
78.2%vs75.5%)? 在重建能力上超過了 Stable Diffusion 的 VAE(
rFID 0.36vs0.63)? 在生成能力上超過了此前的改進方法 VA-VAE(
gFID 2.81vs4.29)
收斂速度方面:
? 比 VA-VAE 快4.1 倍
? 比原版 LDM 快5.7 倍
MiniMax 的視頻能力很能打,實屬第一梯隊,但技術上幾乎不對外
而 MiniMax 這次的開源,選了視覺分詞器這個方向,去嘗試解決一個行業里很多人遇到過、但沒人系統解釋過的問題:
為什么分詞器訓得越好,生成效果反而沒提升
過去一年的動作看,隔段時間,總能掏出點新東西
論文https://huggingface.co/papers/2512.13687
模型https://huggingface.co/collections/MiniMaxAI/vtp
代碼https://github.com/MiniMax-AI/VTP
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.