網易首頁 > 網易號 > 正文申請入駐

視覺生成的隱藏天花板｜VTP：MiniMax海螺視頻首次開源 · 技術解讀

2025-12-19 09:48:18　來源: 賽博禪心

北京舉報

分享至

MiniMax 的視頻向來很頂，但技術上一直是個黑盒

剛剛，海螺團隊第一次自揭面紗，帶來了首個開源項目：VTP
Visual Tokenizer Pre-training

VTP 這東西非常有趣：搞圖像、視頻生成的團隊，或都能因此受益

Tech Report

先做個信息鋪墊，現在主流的 AI 生圖模型，底層都是兩步走：

第一步，壓縮
把一張圖像壓縮成一組數字，這組數字能代表這張圖的核心信息

第二步，生成
AI 在這組數字的空間里做生成，生成完再還原成圖像

兩階段架構

其中，負責第一步的模塊，就叫「分詞器」，Tokenizer；負責第二步的，則是擴散模型Diffusion Model

論文中，發現一個反直覺的現象
分詞器訓練得越久，還原能力越強，生成效果反而越差
論文把這個困境叫做預訓練縮放問題

預訓練縮放問題

進一步，論文中也發現了
讓分詞器學會「理解」，比學會「還原」更重要
論文管這叫理解力驅動生成

于是，對于分詞器，就有了

理解力越強，壓出的數字越有意義，擴散模型越容易學，生成效果越好

問題在哪

視覺分詞器是怎么訓練的？
傳統做法，是讓它學「重建」：把圖像壓縮成一組數字，再從這組數字還原回圖像，還原得越接近原圖越好

這個訓練目標聽起來很合理
壓縮再還原，損失越小，說明這組數字保留的信息越完整

但論文做了一組實驗，發現了問題

訓練越久，重建越好，生成越差

具體來說，就是，隨著訓練時間增加，模型產生了一些有趣的現象

重建能力持續變強
rFID（衡量還原質量，越小越好）從2.0降到0.5

生成能力持續變差
gFID（衡量生成質量，越小越好）從55漲到58

這就是論文定義的「預訓練縮放問題」（Pre-training Scaling Problem）：你往視覺分詞器里砸再多算力，也換不來更好的生成效果

持續投入，并不會帶來顯著結果

對于做圖像生成、視頻生成的團隊來說，這是個壞消息
論文數據顯示，傳統方法在總算力的1/10處就開始停滯了
之后再加算力，生成效果不升反降

為什么會這樣

重建任務，讓模型學錯了東西
論文給出了這樣的解釋

當視覺分詞器學習「還原像素」時，它會把注意力放在「底層信息」上：
邊緣在哪、紋理是什么樣、顏色的精確數值是多少
這些信息對于「還原」很重要
像素級的細節越準確，還原出來的圖像越接近原圖

底層信息（重建） vs 高層語義（生成）

但生成的時候，其實需要的不是這些
生成模型需要的是「高層語義」：
這張圖里有什么東西、是什么場景、物體之間是什么關系、整體氛圍是什么

在分詞器被過度訓練后，通過它的到的信息，就會更偏向于「底層信息」，而非「高層語義」
到了生成的時候，，很難從中「理解」圖像應該是什么樣的，效果自然變差

于是，從結果上，我們就看到了做得越好，效果越差
（像不像辦公室里，讓你加班改細節的老板）

理解力與生成質量的關系

可以看一下這個圖，是論文的核心發現
對于傳統自編碼器，理解力和生成質量都卡在左下角，增加訓練量也不動
對于 VTP（紅色點），理解力越強，生成質量越好，持續往右上角走

綜上：理解力才是驅動生成的關鍵因素

怎么解決

既然問題定位到了：分詞器學偏了
那么，解決方案也很清晰：讓分詞器學全
一邊學重建，一邊學理解

VTP 正式這個思路
把三種訓練目標合在一起，聯合優化

其一、圖文對比學習

在圖文對比學習這一過程中，VTP 采用 CLIP 的訓練方式

大致是這樣給模型看大量的「圖像 + 文字描述」配對數據，讓圖像壓縮出來的數字表示和對應文字的數字表示靠近

比如，給一張狗的照片，壓縮后的數字表示要和「一只金毛犬在草地上奔跑」這句話的數字表示相似

圖文對比學習

這樣視覺分詞器在壓縮圖像時，就會保留語義信息，知道這張圖「是什么」

其二、感知空間結構

在感知空間結構中，VTP 采用 DINOv2 的訓練方式，具體包括兩類任務

第一類：
遮住圖像的一部分，讓模型預測被遮住的內容
這迫使模型理解圖像的整體結構，而不是只記住局部像素

第二類
是對同一張圖像做不同的裁剪和變換，讓模型輸出的表示保持一致

這樣，模型就會被迫使著學習圖像的本質特征，而不是被具體的像素值干擾

通過自監督，學習空間結構其三、像素重建

上面說了，要一邊學重建，一邊學理解
所以，傳統的還原任務不能完全丟掉，但權重要調低

論文發現，把重建任務的損失權重設成0.1，對生成效果最好
（相比而言，理解任務的權重為1.0）

權重需要調整

至此，把這三個目標聯合訓練，讓視覺分詞器同時具備三種能力
理解圖像內容、感知空間結構、保留像素細節

就這樣，VTP 有了三種能力

額外的，VTP 用的是 Vision Transformer（ViT），不是傳統的 CNN
實驗數據顯示，ViT 架構在同等配置下生成效果更好，計算量還更低

還有一個有關于 batch size 的細節
不同訓練任務，對 batch size 的需求差異很大：

? 圖文對比學習需要很大的 batch（16k）
? 自監督和重建任務用小 batch 就夠（4k和2k）

對于 batch 這個問題，解決方法是這樣：
每個 batch 里，全部樣本用于圖文對比學習，隨機抽取一部分用于自監督和重建

效果如何

論文做了大量對比實驗，從三個維度驗證 VTP 的效果

維度一：理解、重建、生成的關系

先看下對比吧

純重建訓練：越練越差

重建越好、生成越差

隨著訓練時間增加：

? 重建能力持續變強：rFID從2.07降到0.51
? 生成能力反而變差：gFID從55.04漲到58.56

加入理解任務：三項全漲

CLIP+SSL+AE 聯合訓練

用 CLIP + SSL + 重建聯合訓練后：

? 生成能力大幅提升：gFID降到27.8
? 理解能力同步提升：Linear Probe 達到74.9%
? 重建能力也沒掉：rFID降到0.36

三種能力不沖突，可以同時提升

維度二：縮放特性

傳統方法存在天花板，VTP 則打破了這個天花板

縮放特性對比：算力、參數、數據

數據縮放

? 傳統自編碼器：訓練數據從 10 萬張擴到 1 億張，gFID只從58.37降到56.71
? VTP：同樣的數據擴展，gFID從47.59降到27.45

算力縮放

? 傳統自編碼器：算力增加到1/10處就停滯，之后gFID不降反升
? VTP：算力增加10倍，gFID提升65.8%，曲線仍在下降

參數縮放

? 傳統自編碼器：模型從20M參數擴到300M參數，gFID卡在57不動
? VTP：模型從 Small 到 Large，gFID從31.28降到26.12

這意味著：在視覺分詞器階段投入更多資源，終于能換來持續的回報了

維度三：與現有方法對比VTP 與主流方案的效果對比

? VTP-L 在理解能力上超過了原版 CLIP（78.2%vs75.5%）
? 在重建能力上超過了 Stable Diffusion 的 VAE（rFID 0.36vs0.63）
? 在生成能力上超過了此前的改進方法 VA-VAE（gFID 2.81vs4.29）

收斂速度方面：

? 比 VA-VAE 快4.1 倍
? 比原版 LDM 快5.7 倍

收斂速度最后

MiniMax 的視頻能力很能打，實屬第一梯隊，但技術上幾乎不對外

而 MiniMax 這次的開源，選了視覺分詞器這個方向，去嘗試解決一個行業里很多人遇到過、但沒人系統解釋過的問題：
為什么分詞器訓得越好，生成效果反而沒提升

過去一年的動作看，隔段時間，總能掏出點新東西

論文
https://huggingface.co/papers/2512.13687

模型
https://huggingface.co/collections/MiniMaxAI/vtp

代碼
https://github.com/MiniMax-AI/VTP

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型三箭齊發、芯片崗位低調招聘，字節跳動不只想贏下AI“春節檔”

每日經濟新聞 2026-02-15 09:35:33
30 跟貼 30
微軟放話一年消滅白領！硅谷老板流行借助AI親自上手一切

新智元 2026-02-15 19:06:11
9 跟貼 9

Seedance一騎絕塵背后：中國AI春節前為何“殺瘋了”？

澎湃新聞 2026-02-15 07:50:28
118 跟貼 118

AI催生巨量Token消耗、內存硬件緊缺算力租賃熱潮下，運營商加碼布局液冷服務器

每日經濟新聞 2026-02-15 19:35:15
7 跟貼 7
千問總裁吳嘉回應千問爆火：堅信中國的AI應用領域會走在世界前列

華爾街見聞官方 2026-02-15 18:57:23
8 跟貼 8

Being-VL的視覺BPE路線：把「看」和「說」真正統一起來

機器之心Pro 2025-10-09 10:59:57
0 跟貼 0

為什么說這兩位男子，是家裝領域的天花板？

司偉祺 2026-02-14 10:50:24
1 跟貼 1
眼睛看到未必是真，視覺假象暗藏玄機，眼睛真的會騙人

搞笑君來了 2026-02-14 00:00:00
0 跟貼 0

網抄大的海星和海螺，看香港人怎么殺的，一百塊一斤

盧師傅的燒臘日常 2026-02-15 14:20:07
1 跟貼 1
臉都吃崩了，嚴重變形，好可惜啊！

潘小七的田園生活 2026-02-15 03:38:35
0 跟貼 0
小章趕海又找到好地方啦！各種海螺隨便撿！石塊掀開全是八爪魚！

小章趕海 2026-02-12 16:16:00
0 跟貼 0
小章趕海居撿到這么大的海螺，沙灘上的海鮮也多到撿不過來！

半夏微涼qvq 2026-02-12 03:22:12
0 跟貼 0
向春的海螺賣完了，再有兩天過年了，今天就開懷暢飲吧

漁村老桑 2026-02-14 17:06:41
0 跟貼 0
對海螺來說就是酷刑，和脫肛沒區別，難怪不讓長時間大便！

欣欣旅行家 2026-02-15 09:33:03
9 跟貼 9
天花板好萊塢大片！愿祖國繁榮昌盛，山河無恙！

龍三條 2026-02-15 05:10:42
0 跟貼 0
被稱為“中國神獸”，全世界三只中國有兩只，美國疑似發現第4只

鬧騰的妮子 2026-02-15 12:16:08
0 跟貼 0
取這種螺肉為什么要這么緊張呢？

云初搞笑 2026-02-13 17:13:30
3 跟貼 3
公認零差評的6部科幻片，每部都是視覺盛宴

小Q侃電影 2026-02-15 19:20:52
3 跟貼 3
這不是失誤，是即興團隊協作天花板！娃們太牛了！

烽火三月佳人三千 2026-02-16 03:40:17
0 跟貼 0
豪宅天花板的超大客廳，感受下騎行的快樂，就是交不起空調費！

超級搞笑錄 2026-02-12 18:19:00
0 跟貼 0
微胖級別天花板，這樣的小姐姐娶回家幸福指數滿滿！

小逸兒 2026-02-15 13:15:28
0 跟貼 0
盧浮宮又出事！水管破裂，200年名畫遭殃了

英國那些事兒 2026-02-15 23:29:44
0 跟貼 0
新聞追蹤｜墻皮脫落隱患徹底排除居民終于能安心過年

新浪財經 2026-02-15 21:54:22
0 跟貼 0
樓上擾民沒有好辦法，下面業主陪他玩痛快，傷敵八百自損一千！

搞笑小河馬 2026-02-14 14:38:31
2 跟貼 2
好神奇！視覺的錯位沖擊，在看就要睡著了

講事的少少 2026-02-15 10:45:49
1 跟貼 1
養了八年的蚌，打開一看，就沒見過這樣的珍珠

楠楓說娛 2026-02-15 17:54:21
1 跟貼 1
逛花展迎新春

新浪財經 2026-02-15 19:47:09
0 跟貼 0
全景視覺的Depth Anything來了！

機器之心Pro 2025-12-29 16:54:58
0 跟貼 0
仿真落地三難點：物理、視覺、交互

量子位 2025-12-12 04:34:09
0 跟貼 0
大型鋁板墻面制作波浪形研磨紋理

甜甜喵搞笑 2026-02-11 11:41:37
16 跟貼 16
海螺不能隨便撿，否則一不小心，就能讓你瞬間“嗝屁”！

沙雕劇場 2026-02-15 13:07:35
0 跟貼 0
美媒發出感慨：美國過時了中國出乎意料成了熱門

環球時報 2026-02-15 12:00:05
14964 跟貼 14964
笑死，一只19歲的貍花貓連干6個英國首相，火遍全球！網友狂贊：好牛的貓！

貓咪愛上喵星人 2026-02-15 23:05:05
0 跟貼 0
“地球巨眼捕捉百米死神，見證超視覺奇觀！”

星云母體在分娩n 2026-02-14 01:56:34
3 跟貼 3
鄭州配眼鏡推薦：三條路把錢花明白，舒適清晰一步到位

影像渭南 2026-02-16 01:33:03
0 跟貼 0
美游客拒歸2400小時，西方濾鏡破碎打臉太響

你是我心中最美星空 2026-02-16 03:06:26
4 跟貼 4
095首艇亮相，補齊中國海軍最后一塊短板！它有哪些技術亮點

搞笑著哥 2026-02-16 03:52:33
0 跟貼 0
顛覆近程防空：中國實現東風-17技術下放，曝光6馬赫高超聲速炮彈

趕山的姑娘 2026-02-15 04:10:21
0 跟貼 0
大逆轉！最低溫-1℃！冷空氣即將抵達廣西

環球網資訊 2026-02-15 15:34:20
58 跟貼 58
小鳥從小比較嬌貴，必須要手養它才行，有了模型養幾十只不是問題

發怒的福貓 2026-02-13 13:39:20
2 跟貼 2

筱梅提前報喜：小寶貝迫不及待，奔赴新年與溫暖

觀察鑒娛

2026-02-12 11:53:34

訂單與股價齊飛！AI引爆需求，這個傳統板塊成了“香饃饃”

證券時報

2026-02-15 18:14:05

國防部直接把話挑明了，家里有滿18歲男青年必須辦的就是兵役登記

南權先生

2026-02-12 15:38:28

52歲龍丹妮上熱搜，網友：舞是龍丹妮跳的，面子是前男友李維丟的

她時尚丫

2026-02-13 22:55:36

古天樂被追問旗下女演員周秀娜被告事件，他非常平靜地說了三個字

黃河新聞網呂梁頻道

2026-02-15 10:43:54

2026是赤馬年，60年一遇，記得：1躲，2穿，3注意

讀書文史

2026-02-15 16:24:49

中戲風波持續發酵！王鑫在職期間3人免試入編，易烊千璽飽受質疑

法老不說教

2026-02-15 23:24:29

“把瓦房當紫禁城了？”老年人在飯桌上說教，被00后懟到啞口無言

妍妍教育日記

2026-02-15 08:15:08

太遺憾了！短道速滑女子3000米接力最后時刻被單吃無緣A組決賽！

籃球資訊達人

2026-02-15 05:35:04

美媒重排24年選秀！狀元暴跌至13名火箭隊謝潑德第5馬刺成大贏家

鍋子籃球

2026-02-15 22:35:02

農村到底蕭條到了啥程度？我在村里住了三個月，說幾句刺耳的話

復轉這些年

2026-02-11 23:59:46

男子花80塊錢請人畫畫，付款時，要了張收據，50年后，這張收據賣了180萬

霹靂炮

2026-02-14 20:47:47

小卡開炮全明星賽！萊昂納德直言：這賽制根本沒人想認真打

體育閑話說

2026-02-15 14:19:21

以色列已經告訴世界：日本若敢擁有核武器，美國并不會第一個翻臉

八斗小先生

2025-12-26 09:33:27

除夕三不擺，來年不惹災”，這3樣水果別上桌，易鬧笑話壞彩頭

小陸搞笑日常

2026-02-13 05:58:45

男人別碰四五十歲的女人，她們有2個地方你“惹不起”！

加油丁小文

2026-01-16 22:16:00

【微特稿】不顧法院保護令　美國將9人秘密驅逐至喀麥隆

新華社

2026-02-15 20:38:11

布朗尼情人節曬與女友合影！兩人都是星二代已見過雙方父母

Emily說個球

2026-02-15 20:40:18

“學習學傻了吧？”女孩曬滿墻獎狀，挑釁有錢人被嘲：頭腦不清醒

妍妍教育日記

2026-02-14 17:00:28

中烏極罕見一幕發生，普京和特朗普全都沒想到：澤連斯基敢這樣說

牛鍋巴小釩

2026-02-16 02:38:23

賽博禪心

拜AI古佛，修賽博禪心

293文章數 36關注度

往期回顧全部

科技要聞

發春節紅包的大廠都被約談了

頭條要聞

大學生寒假為媽媽店鋪當中老年服裝模特撞臉明星

頭條要聞

大學生寒假為媽媽店鋪當中老年服裝模特撞臉明星

體育要聞

NBA三分大賽:利拉德帶傷第三次奪冠

娛樂要聞

2026央視春晚最新劇透重量級嘉賓登場

財經要聞

誰在掌控你的胃？起底百億"飄香劑"江湖

汽車要聞

奔馳中國換帥：段建軍離任，李德思接棒

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

游戲

數碼

手機

公開課

本地新聞

春花齊放2026：《駿馬奔騰迎新歲》

LPL第一賽段還未結束，亞運會已有3隊退出LOL比賽，包括東道主

數碼要聞

盲測顯示：音頻發燒友無法分辨銅線、香蕉與濕泥傳輸的音頻信號

手機要聞

榮耀Magic V6真機現身，圓形Deco、紅色機身

公開課

手機 / 數碼

房產 / 家居

視覺生成的隱藏天花板｜VTP：MiniMax海螺視頻首次開源 · 技術解讀

發春節紅包的大廠都被約談了

大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

NBA三分大賽:利拉德帶傷第三次奪冠

2026央視春晚最新劇透 重量級嘉賓登場

誰在掌控你的胃？起底百億"飄香劑"江湖

奔馳中國換帥：段建軍離任，李德思接棒

態度原創

春花齊放2026：《駿馬奔騰迎新歲》

LPL第一賽段還未結束，亞運會已有3隊退出LOL比賽，包括東道主

盲測顯示：音頻發燒友無法分辨銅線、香蕉與濕泥傳輸的音頻信號

榮耀Magic V6真機現身，圓形Deco、紅色機身

大學生寒假為媽媽店鋪當中老年服裝模特撞臉明星

大學生寒假為媽媽店鋪當中老年服裝模特撞臉明星

2026央視春晚最新劇透重量級嘉賓登場