<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      視覺生成的隱藏天花板|VTP:MiniMax海螺視頻首次開源 · 技術解讀

      0
      分享至

      MiniMax 的視頻向來很頂,但技術上一直是個黑盒

      剛剛,海螺團隊第一次自揭面紗,帶來了首個開源項目:VTP
      Visual Tokenizer Pre-training

      VTP 這東西非常有趣:搞圖像、視頻生成的團隊,或都能因此受益


      Tech Report

      先做個信息鋪墊,現在主流的 AI 生圖模型,底層都是兩步走:

      第一步,壓縮
      把一張圖像壓縮成一組數字,這組數字能代表這張圖的核心信息

      第二步,生成
      AI 在這組數字的空間里做生成,生成完再還原成圖像


      兩階段架構

      其中,負責第一步的模塊,就叫「分詞器」,Tokenizer;負責第二步的,則是擴散模型Diffusion Model

      論文中,發現一個反直覺的現象
      分詞器訓練得越久,還原能力越強,生成效果反而越差
      論文把這個困境叫做預訓練縮放問題


      預訓練縮放問題

      進一步,論文中也發現了
      讓分詞器學會「理解」,比學會「還原」更重要
      論文管這叫理解力驅動生成

      于是,對于分詞器,就有了

      理解力越強,壓出的數字越有意義,擴散模型越容易學,生成效果越好
      問題在哪

      視覺分詞器是怎么訓練的?
      傳統做法,是讓它學「重建」:把圖像壓縮成一組數字,再從這組數字還原回圖像,還原得越接近原圖越好

      這個訓練目標聽起來很合理
      壓縮再還原,損失越小,說明這組數字保留的信息越完整

      但論文做了一組實驗,發現了問題


      訓練越久,重建越好,生成越差

      具體來說,就是,隨著訓練時間增加,模型產生了一些有趣的現象

      重建能力持續變強
      rFID(衡量還原質量,越小越好)從2.0降到0.5

      生成能力持續變差
      gFID(衡量生成質量,越小越好)從55漲到58

      這就是論文定義的「預訓練縮放問題」(Pre-training Scaling Problem):你往視覺分詞器里砸再多算力,也換不來更好的生成效果


      持續投入,并不會帶來顯著結果

      對于做圖像生成、視頻生成的團隊來說,這是個壞消息
      論文數據顯示,傳統方法在總算力的1/10處就開始停滯了
      之后再加算力,生成效果不升反降

      為什么會這樣

      重建任務,讓模型學錯了東西
      論文給出了這樣的解釋

      當視覺分詞器學習「還原像素」時,它會把注意力放在「底層信息」上:
      邊緣在哪紋理是什么樣顏色的精確數值是多少
      這些信息對于「還原」很重要
      像素級的細節越準確,還原出來的圖像越接近原圖


      底層信息(重建) vs 高層語義(生成)

      但生成的時候,其實需要的不是這些
      生成模型需要的是「高層語義」:
      這張圖里有什么東西是什么場景物體之間是什么關系整體氛圍是什么

      在分詞器被過度訓練后,通過它的到的信息,就會更偏向于「底層信息」,而非「高層語義
      到了生成的時候,,很難從中「理解」圖像應該是什么樣的,效果自然變差

      于是,從結果上,我們就看到了做得越好,效果越差
      (像不像辦公室里,讓你加班改細節的老板)


      理解力與生成質量的關系

      可以看一下這個圖,是論文的核心發現
      對于傳統自編碼器,理解力和生成質量都卡在左下角,增加訓練量也不動
      對于 VTP(紅色點),理解力越強,生成質量越好,持續往右上角走

      綜上:理解力才是驅動生成的關鍵因素

      怎么解決

      既然問題定位到了:分詞器學偏了
      那么,解決方案也很清晰:讓分詞器學全
      一邊學重建,一邊學理解

      VTP 正式這個思路
      把三種訓練目標合在一起,聯合優化

      其一、圖文對比學習

      圖文對比學習這一過程中,VTP 采用 CLIP 的訓練方式

      大致是這樣 給模型看大量的「圖像 + 文字描述」配對數據,讓圖像壓縮出來的數字表示和對應文字的數字表示靠近

      比如,給一張狗的照片,壓縮后的數字表示要和「一只金毛犬在草地上奔跑」這句話的數字表示相似


      圖文對比學習

      這樣視覺分詞器在壓縮圖像時,就會保留語義信息,知道這張圖「是什么」

      其二、感知空間結構

      感知空間結構中,VTP 采用 DINOv2 的訓練方式,具體包括兩類任務

      第一類:
      遮住圖像的一部分,讓模型預測被遮住的內容
      這迫使模型理解圖像的整體結構,而不是只記住局部像素

      第二類
      是對同一張圖像做不同的裁剪和變換,讓模型輸出的表示保持一致

      這樣,模型就會被迫使著學習圖像的本質特征,而不是被具體的像素值干擾


      通過自監督,學習空間結構其三、像素重建

      上面說了,要一邊學重建,一邊學理解
      所以,傳統的還原任務不能完全丟掉,但權重要調低

      論文發現,把重建任務的損失權重設成0.1,對生成效果最好
      (相比而言,理解任務的權重為1.0


      權重需要調整

      至此,把這三個目標聯合訓練,讓視覺分詞器同時具備三種能力
      理解圖像內容感知空間結構保留像素細節


      就這樣,VTP 有了三種能力

      額外的,VTP 用的是 Vision Transformer(ViT),不是傳統的 CNN
      實驗數據顯示,ViT 架構在同等配置下生成效果更好,計算量還更低

      還有一個有關于 batch size 的細節
      不同訓練任務,對 batch size 的需求差異很大:

      • ? 圖文對比學習需要很大的 batch(16k

      • ? 自監督和重建任務用小 batch 就夠(4k2k


      對于 batch 這個問題,解決方法是這樣:
      每個 batch 里,全部樣本用于圖文對比學習,隨機抽取一部分用于自監督和重建

      效果如何

      論文做了大量對比實驗,從三個維度驗證 VTP 的效果

      維度一:理解、重建、生成的關系

      先看下對比吧

      純重建訓練:越練越差


      重建越好、生成越差

      隨著訓練時間增加:

      • ? 重建能力持續變強:rFID2.07降到0.51

      • ? 生成能力反而變差:gFID55.04漲到58.56

      加入理解任務:三項全漲


      CLIP+SSL+AE 聯合訓練

      用 CLIP + SSL + 重建 聯合訓練后:

      • ? 生成能力大幅提升:gFID降到27.8

      • ? 理解能力同步提升:Linear Probe 達到74.9%

      • ? 重建能力也沒掉:rFID降到0.36

      三種能力不沖突,可以同時提升

      維度二:縮放特性

      傳統方法存在天花板,VTP 則打破了這個天花板


      縮放特性對比:算力、參數、數據

      數據縮放

      • ? 傳統自編碼器:訓練數據從 10 萬張擴到 1 億張,gFID只從58.37降到56.71

      • ? VTP:同樣的數據擴展,gFID47.59降到27.45

      算力縮放

      • ? 傳統自編碼器:算力增加到1/10處就停滯,之后gFID不降反升

      • ? VTP:算力增加10倍,gFID提升65.8%,曲線仍在下降

      參數縮放

      • ? 傳統自編碼器:模型從20M參數擴到300M參數,gFID卡在57不動

      • ? VTP:模型從 Small 到 Large,gFID31.28降到26.12

      這意味著:在視覺分詞器階段投入更多資源,終于能換來持續的回報了

      維度三:與現有方法對比VTP 與主流方案的效果對比

      • ? VTP-L 在理解能力上超過了原版 CLIP(78.2%vs75.5%

      • ? 在重建能力上超過了 Stable Diffusion 的 VAE(rFID 0.36vs0.63

      • ? 在生成能力上超過了此前的改進方法 VA-VAE(gFID 2.81vs4.29

      收斂速度方面:

      • ? 比 VA-VAE 快4.1 倍

      • ? 比原版 LDM 快5.7 倍

      收斂速度 最后

      MiniMax 的視頻能力很能打,實屬第一梯隊,但技術上幾乎不對外

      而 MiniMax 這次的開源,選了視覺分詞器這個方向,去嘗試解決一個行業里很多人遇到過、但沒人系統解釋過的問題:
      為什么分詞器訓得越好,生成效果反而沒提升

      過去一年的動作看,隔段時間,總能掏出點新東西

      論文
      https://huggingface.co/papers/2512.13687

      模型
      https://huggingface.co/collections/MiniMaxAI/vtp

      代碼
      https://github.com/MiniMax-AI/VTP

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      觀察鑒娛
      2026-02-12 11:53:34
      訂單與股價齊飛!AI引爆需求,這個傳統板塊成了“香饃饃”

      訂單與股價齊飛!AI引爆需求,這個傳統板塊成了“香饃饃”

      證券時報
      2026-02-15 18:14:05
      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      南權先生
      2026-02-12 15:38:28
      52歲龍丹妮上熱搜,網友:舞是龍丹妮跳的,面子是前男友李維丟的

      52歲龍丹妮上熱搜,網友:舞是龍丹妮跳的,面子是前男友李維丟的

      她時尚丫
      2026-02-13 22:55:36
      古天樂被追問旗下女演員周秀娜被告事件,他非常平靜地說了三個字

      古天樂被追問旗下女演員周秀娜被告事件,他非常平靜地說了三個字

      黃河新聞網呂梁頻道
      2026-02-15 10:43:54
      2026是赤馬年,60年一遇,記得:1躲,2穿,3注意

      2026是赤馬年,60年一遇,記得:1躲,2穿,3注意

      讀書文史
      2026-02-15 16:24:49
      中戲風波持續發酵!王鑫在職期間3人免試入編,易烊千璽飽受質疑

      中戲風波持續發酵!王鑫在職期間3人免試入編,易烊千璽飽受質疑

      法老不說教
      2026-02-15 23:24:29
      “把瓦房當紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

      “把瓦房當紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

      妍妍教育日記
      2026-02-15 08:15:08
      太遺憾了!短道速滑女子3000米接力最后時刻被單吃無緣A組決賽!

      太遺憾了!短道速滑女子3000米接力最后時刻被單吃無緣A組決賽!

      籃球資訊達人
      2026-02-15 05:35:04
      美媒重排24年選秀!狀元暴跌至13名 火箭隊謝潑德第5馬刺成大贏家

      美媒重排24年選秀!狀元暴跌至13名 火箭隊謝潑德第5馬刺成大贏家

      鍋子籃球
      2026-02-15 22:35:02
      農村到底蕭條到了啥程度?我在村里住了三個月,說幾句刺耳的話

      農村到底蕭條到了啥程度?我在村里住了三個月,說幾句刺耳的話

      復轉這些年
      2026-02-11 23:59:46
      男子花80塊錢請人畫畫,付款時,要了張收據,50年后,這張收據賣了180萬

      男子花80塊錢請人畫畫,付款時,要了張收據,50年后,這張收據賣了180萬

      霹靂炮
      2026-02-14 20:47:47
      小卡開炮全明星賽!萊昂納德直言:這賽制根本沒人想認真打

      小卡開炮全明星賽!萊昂納德直言:這賽制根本沒人想認真打

      體育閑話說
      2026-02-15 14:19:21
      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      八斗小先生
      2025-12-26 09:33:27
      除夕三不擺,來年不惹災”,這3樣水果別上桌,易鬧笑話壞彩頭

      除夕三不擺,來年不惹災”,這3樣水果別上桌,易鬧笑話壞彩頭

      小陸搞笑日常
      2026-02-13 05:58:45
      男人別碰四五十歲的女人,她們有2個地方你“惹不起”!

      男人別碰四五十歲的女人,她們有2個地方你“惹不起”!

      加油丁小文
      2026-01-16 22:16:00
      【微特稿】不顧法院保護令 美國將9人秘密驅逐至喀麥隆

      【微特稿】不顧法院保護令 美國將9人秘密驅逐至喀麥隆

      新華社
      2026-02-15 20:38:11
      布朗尼情人節曬與女友合影!兩人都是星二代 已見過雙方父母

      布朗尼情人節曬與女友合影!兩人都是星二代 已見過雙方父母

      Emily說個球
      2026-02-15 20:40:18
      “學習學傻了吧?”女孩曬滿墻獎狀,挑釁有錢人被嘲:頭腦不清醒

      “學習學傻了吧?”女孩曬滿墻獎狀,挑釁有錢人被嘲:頭腦不清醒

      妍妍教育日記
      2026-02-14 17:00:28
      中烏極罕見一幕發生,普京和特朗普全都沒想到:澤連斯基敢這樣說

      中烏極罕見一幕發生,普京和特朗普全都沒想到:澤連斯基敢這樣說

      牛鍋巴小釩
      2026-02-16 02:38:23
      2026-02-16 05:12:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數 36關注度
      往期回顧 全部

      科技要聞

      發春節紅包的大廠都被約談了

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態度原創

      本地
      游戲
      數碼
      手機
      公開課

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      LPL第一賽段還未結束,亞運會已有3隊退出LOL比賽,包括東道主

      數碼要聞

      盲測顯示:音頻發燒友無法分辨銅線、香蕉與濕泥傳輸的音頻信號

      手機要聞

      榮耀Magic V6真機現身,圓形Deco、紅色機身

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版