<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      視覺生成的隱藏天花板|VTP:MiniMax海螺視頻首次開源 · 技術解讀

      0
      分享至

      MiniMax 的視頻向來很頂,但技術上一直是個黑盒

      剛剛,海螺團隊第一次自揭面紗,帶來了首個開源項目:VTP
      Visual Tokenizer Pre-training

      VTP 這東西非常有趣:搞圖像、視頻生成的團隊,或都能因此受益


      Tech Report

      先做個信息鋪墊,現在主流的 AI 生圖模型,底層都是兩步走:

      第一步,壓縮
      把一張圖像壓縮成一組數字,這組數字能代表這張圖的核心信息

      第二步,生成
      AI 在這組數字的空間里做生成,生成完再還原成圖像


      兩階段架構

      其中,負責第一步的模塊,就叫「分詞器」,Tokenizer;負責第二步的,則是擴散模型Diffusion Model

      論文中,發現一個反直覺的現象
      分詞器訓練得越久,還原能力越強,生成效果反而越差
      論文把這個困境叫做預訓練縮放問題


      預訓練縮放問題

      進一步,論文中也發現了
      讓分詞器學會「理解」,比學會「還原」更重要
      論文管這叫理解力驅動生成

      于是,對于分詞器,就有了

      理解力越強,壓出的數字越有意義,擴散模型越容易學,生成效果越好
      問題在哪

      視覺分詞器是怎么訓練的?
      傳統做法,是讓它學「重建」:把圖像壓縮成一組數字,再從這組數字還原回圖像,還原得越接近原圖越好

      這個訓練目標聽起來很合理
      壓縮再還原,損失越小,說明這組數字保留的信息越完整

      但論文做了一組實驗,發現了問題


      訓練越久,重建越好,生成越差

      具體來說,就是,隨著訓練時間增加,模型產生了一些有趣的現象

      重建能力持續變強
      rFID(衡量還原質量,越小越好)從2.0降到0.5

      生成能力持續變差
      gFID(衡量生成質量,越小越好)從55漲到58

      這就是論文定義的「預訓練縮放問題」(Pre-training Scaling Problem):你往視覺分詞器里砸再多算力,也換不來更好的生成效果


      持續投入,并不會帶來顯著結果

      對于做圖像生成、視頻生成的團隊來說,這是個壞消息
      論文數據顯示,傳統方法在總算力的1/10處就開始停滯了
      之后再加算力,生成效果不升反降

      為什么會這樣

      重建任務,讓模型學錯了東西
      論文給出了這樣的解釋

      當視覺分詞器學習「還原像素」時,它會把注意力放在「底層信息」上:
      邊緣在哪紋理是什么樣顏色的精確數值是多少
      這些信息對于「還原」很重要
      像素級的細節越準確,還原出來的圖像越接近原圖


      底層信息(重建) vs 高層語義(生成)

      但生成的時候,其實需要的不是這些
      生成模型需要的是「高層語義」:
      這張圖里有什么東西是什么場景物體之間是什么關系整體氛圍是什么

      在分詞器被過度訓練后,通過它的到的信息,就會更偏向于「底層信息」,而非「高層語義
      到了生成的時候,,很難從中「理解」圖像應該是什么樣的,效果自然變差

      于是,從結果上,我們就看到了做得越好,效果越差
      (像不像辦公室里,讓你加班改細節的老板)


      理解力與生成質量的關系

      可以看一下這個圖,是論文的核心發現
      對于傳統自編碼器,理解力和生成質量都卡在左下角,增加訓練量也不動
      對于 VTP(紅色點),理解力越強,生成質量越好,持續往右上角走

      綜上:理解力才是驅動生成的關鍵因素

      怎么解決

      既然問題定位到了:分詞器學偏了
      那么,解決方案也很清晰:讓分詞器學全
      一邊學重建,一邊學理解

      VTP 正式這個思路
      把三種訓練目標合在一起,聯合優化

      其一、圖文對比學習

      圖文對比學習這一過程中,VTP 采用 CLIP 的訓練方式

      大致是這樣 給模型看大量的「圖像 + 文字描述」配對數據,讓圖像壓縮出來的數字表示和對應文字的數字表示靠近

      比如,給一張狗的照片,壓縮后的數字表示要和「一只金毛犬在草地上奔跑」這句話的數字表示相似


      圖文對比學習

      這樣視覺分詞器在壓縮圖像時,就會保留語義信息,知道這張圖「是什么」

      其二、感知空間結構

      感知空間結構中,VTP 采用 DINOv2 的訓練方式,具體包括兩類任務

      第一類:
      遮住圖像的一部分,讓模型預測被遮住的內容
      這迫使模型理解圖像的整體結構,而不是只記住局部像素

      第二類
      是對同一張圖像做不同的裁剪和變換,讓模型輸出的表示保持一致

      這樣,模型就會被迫使著學習圖像的本質特征,而不是被具體的像素值干擾


      通過自監督,學習空間結構其三、像素重建

      上面說了,要一邊學重建,一邊學理解
      所以,傳統的還原任務不能完全丟掉,但權重要調低

      論文發現,把重建任務的損失權重設成0.1,對生成效果最好
      (相比而言,理解任務的權重為1.0


      權重需要調整

      至此,把這三個目標聯合訓練,讓視覺分詞器同時具備三種能力
      理解圖像內容感知空間結構保留像素細節


      就這樣,VTP 有了三種能力

      額外的,VTP 用的是 Vision Transformer(ViT),不是傳統的 CNN
      實驗數據顯示,ViT 架構在同等配置下生成效果更好,計算量還更低

      還有一個有關于 batch size 的細節
      不同訓練任務,對 batch size 的需求差異很大:

      • ? 圖文對比學習需要很大的 batch(16k

      • ? 自監督和重建任務用小 batch 就夠(4k2k


      對于 batch 這個問題,解決方法是這樣:
      每個 batch 里,全部樣本用于圖文對比學習,隨機抽取一部分用于自監督和重建

      效果如何

      論文做了大量對比實驗,從三個維度驗證 VTP 的效果

      維度一:理解、重建、生成的關系

      先看下對比吧

      純重建訓練:越練越差


      重建越好、生成越差

      隨著訓練時間增加:

      • ? 重建能力持續變強:rFID2.07降到0.51

      • ? 生成能力反而變差:gFID55.04漲到58.56

      加入理解任務:三項全漲


      CLIP+SSL+AE 聯合訓練

      用 CLIP + SSL + 重建 聯合訓練后:

      • ? 生成能力大幅提升:gFID降到27.8

      • ? 理解能力同步提升:Linear Probe 達到74.9%

      • ? 重建能力也沒掉:rFID降到0.36

      三種能力不沖突,可以同時提升

      維度二:縮放特性

      傳統方法存在天花板,VTP 則打破了這個天花板


      縮放特性對比:算力、參數、數據

      數據縮放

      • ? 傳統自編碼器:訓練數據從 10 萬張擴到 1 億張,gFID只從58.37降到56.71

      • ? VTP:同樣的數據擴展,gFID47.59降到27.45

      算力縮放

      • ? 傳統自編碼器:算力增加到1/10處就停滯,之后gFID不降反升

      • ? VTP:算力增加10倍,gFID提升65.8%,曲線仍在下降

      參數縮放

      • ? 傳統自編碼器:模型從20M參數擴到300M參數,gFID卡在57不動

      • ? VTP:模型從 Small 到 Large,gFID31.28降到26.12

      這意味著:在視覺分詞器階段投入更多資源,終于能換來持續的回報了

      維度三:與現有方法對比VTP 與主流方案的效果對比

      • ? VTP-L 在理解能力上超過了原版 CLIP(78.2%vs75.5%

      • ? 在重建能力上超過了 Stable Diffusion 的 VAE(rFID 0.36vs0.63

      • ? 在生成能力上超過了此前的改進方法 VA-VAE(gFID 2.81vs4.29

      收斂速度方面:

      • ? 比 VA-VAE 快4.1 倍

      • ? 比原版 LDM 快5.7 倍

      收斂速度 最后

      MiniMax 的視頻能力很能打,實屬第一梯隊,但技術上幾乎不對外

      而 MiniMax 這次的開源,選了視覺分詞器這個方向,去嘗試解決一個行業里很多人遇到過、但沒人系統解釋過的問題:
      為什么分詞器訓得越好,生成效果反而沒提升

      過去一年的動作看,隔段時間,總能掏出點新東西

      論文
      https://huggingface.co/papers/2512.13687

      模型
      https://huggingface.co/collections/MiniMaxAI/vtp

      代碼
      https://github.com/MiniMax-AI/VTP

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美國批準對臺軍售,不到48小時,商務部:對美征收最高222%關稅

      美國批準對臺軍售,不到48小時,商務部:對美征收最高222%關稅

      素年文史
      2025-12-20 13:18:17
      河南美女“大晨”去世,年僅28歲,開的奧迪,喝酒畫面曝光引唏噓

      河南美女“大晨”去世,年僅28歲,開的奧迪,喝酒畫面曝光引唏噓

      詩意世界
      2025-12-17 10:00:03
      山本五十六在偷襲珍珠港成功后,仰天長嘆:日本已經輸掉了戰爭

      山本五十六在偷襲珍珠港成功后,仰天長嘆:日本已經輸掉了戰爭

      興趣知識
      2025-12-04 20:57:11
      空砍36+4+3!我追不上老詹,哈登賽后無奈請求,泰倫盧也承認事實

      空砍36+4+3!我追不上老詹,哈登賽后無奈請求,泰倫盧也承認事實

      巴叔GO聊體育
      2025-12-21 15:54:01
      湖南永州醫生被控強奸兩未成年女孩一案開庭再審,將擇期宣判

      湖南永州醫生被控強奸兩未成年女孩一案開庭再審,將擇期宣判

      澎湃新聞
      2025-12-21 10:46:27
      明宣宗朱瞻基陵墓,下周一開放

      明宣宗朱瞻基陵墓,下周一開放

      上觀新聞
      2025-12-20 16:31:19
      良心股啊!股價低至2元的中字頭,回購10億用于注銷,歷史首次

      良心股啊!股價低至2元的中字頭,回購10億用于注銷,歷史首次

      鵬哥投研
      2025-12-21 09:35:21
      衛冕冠軍贏得驚險,強援爆發獨砍41分,遼籃舊將12中4空砍11+4+6

      衛冕冠軍贏得驚險,強援爆發獨砍41分,遼籃舊將12中4空砍11+4+6

      萌蘭聊個球
      2025-12-21 21:42:38
      普京再談烏克蘭總統選舉 澤連斯基回應

      普京再談烏克蘭總統選舉 澤連斯基回應

      財聯社
      2025-12-21 18:14:07
      來考察誰?男籃主帥郭士強現身廣廈上海比賽現場

      來考察誰?男籃主帥郭士強現身廣廈上海比賽現場

      懂球帝
      2025-12-21 19:26:08
      冬至了,地球比夏至距離太陽更近500萬公里,為何反而更冷?

      冬至了,地球比夏至距離太陽更近500萬公里,為何反而更冷?

      火星一號
      2025-12-20 22:53:16
      金宇彬申敏兒婚禮星光熠熠!都暻秀驚喜現身義氣滿分

      金宇彬申敏兒婚禮星光熠熠!都暻秀驚喜現身義氣滿分

      一盅情懷
      2025-12-21 16:10:17
      三亞私人影院曝光后續,3名00后女孩被查,1499可以點兩個小姐姐

      三亞私人影院曝光后續,3名00后女孩被查,1499可以點兩個小姐姐

      天天熱點見聞
      2025-12-21 16:34:23
      1959 年,特赦后的邱行湘打算去做搬運工糊口,周總理了解情況后告訴他:“你是國家干部啊!”

      1959 年,特赦后的邱行湘打算去做搬運工糊口,周總理了解情況后告訴他:“你是國家干部啊!”

      源溯歷史
      2025-12-21 15:01:27
      美國史上最大對臺軍售,面對111門海馬斯,我軍如何打?

      美國史上最大對臺軍售,面對111門海馬斯,我軍如何打?

      兵國大事
      2025-12-19 00:05:16
      穿毛筆字的衣服,粉絲表示漢字不算中文

      穿毛筆字的衣服,粉絲表示漢字不算中文

      章眽八卦
      2025-12-21 14:40:24
      出嫁前3天彩禮漲到28.8萬后續:男方堅持退婚,女子曝光已社死

      出嫁前3天彩禮漲到28.8萬后續:男方堅持退婚,女子曝光已社死

      千言娛樂記
      2025-12-13 18:34:13
      童瑤胸貼露出來了

      童瑤胸貼露出來了

      手工制作阿殲
      2025-12-15 12:20:21
      1966年,27歲的胡友松發現生理期沒正常來,便問75歲的丈夫李宗仁

      1966年,27歲的胡友松發現生理期沒正常來,便問75歲的丈夫李宗仁

      忠于法紀
      2025-12-18 19:56:53
      官方:中超升班馬遼寧鐵人簽下36歲原浙江隊中場李提香

      官方:中超升班馬遼寧鐵人簽下36歲原浙江隊中場李提香

      懂球帝
      2025-12-21 16:15:11
      2025-12-21 22:00:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      218文章數 12關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      46歲獨居女子離世遺產歸公買墓地遇難題 最新進展公布

      頭條要聞

      46歲獨居女子離世遺產歸公買墓地遇難題 最新進展公布

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      藝術
      游戲
      房產
      家居
      公開課

      藝術要聞

      俄羅斯畫家尼古拉·波格丹諾夫·貝爾斯基人物繪畫作品

      國產第一AD慘遭暴打?昔日LPL全華班之光地獄歸來,iG淪為弱旅

      房產要聞

      中交·藍色港灣一周年暨藍調生活沙龍圓滿舉行

      家居要聞

      高端私宅 理想隱居圣地

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99热这里只有精品免费播放| 樱花影院电视剧免费| 免费观看全黄做爰的视频| 国产精品午夜福利在线观看| 亚洲人网站| 久久亚洲V无码专区成人| 午夜dv内射一区二区| 夜夜躁很很躁日日躁麻豆| 欧美亚洲另类制服卡通动漫| 日韩老无码| 亚洲网成人| 内射囯产旡码丰满少妇| 精品国产品香蕉在线| 亚洲日本韩国欧美云霸高清| 精品制服丝袜亚洲专区| 狠狠色成人| 免费观看日本污污ww网站| 夜夜高潮天天爽欧美| 亚洲丰满熟女一区二区v| 欧美丝袜你懂的| 国内自拍欧美亚洲| 97人洗澡人人澡人人爽人人模| 国产视色精品亚洲一区二区| A片网| 欧美成人天堂| 性欧美丰满熟妇xxxx性| 午夜爽爽爽男女免费观看影院| 91视频精选| 人妻综合在线| 18禁美女裸身无遮挡免费网站| 老熟妇乱子交视频一区| 91热视频| 国产成人无码一二三区视频| 又色又爽又黄的视频网站| 无套内谢少妇毛片aaaa片免费| 波多野结衣AV不卡无码| 亚洲伊人网站| 久久久www影院人成_免费| 在线观看热码亚洲av每日更新| 国产精品99久久久久久成人| 无码精品国产va在线观看|