<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易科技 > 網易科技 > 正文

      對話靈感實驗室:Glint-MVT v2.0 統一圖像和視頻,助力提升VLM視頻分析效率與能力

      0
      分享至

      出品 | 網易科技《態度》欄目

      作者 | 紀川

      編輯 | 定西

      世界不是由一張張靜態圖片組成的,而是連續流動的視頻。

      但在過去很長一段時間里,AI 處理視頻的方式卻顯得極其笨拙:先把視頻解壓成一幀幀圖片,再像翻連環畫一樣去理解。這種行業慣例帶來了巨大的算力浪費——畢竟,視頻中90% 的信息都是冗余的背景。

      既然視頻本身就是被壓縮過的,為什么非要把它解壓成圖片再分析?這種多此一舉的行業慣例,是不是可以被打破?

      帶著這個問題靈感實驗室新一代視覺基礎模型Glint-MVT v2.0(以下簡稱MVT v2.0)選擇了一條“少有人走的路”——圖像和視頻統一編碼,通過視頻編碼在壓縮域進行高效分析——這正是MVT v2.0的核心突破。

      MVT v2.0利用視頻編碼自帶的運動矢量Motion Vector和殘差(Residual)信息,生成了一張“信息量熱圖”。模型只保留那些包含關鍵動作或細節變化的Patch(圖像塊),而將背景等低信息量的部分直接丟棄。

      這一策略直接減少了 90% 的冗余 Token

      “說到底,我們只是利用了視頻編碼的原理,不再把那些冗余找回來。”靈感實驗室負責人馮子勇解釋道。但這看似簡單的邏輯轉換,卻帶來極大的能力提升:在全幀率分析下,MVT v2.0 的推理速度提升了 任務表現方面,將Glint-MVT v2.0用作VideoLLM的視覺編碼器,在MVBench、VideoMME、Percepton Test等視頻基準上超過Google SigLIP2

      Glint-MVT v2.0任務的表現

      然而,這場突圍并非一蹴而就。

      如果把時間軸拉回幾年前,這支專注底層視覺編碼的團隊其實更像是一群在快車道旁默默修路的人。

       2023 年發布Glint-MVT v1.0 開始,靈感實驗室一直在探索視覺和多模態領域的技術創新。在 v1.0 階段,為了給億張無標注圖片打上偽標簽,他們采用標簽采樣方法來解決噪聲問題;到了v1.1,為了突破單標簽的限制,他們優化了損失函數,讓模型學會一眼看多物;再到v1.5 版本,通過引入專家模型和OCR,把模型對局部細節和文字特征的理解能力拉到了新高度。

      Glint-MVT系列論文:

      1.0:Unicom: Universal and Compact Representation Learning for Image Retrieval

      1.1:Multi-label Cluster Discrimination for Visual Representation Learning

      1.5:Region-based Cluster Discrimination for Visual Representation Learning

      正是一步步的技術積累,才讓他們最終在MVT v2.0 階段打破了圖像與視頻的界限,走通了這條高效分析之路。

      以下是網易科技與靈感實驗室團隊(以下簡稱“靈感”)的對話,經不改變原意的編輯。

      統一圖像與視頻人們看到的世界是視頻,而不是靜態圖片

      網易科技:簡單介紹一下Glint-MVT,從1.01.5版本大概是一個什么樣的情況?這次2.0版本最大的升級是什么?

      靈感:1.01.11.5版本,MVT視覺模型基座的關注點都在圖片上,1.x系列都定義在圖像領域。

      我們在v1.0v1.1時關注的是怎么訓練一個好的圖像編碼器(Encoder)。到了v1.5,我們的重點方向是細粒度,也就是提升局部區域的表征。結果發現到2025年三四月份,各種各樣的模型基本上都是針對這個點來做的,競爭非常激烈。再往下做,只能像大廠那樣堆資源,對我們來說相對困難。

      所以,我們決定在v2.0做一次較大升級。MVT v2.0最大的創新性在于統一支持圖像和視頻,把視頻加進來,統一在一個Encoder里面

      Glint-MVT v2.0方法示意圖

      網易科技:對于你們來說,參與 MVT v2.0 的過程中最興奮的一個瞬間是什么?

      靈感:第一次聽到基于 Codec(編解碼)輸入的結果還可以的時候,那個瞬間最興奮。

      因為做統一支持圖像和視頻視覺編碼器的人還是比較少的,而且我們想顛覆的是把視頻變成圖片流這樣一種根深蒂固的觀念。在這條路上,沒有太多前人的工作可借鑒。當驗證結果出來,說明這個路線是可行的,這給了我們很大的鼓舞。

      網易科技:當前主流做法仍是分別訓練圖像和視頻模型。你們選擇研發圖像和視頻統一的視覺編碼器,這個想法是在什么契機下產生的?是為了解決業務痛點,還是純粹的技術推演?

      靈感:這個想法是幾個方向逐步凝聚在一起,慢慢萌生出來的。既有業務痛點的驅動,也有對技術本質的思考。

      首先,從業務痛點來看,視頻分析在我們的業務(如安防、銀行、體育動作識別等場景)中占據重要地位。

      長期以來,行業慣例是把視頻解碼為一幀幀圖片單獨分析。但這存在一個問題:我們拿到的視頻本來就是被壓縮過的,壓縮后的體積可能只有原來的十分之一,說明大量冗余已經被剔除了。但慣有做法是把冗余解壓回來再分析,這不僅浪費算力,而且性能強依賴于解碼器性能和內存帶寬。既然視頻本身的信息量是滿的,為什么不能直接在壓縮域上做分析?

      其次,從技術推演來看,圖像編碼器這個賽道已經卷到基本沒有空間了,技術發展必然會轉向視頻分析。

      最后,從第一性原理來看,我們看到的世界從來都是視頻,不是靜態圖片。我們的空間推理和事件推理都是構建在視頻之上的。圖片本質上是靜態的視頻,所以視頻是可以包含圖片的。MVT v2.0 就是基于這樣的思考。

      削減90% 視頻Token:只保留“最有信息量”的 Patch

      網易科技:我看到一個數字,MVT v2.0利用視頻編碼信息減少了90%token數量。這意味著什么?請用更通俗的方式解釋,這是如何實現的?

      靈感:90%的減少,是通過只保留最有信息量Patch(圖像塊)實現的。

      視頻編碼器在壓縮視頻時,會自動產生兩種非常寶貴的信號:

      ·MV(運動矢量) 告訴我們哪些塊在動、怎么動。

      ·Residual(殘差) 告訴我們哪些地方預測不準、哪里有細節和邊緣的變化。

      我們將 MV Residual 融合成一張信息量熱圖,熱越高,表示這個區域越可能包含關鍵動作或關鍵細節。然后,我們在每幀只保留一個固定預算的 Top-k 關鍵Patch,把剩余大部分低信息量的Patch 直接扔掉,不再變成Token 輸入。所以,Token 從全量覆蓋變成了預算可控的稀疏輸入,90% 的削減就是這樣來的。

      比如固定攝像頭的監控視頻,很多背景是不動的。說到底,視頻流在傳輸時,冗余部分已經被扔掉了,否則帶寬扛不住。我們只是利用這個原理,不再把那些冗余找回來,直接對變化的部分做分析。

      網易科技:如此大幅度的 Token 削減,如何保證不丟失關鍵信息?在實現效率提升的過程中,你們面臨的最大權衡是什么?

      靈感:我們能在大幅降 Token 的同時盡量保住關鍵信息,核心在于兩點:

      第一,我們刪掉的不是隨機內容,而是低信息量內容MV Residual 本身就是編碼器為了壓縮而標記出的變化難預測細節。它天然在提醒我們:哪里更值得花比特,也就更值得讓模型花算力。因此我們優先保留的區域,往往正是主體動作、交互區域這些理解視頻最關鍵的地方。

      第二,我們做了防止誤選的處理。例如,我們會做全局相機運動補償,把鏡頭平移或抖動造成的整體運動扣掉,避免背景因為鏡頭運動被誤認為很重要,從而把有限的預算更集中在真實運動的主體上。同時MV Residual 是互補的,融合后更穩。

      自左向右分別為:原始視頻、均勻幀采樣(常規用法)、時間顯著性檢測、類編解碼器風格的塊提取

      網易科技:在大模型參數量越來越大的今天,你們似乎在追求一種更輕量、更高效的表達方式。這是否代表你們對未來視覺模型發展方向的一種不同判斷?

      靈感: 覺得參數量擴大是否能帶來更好的性能,或者說能好多少,這才是本質。我們其實是在追求性價比

      如果在這個規模下性能已經很不錯了,再往后堆參數需要耗費巨大的資源但提升不顯著,那就不值得。

      MVT v2.0 中視頻的表達直接來源于視頻Codec,這是基于我們對視頻本質的理解——圖片流本身就是冗余的。我們不盲目追求大參數,而是追求更本質、更高效的表達。

      網易科技:了解到 MVT v2.0 可以應用于VLM(視覺語言模型)。這是否意味著它的目標是成為下一代多模態大模型的視覺編碼器?與目前主流的VLM 視覺編碼器相比,優勢體現在哪里?

      靈感:是的,我們內部已經驗證了它作為 VLM 視覺底座的效果。與目前主流的模型相比,優勢主要體現在:

      ·性能上:在全幀率分析的情況下,我們能提速 5

      ·效果上:視頻理解任務效果超過了 SigLIP2

      ·功能上:原生支持全幀率和高速運動分析,這是傳統抽幀方案很難做到的。

      技術好奇心與野心探索視覺特征表達的新路徑

      網易科技:這項技術突破,最先會應用到哪些產品或解決方案中?

      靈感:像安防或銀行的視頻分析產品中立刻就可以應用。因為 MVT v2.0 可以進行全幀率分析,像打斗、快速奔跑等這些快速動作的識別,以前因為算力限制很難做全幀率,現在都可以應用上了。

      此外,我們認為凡是涉及快速運動、高幀率視頻分析的場景都可以受益,比如具身智能(機器人需要實時感知和響應動作變化)。

      網易科技:回看MVT1.01.5再到現在的2.0,這條技術路線上,有沒有哪個階段是團隊感到最迷茫的?

      靈感:是在 1.5 版本推出之前。

      v1.0 v1.1 的時候,做這個方向的工作還不是很多,我們也就是自己探索,預期沒那么高,結果出來得也快。但到了1.5 階段(大概2025年初),我們明顯感覺到同類型的工作不停地發表,競爭變得非常激烈,同時也有其他訓練方法(如 MAE、圖文對比學習)的沖擊。那時候壓力很大,只能一點一點往前推。

      很幸運的是,后來MVT v1.5 ICCV 2025(國際計算機視覺大會)錄用了,這給了我們很大的信心,做v2.0 的時候底氣就更足了。

      網易科技:現在的AI人才市場非常瘋狂。比較好奇靈感實驗室的成員是一群什么樣的人?

      靈感:我們的團隊成員大多覺得視覺特征表達還有其他的路徑,不一定是大廠所定義的那樣。大家有一種純粹的技術好奇心,想去探索不一樣的路。這有點像在 GPT-3 出來之前,大家主要用的還是BERT,但最后證明GPT 這條路是對的。

      公司也支持我們去探索這種非共識的、偏底層的研究。

      網易科技:靈感實驗室的下一步技術演進方向是什么?

      靈感:2.0版本只是個開始,剛把這個點做通了,但離做得很好還有很長路要走。我們下一步的方向是:

      ·第一,要更高效。現在雖然利用了流里的信息,但還要經過一步處理,希望能做到直接進流、直接分析。

      ·第二,做流式(Streaming)分析。現在很多VLM是離線分析的我們希望基于2.0VLM能像看球賽解說一樣,實時進流、實時分析。

      ·第三,兼容3D重建。像Gaussian SplattingVGGT這種,希望能直接把視頻塞進去就生成3D場景或點云。

      更大的野心是,視頻的理解和生成能不能一體化?同一個Encoder既能輸出理解的特征,也能輸出生成的特征。

      網易科技:如果用一個詞來形容 MVT v2.0 對當前視覺領域的意義,你們會選哪個詞?

      靈感:啟發。

      我們希望能對其他做視覺的研究者有更多的啟發,讓大家看到除了堆參數、解圖片流之外,還有通過視頻編碼壓縮域進行高效分析這條路,歡迎大家跟我們一起探索。

      延伸閱讀
      相關推薦
      熱點推薦
      參加遵義會議的三個軍團政委,為何只有一人在建國后未獲重用?

      參加遵義會議的三個軍團政委,為何只有一人在建國后未獲重用?

      抽象派大師
      2025-12-01 11:55:18
      印度首富的小兒子:減200多斤又變胖,妻子是高種姓出身的白富美

      印度首富的小兒子:減200多斤又變胖,妻子是高種姓出身的白富美

      小書生吃瓜
      2026-01-20 17:26:45
      毛主席表兄參加國慶觀禮憤然離席,毛主席得知原因后:我不是皇帝

      毛主席表兄參加國慶觀禮憤然離席,毛主席得知原因后:我不是皇帝

      大運河時空
      2026-01-20 12:25:02
      “安徽馬拉松一姐”姚玉舟: 你有你的,我有我的方向

      “安徽馬拉松一姐”姚玉舟: 你有你的,我有我的方向

      極目新聞
      2026-01-21 20:26:44
      特朗普深知中國統一勢不可擋,爭分奪秒從臺灣提走5千億美元

      特朗普深知中國統一勢不可擋,爭分奪秒從臺灣提走5千億美元

      通文知史
      2026-01-20 19:05:05
      官方:狼堡簽下20歲日本中場鹽貝健人;據悉轉會費900萬歐

      官方:狼堡簽下20歲日本中場鹽貝健人;據悉轉會費900萬歐

      懂球帝
      2026-01-20 22:35:06
      回顧:2013年成都一場上門女婿霸占岳母引發的荒唐倫理慘劇

      回顧:2013年成都一場上門女婿霸占岳母引發的荒唐倫理慘劇

      談史論天地
      2026-01-21 14:45:03
      河南小伙娶小18歲伊拉克媳婦,認識4天就結婚,彩禮花了3000萬!

      河南小伙娶小18歲伊拉克媳婦,認識4天就結婚,彩禮花了3000萬!

      凡知
      2026-01-17 10:15:33
      國乒已變天!王勵勤放棄潛規則,馬琳完成布局,用人告別人情世故

      國乒已變天!王勵勤放棄潛規則,馬琳完成布局,用人告別人情世故

      忠橙家族
      2026-01-21 19:29:35
      分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養不起娃

      分手14年,釋小龍何潔境遇天差地別,一個身家過億,一個養不起娃

      查爾菲的筆記
      2026-01-09 22:17:44
      他逝于1929年,他的家族影響到2026年

      他逝于1929年,他的家族影響到2026年

      最愛歷史
      2026-01-20 19:47:12
      丹麥想不通,自己舉國反華卻遭輕視,英媒給出答案:特朗普是中吹

      丹麥想不通,自己舉國反華卻遭輕視,英媒給出答案:特朗普是中吹

      科普100克克
      2026-01-21 05:57:22
      扶不起的阿斗:蘇聯養15年,中國養20多年,為何仍窮困至今?

      扶不起的阿斗:蘇聯養15年,中國養20多年,為何仍窮困至今?

      芳芳歷史燴
      2026-01-21 13:07:49
      四會富仕:目前已實現800G光模塊PCB的小批量交付

      四會富仕:目前已實現800G光模塊PCB的小批量交付

      新京報
      2026-01-21 16:09:38
      哇,交易開始,湖人熱鬧了!

      哇,交易開始,湖人熱鬧了!

      體育新角度
      2026-01-21 15:01:52
      穩了!央視春晚首次聯排收官,釋放3大信號,趙本山含金量還在升

      穩了!央視春晚首次聯排收官,釋放3大信號,趙本山含金量還在升

      銀河史記
      2026-01-21 17:10:13
      奉勸大家:為了家人安全,別在廚房做這7件事,真的很危險!

      奉勸大家:為了家人安全,別在廚房做這7件事,真的很危險!

      Home范
      2026-01-03 14:57:10
      豪門恩怨大爆發!貝克漢姆長子布魯克林與父母徹底決裂

      豪門恩怨大爆發!貝克漢姆長子布魯克林與父母徹底決裂

      新民周刊
      2026-01-20 20:40:15
      孔令文:與父親關系沒傳說那么僵 隔閡源于小時候他給的一筆零花錢

      孔令文:與父親關系沒傳說那么僵 隔閡源于小時候他給的一筆零花錢

      勁爆體壇
      2026-01-21 14:18:33
      索尼,又造了個怪物

      索尼,又造了個怪物

      放毒
      2026-01-21 15:27:39
      2026-01-21 21:00:49

      科技要聞

      給機器人做仿真訓練 這家創企年營收破億

      頭條要聞

      風波中的西貝股權發生變化 新榮記張勇對賈國龍伸援手

      頭條要聞

      風波中的西貝股權發生變化 新榮記張勇對賈國龍伸援手

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現身嫣然醫院捐款

      財經要聞

      丹麥打響第一槍 歐洲用資本保衛格陵蘭島

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態度原創

      游戲
      本地
      手機
      家居
      公開課

      難道說?Xbox三代精英手柄有望明日公布!

      本地新聞

      云游遼寧|漫步千年小城晨昏,“康”復好心情

      手機要聞

      iPhone 18系列再次被確認:不是左上角單挖孔,但價格要上漲!

      家居要聞

      褪去浮華 觸達松弛與欣喜

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版
      ×
      主站蜘蛛池模板: 淳化县| 国产又大又黑又粗免费视频| 亚洲日韩乱码中文无码蜜桃臀| 视频一区二区三区中文字幕狠狠| 欧美第3页| 大香伊蕉在人线国产最新2005| 九色91| 亚洲成a人片在线网站| 久久婷婷五月综合色高清| 男女做爰真人视频直播| 91中文字幕在线一区| 九九视频精品免费观看6| 亚洲综合在线成人| 无码中文av有码中文av| 亚洲avav| 影音先锋2020色资源网| 无码www毛色一区二区| 99久久婷婷国产综合精品 | 亚洲经典无码| 日日爽日日操| 曲阳县| 亚洲va综合va国产va中文| 欧美成人一区二区三区片免费| 亚洲岛国片| 国产精品疯狂输出jk草莓视频 | 多人乱p视频在线免费观看| 久久久久99精品成人片欧美一区 | 日本乱子人伦在线视频| 亚洲日韩AV秘 无码一区二区| 平原县| 日韩美女久久| 美女网站免费福利视频| 辽宁省| 色翁荡熄又大又硬又粗又视频| 亚洲香蕉av一区二区蜜桃| 蜜桃久久精品成人无码av| 国产中文字幕一区二区| 日韩av无码精品人妻系列| 99国产精品免费视频观看8| 人妻日韩精品中文字幕| 免费a级毛片18以上观看精品|