出品 | 網易科技《態度》欄目
作者 | 紀川
編輯 | 定西
世界不是由一張張靜態圖片組成的,而是連續流動的視頻。
但在過去很長一段時間里,AI 處理視頻的方式卻顯得極其“笨拙”:先把視頻解壓成一幀幀圖片,再像翻連環畫一樣去理解。這種行業慣例帶來了巨大的算力浪費——畢竟,視頻中90% 的信息都是冗余的背景。
既然視頻本身就是被壓縮過的,為什么非要把它解壓成圖片再分析?這種“多此一舉”的行業慣例,是不是可以被打破?
帶著這個問題,靈感實驗室新一代視覺基礎模型Glint-MVT v2.0(以下簡稱MVT v2.0)選擇了一條“少有人走的路”——圖像和視頻統一編碼,通過視頻編碼在壓縮域進行高效分析——這正是MVT v2.0的核心突破。
MVT v2.0利用視頻編碼自帶的運動矢量(Motion Vector)和殘差(Residual)信息,生成了一張“信息量熱圖”。模型只保留那些包含關鍵動作或細節變化的Patch(圖像塊),而將背景等低信息量的部分直接丟棄。
這一策略直接減少了 90% 的冗余 Token。
“說到底,我們只是利用了視頻編碼的原理,不再把那些冗余找回來。”靈感實驗室負責人馮子勇解釋道。但這看似簡單的邏輯轉換,卻帶來極大的能力提升:在全幀率分析下,MVT v2.0 的推理速度提升了 5 倍;任務表現方面,將Glint-MVT v2.0用作VideoLLM的視覺編碼器,在MVBench、VideoMME、Percepton Test等視頻基準上超過Google SigLIP2。
Glint-MVT v2.0任務的表現
然而,這場突圍并非一蹴而就。
如果把時間軸拉回幾年前,這支專注底層視覺編碼的團隊其實更像是一群在快車道旁默默修路的人。
從 2023 年發布Glint-MVT v1.0 開始,靈感實驗室一直在探索視覺和多模態領域的技術創新。在 v1.0 階段,為了給4 億張無標注圖片打上偽標簽,他們采用“標簽采樣”方法來解決噪聲問題;到了v1.1,為了突破單標簽的限制,他們優化了損失函數,讓模型學會“一眼看多物”;再到v1.5 版本,通過引入專家模型和OCR,把模型對局部細節和文字特征的理解能力拉到了新高度。
Glint-MVT系列論文:
1.0:Unicom: Universal and Compact Representation Learning for Image Retrieval
1.1:Multi-label Cluster Discrimination for Visual Representation Learning
1.5:Region-based Cluster Discrimination for Visual Representation Learning
正是一步步的技術積累,才讓他們最終在MVT v2.0 階段打破了圖像與視頻的界限,走通了這條高效分析之路。
以下是網易科技與靈感實驗室團隊(以下簡稱“靈感”)的對話,經不改變原意的編輯。
統一圖像與視頻:人們看到的世界是視頻,而不是靜態圖片
網易科技:簡單介紹一下Glint-MVT,從1.0到1.5版本大概是一個什么樣的情況?這次2.0版本最大的升級是什么?
靈感:從1.0、1.1到1.5版本,MVT視覺模型基座的關注點都在圖片上,1.x系列都定義在圖像領域。
我們在v1.0和v1.1時關注的是怎么訓練一個好的圖像編碼器(Encoder)。到了v1.5,我們的重點方向是細粒度,也就是提升局部區域的表征。結果發現到2025年三四月份,各種各樣的模型基本上都是針對這個點來做的,競爭非常激烈。再往下做,只能像大廠那樣堆資源,這對我們來說相對困難。
所以,我們決定在v2.0做一次較大升級。MVT v2.0最大的創新性在于統一支持圖像和視頻,把視頻加進來,統一在一個Encoder里面。
Glint-MVT v2.0方法示意圖
網易科技:對于你們來說,參與 MVT v2.0 的過程中最興奮的一個瞬間是什么?
靈感:第一次聽到基于 Codec(編解碼)輸入的結果還可以的時候,那個瞬間最興奮。
因為做統一支持圖像和視頻的視覺編碼器的人還是比較少的,而且我們想顛覆的是“把視頻變成圖片流”這樣一種根深蒂固的觀念。在這條路上,沒有太多前人的工作可借鑒。當驗證結果出來,說明這個路線是可行的,這給了我們很大的鼓舞。
網易科技:當前主流做法仍是分別訓練圖像和視頻模型。你們選擇研發“圖像和視頻統一”的視覺編碼器,這個想法是在什么契機下產生的?是為了解決業務痛點,還是純粹的技術推演?
靈感:這個想法是幾個方向逐步凝聚在一起,慢慢萌生出來的。既有業務痛點的驅動,也有對技術本質的思考。
首先,從業務痛點來看,視頻分析在我們的業務(如泛安防、銀行、體育動作識別等場景)中占據重要地位。
長期以來,行業慣例是把視頻解碼為一幀幀圖片單獨分析。但這存在一個問題:我們拿到的視頻本來就是被壓縮過的,壓縮后的體積可能只有原來的十分之一,說明大量冗余已經被剔除了。但慣有做法是把冗余解壓回來再分析,這不僅浪費算力,而且性能強依賴于解碼器性能和內存帶寬。既然視頻本身的信息量是滿的,為什么不能直接在壓縮域上做分析?
其次,從技術推演來看,圖像編碼器這個賽道已經卷到基本沒有空間了,技術發展必然會轉向視頻分析。
最后,從第一性原理來看,我們看到的世界從來都是視頻,不是靜態圖片。我們的空間推理和事件推理都是構建在視頻之上的。圖片本質上是靜態的視頻,所以視頻是可以包含圖片的。MVT v2.0 就是基于這樣的思考。
削減90% 視頻Token:只保留“最有信息量”的 Patch
網易科技:我看到一個數字,MVT v2.0利用視頻編碼信息減少了90%的token數量。這意味著什么?請用更通俗的方式解釋,這是如何實現的?
靈感:這90%的減少,是通過只保留“最有信息量”的Patch(圖像塊)實現的。
視頻編碼器在壓縮視頻時,會自動產生兩種非常寶貴的信號:
·MV(運動矢量): 告訴我們哪些塊在動、怎么動。
·Residual(殘差): 告訴我們哪些地方預測不準、哪里有細節和邊緣的變化。
我們將 MV 和Residual 融合成一張“信息量熱圖”,熱度越高,表示這個區域越可能包含關鍵動作或關鍵細節。然后,我們在每幀只保留一個固定預算的 Top-k 關鍵Patch,把剩余大部分低信息量的Patch 直接扔掉,不再變成Token 輸入。所以,Token 從全量覆蓋變成了預算可控的稀疏輸入,90% 的削減就是這樣來的。
比如固定攝像頭的監控視頻,很多背景是不動的。說到底,視頻流在傳輸時,冗余部分已經被扔掉了,否則帶寬扛不住。我們只是利用這個原理,不再把那些冗余找回來,直接對變化的部分做分析。
網易科技:如此大幅度的 Token 削減,如何保證不丟失關鍵信息?在實現效率提升的過程中,你們面臨的最大權衡是什么?
靈感:我們能在大幅降 Token 的同時盡量保住關鍵信息,核心在于兩點:
第一,我們刪掉的不是隨機內容,而是“低信息量內容”。MV 和Residual 本身就是編碼器為了壓縮而標記出的“變化”和“難預測細節”。它天然在提醒我們:哪里更值得花比特,也就更值得讓模型花算力。因此我們優先保留的區域,往往正是主體動作、交互區域這些理解視頻最關鍵的地方。
第二,我們做了防止誤選的處理。例如,我們會做全局相機運動補償,把鏡頭平移或抖動造成的整體運動扣掉,避免背景因為鏡頭運動被誤認為“很重要”,從而把有限的預算更集中在真實運動的主體上。同時MV 和Residual 是互補的,融合后更穩。

自左向右分別為:原始視頻、均勻幀采樣(常規用法)、時間顯著性檢測、類編解碼器風格的塊提取
網易科技:在大模型參數量越來越大的今天,你們似乎在追求一種更輕量、更高效的表達方式。這是否代表你們對未來視覺模型發展方向的一種不同判斷?
靈感: 我們覺得參數量擴大是否能帶來更好的性能,或者說能好多少,這才是本質。我們其實是在追求“性價比”。
如果在這個規模下性能已經很不錯了,再往后堆參數需要耗費巨大的資源但提升不顯著,那就不值得。
MVT v2.0 中視頻的表達直接來源于視頻Codec,這是基于我們對視頻本質的理解——圖片流本身就是冗余的。我們不盲目追求大參數,而是追求更本質、更高效的表達。
網易科技:了解到 MVT v2.0 可以應用于VLM(視覺語言模型)。這是否意味著它的目標是成為下一代多模態大模型的“視覺編碼器”?與目前主流的VLM 視覺編碼器相比,優勢體現在哪里?
靈感:是的,我們內部已經驗證了它作為 VLM 視覺底座的效果。與目前主流的模型相比,優勢主要體現在:
·性能上:在全幀率分析的情況下,我們能提速 5倍。
·效果上:視頻理解任務效果超過了 SigLIP2。
·功能上:它原生支持全幀率和高速運動分析,這是傳統抽幀方案很難做到的。
技術好奇心與野心:探索視覺特征表達的新路徑
網易科技:這項技術突破,最先會應用到哪些產品或解決方案中?
靈感:像安防或銀行的視頻分析產品中,立刻就可以應用。因為 MVT v2.0 可以進行全幀率分析,像打斗、快速奔跑等這些快速動作的識別,以前因為算力限制很難做全幀率,現在都可以應用上了。
此外,我們認為凡是涉及快速運動、高幀率視頻分析的場景都可以受益,比如具身智能(機器人需要實時感知和響應動作變化)。
網易科技:回看MVT從1.0到1.5再到現在的2.0,這條技術路線上,有沒有哪個階段是團隊感到最迷茫的?
靈感:是在 1.5 版本推出之前。
在v1.0 和v1.1 的時候,做這個方向的工作還不是很多,我們也就是自己探索,預期沒那么高,結果出來得也快。但到了1.5 階段(大概2025年初),我們明顯感覺到同類型的工作不停地發表,競爭變得非常激烈,同時也有其他訓練方法(如 MAE、圖文對比學習)的沖擊。那時候壓力很大,只能一點一點往前推。
很幸運的是,后來MVT v1.5 被ICCV 2025(國際計算機視覺大會)錄用了,這給了我們很大的信心,做v2.0 的時候底氣就更足了。
網易科技:現在的AI人才市場非常瘋狂。比較好奇靈感實驗室的成員是一群什么樣的人?
靈感:我們的團隊成員大多覺得視覺特征表達還有其他的路徑,不一定是大廠所定義的那樣。大家有一種純粹的技術好奇心,想去探索不一樣的路。這有點像在 GPT-3 出來之前,大家主要用的還是BERT,但最后證明GPT 這條路是對的。
公司也支持我們去探索這種非共識的、偏底層的研究。
網易科技:靈感實驗室的下一步技術演進方向是什么?
靈感:2.0版本只是個開始,剛把這個點做通了,但離做得很好還有很長路要走。我們下一步的方向是:
·第一,要更高效。現在雖然利用了流里的信息,但還要經過一步處理,希望能做到直接進流、直接分析。
·第二,做流式(Streaming)分析。現在很多VLM是離線分析的,我們希望基于2.0的VLM能像看球賽解說一樣,實時進流、實時分析。
·第三,兼容3D重建。像Gaussian Splatting或VGGT這種,希望能直接把視頻塞進去就生成3D場景或點云。
更大的野心是,視頻的理解和生成能不能一體化?同一個Encoder既能輸出理解的特征,也能輸出生成的特征。
網易科技:如果用一個詞來形容 MVT v2.0 對當前視覺領域的意義,你們會選哪個詞?
靈感:啟發。
我們希望能對其他做視覺的研究者有更多的啟發,讓大家看到除了堆參數、解圖片流之外,還有通過視頻編碼在壓縮域進行高效分析這條路,歡迎大家跟我們一起探索。
