![]()
近年來多模態大模型在視覺感知,長視頻問答等方面涌現出了強勁的性能,但是這種跨模態融合也帶來了巨大的計算成本。高分辨率圖像和長視頻會產生成千上萬個視覺 token ,帶來極高的顯存占用和延遲,限制了模型的可擴展性和本地部署。
正是這種緊迫的需求催生了MLLMToken Compression,迅速成為研究爆點,兩年內在該垂直領域產出了約 200 篇論文。但是隨著研究工作的快速涌現,領域內的方法也變得極其龐雜難以歸類,進一步具體到落地場景里面,往往因為方法多樣而難以選擇。
針對這一背景,來自北京大學、中國科學技術大學等機構的研究人員,首先基于壓縮位置對方法進行了系統歸類,然后討論了對于特定的部署場景應該選擇何種壓縮機制,最后探討了目前的挑戰和具有前景的方向。
![]()
- Github 鏈接: https://github.com/yaolinli/MLLM-Token-Compression
- 論文鏈接: https://www.techrxiv.org/doi/full/10.36227/techrxiv.176823010.07236701/v1
![]()
圖 1. MLLMs 中 Token 壓縮代表性工作時間線
基于壓縮位置視角的系統分類(where to compress)
![]()
圖 2. MLLM Token 壓縮方法的系統分類
研究人員根據Token 壓縮方法在 MLLM 架構中應用的位置,對現有方法進行了系統性的分類。在從視覺輸入到文本輸出的整個處理過程中,Token 壓縮策略可以逐步部署在三個架構模塊中:
- Vision Encoder:在此階段進行壓縮可以降低視覺感知階段的計算開銷;
- Projector:在從視覺表示空間向語言表示空間轉換的過程中整合 Token 削減技術;
- Large Language Model:在此階段進行壓縮可實現整體的跨模態效率優化。
(1)Vision Encoder 中的壓縮
![]()
圖 3. MLLMs 中視覺編碼器模塊所采用的 Token 壓縮策略示意圖
在 MLLMs 中,視覺數據本質上比文本具有更高的冗余性,而由于視覺編碼器是編碼視覺輸入的第一個模塊,在這一初始階段減少視覺 Token 可以為整個 MLLM 系統帶來顯著的效率提升。研究人員首先回顧并將在視覺編碼器模塊中應用的視覺側 Token 壓縮方法分為兩大類:視覺編碼器內部壓縮(Inside-VE)和視覺編碼器外部壓縮(Outside-VE)。由于視覺編碼器不同的層會捕捉不同尺度的視覺信息,從低層紋理到高層概念,因此 Inside-VE 往往通過開發多尺度壓縮方案來協調各層之間的壓縮。Outside-VE 的設計具有即插即用的特點,對原始架構的改動極小,并且可以根據是否引入文本信號進行靈活的設計。
(2)Projector 中的壓縮
![]()
圖 4. MLLMs 中 projector 模塊所采用的 Token 壓縮策略示意圖
Projector module 作為一個接口,將原始的視覺嵌入轉換為與語言兼容的表示形式,從而確保 vision encoder 提取的信息能被大語言模型有效利用。雖然像 Q-Former 這樣的早期 projector 架構通過將大量的視覺嵌入提煉為一組緊湊的查詢 Token,實現了高效 Token 壓縮,但后續的大量研究為 projector 引入了額外的設計增強,以實現更細粒度和任務自適應的壓縮。研究人員將這些方法大致分為三大類并進行了詳細的討論:基于變換的方法,基于查詢的方法和重要性驅動的方法。
(3)LLM 中的壓縮
![]()
圖 5. MLLMs 中 projector 模塊所采用的 Token 壓縮策略示意圖
由于 LLM 的參數量通常遠超視覺編碼器和投影器,會成為性能瓶頸的關鍵組件,在這一階段進行高效壓縮會產生直接收益。MLLM 早期發展階段非常關注短文本視覺問答(VQA),因此這一時期的壓縮策略專注于預填充階段,會在輸入序列第一次在 LLM 中 forward 時就對視覺 token 進行壓縮。但是隨著思維鏈技術的飛速發展,研究重心已轉向長視覺問答場景,這些技術通常在 decoding 階段選擇性地剪枝或合并 KV Cache 來降低內存和計算成本。
(4)多模塊壓縮
除了在單個組件內應用 Token 壓縮外,近期已有越來越多的方法開始探索跨多個模塊的壓縮策略,以實現更高的壓縮效率和更優的表征質量。這類方法主要關注如何協調不同組件之間的壓縮,并將其組織為一個多階段過程,從而最大限度地提高整體效率和表征質量。對于這種混合壓縮策略,研究人員詳細介紹并分析了兩種新興的設計范式:多模塊協同壓縮以及多階段漸進式壓縮。
![]()
表 1. 代表性 MLLMs token 壓縮策略總結
不同使用場景下如何選擇合適的壓縮策略(how to select)
由于 Token 壓縮設計方法的激增,有必要制定相關指南,以幫助從業者針對特定的部署場景選擇最佳策略,研究人員對關鍵的選擇因素進行了全面對比。
(1)針對視頻輸入的時空增強壓縮
雖然現有的空間壓縮策略可以直接應用于單幀,但它們通常無法利用幀間的冗余。為了填補這一空白,最近的研究提出了時空增強的 Token 壓縮方法,這些方法明確考慮了時間結構,以實現高效的長序列建模。研究人員進一步詳細介紹了應該使用哪些策略解決時空聯合壓縮,時序結構保留以及超長序列等實際挑戰。
(2)純視覺壓縮 vs. 文本引導壓縮
現有方法根據其是否利用了文本信息(用戶指令)可分為純視覺壓縮和文本引導壓縮,這兩種策略是互補的,一種實用的設計是:首先通過純視覺壓縮導出緊湊的視覺表示,然后在語言模塊中應用文本引導的選擇機制,以精煉出與給定文本查詢相關的 Token。
(3)Token Merging vs. Token Dropping
Token Merging 提供了平滑的聚合,適用于密集或在時間上冗余的視覺輸入;而當高層語義已足夠稀疏時,Token Dropping 的效率則更具優勢。未來的框架可能會受益于自適應的混合設計,根據模態特征和冗余類型,在 “軟聚合” 和 “硬剪枝” 之間進行動態切換。
(4)即插即用方法 vs. 重訓練方法
即插即用方法非常適合在訓練資源有限或任務需求相對溫和的情況下,進行快速部署和推理加速。然而,它們的性能上限相對有限,最近的研究進一步通過實驗證明免訓練 Token 壓縮方法在需要高分辨率視覺理解任務中,會出現顯著的性能下降。相比之下,重訓練方法在細粒度多模態理解方面表現優異,能夠提供更高的性能上限,但代價是大量的額外訓練開銷。
(5)加速訓練 vs. 加速推理
由于任務的相似性,原則上所有可用于 LLM 預填充的加速推理策略也都可以用于加速訓練,但是大多數 sota MLLM 仍然使用最簡單的 Token 壓縮機制,如 pooling,pixel unshuffle 等。為什么這些多樣化的方法沒有被主流 LVLM 廣泛采用?研究人員分析了三個主要原因:Flash Attention 兼容性問題,訓練驗證成本高昂導致的策略保守,歸納偏置導致的泛化性下降(Inductive bias)。由于目前的 MLLM 旨在用于通用目的,任何特定能力的退化都是不可接受的。
結語
盡管 MLLMs 的 Token 壓縮技術取得了快速進展,但仍有若干開放性挑戰值得進一步研究,比如缺乏理論輔助,缺乏任務與內容感知的自適應性,實際細粒度感知的任務性能下降,這些都是值得進一步探索的重要問題。
本文的 survey 后續會保持更新,將在 v2 版本中整理 Token 壓縮研究中常用的圖像和視頻理解基準測試,并據此構建一個全面的評估框架。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.