<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      關于多模態大模型Token壓縮技術進展,看這一篇就夠了

      0
      分享至

      近年來多模態大模型在視覺感知,長視頻問答等方面涌現出了強勁的性能,但是這種跨模態融合也帶來了巨大的計算成本。高分辨率圖像和長視頻會產生成千上萬個視覺 token ,帶來極高的顯存占用和延遲,限制了模型的可擴展性和本地部署。

      正是這種緊迫的需求催生了 MLLM Token Compression ,迅速成為研究爆點,兩年內在該垂直領域產出了約 200 篇論文。但是隨著研究工作的快速涌現,領域內的方法也變得極其龐雜難以歸類,進一步具體到落地場景里面,往往因為方法多樣而難以選擇。

      針對這一背景,來自北京大學、中國科學技術大學等機構的研究人員,首先基于壓縮位置對方法進行了系統歸類,然后討論了對于特定的部署場景應該選擇何種壓縮機制,最后探討了目前的挑戰和具有前景的方向。


      • Github 鏈接: https://github.com/yaolinli/MLLM-Token-Compression

      • 論文鏈接: https://www.techrxiv.org/doi/full/10.36227/techrxiv.176823010.07236701/v1


      圖 1. MLLMs 中 Token 壓縮代表性工作時間線

      基于壓縮位置視角的系統分類(where to compress)


      圖 2. MLLM Token 壓縮方法的系統分類

      研究人員根據 Token 壓縮方法在 MLLM 架構中應用的位置,對現有方法進行了系統性的分類。在從視覺輸入到文本輸出的整個處理過程中,Token 壓縮策略可以逐步部署在三個架構模塊中:

      • Vision Encoder:在此階段進行壓縮可以降低視覺感知階段的計算開銷;

      • Projector:在從視覺表示空間向語言表示空間轉換的過程中整合 Token 削減技術;

      • Large Language Model:在此階段進行壓縮可實現整體的跨模態效率優化。

      (1)Vision Encoder 中的壓縮


      圖 3. MLLMs 中視覺編碼器模塊所采用的 Token 壓縮策略示意圖

      在 MLLMs 中,視覺數據本質上比文本具有更高的冗余性,而由于視覺編碼器是編碼視覺輸入的第一個模塊,在這一初始階段減少視覺 Token 可以為整個 MLLM 系統帶來顯著的效率提升。研究人員首先回顧并將在視覺編碼器模塊中應用的視覺側 Token 壓縮方法分為兩大類:視覺編碼器內部壓縮(Inside-VE)和視覺編碼器外部壓縮(Outside-VE)。由于視覺編碼器不同的層會捕捉不同尺度的視覺信息,從低層紋理到高層概念,因此 Inside-VE 往往通過開發多尺度壓縮方案來協調各層之間的壓縮。Outside-VE 的設計具有即插即用的特點,對原始架構的改動極小,并且可以根據是否引入文本信號進行靈活的設計。

      (2)Projector 中的壓縮


      圖 4. MLLMs 中 projector 模塊所采用的 Token 壓縮策略示意圖

      Projector module 作為一個接口,將原始的視覺嵌入轉換為與語言兼容的表示形式,從而確保 vision encoder 提取的信息能被大語言模型有效利用。雖然像 Q-Former 這樣的早期 projector 架構通過將大量的視覺嵌入提煉為一組緊湊的查詢 Token,實現了高效 Token 壓縮,但后續的大量研究為 projector 引入了額外的設計增強,以實現更細粒度和任務自適應的壓縮。研究人員將這些方法大致分為三大類并進行了詳細的討論:基于變換的方法,基于查詢的方法和重要性驅動的方法。

      (3)LLM 中的壓縮


      圖 5. MLLMs 中 projector 模塊所采用的 Token 壓縮策略示意圖

      由于 LLM 的參數量通常遠超視覺編碼器和投影器,會成為性能瓶頸的關鍵組件,在這一階段進行高效壓縮會產生直接收益。MLLM 早期發展階段非常關注短文本視覺問答(VQA),因此這一時期的壓縮策略專注于預填充階段,會在輸入序列第一次在 LLM 中 forward 時就對視覺 token 進行壓縮。但是隨著思維鏈技術的飛速發展,研究重心已轉向長視覺問答場景,這些技術通常在 decoding 階段選擇性地剪枝或合并 KV Cache 來降低內存和計算成本。

      (4)多模塊壓縮

      除了在單個組件內應用 Token 壓縮外,近期已有越來越多的方法開始探索跨多個模塊的壓縮策略,以實現更高的壓縮效率和更優的表征質量。這類方法主要關注如何協調不同組件之間的壓縮,并將其組織為一個多階段過程,從而最大限度地提高整體效率和表征質量。對于這種混合壓縮策略,研究人員詳細介紹并分析了兩種新興的設計范式:多模塊協同壓縮以及多階段漸進式壓縮。


      表 1. 代表性 MLLMs token 壓縮策略總結

      不同使用場景下如何選擇合適的壓縮策略(how to select)

      由于 Token 壓縮設計方法的激增,有必要制定相關指南,以幫助從業者針對特定的部署場景選擇最佳策略,研究人員對關鍵的選擇因素進行了全面對比。

      (1)針對視頻輸入的時空增強壓縮

      雖然現有的空間壓縮策略可以直接應用于單幀,但它們通常無法利用幀間的冗余。為了填補這一空白,最近的研究提出了時空增強的 Token 壓縮方法,這些方法明確考慮了時間結構,以實現高效的長序列建模。研究人員進一步詳細介紹了應該使用哪些策略解決時空聯合壓縮,時序結構保留以及超長序列等實際挑戰。

      (2)純視覺壓縮 vs. 文本引導壓縮

      現有方法根據其是否利用了文本信息(用戶指令)可分為純視覺壓縮和文本引導壓縮,這兩種策略是互補的,一種實用的設計是:首先通過純視覺壓縮導出緊湊的視覺表示,然后在語言模塊中應用文本引導的選擇機制,以精煉出與給定文本查詢相關的 Token。

      (3)Token Merging vs. Token Dropping

      Token Merging 提供了平滑的聚合,適用于密集或在時間上冗余的視覺輸入;而當高層語義已足夠稀疏時,Token Dropping 的效率則更具優勢。未來的框架可能會受益于自適應的混合設計,根據模態特征和冗余類型,在 “軟聚合” 和 “硬剪枝” 之間進行動態切換。

      (4)即插即用方法 vs. 重訓練方法

      即插即用方法非常適合在訓練資源有限或任務需求相對溫和的情況下,進行快速部署和推理加速。然而,它們的性能上限相對有限,最近的研究進一步通過實驗證明免訓練 Token 壓縮方法在需要高分辨率視覺理解任務中,會出現顯著的性能下降。相比之下,重訓練方法在細粒度多模態理解方面表現優異,能夠提供更高的性能上限,但代價是大量的額外訓練開銷。

      (5)加速訓練 vs. 加速推理

      由于任務的相似性,原則上所有可用于 LLM 預填充的加速推理策略也都可以用于加速訓練,但是大多數 sota MLLM 仍然使用最簡單的 Token 壓縮機制,如 pooling,pixel unshuffle 等。為什么這些多樣化的方法沒有被主流 LVLM 廣泛采用? 研究人員分析了三個主要原因:Flash Attention 兼容性問題,訓練驗證成本高昂導致的策略保守,歸納偏置導致的泛化性下降(Inductive bias)。由于目前的 MLLM 旨在用于通用目的,任何特定能力的退化都是不可接受的。

      結語

      盡管 MLLMs 的 Token 壓縮技術取得了快速進展,但仍有若干開放性挑戰值得進一步研究,比如缺乏理論輔助,缺乏任務與內容感知的自適應性,實際細粒度感知的任務性能下降,這些都是值得進一步探索的重要問題。

      本文的 survey 后續會保持更新,將在 v2 版本中整理 Token 壓縮研究中常用的圖像和視頻理解基準測試,并據此構建一個全面的評估框架。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      恩比德:不知為何在球員介紹時不再提我的綽號“The Process”

      恩比德:不知為何在球員介紹時不再提我的綽號“The Process”

      懂球帝
      2026-01-26 08:05:08
      細節做到了極致!日本隊主罰點球前:疑似偷看李昊點球筆記

      細節做到了極致!日本隊主罰點球前:疑似偷看李昊點球筆記

      邱澤云
      2026-01-26 12:28:32
      他通緝期間,回家給老婆慶生,與150名警察槍戰6小時,用一招逃脫

      他通緝期間,回家給老婆慶生,與150名警察槍戰6小時,用一招逃脫

      嘆為觀止易
      2026-01-19 10:46:13
      奧格斯堡官方曬“食物鏈”:我們現在是世界最佳球隊了嗎?

      奧格斯堡官方曬“食物鏈”:我們現在是世界最佳球隊了嗎?

      懂球帝
      2026-01-26 11:15:09
      速滑世界杯寧忠巖1500米摘銀 拿下最大競爭對手冬奧沖牌添砝碼

      速滑世界杯寧忠巖1500米摘銀 拿下最大競爭對手冬奧沖牌添砝碼

      威猛孟巍
      2026-01-26 19:59:52
      哈佛發現:高血脂不用治,治好都是誤診?告訴您5個血脂真相!

      哈佛發現:高血脂不用治,治好都是誤診?告訴您5個血脂真相!

      岐黃傳人孫大夫
      2026-01-08 10:06:20
      主打一個相信,恩佐在埃斯特旺破門前5秒就提前開始慶祝了

      主打一個相信,恩佐在埃斯特旺破門前5秒就提前開始慶祝了

      懂球帝
      2026-01-26 17:43:28
      2-0橫掃日本選手!中國女網又一16歲1米83新星崛起:偶像萊巴金娜

      2-0橫掃日本選手!中國女網又一16歲1米83新星崛起:偶像萊巴金娜

      李喜林籃球絕殺
      2026-01-26 10:37:38
      26年央視春晚嘉賓名單曝光,牛鬼蛇神混子引爭議

      26年央視春晚嘉賓名單曝光,牛鬼蛇神混子引爭議

      杜鱂手工制作
      2026-01-06 18:48:05
      卡里克讓阿莫林顏面掃地!曼聯兩大球星的蛻變就是鐵證

      卡里克讓阿莫林顏面掃地!曼聯兩大球星的蛻變就是鐵證

      夜白侃球
      2026-01-26 20:16:56
      報告解讀丨今年北京將在3000個小區設置智能回收機

      報告解讀丨今年北京將在3000個小區設置智能回收機

      新京報
      2026-01-25 20:00:07
      陪伴許世友十多年的李文卿,曾在閑聊時聽許世友直言不諱地說:“在我眼里,江青根本算不上好人”

      陪伴許世友十多年的李文卿,曾在閑聊時聽許世友直言不諱地說:“在我眼里,江青根本算不上好人”

      源溯歷史
      2026-01-04 22:07:16
      雖然毛主席活了83歲,保健醫生卻說:其實主席不具備長壽條件

      雖然毛主席活了83歲,保健醫生卻說:其實主席不具備長壽條件

      芊芊之言
      2025-11-25 00:28:46
      烏克蘭摧毀俄羅斯庫班煉油廠!遠東俄軍火車脫軌,運輸中斷

      烏克蘭摧毀俄羅斯庫班煉油廠!遠東俄軍火車脫軌,運輸中斷

      項鵬飛
      2026-01-26 19:46:25
      這位50歲的阿姨把羽絨服穿出了屬于這個年紀獨有的魅力

      這位50歲的阿姨把羽絨服穿出了屬于這個年紀獨有的魅力

      牛彈琴123456
      2026-01-26 17:10:07
      恐怖20-0!澳網第2位前八種子出局 薩巴倫卡創歷史 王欣瑜目標8強

      恐怖20-0!澳網第2位前八種子出局 薩巴倫卡創歷史 王欣瑜目標8強

      侃球熊弟
      2026-01-26 00:20:03
      九一三事件后,許世友之女因被林立果拒,執意終生不嫁令人淚目

      九一三事件后,許世友之女因被林立果拒,執意終生不嫁令人淚目

      嘮叨說歷史
      2026-01-21 15:04:49
      英國首相斯塔默本周將訪華?外交部:將適時發布消息

      英國首相斯塔默本周將訪華?外交部:將適時發布消息

      財聯社
      2026-01-26 15:27:50
      永遠不可能被抹殺的歷史:四野部隊里的那三萬日籍士兵

      永遠不可能被抹殺的歷史:四野部隊里的那三萬日籍士兵

      深度報
      2026-01-21 21:25:16
      所謂“斯大林屠殺30多萬遠東中國人”的說法,到底是真是假?

      所謂“斯大林屠殺30多萬遠東中國人”的說法,到底是真是假?

      柳絮憶史
      2026-01-23 10:10:39
      2026-01-26 21:08:49
      娛樂督察中
      娛樂督察中
      獨樂樂不如眾樂樂
      132文章數 20523關注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      德國防長建議特朗普道歉 但暗示并不真抱希望

      頭條要聞

      德國防長建議特朗普道歉 但暗示并不真抱希望

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被實名舉報代孕、插足婚姻

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      時尚
      本地
      親子
      數碼
      家居

      大衣里面穿什么?這件內搭才是今年冬天的“頂流”

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      親子要聞

      好的月嫂阿姨到底有多搶手?網友:她們是不在市場上流通的

      數碼要聞

      技嘉發布水冷AI服務器XN24 - VC0 - LA61

      家居要聞

      流韻雅居,讓復雜變純粹

      無障礙瀏覽 進入關懷版