<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      關于多模態大模型Token壓縮技術進展,看這一篇就夠了

      0
      分享至



      近年來多模態大模型在視覺感知,長視頻問答等方面涌現出了強勁的性能,但是這種跨模態融合也帶來了巨大的計算成本。高分辨率圖像和長視頻會產生成千上萬個視覺 token ,帶來極高的顯存占用和延遲,限制了模型的可擴展性和本地部署。

      正是這種緊迫的需求催生了MLLMToken Compression,迅速成為研究爆點,兩年內在該垂直領域產出了約 200 篇論文。但是隨著研究工作的快速涌現,領域內的方法也變得極其龐雜難以歸類,進一步具體到落地場景里面,往往因為方法多樣而難以選擇。

      針對這一背景,來自北京大學、中國科學技術大學等機構的研究人員,首先基于壓縮位置對方法進行了系統歸類,然后討論了對于特定的部署場景應該選擇何種壓縮機制,最后探討了目前的挑戰和具有前景的方向。



      • Github 鏈接: https://github.com/yaolinli/MLLM-Token-Compression
      • 論文鏈接: https://www.techrxiv.org/doi/full/10.36227/techrxiv.176823010.07236701/v1



      圖 1. MLLMs 中 Token 壓縮代表性工作時間線

      基于壓縮位置視角的系統分類(where to compress)



      圖 2. MLLM Token 壓縮方法的系統分類

      研究人員根據Token 壓縮方法在 MLLM 架構中應用的位置,對現有方法進行了系統性的分類。在從視覺輸入到文本輸出的整個處理過程中,Token 壓縮策略可以逐步部署在三個架構模塊中:

      • Vision Encoder:在此階段進行壓縮可以降低視覺感知階段的計算開銷;
      • Projector:在從視覺表示空間向語言表示空間轉換的過程中整合 Token 削減技術;
      • Large Language Model:在此階段進行壓縮可實現整體的跨模態效率優化。

      (1)Vision Encoder 中的壓縮



      圖 3. MLLMs 中視覺編碼器模塊所采用的 Token 壓縮策略示意圖

      在 MLLMs 中,視覺數據本質上比文本具有更高的冗余性,而由于視覺編碼器是編碼視覺輸入的第一個模塊,在這一初始階段減少視覺 Token 可以為整個 MLLM 系統帶來顯著的效率提升。研究人員首先回顧并將在視覺編碼器模塊中應用的視覺側 Token 壓縮方法分為兩大類:視覺編碼器內部壓縮(Inside-VE)和視覺編碼器外部壓縮(Outside-VE)。由于視覺編碼器不同的層會捕捉不同尺度的視覺信息,從低層紋理到高層概念,因此 Inside-VE 往往通過開發多尺度壓縮方案來協調各層之間的壓縮。Outside-VE 的設計具有即插即用的特點,對原始架構的改動極小,并且可以根據是否引入文本信號進行靈活的設計。

      (2)Projector 中的壓縮



      圖 4. MLLMs 中 projector 模塊所采用的 Token 壓縮策略示意圖

      Projector module 作為一個接口,將原始的視覺嵌入轉換為與語言兼容的表示形式,從而確保 vision encoder 提取的信息能被大語言模型有效利用。雖然像 Q-Former 這樣的早期 projector 架構通過將大量的視覺嵌入提煉為一組緊湊的查詢 Token,實現了高效 Token 壓縮,但后續的大量研究為 projector 引入了額外的設計增強,以實現更細粒度和任務自適應的壓縮。研究人員將這些方法大致分為三大類并進行了詳細的討論:基于變換的方法,基于查詢的方法和重要性驅動的方法。

      (3)LLM 中的壓縮



      圖 5. MLLMs 中 projector 模塊所采用的 Token 壓縮策略示意圖

      由于 LLM 的參數量通常遠超視覺編碼器和投影器,會成為性能瓶頸的關鍵組件,在這一階段進行高效壓縮會產生直接收益。MLLM 早期發展階段非常關注短文本視覺問答(VQA),因此這一時期的壓縮策略專注于預填充階段,會在輸入序列第一次在 LLM 中 forward 時就對視覺 token 進行壓縮。但是隨著思維鏈技術的飛速發展,研究重心已轉向長視覺問答場景,這些技術通常在 decoding 階段選擇性地剪枝或合并 KV Cache 來降低內存和計算成本。

      (4)多模塊壓縮

      除了在單個組件內應用 Token 壓縮外,近期已有越來越多的方法開始探索跨多個模塊的壓縮策略,以實現更高的壓縮效率和更優的表征質量。這類方法主要關注如何協調不同組件之間的壓縮,并將其組織為一個多階段過程,從而最大限度地提高整體效率和表征質量。對于這種混合壓縮策略,研究人員詳細介紹并分析了兩種新興的設計范式:多模塊協同壓縮以及多階段漸進式壓縮。



      表 1. 代表性 MLLMs token 壓縮策略總結

      不同使用場景下如何選擇合適的壓縮策略(how to select)

      由于 Token 壓縮設計方法的激增,有必要制定相關指南,以幫助從業者針對特定的部署場景選擇最佳策略,研究人員對關鍵的選擇因素進行了全面對比。

      (1)針對視頻輸入的時空增強壓縮

      雖然現有的空間壓縮策略可以直接應用于單幀,但它們通常無法利用幀間的冗余。為了填補這一空白,最近的研究提出了時空增強的 Token 壓縮方法,這些方法明確考慮了時間結構,以實現高效的長序列建模。研究人員進一步詳細介紹了應該使用哪些策略解決時空聯合壓縮,時序結構保留以及超長序列等實際挑戰。

      (2)純視覺壓縮 vs. 文本引導壓縮

      現有方法根據其是否利用了文本信息(用戶指令)可分為純視覺壓縮和文本引導壓縮,這兩種策略是互補的,一種實用的設計是:首先通過純視覺壓縮導出緊湊的視覺表示,然后在語言模塊中應用文本引導的選擇機制,以精煉出與給定文本查詢相關的 Token。

      (3)Token Merging vs. Token Dropping

      Token Merging 提供了平滑的聚合,適用于密集或在時間上冗余的視覺輸入;而當高層語義已足夠稀疏時,Token Dropping 的效率則更具優勢。未來的框架可能會受益于自適應的混合設計,根據模態特征和冗余類型,在 “軟聚合” 和 “硬剪枝” 之間進行動態切換。

      (4)即插即用方法 vs. 重訓練方法

      即插即用方法非常適合在訓練資源有限或任務需求相對溫和的情況下,進行快速部署和推理加速。然而,它們的性能上限相對有限,最近的研究進一步通過實驗證明免訓練 Token 壓縮方法在需要高分辨率視覺理解任務中,會出現顯著的性能下降。相比之下,重訓練方法在細粒度多模態理解方面表現優異,能夠提供更高的性能上限,但代價是大量的額外訓練開銷。

      (5)加速訓練 vs. 加速推理

      由于任務的相似性,原則上所有可用于 LLM 預填充的加速推理策略也都可以用于加速訓練,但是大多數 sota MLLM 仍然使用最簡單的 Token 壓縮機制,如 pooling,pixel unshuffle 等。為什么這些多樣化的方法沒有被主流 LVLM 廣泛采用?研究人員分析了三個主要原因:Flash Attention 兼容性問題,訓練驗證成本高昂導致的策略保守,歸納偏置導致的泛化性下降(Inductive bias)。由于目前的 MLLM 旨在用于通用目的,任何特定能力的退化都是不可接受的。

      結語

      盡管 MLLMs 的 Token 壓縮技術取得了快速進展,但仍有若干開放性挑戰值得進一步研究,比如缺乏理論輔助,缺乏任務與內容感知的自適應性,實際細粒度感知的任務性能下降,這些都是值得進一步探索的重要問題。

      本文的 survey 后續會保持更新,將在 v2 版本中整理 Token 壓縮研究中常用的圖像和視頻理解基準測試,并據此構建一個全面的評估框架。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      李湘的事兒大嗎?

      李湘的事兒大嗎?

      獎一罰十
      2026-01-23 21:25:51
      黃循財三次挑釁中國,李顯龍出手教訓黃循財,西方國家全部閉嘴

      黃循財三次挑釁中國,李顯龍出手教訓黃循財,西方國家全部閉嘴

      清歡百味
      2026-01-26 15:06:12
      大勝!管理層卻和庫里意見不一!交易籌碼受傷,勇士隊路在何方?

      大勝!管理層卻和庫里意見不一!交易籌碼受傷,勇士隊路在何方?

      Haviven聊球
      2026-01-26 17:27:44
      快船輕松過關三喜臨門,主力得到休息時間,找回久違強悍防守

      快船輕松過關三喜臨門,主力得到休息時間,找回久違強悍防守

      謝說籃球
      2026-01-26 18:28:42
      郭麒麟沒想到,央劇《太平年》播出僅1天,朱亞文實現口碑逆轉

      郭麒麟沒想到,央劇《太平年》播出僅1天,朱亞文實現口碑逆轉

      泠泠說史
      2026-01-24 18:35:45
      中國被下套了!土耳其免簽坑慘游客,首批國人已被收割到破產

      中國被下套了!土耳其免簽坑慘游客,首批國人已被收割到破產

      阿釗是個小小評論員
      2026-01-24 00:51:33
      晚年蔣介石含淚復盤:這輩子最大的昏招,就是把那幾十萬心頭肉留在了東北

      晚年蔣介石含淚復盤:這輩子最大的昏招,就是把那幾十萬心頭肉留在了東北

      老杉說歷史
      2026-01-25 21:36:11
      李亞鵬找到醫院新址,直播眼里泛淚,房東心態崩了,只求過個好年

      李亞鵬找到醫院新址,直播眼里泛淚,房東心態崩了,只求過個好年

      子芫伴你成長
      2026-01-25 08:10:03
      “令人深感恐懼!”黃金白銀全線暴漲,一場更大的風暴將來襲?

      “令人深感恐懼!”黃金白銀全線暴漲,一場更大的風暴將來襲?

      金十數據
      2026-01-26 10:16:25
      中國哪的醬油最好吃?經評比,這6種醬油榜上有名,你喜歡哪種?看看有沒有你家鄉?

      中國哪的醬油最好吃?經評比,這6種醬油榜上有名,你喜歡哪種?看看有沒有你家鄉?

      美食格物
      2026-01-26 14:06:13
      1962年,毛主席設宴款待溥儀,席間問及:“你當年做皇帝時,是如何對待臣下的?”

      1962年,毛主席設宴款待溥儀,席間問及:“你當年做皇帝時,是如何對待臣下的?”

      老杉說歷史
      2026-01-17 00:17:09
      軍委副主席,過去四十年來人數上的變化

      軍委副主席,過去四十年來人數上的變化

      深度財線
      2025-10-21 13:06:54
      同樣5499元的價格,買iPhone17,還是iPhoneAir?

      同樣5499元的價格,買iPhone17,還是iPhoneAir?

      互聯網.亂侃秀
      2026-01-26 10:14:00
      杭州有雨夾雪、雪!這波太猛,明天提前準備

      杭州有雨夾雪、雪!這波太猛,明天提前準備

      魯中晨報
      2026-01-26 13:51:04
      央視緊急曝光:克百威噴菜,大量流入武漢昆明鄭州!

      央視緊急曝光:克百威噴菜,大量流入武漢昆明鄭州!

      老特有話說
      2026-01-25 23:09:49
      新華社記者直擊伊朗最新局勢

      新華社記者直擊伊朗最新局勢

      新華社
      2026-01-24 17:45:55
      1976年,張耀祠率人前往毛遠新的住處,向其宣布:依據中央的決定,對你實施保護審查

      1976年,張耀祠率人前往毛遠新的住處,向其宣布:依據中央的決定,對你實施保護審查

      寄史言志
      2026-01-26 11:58:21
      內幕來了!中國雷達被正名,美媒:美軍向委內瑞拉投下電磁脈沖彈

      內幕來了!中國雷達被正名,美媒:美軍向委內瑞拉投下電磁脈沖彈

      丹妮觀
      2026-01-26 15:34:23
      張蘭不聽勸,繼續曬孫子孫女,給孩子們夾菜很溫馨,馬筱梅不出鏡

      張蘭不聽勸,繼續曬孫子孫女,給孩子們夾菜很溫馨,馬筱梅不出鏡

      好賢觀史記
      2026-01-26 16:41:09
      公布了!全明星首發!你好,26歲新秀!

      公布了!全明星首發!你好,26歲新秀!

      籃球實戰寶典
      2026-01-26 18:20:12
      2026-01-26 19:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12193文章數 142549關注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      女子哭訴3年幫"北大碩士"男友背貸超200萬:對方已婚

      頭條要聞

      女子哭訴3年幫"北大碩士"男友背貸超200萬:對方已婚

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被實名舉報代孕、插足婚姻

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      教育
      游戲
      健康
      數碼
      軍事航空

      教育要聞

      女留子連體檢報告都不敢交?上海一國企招聘,9名女留子集體跑路

      上、下路被爆,TES二比零復仇IG,369游龍狼母接管比賽!

      耳石脫落為何讓人天旋地轉+惡心?

      數碼要聞

      高盛最新行業報告顯示,DDR4現貨價較合約價暴漲172%

      軍事要聞

      委代總統稱遭美威脅:馬杜羅已死

      無障礙瀏覽 進入關懷版