網易首頁 > 網易號 > 正文申請入駐

東方理工團隊提出HiDrop：壓縮90%視覺Token實現2.2倍加速

2026-03-24 12:00:42　來源: 機器之心Pro

河北舉報

分享至

隨著多模態大語言模型（MLLM）支持更長上下文，高分辨率圖像和長視頻會產生遠多于文本的視覺 Token，在自注意力二次復雜度下迅速成為效率瓶頸。

現有研究通常通過漸進式剪枝來減少視覺 Token，但多采用固定策略，忽略了 MLLM 不同層在多模態處理中的功能差異。

通過對 MLLM 內部信息流的分析，本文發現不同層的功能存在明顯差異：淺層主要傳遞視覺特征，中層進行跨模態融合，而深層則承擔語義整合與推理，視覺信息在層間呈現明顯的非均勻演化過程。

基于上述觀察，寧波東方理工大學 / 寧波數字孿生（東方理工）研究院沈曉宇團隊提出 HiDrop，通過延遲注入（Late Injection）、凹金字塔式剪枝（Concave Pyramid Pruning）和提前退出（Early Exit）設計與模型層級功能對齊的視覺 Token 壓縮策略。

實驗效果：在壓縮約 90% 的視覺 Token 的情況下，HiDrop 仍能保持98.3%的模型性能，并實現1.72×的訓練加速和2.2×的預填充加速。

圖 1：不同視覺 Token 剪枝策略的對比。 FastV 和 TwigVLM 在淺層階段進行早期剪枝，PDrop 在各層采用統一比例的逐層剪枝，而 HiDrop 根據模型層級功能動態調整視覺 Token：淺層延遲注入，中層進行非均勻剪枝，并在深層提前移除剩余 Token，從而在保持性能的同時顯著降低計算開銷。

目前，該論文已被 ICLR 2026 接收。

論文標題：HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
論文鏈接：https://arxiv.org/pdf/2602.23699
倉庫鏈接：https://github.com/EIT-NLP/HiDrop

核心發現：揭示 MLLMS 內部信息處理的動態機制

為理解 MLLM 是如何處理和整合視覺信息，作者分析了模型表征在不同層中的演化過程。具體而言，通過計算各模態表示在層間的余弦相似度，以衡量模態內部表征的變化；同時，通過觀察固定指令在配對不同圖像時文本嵌入的變化，以評估視覺信息對文本表示的跨模態影響。

圖 2：MLLM 各層的信息表征動態。左圖展示了模態內部表征的逐層精化過程，而右圖則反映了視覺與語言之間的跨模態交互強度。

淺層：從左圖可以看到，淺層視覺 Token 表征具有明顯的自相似性，僅在連續層之間發生微小的變化，表明 LLM 在此階段對視覺表征的處理可忽略不計；從右圖可以看到，淺層中固定指令的文本嵌入對不同的匹配圖像幾乎保持不變，這表明跨模態影響仍可忽略，且有意義的融合尚未發生。因此，淺層更像是視覺信息的傳遞通道，主要負責將視覺特征向更深層傳播，而非進行實質性的語義處理。

中層：與被動的淺層不同，中層成為跨模態融合的關鍵階段。此時，視覺信息開始顯著影響文本表示，說明模型正在主動整合視覺與語言信息，完成語義層面的對齊與融合。然而進一步分析發現，這一過程具有明顯的稀疏性：只有少量關鍵視覺 Token 對文本表示產生決定性影響，而大量視覺 Token 則相對冗余。因此，中層成為視覺 Token 壓縮的關鍵階段。

深層：當跨模態融合在中層基本完成后，模型進入以抽象語義推理為主的階段。此時視覺信息對文本表示的直接影響逐漸減弱，模型更多依賴融合后的語義表示進行高層推理。

圖 3：中層視覺 Token 的稀疏性分析。左圖：不同 p 值下的視覺標記壓縮曲線，其中較低的 p 值會強制實施更強的剪枝。右圖：即使在高壓縮率下，模型性能仍保持穩定，表明該剪枝策略具有良好的魯棒性。

綜合來看，MLLM 的信息處理呈現出明顯的層級結構：淺層主要傳遞視覺信息，中層進行視覺與語言的跨模態融合，而深層則側重于高層語義理解與推理。這一發現為設計更加合理的視覺 Token 壓縮策略提供了重要啟示。

核心方法：HiDrop 的三段式層級對齊壓縮策略

基于對 MLLM 層級信息處理動態的分析，作者提出HiDrop 框架，通過與模型層級結構對齊的視覺 Token 壓縮策略，在保證模型性能的同時顯著降低計算開銷。如圖 4 所示，HiDrop 將視覺 Token 的處理劃分為淺層、中層和深層三個階段，并分別設計了不同的壓縮策略，使計算資源分配與模型實際信息處理過程相匹配。

圖 4：HiDrop 框架概述 (a) 框架示意圖，淺層專注于視覺無關推理，中間層通過凹金字塔式方案多階段剪枝冗余標記，深層實現早期視覺退出。(b) Hard top-k 算子與 Differentiable Top-k 算子的對比，后者實現自適應選擇并更好地保留信息。

1. 淺層：視覺延遲注入（Late Injection）

根據前文分析，淺層對視覺信息的處理有限，視覺 Token 主要被動地向更深層傳播。因此，HiDrop 并不會在模型輸入時立即注入視覺 Token，而是延遲到更深層再引入。注入位置被設置在跨模態融合的起始處，作者通過視覺表征層間相似性曲線（圖 2）中的局部最小值進行識別。由于淺層并不承擔跨模態融合任務，這種延遲注入在減少計算量的同時幾乎不會影響模型性能。

2. 中層：凹金字塔式剪枝（Concave Pyramid Pruning）

與淺層不同，中層是視覺與語言進行跨模態融合的關鍵階段，同時視覺 Token 的貢獻呈現明顯稀疏性。因此 HiDrop 在該階段采用激進的凹金字塔式剪枝策略，通過先急后緩的方式減少視覺 Token，并引入 Differentiable Top-k 算子實現自適應選擇，在保持關鍵信息的同時降低計算開銷。

為確定剪枝層級位置，作者提出 Inter-Layer Visual Attention Similarity（ILVAS）指標，通過衡量視覺 Token 注意力在相鄰層之間的穩定性來識別適合進行過濾的層，并根據 ILVAS 曲線的局部極值確定中層的剪枝位置。

3. 深層：視覺提前退出（Early Exit）

當跨模態融合在中層基本完成后，模型進入以高層語義理解與推理為主的階段，此時視覺 Token 對文本表示的影響顯著減弱。因此，HiDrop 在深層提前移除剩余視覺 Token，使后續層僅處理融合后的語義表示。

為確定退出位置，作者通過從深到淺的掩碼分析觀察性能變化，并選擇性能趨于穩定的退出點，從而減少深層注意力計算。結合淺層的延遲注入與深層的提前退出，HiDrop 實際形成了一個聚焦的視覺處理窗口，將視覺 Token 的計算集中在中間層。消融實驗表明，該窗口識別策略能夠實現良好的效率–性能 trade-off。

此外，HiDrop 還針對動態 Token 選擇帶來的實現挑戰進行了優化，例如采用持久化位置編碼保持位置一致性、保持與 FlashAttention 的兼容，并通過并行解耦視覺計算進一步縮短預填充時間。

實驗結果：更高壓縮率，更優性能，更佳效率

在多個多模態基準測試上，HiDrop 在更高壓縮率下仍保持優異性能。實驗結果表明，當壓縮率為 88.9% 時，仍能保持 98.3% 的原始性能；即使壓縮率進一步提升至 91.7% 時，其性能仍然超過 PDrop 在 88.9% 壓縮率下的表現，展現出更優的壓縮–性能 trade-off。

除了保持性能外，HiDrop 還顯著提升了計算效率。該方法將平均視覺 Token 數量減少約 90%，大幅降低了推理 FLOPs，并在 LLaVA-1.5-7B 上實現約 1.7× 的訓練加速和 2.2× 預填充加速

總結

本文從 MLLM 內部的信息處理動態出發，揭示了視覺信息在不同層中的功能差異，并據此提出 HiDrop 壓縮框架。實驗結果表明，HiDrop 在實現極高視覺 Token 壓縮率的同時仍能保持接近原始模型的性能，并顯著提升訓練與推理效率。該研究表明，理解模型內部的信息流結構是設計高效多模態模型的重要方向。

作者介紹

第一作者吳浩，為寧波東方理工大學 / 寧波數字孿生（東方理工）研究院沈曉宇團隊科研助理，研究方向為多模態大模型壓縮和流式大模型。其在 ICLR、CVPR、ECCV 等頂級會議發表多篇研究成果，其中一篇入選 Best Paper Award Finalist。更多科研項目成果請參閱實驗室主頁：https://idt.eitech.edu.cn/nlp/#/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.