<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      東方理工團隊提出HiDrop:壓縮90%視覺Token實現2.2倍加速

      0
      分享至



      隨著多模態大語言模型(MLLM)支持更長上下文,高分辨率圖像和長視頻會產生遠多于文本的視覺 Token,在自注意力二次復雜度下迅速成為效率瓶頸。

      現有研究通常通過漸進式剪枝來減少視覺 Token,但多采用固定策略,忽略了 MLLM 不同層在多模態處理中的功能差異。

      通過對 MLLM 內部信息流的分析,本文發現不同層的功能存在明顯差異:淺層主要傳遞視覺特征,中層進行跨模態融合,而深層則承擔語義整合與推理,視覺信息在層間呈現明顯的非均勻演化過程。

      基于上述觀察,寧波東方理工大學 / 寧波數字孿生(東方理工)研究院沈曉宇團隊提出 HiDrop,通過 延遲注入(Late Injection) 、凹金字塔式剪枝(Concave Pyramid Pruning)和提前退出(Early Exit) 設計與模型層級功能對齊的視覺 Token 壓縮策略。

      實驗效果: 在壓縮約 90% 的視覺 Token 的情況下,HiDrop 仍能保持98.3%的模型性能,并實現1.72×的訓練加速和2.2×的預填充加速。



      圖 1:不同視覺 Token 剪枝策略的對比。 FastV 和 TwigVLM 在淺層階段進行早期剪枝,PDrop 在各層采用統一比例的逐層剪枝,而 HiDrop 根據模型層級功能動態調整視覺 Token:淺層延遲注入,中層進行非均勻剪枝,并在深層提前移除剩余 Token,從而在保持性能的同時顯著降低計算開銷。

      目前,該論文已被 ICLR 2026 接收。



      • 論文標題:HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
      • 論文鏈接:https://arxiv.org/pdf/2602.23699
      • 倉庫鏈接:https://github.com/EIT-NLP/HiDrop

      核心發現:揭示 MLLMS 內部信息處理的動態機制

      為理解 MLLM 是如何處理和整合視覺信息,作者分析了模型表征在不同層中的演化過程。具體而言,通過計算各模態表示在層間的余弦相似度,以衡量模態內部表征的變化;同時,通過觀察固定指令在配對不同圖像時文本嵌入的變化,以評估視覺信息對文本表示的跨模態影響。



      圖 2:MLLM 各層的信息表征動態。左圖展示了模態內部表征的逐層精化過程,而右圖則反映了視覺與語言之間的跨模態交互強度。

      淺層:從左圖可以看到,淺層視覺 Token 表征具有明顯的自相似性,僅在連續層之間發生微小的變化,表明 LLM 在此階段對視覺表征的處理可忽略不計;從右圖可以看到,淺層中固定指令的文本嵌入對不同的匹配圖像幾乎保持不變,這表明跨模態影響仍可忽略,且有意義的融合尚未發生。因此,淺層更像是視覺信息的傳遞通道,主要負責將視覺特征向更深層傳播,而非進行實質性的語義處理。

      中層:與被動的淺層不同,中層成為跨模態融合的關鍵階段。此時,視覺信息開始顯著影響文本表示,說明模型正在主動整合視覺與語言信息,完成語義層面的對齊與融合。然而進一步分析發現,這一過程具有明顯的稀疏性:只有少量關鍵視覺 Token 對文本表示產生決定性影響,而大量視覺 Token 則相對冗余。因此,中層成為視覺 Token 壓縮的關鍵階段。

      深層:當跨模態融合在中層基本完成后,模型進入以抽象語義推理為主的階段。此時視覺信息對文本表示的直接影響逐漸減弱,模型更多依賴融合后的語義表示進行高層推理。



      圖 3:中層視覺 Token 的稀疏性分析。左圖:不同 p 值下的視覺標記壓縮曲線,其中較低的 p 值會強制實施更強的剪枝。右圖:即使在高壓縮率下,模型性能仍保持穩定,表明該剪枝策略具有良好的魯棒性。

      綜合來看,MLLM 的信息處理呈現出明顯的層級結構:淺層主要傳遞視覺信息,中層進行視覺與語言的跨模態融合,而深層則側重于高層語義理解與推理。這一發現為設計更加合理的視覺 Token 壓縮策略提供了重要啟示。

      核心方法:HiDrop 的三段式層級對齊壓縮策略

      基于對 MLLM 層級信息處理動態的分析,作者提出HiDrop 框架,通過與模型層級結構對齊的視覺 Token 壓縮策略,在保證模型性能的同時顯著降低計算開銷。如圖 4 所示,HiDrop 將視覺 Token 的處理劃分為 淺層、中層和深層三個階段,并分別設計了不同的壓縮策略,使計算資源分配與模型實際信息處理過程相匹配。



      圖 4:HiDrop 框架概述 (a) 框架示意圖,淺層專注于視覺無關推理,中間層通過凹金字塔式方案多階段剪枝冗余標記,深層實現早期視覺退出。(b) Hard top-k 算子與 Differentiable Top-k 算子的對比,后者實現自適應選擇并更好地保留信息。

      1. 淺層:視覺延遲注入 (Late Injection)

      根據前文分析,淺層對視覺信息的處理有限,視覺 Token 主要被動地向更深層傳播。因此,HiDrop 并不會在模型輸入時立即注入視覺 Token,而是延遲到更深層再引入。注入位置被設置在跨模態融合的起始處,作者通過視覺表征層間相似性曲線(圖 2)中的局部最小值進行識別。由于淺層并不承擔跨模態融合任務,這種延遲注入在減少計算量的同時幾乎不會影響模型性能。

      2. 中層:凹金字塔式剪枝 (Concave Pyramid Pruning)

      與淺層不同,中層是視覺與語言進行跨模態融合的關鍵階段,同時視覺 Token 的貢獻呈現明顯稀疏性。因此 HiDrop 在該階段采用 激進的凹金字塔式剪枝策略,通過先急后緩的方式減少視覺 Token,并引入 Differentiable Top-k 算子實現自適應選擇,在保持關鍵信息的同時降低計算開銷。

      為確定剪枝層級位置,作者提出 Inter-Layer Visual Attention Similarity(ILVAS) 指標,通過衡量視覺 Token 注意力在相鄰層之間的穩定性來識別適合進行過濾的層,并根據 ILVAS 曲線的局部極值確定中層的剪枝位置。

      3. 深層:視覺提前退出 (Early Exit)

      當跨模態融合在中層基本完成后,模型進入以高層語義理解與推理為主的階段,此時視覺 Token 對文本表示的影響顯著減弱。因此,HiDrop 在深層提前移除剩余視覺 Token,使后續層僅處理融合后的語義表示。

      為確定退出位置,作者通過 從深到淺的掩碼分析 觀察性能變化,并選擇性能趨于穩定的退出點,從而減少深層注意力計算。結合淺層的 延遲注入 與深層的 提前退出,HiDrop 實際形成了一個 聚焦的視覺處理窗口,將視覺 Token 的計算集中在中間層。消融實驗表明,該窗口識別策略能夠實現良好的效率–性能 trade-off。

      此外,HiDrop 還針對動態 Token 選擇帶來的實現挑戰進行了優化,例如采用 持久化位置編碼 保持位置一致性、保持與 FlashAttention 的兼容,并通過并行解耦視覺計算進一步縮短預填充時間。

      實驗結果:更高壓縮率,更優性能,更佳效率



      在多個多模態基準測試上,HiDrop 在更高壓縮率下仍保持優異性能。實驗結果表明,當壓縮率為 88.9% 時,仍能保持 98.3% 的原始性能;即使壓縮率進一步提升至 91.7% 時,其性能仍然超過 PDrop 在 88.9% 壓縮率下的表現,展現出更優的壓縮–性能 trade-off。



      除了保持性能外,HiDrop 還顯著提升了計算效率。該方法將平均視覺 Token 數量減少約 90%,大幅降低了推理 FLOPs,并在 LLaVA-1.5-7B 上實現約 1.7× 的訓練加速和 2.2× 預填充加速

      總結

      本文從 MLLM 內部的信息處理動態出發,揭示了視覺信息在不同層中的功能差異,并據此提出 HiDrop 壓縮框架。實驗結果表明,HiDrop 在實現極高視覺 Token 壓縮率的同時仍能保持接近原始模型的性能,并顯著提升訓練與推理效率。該研究表明,理解模型內部的信息流結構是設計高效多模態模型的重要方向。

      作者介紹

      第一作者吳浩,為寧波東方理工大學 / 寧波數字孿生(東方理工)研究院沈曉宇團隊科研助理,研究方向為多模態大模型壓縮和流式大模型。其在 ICLR、CVPR、ECCV 等頂級會議發表多篇研究成果,其中一篇入選 Best Paper Award Finalist。更多科研項目成果請參閱實驗室主頁:https://idt.eitech.edu.cn/nlp/#/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      破防!小縣城殯儀館大屏流出,中年人扎堆離世,網友:還爭什么?

      破防!小縣城殯儀館大屏流出,中年人扎堆離世,網友:還爭什么?

      川渝視覺
      2026-03-23 19:26:44
      專家:對伊朗戰爭直接影響美國未來走向,可能采取進一步的冒險主義做法

      專家:對伊朗戰爭直接影響美國未來走向,可能采取進一步的冒險主義做法

      澎湃新聞
      2026-03-24 07:46:30
      大,不必張揚 靜態體驗一汽-大眾全新攬巡

      大,不必張揚 靜態體驗一汽-大眾全新攬巡

      菲林公路
      2026-03-24 10:13:55
      虧電動力不打折 靜謐不妥協 看ID. ERA 9X高能“解題”

      虧電動力不打折 靜謐不妥協 看ID. ERA 9X高能“解題”

      車哆哩
      2026-01-29 17:06:31
      一百多年過去了,現在再來看戊戌變法的內容,不由得一聲嘆息

      一百多年過去了,現在再來看戊戌變法的內容,不由得一聲嘆息

      史之銘
      2026-03-23 16:21:44
      這個猥褻案令人發指,為何判決卻是如此之輕?

      這個猥褻案令人發指,為何判決卻是如此之輕?

      呦呦鹿鳴
      2026-03-23 21:13:44
      穆迪復出重傷!勇士加時送獨行俠正式無緣季后賽 弗拉格32+9

      穆迪復出重傷!勇士加時送獨行俠正式無緣季后賽 弗拉格32+9

      醉臥浮生
      2026-03-24 12:43:30
      頭皮發麻!快檢查自家陽臺!有深圳人家里已大量出現!官方提醒:千萬別摸

      頭皮發麻!快檢查自家陽臺!有深圳人家里已大量出現!官方提醒:千萬別摸

      南方都市報
      2026-03-23 21:20:37
      不夸張的說,這顏值在整個亞洲都是數一數二的

      不夸張的說,這顏值在整個亞洲都是數一數二的

      喜歡歷史的阿繁
      2026-03-23 15:30:38
      伊朗19歲摔跤冠軍被絞刑處決畫面曝光:蒙眼綁雙手 行刑者戴頭套

      伊朗19歲摔跤冠軍被絞刑處決畫面曝光:蒙眼綁雙手 行刑者戴頭套

      念洲
      2026-03-24 08:32:16
      “48小時”通牒期限未滿,特朗普又“臨陣退縮”了?| 京釀館

      “48小時”通牒期限未滿,特朗普又“臨陣退縮”了?| 京釀館

      新京報
      2026-03-23 23:46:53
      通牒48小時已過,美伊到底談沒談?

      通牒48小時已過,美伊到底談沒談?

      極目新聞
      2026-03-24 10:15:05
      這是一張鞏俐年輕時劇照,演的特別真實的,四十歲以上基本都看

      這是一張鞏俐年輕時劇照,演的特別真實的,四十歲以上基本都看

      小椰的奶奶
      2026-03-24 01:51:33
      刺激!姚晨再次要涼?人民網下場怒批其官宣離婚實則另有目的!

      刺激!姚晨再次要涼?人民網下場怒批其官宣離婚實則另有目的!

      魔都囡
      2026-03-24 09:10:42
      這次破案了,中方追回走私稀土,價值46個億,美國砸重金收買內鬼

      這次破案了,中方追回走私稀土,價值46個億,美國砸重金收買內鬼

      影孖看世界
      2026-03-23 23:29:51
      外媒炒作“特朗普襲伊,意在中國”,非蠢即壞

      外媒炒作“特朗普襲伊,意在中國”,非蠢即壞

      觀察者網
      2026-03-24 13:03:07
      美伊戰爭,一個誰也沒想到的意外,終于出現了!

      美伊戰爭,一個誰也沒想到的意外,終于出現了!

      斐君觀點
      2026-03-23 21:34:39
      老年HIV感染者調查:男子一家四口感染HIV,妻子和小兒子相繼去世,51歲的他嚴重貧血,不能干體力活

      老年HIV感染者調查:男子一家四口感染HIV,妻子和小兒子相繼去世,51歲的他嚴重貧血,不能干體力活

      極目新聞
      2026-03-23 22:47:36
      馬杜羅之子首度公開父親在監獄近況:周四再出庭,鍛煉不能停

      馬杜羅之子首度公開父親在監獄近況:周四再出庭,鍛煉不能停

      紅星新聞
      2026-03-24 12:33:10
      A股三大股指再度翻綠

      A股三大股指再度翻綠

      每日經濟新聞
      2026-03-24 10:25:37
      2026-03-24 14:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12581文章數 142592關注度
      往期回顧 全部

      科技要聞

      蘋果WWDC26全球開發者大會官宣6月9日開幕

      頭條要聞

      媒體:特朗普有些"著急"了 結束戰爭的意圖非常強烈

      頭條要聞

      媒體:特朗普有些"著急"了 結束戰爭的意圖非常強烈

      體育要聞

      客場大勝+火箭輸球,馬刺提前鎖定本賽季西南賽區冠軍

      娛樂要聞

      林峰張馨月全家浙江游 岳母幫忙帶女兒

      財經要聞

      很多人,都被黃金嚇怕了!

      汽車要聞

      我行我素的豪華 全新一代雷克薩斯更犀利了

      態度原創

      旅游
      本地
      數碼
      時尚
      公開課

      旅游要聞

      “春假+清明”帶熱春季旅游 昆明躋身熱門飛行目的地前十

      本地新聞

      春日吃花第一站——云南

      數碼要聞

      蘋果用實力回擊8GB內存不夠用!玩家實測MacBook Neo同時打開60個應用依然流暢 Windows直接關機

      今年春天的“頂流單品”竟然是它,全世界的時髦女人都在穿

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版