<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      CVPR 2026 | 從視覺Token內在變化量出發,實現VLM無損加速1.87倍

      0
      分享至



      作者介紹:第一作者陳駿杰(四川大學碩士二年級)與共同一作劉旭洋(四川大學碩士三年級)深耕高效視覺語言模型。



      • 論文題目:Variation-aware Vision Token Dropping for Faster Large Vision-Language Models
      • 論文鏈接:https://arxiv.org/abs/2509.01552
      • 代碼鏈接:https://github.com/xuyang-liu16/V2Drop

      背景與動機

      隨著高分辨率圖像理解與長視頻處理需求的爆發式增長,大型視覺語言模型(LVLMs)所需處理的視覺 Token 數量急劇膨脹,推理效率成為落地部署的核心瓶頸。Token 壓縮是縮短序列、提升吞吐的直接手段,但現有方法普遍依賴注意力權重來判斷 Token 重要性,這一路線暗藏兩個致命缺陷:

      一是位置偏差問題(如圖 1 所示),該方法傾向于機械地保留序列末尾的 Token,無論圖像內容如何,注意力得分普遍在序列末尾(對應圖像底部區域)形成峰值(紅色箭頭),導致關鍵的前期 Token 被丟棄,進而加劇多模態幻覺。

      二是與高效算子存在根本性的不兼容,計算注意力權重與 FlashAttention 等高效機制之間存在本質沖突。相比之下,右側三列(綠色邊框)展示了基于 L2 Norm 變化量評估方法的顯著優勢 —— 其得分分布均勻、能夠精準聚焦于含有關鍵信息的圖像區域(如綠色框標注的球衣號碼區域),且無需顯式注意力計算,與高效算子天然兼容。



      圖 1:注意力引導 vs. 變化量感知的 Token 評估對比

      核心發現


      發現 1:注意力方法存在系統性末端偏置

      研究團隊在 LLaVA-1.5-7B 和 Qwen2-VL-7B 上,對比了 SparseVLM、FastV 與 L2 Norm 變化量評估在相同輸入下的 Token 保留行為。注意力方法的保留概率曲線均呈單調遞增階梯形狀 —— 末端 Token 保留率高達 80%~100%,前端僅 10%~30%,與內容重要性毫無關聯。L2 Norm 則呈近似均勻分布,天然規避位置偏差。



      圖 2:兩大模型上視覺 Token 保留位置分布分析 ——L2 Norm 呈現均勻分布,注意力方法呈嚴重末端偏置

      發現 2:變化量高的 Token 天然對應語義關鍵區域

      針對兩個典型樣本(百事可樂瓶識別、球衣號碼識別),L1 Norm、L2 Norm 和余弦相似度三種指標均在答案相關區域出現顯著峰值,且無論關鍵區域位于序列中段還是后段均能精準捕捉,表明變化量是衡量視覺 Token 重要性的魯棒內在屬性,L2 Norm 綜合性能最優,被 V2Drop 選為默認度量。



      圖 3:三種變化量度量指標均精準定位答案相關區域(紅框),驗證變化量與語義重要性的強相關性

      解決方案:V2Drop

      V2Drop 在 LLM 推理階段采用多階段漸進式剪枝策略,三步實現高效無偏 Token 壓縮:

      ① 變化量計算(Variation Computation)

      在每個預定義剪枝層,計算每個視覺 Token 與上一層表示的 L2 距離作為重要性得分。額外開銷僅為單層注意力計算量的 0.022%,可忽略不計。

      ② Token 排序與選擇(Token Ranking & Selection)

      按變化量得分從高到低排序,保留 Top-K 個 Token,自然過濾惰性 Token,無需引入任何位置偏置。

      ③ 漸進式壓縮(Progressive Dropping)

      在淺層、中層、深層三階段依次執行剪枝,形成 M → Ka → Kb → Kc 漸進壓縮路徑。消融實驗證明,漸進式剪枝比一次性剪枝在 POPE 上高 9.3%、MME 上高 5.9%。



      圖 4:V2Drop 整體框架

      理論保證

      通過一階 Taylor 展開證明,Token 的變化量幅度與其對模型輸出的影響正相關,從理論上驗證了丟棄低變化量 Token 能最小化輸出擾動的核心假設。架構的三大屬性(殘差連接、Layer Norm、平滑激活函數)共同保證了理論假設的合理性。

      實驗結果


      1、圖像理解(LLaVA-1.5-7B & Qwen2-VL-7B)

      在圖像場景的核心表現上,本方法在 LLaVA-1.5-7B 上:壓縮 66.7% Token(保留 192 個)時,綜合性能達 97.6%,超越次優方法 PDrop(96.0%。此外,在 Qwen2-VL-7B 高分辨率場景中,66.7% 和 77.8% 兩檔壓縮率下均全面超越 FastV 和 DART,尤其在 POPE 幻覺抑制指標上表現突出,充分驗證了本方法對原生可變分辨率輸入的強泛化能力。



      表 1:基于 LLaVA-1.5-7B 的多圖像理解基準測試對比



      表 2:基于 Qwen2-VL-7B 的多圖像理解基準測試對比

      2、視頻理解(LLaVA-OV-7B & Qwen2-VL-7B)

      在視頻場景中,本方法同樣表現卓越:僅保留 25% 的 Token 時,綜合性能即達 98.6%,超越保留 30% Token 的 DyCoke(97.7%),以更少 Token 實現更優性能;在長視頻任務(VideoMME-Long)上持續領跑,有效緩解了 VideoLLM 普遍存在的末幀偏置問題;在 Qwen2-VL-7B 場景下,僅保留 20% Token 時綜合性能達 93.3%,其中 MVBench 以 62.1 分大幅領先 DART(58.9)和 FastV(50.9),優勢尤為突出。



      表 3:基于 Qwen2-VL-7B 的多視頻理解基準測試性能對比



      表 4:基于 LLaVA-OV-7B 的多視頻理解基準測試性能對比

      3、效率分析(與高效算子完全兼容)

      在效率層面,本方法同樣帶來顯著收益:圖文理解任務(LLaVA-1.5-7B)中,LLM 生成延遲降低 31.5%,吞吐量提升至 9.01 items/s(↑1.26×),峰值顯存同步下降 3.3%;視頻理解任務(LLaVA-OV-7B)中,LLM 生成延遲大幅削減 74.2%,吞吐量提升 1.38×,峰值顯存降低 7.8%。與之形成鮮明對比的是,SparseVLM、FastV、PDrop 在視頻場景下峰值顯存分別暴增 54.8%、39.2% 和 37.8%,而本方法無需計算注意力矩陣,真正實現了加速與節存的雙重收益。



      表 5:圖像 / 視頻理解任務的效率對比

      結論


      V2Drop 為視覺語言模型的推理加速開辟了一條全新路徑。研究發現,視覺 Token 在 LLM 各層間的變化量與其任務相關性高度吻合,且這一規律與具體任務無關(task-agnostic)。基于這一洞察,V2Drop 以變化量為核心評估信號,構建了一套輕量、漸進、與高效算子完全兼容的 Token 壓縮框架 —— 無需修改模型權重,無需訪問注意力矩陣,即插即用。在圖像與視頻理解兩條賽道上均實現當前最優性能 - 效率權衡。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      摩薩德曬照嚇懵伊朗!500人落網,誰在逼伊朗人當“內鬼”?

      摩薩德曬照嚇懵伊朗!500人落網,誰在逼伊朗人當“內鬼”?

      老馬拉車莫少裝
      2026-03-16 17:21:03
      伊朗:已成功破解以色列軍隊的安全通信相關代碼

      伊朗:已成功破解以色列軍隊的安全通信相關代碼

      閃電新聞
      2026-03-19 22:01:11
      關曉彤線下狀態堪憂!面部浮腫、發型貼頭皮,衣服皺巴狀態拉胯

      關曉彤線下狀態堪憂!面部浮腫、發型貼頭皮,衣服皺巴狀態拉胯

      原夢叁生
      2026-03-21 04:35:29
      北約宣布:一致決定從伊拉克撤出所有人員!特朗普大罵北約是“紙老虎”!伊拉克民兵武裝大量襲擊北約多國基地、美國使館等,造成人員傷亡

      北約宣布:一致決定從伊拉克撤出所有人員!特朗普大罵北約是“紙老虎”!伊拉克民兵武裝大量襲擊北約多國基地、美國使館等,造成人員傷亡

      每日經濟新聞
      2026-03-20 22:41:03
      爆冷,4-1到0-1,中超冠軍被打回原形,3輪-2分,離了裁判真不行

      爆冷,4-1到0-1,中超冠軍被打回原形,3輪-2分,離了裁判真不行

      我就是一個說球的
      2026-03-20 22:14:44
      A股:股民要做好準備,主力信號明確,下周將迎來更大級別變盤

      A股:股民要做好準備,主力信號明確,下周將迎來更大級別變盤

      另子維愛讀史
      2026-03-20 18:40:52
      廣東被絕殺僅2小時!杜鋒連夜返粵,出席粵BA開幕式,杜會長太拼

      廣東被絕殺僅2小時!杜鋒連夜返粵,出席粵BA開幕式,杜會長太拼

      多特體育說
      2026-03-20 23:10:28
      烏克蘭一天半擊退俄軍“春季攻勢”!迫使對手放棄扎波羅熱陣地

      烏克蘭一天半擊退俄軍“春季攻勢”!迫使對手放棄扎波羅熱陣地

      項鵬飛
      2026-03-19 20:46:54
      男人要牢記的兩性鐵律:女人無論多大年齡,永遠都想要這三大需求

      男人要牢記的兩性鐵律:女人無論多大年齡,永遠都想要這三大需求

      三農老歷
      2026-03-14 15:24:44
      原來他早已離世2年!明明是中國人卻演一輩子大佐,晚年定居日本

      原來他早已離世2年!明明是中國人卻演一輩子大佐,晚年定居日本

      查爾菲的筆記
      2026-03-20 13:37:31
      與特朗普聊完了,高市笑容已消失,美國通告日本:中方反制還沒完

      與特朗普聊完了,高市笑容已消失,美國通告日本:中方反制還沒完

      策略述
      2026-03-20 19:22:26
      謝婷婷帶混血兒子回香港,飛機上曬兒子正臉照,長相俊俏像極父親

      謝婷婷帶混血兒子回香港,飛機上曬兒子正臉照,長相俊俏像極父親

      八斗小先生
      2026-03-20 15:59:46
      最慘簽約!場均3.3分+5300萬,妥妥合同年詐騙犯啊,火箭被坑慘

      最慘簽約!場均3.3分+5300萬,妥妥合同年詐騙犯啊,火箭被坑慘

      球童無忌
      2026-03-21 00:53:34
      她嫁給大12歲的恩師,如今丈夫成為了北影院長,堪稱上海驕傲

      她嫁給大12歲的恩師,如今丈夫成為了北影院長,堪稱上海驕傲

      百年歷史老號
      2026-03-20 08:18:23
      洪秀柱黃智賢邱毅王炳忠等,建議統一后臺灣地區新管理團隊名單

      洪秀柱黃智賢邱毅王炳忠等,建議統一后臺灣地區新管理團隊名單

      領悟看世界
      2026-03-18 01:45:55
      幾乎全是假貨!利潤高達2400%,咋消費者還前赴后繼爭相購買?

      幾乎全是假貨!利潤高達2400%,咋消費者還前赴后繼爭相購買?

      夢史
      2026-01-07 10:08:05
      演完《小巷人家》演《好好的時光》,他12歲乖巧清秀,神似陳昊宇

      演完《小巷人家》演《好好的時光》,他12歲乖巧清秀,神似陳昊宇

      娛君墜星河
      2026-03-20 17:55:06
      林高遠親自曬生日蛋糕合影照,趙子豪慶生,沒有封訓疑已退役

      林高遠親自曬生日蛋糕合影照,趙子豪慶生,沒有封訓疑已退役

      越嶺尋蹤
      2026-03-20 03:19:47
      送外賣北大學子曾是高考市第一名 外賣平臺稱其實僅跑了5單 本人回應質疑

      送外賣北大學子曾是高考市第一名 外賣平臺稱其實僅跑了5單 本人回應質疑

      封面新聞
      2026-03-19 16:00:21
      清華女博士不相信醫生,執意生下3胞胎,不料3個孩子都有問題

      清華女博士不相信醫生,執意生下3胞胎,不料3個孩子都有問題

      明月清風閣
      2026-03-20 12:20:09
      2026-03-21 05:07:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12555文章數 142588關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      英國授權美軍用其基地打伊朗 伊外長:將行使自衛權回應

      頭條要聞

      英國授權美軍用其基地打伊朗 伊外長:將行使自衛權回應

      體育要聞

      6年前的一場悲劇,造就了“法國瓦爾迪”

      娛樂要聞

      總臺首屆電影盛典,“沈馬”CP再合體

      財經要聞

      金融法草案向社會公開征求意見

      汽車要聞

      何小鵬坦白局:每月3億的“慌”與通向L4的堅定

      態度原創

      教育
      游戲
      旅游
      公開課
      軍事航空

      教育要聞

      爸爸身上的錢是媽媽的兩倍,還少八元,請問爸爸身上有多少錢

      Xbox新AI游戲助手翻車 玩家媒體紛紛表示:令人失望

      旅游要聞

      游客為玲娜貝兒制作十多套裝扮,上海迪士尼“10歲生日慶典”啟幕

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普會晤高市早苗 把美國襲擊伊朗比作偷襲珍珠港

      無障礙瀏覽 進入關懷版