<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      VLM剪枝新SOTA:無需重訓練,注意力去偏置超越6大主流方案

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】常用的attention機制存在位置偏置和padding異常,影響剪枝效果。上海大學曾丹團隊提出一種無需重新訓練的attention去偏方法,有效提升剪枝性能,使模型在信息受限時仍能可靠運行,為VLMs在移動端和邊緣計算等場景的高效部署提供了新思路。

      近年來,Vision-Language Models(視覺—語言模型)在多模態理解任務中取得了顯著進展,并逐漸成為通用人工智能的重要技術路線。

      然而,這類模型在實際應用中往往面臨推理開銷大、效率受限的問題,研究者通常依賴visual token pruning等策略降低計算成本,其中attention機制被廣泛視為衡量視覺信息重要性的關鍵依據。

      近日,上海大學曾丹團隊聯合南開大學研究人員,從attention可靠性的角度出發,系統揭示了Vision-Language Models中普遍存在的attention偏置問題,并提出了一種無需重新訓練的attention去偏方法,在多個主流模型、剪枝策略及圖像與視頻基準上驗證了其有效性,為多模態模型的高效、可靠部署提供了新的思路。


      文章代碼:https://github.com/intcomp/attention-bias

      文章鏈接:https://arxiv.org/abs/2508.17807

      研究意義

      近年來,視覺—語言模型(Vision-Language Models,VLMs)在圖像理解、視覺問答、多模態對話等任務中表現突出,并逐漸成為通用人工智能的重要技術基礎。

      然而,這類模型在實際部署時往往面臨一個現實挑戰:模型推理成本高,速度慢

      為提升效率,研究者通常會采用visual token pruning(視覺 token 剪枝)技術,即在不顯著影響性能的前提下,丟棄不重要的視覺信息。其中,attention機制被廣泛用作判斷「哪些視覺 token 更重要」的核心依據。

      但上海大學曾丹團隊在研究中發現:attention并不總是可靠的「重要性指標」

      在多模態模型中,attention 往往受到多種結構性偏置的影響,這些偏置與真實語義無關,卻會直接左右剪枝結果,從而影響模型性能。

      針對這一問題,該團隊系統分析了VLM中attention的行為特性,提出了一種Attention Debiasing(注意力去偏)方法,在無需重新訓練模型的前提下,有效提升了多種主流剪枝方法的穩定性與可靠性。

      如下圖所示,提出的方法應用于目前基于attention的剪枝方法上之后,都有提升。


      研究背景

      在直覺上,attention機制往往被理解為「模型更關注哪里」,因此被自然地視為語義重要性的體現。

      然而,曾丹團隊的研究表明,在Vision-Language Models中,attention 往往并非只由內容決定,而是隱含著多種系統性偏置。

      其中最典型的有兩類:

      第一類是位置偏置(recency bias)。研究發現,language-to-vision attention 會隨著視覺 token 在序列中的位置不斷增大,也就是說,模型更傾向于關注「后面的 token」。如圖所示,這通常表現為模型對圖像下方區域給予更高 attention,即便這些區域并不包含關鍵信息。


      第二類是padding引發的attention sink現象。在實際輸入中,為了統一尺寸,圖像往往需要padding,但這些區域在語義上是「空白」的。然而,由于hidden state中出現異常激活,padding對應的token反而可能獲得較高attention,從而被錯誤地保留下來。下圖是pad區域填充不同的數值時,pad區域對應的attention score數值以及hidden states的激活值。


      更值得注意的是,當attention被用于剪枝排序時,這些偏置并不會被削弱,反而會被進一步放大,最終導致剪枝結果偏離真實語義需求。

      研究方法

      針對上述問題,上海大學曾丹團隊并沒有提出新的剪枝算法,也沒有對模型結構進行修改,而是從一個更基礎的角度出發:既然attention本身是有偏的,是否可以先對attention進行修正?

      該團隊觀察到,attention中的偏置并非隨機噪聲,而是呈現出穩定的整體趨勢。因此,他們通過對attention隨token位置變化的趨勢進行擬合,構建了一條反映「位置偏置」的曲線,并在此基礎上對原始attention進行去偏修正,顯式削弱與內容無關的位置因素,使attention更接近真實的語義重要性。如下圖所示。

      與此同時,在剪枝階段顯式抑制padding token的影響,避免語義為空的區域干擾剪枝排序。整個過程無需重新訓練模型,也不依賴特定的剪枝策略,可作為plug-and-play模塊直接集成到現有方法中。


      實驗結果和應用前景

      在實驗驗證中,該團隊將Attention Debiasing方法集成到FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA等6種主流attention-based剪枝方法中,在10個圖像理解基準與3個視頻理解基準上進行了系統評估,并覆蓋LLaVA-7B / 13B等多種主流Vision-Language Models

      實驗結果表明,在幾乎所有設置下,經過attention去偏修正后,剪枝模型都能獲得一致且穩定的性能提升,且在剪枝更激進、token預算更緊張的情況下效果尤為明顯。這說明,對attention進行去偏處理,有助于模型在「更少信息」的條件下做出更可靠的判斷。



      此外,通過對實驗結果的可視化分析,原始attention-based剪枝方法往往保留了大量位于圖像下方或padding區域的視覺token,而與問題語義密切相關的關鍵區域卻容易被忽略。引入attention去偏修正后,模型保留的視覺區域更加集中于目標物體及關鍵細節位置,有效減少了無關背景的干擾。該結果直觀驗證了attention去偏在提升剪枝合理性和可解釋性方面的作用。

      從應用角度來看,該研究對多模態模型在「移動端部署、邊緣計算、實時視覺理解」等場景具有重要意義,也為后續更穩健的attention設計和多模態模型優化提供了新的研究思路。


      總結

      該研究表明,attention并非天然等價于語義重要性,尤其在Vision-Language Models中,如果忽視attention中潛在的結構性偏置,基于attention的剪枝策略可能會被誤導。

      上海大學曾丹團隊通過簡單而有效的attention去偏方法,顯著提升了多模態模型在效率與可靠性之間的平衡能力。

      參考資料:

      https://arxiv.org/abs/2508.17807


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      兩性關系:不管你信不信,男性過了68歲,基本都有這七個常見狀態

      兩性關系:不管你信不信,男性過了68歲,基本都有這七個常見狀態

      健康科普365
      2026-01-28 11:04:57
      斯基拉:利物浦已接觸鄧弗里斯的經紀人,國米要價2500萬歐

      斯基拉:利物浦已接觸鄧弗里斯的經紀人,國米要價2500萬歐

      懂球帝
      2026-01-31 01:50:20
      反美敘事,為何越來越弱智

      反美敘事,為何越來越弱智

      地球公民金建國
      2026-01-26 20:00:07
      性行為竟能抗癌?華科大研究讓人震驚!

      性行為竟能抗癌?華科大研究讓人震驚!

      特約前排觀眾
      2026-01-28 00:20:03
      Clawdbot進化速度離譜:突然開口說話,給自己捏臉,還能炒股砍價

      Clawdbot進化速度離譜:突然開口說話,給自己捏臉,還能炒股砍價

      DeepTech深科技
      2026-01-29 18:14:10
      特斯拉要變了!建100GW光伏產能,不再追求汽車規模

      特斯拉要變了!建100GW光伏產能,不再追求汽車規模

      21世紀經濟報道
      2026-01-30 15:43:37
      劉畊宏:熱度褪去后,娛樂圈的人情冷暖,在他身上表現得淋漓盡致

      劉畊宏:熱度褪去后,娛樂圈的人情冷暖,在他身上表現得淋漓盡致

      無人傾聽無人傾聽
      2026-01-31 00:50:14
      英媒:徐彬崇拜卡塞米羅和羅德里,狼隊簽他是為踢英冠做準備

      英媒:徐彬崇拜卡塞米羅和羅德里,狼隊簽他是為踢英冠做準備

      懂球帝
      2026-01-31 01:38:28
      別買這種“加絨褲”!央視曝光,真的有毒,穿得越久,危害越大

      別買這種“加絨褲”!央視曝光,真的有毒,穿得越久,危害越大

      離離言幾許
      2026-01-30 20:54:49
      白銀重挫20% 創2008年以來最大盤中跌幅

      白銀重挫20% 創2008年以來最大盤中跌幅

      財聯社
      2026-01-31 01:13:04
      猛料!葛斯齊曝汪小菲會半夜給自己打電話,不解大S為何那么對他

      猛料!葛斯齊曝汪小菲會半夜給自己打電話,不解大S為何那么對他

      小徐講八卦
      2026-01-30 13:56:12
      今天罵塔利班的人,美軍撤離的時候有沒有喊過要和塔利班合照?

      今天罵塔利班的人,美軍撤離的時候有沒有喊過要和塔利班合照?

      走讀新生
      2026-01-29 10:35:48
      又回曼徹斯特了,格林伍德和前曼聯青訓隊友梅勒一起訓練

      又回曼徹斯特了,格林伍德和前曼聯青訓隊友梅勒一起訓練

      懂球帝
      2026-01-30 23:12:37
      中美這輪大戲,到了階段性高潮

      中美這輪大戲,到了階段性高潮

      虛聲
      2026-01-29 20:23:37
      老人去世后存款取不出?2026年新政落地,這些憑證比密碼還管用

      老人去世后存款取不出?2026年新政落地,這些憑證比密碼還管用

      復轉這些年
      2026-01-28 16:34:00
      美國大軍逼近!特朗普發出最后通牒……伊朗:隨時準備扣動扳機

      美國大軍逼近!特朗普發出最后通牒……伊朗:隨時準備扣動扳機

      新民周刊
      2026-01-29 20:05:51
      傳22歲阿爾卡拉斯與34歲韓國DJ相戀 拉杜卡努去年曾是他緋聞女友

      傳22歲阿爾卡拉斯與34歲韓國DJ相戀 拉杜卡努去年曾是他緋聞女友

      勁爆體壇
      2026-01-29 07:42:36
      7換1!炸裂交易方案出爐,兩屆MVP加盟湖人,聯手東詹?

      7換1!炸裂交易方案出爐,兩屆MVP加盟湖人,聯手東詹?

      弄月公子
      2026-01-30 08:24:35
      預制菜已經發展到什么程度了?網友:在江西,預制菜可能不大好賣

      預制菜已經發展到什么程度了?網友:在江西,預制菜可能不大好賣

      解讀熱點事件
      2026-01-29 04:57:21
      茲維列夫氣炸!怒斥裁判:阿卡抽筋卻能叫治療 你們總保護這2家伙

      茲維列夫氣炸!怒斥裁判:阿卡抽筋卻能叫治療 你們總保護這2家伙

      風過鄉
      2026-01-30 16:15:42
      2026-01-31 02:32:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14445文章數 66549關注度
      往期回顧 全部

      科技要聞

      意念控制機器人不是科幻 1-2年就落地

      頭條要聞

      金晨是否構成肇事逃逸 助理頂包有何后果 律師解讀

      頭條要聞

      金晨是否構成肇事逃逸 助理頂包有何后果 律師解讀

      體育要聞

      “假賭黑”的子彈,還要再飛一會兒嗎?

      娛樂要聞

      警方通報金晨交通事故,否認網傳騙保

      財經要聞

      水貝驚雷:揭秘杰我睿百億黃金賭局的背后

      汽車要聞

      合資品牌首搭800V/5C快充 東風日產NX8將于3、4月上市

      態度原創

      手機
      親子
      時尚
      公開課
      軍事航空

      手機要聞

      差200元!紅米Turbo 5與Max該怎么選?這4點核心差異看完不糾結!

      親子要聞

      心血管風險或始于子宮孕期不良暴露留下"胎兒期烙印"

      今日熱點:《閃靈》今日上映;保險公司確認金晨方曾放棄索賠……

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      新西蘭拒絕特朗普:不加入"和平委員會"

      無障礙瀏覽 進入關懷版