![]()
新智元報道
編輯:LRST
【新智元導讀】常用的attention機制存在位置偏置和padding異常,影響剪枝效果。上海大學曾丹團隊提出一種無需重新訓練的attention去偏方法,有效提升剪枝性能,使模型在信息受限時仍能可靠運行,為VLMs在移動端和邊緣計算等場景的高效部署提供了新思路。
近年來,Vision-Language Models(視覺—語言模型)在多模態理解任務中取得了顯著進展,并逐漸成為通用人工智能的重要技術路線。
然而,這類模型在實際應用中往往面臨推理開銷大、效率受限的問題,研究者通常依賴visual token pruning等策略降低計算成本,其中attention機制被廣泛視為衡量視覺信息重要性的關鍵依據。
近日,上海大學曾丹團隊聯合南開大學研究人員,從attention可靠性的角度出發,系統揭示了Vision-Language Models中普遍存在的attention偏置問題,并提出了一種無需重新訓練的attention去偏方法,在多個主流模型、剪枝策略及圖像與視頻基準上驗證了其有效性,為多模態模型的高效、可靠部署提供了新的思路。
![]()
文章代碼:https://github.com/intcomp/attention-bias
文章鏈接:https://arxiv.org/abs/2508.17807
研究意義
近年來,視覺—語言模型(Vision-Language Models,VLMs)在圖像理解、視覺問答、多模態對話等任務中表現突出,并逐漸成為通用人工智能的重要技術基礎。
然而,這類模型在實際部署時往往面臨一個現實挑戰:模型推理成本高,速度慢。
為提升效率,研究者通常會采用visual token pruning(視覺 token 剪枝)技術,即在不顯著影響性能的前提下,丟棄不重要的視覺信息。其中,attention機制被廣泛用作判斷「哪些視覺 token 更重要」的核心依據。
但上海大學曾丹團隊在研究中發現:attention并不總是可靠的「重要性指標」。
在多模態模型中,attention 往往受到多種結構性偏置的影響,這些偏置與真實語義無關,卻會直接左右剪枝結果,從而影響模型性能。
針對這一問題,該團隊系統分析了VLM中attention的行為特性,提出了一種Attention Debiasing(注意力去偏)方法,在無需重新訓練模型的前提下,有效提升了多種主流剪枝方法的穩定性與可靠性。
如下圖所示,提出的方法應用于目前基于attention的剪枝方法上之后,都有提升。
![]()
研究背景
在直覺上,attention機制往往被理解為「模型更關注哪里」,因此被自然地視為語義重要性的體現。
然而,曾丹團隊的研究表明,在Vision-Language Models中,attention 往往并非只由內容決定,而是隱含著多種系統性偏置。
其中最典型的有兩類:
第一類是位置偏置(recency bias)。研究發現,language-to-vision attention 會隨著視覺 token 在序列中的位置不斷增大,也就是說,模型更傾向于關注「后面的 token」。如圖所示,這通常表現為模型對圖像下方區域給予更高 attention,即便這些區域并不包含關鍵信息。
![]()
第二類是padding引發的attention sink現象。在實際輸入中,為了統一尺寸,圖像往往需要padding,但這些區域在語義上是「空白」的。然而,由于hidden state中出現異常激活,padding對應的token反而可能獲得較高attention,從而被錯誤地保留下來。下圖是pad區域填充不同的數值時,pad區域對應的attention score數值以及hidden states的激活值。
![]()
更值得注意的是,當attention被用于剪枝排序時,這些偏置并不會被削弱,反而會被進一步放大,最終導致剪枝結果偏離真實語義需求。
研究方法
針對上述問題,上海大學曾丹團隊并沒有提出新的剪枝算法,也沒有對模型結構進行修改,而是從一個更基礎的角度出發:既然attention本身是有偏的,是否可以先對attention進行修正?
該團隊觀察到,attention中的偏置并非隨機噪聲,而是呈現出穩定的整體趨勢。因此,他們通過對attention隨token位置變化的趨勢進行擬合,構建了一條反映「位置偏置」的曲線,并在此基礎上對原始attention進行去偏修正,顯式削弱與內容無關的位置因素,使attention更接近真實的語義重要性。如下圖所示。
與此同時,在剪枝階段顯式抑制padding token的影響,避免語義為空的區域干擾剪枝排序。整個過程無需重新訓練模型,也不依賴特定的剪枝策略,可作為plug-and-play模塊直接集成到現有方法中。
![]()
實驗結果和應用前景
在實驗驗證中,該團隊將Attention Debiasing方法集成到FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA等6種主流attention-based剪枝方法中,在10個圖像理解基準與3個視頻理解基準上進行了系統評估,并覆蓋LLaVA-7B / 13B等多種主流Vision-Language Models
實驗結果表明,在幾乎所有設置下,經過attention去偏修正后,剪枝模型都能獲得一致且穩定的性能提升,且在剪枝更激進、token預算更緊張的情況下效果尤為明顯。這說明,對attention進行去偏處理,有助于模型在「更少信息」的條件下做出更可靠的判斷。
![]()
![]()
此外,通過對實驗結果的可視化分析,原始attention-based剪枝方法往往保留了大量位于圖像下方或padding區域的視覺token,而與問題語義密切相關的關鍵區域卻容易被忽略。引入attention去偏修正后,模型保留的視覺區域更加集中于目標物體及關鍵細節位置,有效減少了無關背景的干擾。該結果直觀驗證了attention去偏在提升剪枝合理性和可解釋性方面的作用。
從應用角度來看,該研究對多模態模型在「移動端部署、邊緣計算、實時視覺理解」等場景具有重要意義,也為后續更穩健的attention設計和多模態模型優化提供了新的研究思路。
![]()
總結
該研究表明,attention并非天然等價于語義重要性,尤其在Vision-Language Models中,如果忽視attention中潛在的結構性偏置,基于attention的剪枝策略可能會被誤導。
上海大學曾丹團隊通過簡單而有效的attention去偏方法,顯著提升了多模態模型在效率與可靠性之間的平衡能力。
參考資料:
https://arxiv.org/abs/2508.17807
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.