![]()
近年來,Vision-Language Models(視覺 — 語言模型)在多模態(tài)理解任務(wù)中取得了顯著進(jìn)展,并逐漸成為通用人工智能的重要技術(shù)路線。然而,這類模型在實(shí)際應(yīng)用中往往面臨推理開銷大、效率受限的問題,研究者通常依賴 visual token pruning 等策略降低計(jì)算成本,其中 attention 機(jī)制被廣泛視為衡量視覺信息重要性的關(guān)鍵依據(jù)。
近日,上海大學(xué)曾丹團(tuán)隊(duì)聯(lián)合南開大學(xué)研究人員,從 attention 可靠性的角度出發(fā),系統(tǒng)揭示了 Vision-Language Models 中普遍存在的 attention 偏置問題,并提出了一種無需重新訓(xùn)練的 attention 去偏方法,在多個(gè)主流模型、剪枝策略及圖像與視頻基準(zhǔn)上驗(yàn)證了其有效性,為多模態(tài)模型的高效、可靠部署提供了新的思路。
![]()
- 論文標(biāo)題:Attention Debiasing for Token Pruning in Vision Language Models
- 論文鏈接:https://arxiv.org/abs/2508.17807
- 代碼鏈接:https://github.com/intcomp/attention-bias
一、研究意義
近年來,視覺 — 語言模型(Vision-Language Models,VLMs)在圖像理解、視覺問答、多模態(tài)對(duì)話等任務(wù)中表現(xiàn)突出,并逐漸成為通用人工智能的重要技術(shù)基礎(chǔ)。然而,這類模型在實(shí)際部署時(shí)往往面臨一個(gè)現(xiàn)實(shí)挑戰(zhàn):模型推理成本高,速度慢。
為提升效率,研究者通常會(huì)采用visual token pruning(視覺 token 剪枝)技術(shù),即在不顯著影響性能的前提下,丟棄不重要的視覺信息。其中,attention 機(jī)制 被廣泛用作判斷 “哪些視覺 token 更重要” 的核心依據(jù)。
但上海大學(xué)曾丹團(tuán)隊(duì)在研究中發(fā)現(xiàn):attention 并不總是可靠的 “重要性指標(biāo)”。在多模態(tài)模型中,attention 往往受到多種結(jié)構(gòu)性偏置的影響,這些偏置與真實(shí)語義無關(guān),卻會(huì)直接左右剪枝結(jié)果,從而影響模型性能。
針對(duì)這一問題,該團(tuán)隊(duì)系統(tǒng)分析了 VLM 中 attention 的行為特性,提出了一種Attention Debiasing(注意力去偏)方法,在無需重新訓(xùn)練模型的前提下,有效提升了多種主流剪枝方法的穩(wěn)定性與可靠性。如下圖所示,提出的方法應(yīng)用于目前基于 attention 的剪枝方法上之后,都有提升。
![]()
二、研究背景
在直覺上,attention 機(jī)制往往被理解為 “模型更關(guān)注哪里”,因此被自然地視為語義重要性的體現(xiàn)。然而,曾丹團(tuán)隊(duì)的研究表明,在 Vision-Language Models 中,attention 往往并非只由內(nèi)容決定,而是隱含著多種系統(tǒng)性偏置。
其中最典型的有兩類:
第一類是位置偏置(recency bias)。研究發(fā)現(xiàn),language-to-vision attention 會(huì)隨著視覺 token 在序列中的位置不斷增大,也就是說,模型更傾向于關(guān)注 “后面的 token”。如圖所示,這通常表現(xiàn)為模型對(duì)圖像下方區(qū)域給予更高 attention,即便這些區(qū)域并不包含關(guān)鍵信息。
![]()
第二類是padding 引發(fā)的 attention sink 現(xiàn)象。在實(shí)際輸入中,為了統(tǒng)一尺寸,圖像往往需要 padding,但這些區(qū)域在語義上是 “空白” 的。然而,由于 hidden state 中出現(xiàn)異常激活,padding 對(duì)應(yīng)的 token 反而可能獲得較高 attention,從而被錯(cuò)誤地保留下來。下圖是 pad 區(qū)域填充不同的數(shù)值時(shí),pad 區(qū)域?qū)?yīng)的 attention score 數(shù)值以及 hidden states 的激活值。
![]()
更值得注意的是,當(dāng) attention 被用于剪枝排序時(shí),這些偏置并不會(huì)被削弱,反而會(huì)被進(jìn)一步放大,最終導(dǎo)致剪枝結(jié)果偏離真實(shí)語義需求。
三、研究方法
針對(duì)上述問題,上海大學(xué)曾丹團(tuán)隊(duì)并沒有提出新的剪枝算法,也沒有對(duì)模型結(jié)構(gòu)進(jìn)行修改,而是從一個(gè)更基礎(chǔ)的角度出發(fā):既然 attention 本身是有偏的,是否可以先對(duì) attention 進(jìn)行修正?
該團(tuán)隊(duì)觀察到,attention 中的偏置并非隨機(jī)噪聲,而是呈現(xiàn)出穩(wěn)定的整體趨勢(shì)。因此,他們通過對(duì) attention 隨 token 位置變化的趨勢(shì)進(jìn)行擬合,構(gòu)建了一條反映 “位置偏置” 的曲線,并在此基礎(chǔ)上對(duì)原始 attention 進(jìn)行去偏修正,顯式削弱與內(nèi)容無關(guān)的位置因素,使 attention 更接近真實(shí)的語義重要性。如下圖所示。
與此同時(shí),在剪枝階段顯式抑制 padding token 的影響,避免語義為空的區(qū)域干擾剪枝排序。整個(gè)過程無需重新訓(xùn)練模型,也不依賴特定的剪枝策略,可作為plug-and-play 模塊直接集成到現(xiàn)有方法中。
![]()
四、實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)驗(yàn)證中,該團(tuán)隊(duì)將 Attention Debiasing 方法集成到 FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA 等 6 種主流 attention-based 剪枝方法中,在 10 個(gè)圖像理解基準(zhǔn)與 3 個(gè)視頻理解基準(zhǔn) 上進(jìn)行了系統(tǒng)評(píng)估,并覆蓋 LLaVA-7B / 13B 等多種主流 Vision-Language Models。
實(shí)驗(yàn)結(jié)果表明,在幾乎所有設(shè)置下,經(jīng)過 attention 去偏修正后,剪枝模型都能獲得一致且穩(wěn)定的性能提升,且在剪枝更激進(jìn)、token 預(yù)算更緊張的情況下效果尤為明顯。這說明,對(duì) attention 進(jìn)行去偏處理,有助于模型在 “更少信息” 的條件下做出更可靠的判斷。
![]()
![]()
此外,通過對(duì)實(shí)驗(yàn)結(jié)果的可視化分析,原始 attention-based 剪枝方法往往保留了大量位于圖像下方或 padding 區(qū)域的視覺 token,而與問題語義密切相關(guān)的關(guān)鍵區(qū)域卻容易被忽略。引入 attention 去偏修正后,模型保留的視覺區(qū)域更加集中于目標(biāo)物體及關(guān)鍵細(xì)節(jié)位置,有效減少了無關(guān)背景的干擾。該結(jié)果直觀驗(yàn)證了 attention 去偏在提升剪枝合理性和可解釋性方面的作用。
![]()
五、總結(jié)
該研究表明,attention 并非天然等價(jià)于語義重要性,尤其在 Vision-Language Models 中,如果忽視 attention 中潛在的結(jié)構(gòu)性偏置,基于 attention 的剪枝策略可能會(huì)被誤導(dǎo)。上海大學(xué)曾丹團(tuán)隊(duì)通過簡(jiǎn)單而有效的 attention 去偏方法,顯著提升了多模態(tài)模型在效率與可靠性之間的平衡能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.