網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

上海大學(xué)聯(lián)合南開大學(xué)揭示多模態(tài)模型中一個(gè)被忽視的重要偏置問題

2026-02-04 11:26:53　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

近年來，Vision-Language Models（視覺 — 語言模型）在多模態(tài)理解任務(wù)中取得了顯著進(jìn)展，并逐漸成為通用人工智能的重要技術(shù)路線。然而，這類模型在實(shí)際應(yīng)用中往往面臨推理開銷大、效率受限的問題，研究者通常依賴 visual token pruning 等策略降低計(jì)算成本，其中 attention 機(jī)制被廣泛視為衡量視覺信息重要性的關(guān)鍵依據(jù)。

近日，上海大學(xué)曾丹團(tuán)隊(duì)聯(lián)合南開大學(xué)研究人員，從 attention 可靠性的角度出發(fā)，系統(tǒng)揭示了 Vision-Language Models 中普遍存在的 attention 偏置問題，并提出了一種無需重新訓(xùn)練的 attention 去偏方法，在多個(gè)主流模型、剪枝策略及圖像與視頻基準(zhǔn)上驗(yàn)證了其有效性，為多模態(tài)模型的高效、可靠部署提供了新的思路。

論文標(biāo)題：Attention Debiasing for Token Pruning in Vision Language Models
論文鏈接：https://arxiv.org/abs/2508.17807
代碼鏈接：https://github.com/intcomp/attention-bias

一、研究意義

近年來，視覺 — 語言模型（Vision-Language Models，VLMs）在圖像理解、視覺問答、多模態(tài)對(duì)話等任務(wù)中表現(xiàn)突出，并逐漸成為通用人工智能的重要技術(shù)基礎(chǔ)。然而，這類模型在實(shí)際部署時(shí)往往面臨一個(gè)現(xiàn)實(shí)挑戰(zhàn)：模型推理成本高，速度慢。

為提升效率，研究者通常會(huì)采用visual token pruning（視覺 token 剪枝）技術(shù)，即在不顯著影響性能的前提下，丟棄不重要的視覺信息。其中，attention 機(jī)制被廣泛用作判斷 “哪些視覺 token 更重要” 的核心依據(jù)。

但上海大學(xué)曾丹團(tuán)隊(duì)在研究中發(fā)現(xiàn)：attention 并不總是可靠的 “重要性指標(biāo)”。在多模態(tài)模型中，attention 往往受到多種結(jié)構(gòu)性偏置的影響，這些偏置與真實(shí)語義無關(guān)，卻會(huì)直接左右剪枝結(jié)果，從而影響模型性能。

針對(duì)這一問題，該團(tuán)隊(duì)系統(tǒng)分析了 VLM 中 attention 的行為特性，提出了一種Attention Debiasing（注意力去偏）方法，在無需重新訓(xùn)練模型的前提下，有效提升了多種主流剪枝方法的穩(wěn)定性與可靠性。如下圖所示，提出的方法應(yīng)用于目前基于 attention 的剪枝方法上之后，都有提升。

二、研究背景

在直覺上，attention 機(jī)制往往被理解為 “模型更關(guān)注哪里”，因此被自然地視為語義重要性的體現(xiàn)。然而，曾丹團(tuán)隊(duì)的研究表明，在 Vision-Language Models 中，attention 往往并非只由內(nèi)容決定，而是隱含著多種系統(tǒng)性偏置。

其中最典型的有兩類：

第一類是位置偏置（recency bias）。研究發(fā)現(xiàn)，language-to-vision attention 會(huì)隨著視覺 token 在序列中的位置不斷增大，也就是說，模型更傾向于關(guān)注 “后面的 token”。如圖所示，這通常表現(xiàn)為模型對(duì)圖像下方區(qū)域給予更高 attention，即便這些區(qū)域并不包含關(guān)鍵信息。

第二類是padding 引發(fā)的 attention sink 現(xiàn)象。在實(shí)際輸入中，為了統(tǒng)一尺寸，圖像往往需要 padding，但這些區(qū)域在語義上是 “空白” 的。然而，由于 hidden state 中出現(xiàn)異常激活，padding 對(duì)應(yīng)的 token 反而可能獲得較高 attention，從而被錯(cuò)誤地保留下來。下圖是 pad 區(qū)域填充不同的數(shù)值時(shí)，pad 區(qū)域?qū)?yīng)的 attention score 數(shù)值以及 hidden states 的激活值。

更值得注意的是，當(dāng) attention 被用于剪枝排序時(shí)，這些偏置并不會(huì)被削弱，反而會(huì)被進(jìn)一步放大，最終導(dǎo)致剪枝結(jié)果偏離真實(shí)語義需求。

三、研究方法

針對(duì)上述問題，上海大學(xué)曾丹團(tuán)隊(duì)并沒有提出新的剪枝算法，也沒有對(duì)模型結(jié)構(gòu)進(jìn)行修改，而是從一個(gè)更基礎(chǔ)的角度出發(fā)：既然 attention 本身是有偏的，是否可以先對(duì) attention 進(jìn)行修正？

該團(tuán)隊(duì)觀察到，attention 中的偏置并非隨機(jī)噪聲，而是呈現(xiàn)出穩(wěn)定的整體趨勢(shì)。因此，他們通過對(duì) attention 隨 token 位置變化的趨勢(shì)進(jìn)行擬合，構(gòu)建了一條反映 “位置偏置” 的曲線，并在此基礎(chǔ)上對(duì)原始 attention 進(jìn)行去偏修正，顯式削弱與內(nèi)容無關(guān)的位置因素，使 attention 更接近真實(shí)的語義重要性。如下圖所示。

與此同時(shí)，在剪枝階段顯式抑制 padding token 的影響，避免語義為空的區(qū)域干擾剪枝排序。整個(gè)過程無需重新訓(xùn)練模型，也不依賴特定的剪枝策略，可作為plug-and-play 模塊直接集成到現(xiàn)有方法中。

四、實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)驗(yàn)證中，該團(tuán)隊(duì)將 Attention Debiasing 方法集成到 FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA 等 6 種主流 attention-based 剪枝方法中，在 10 個(gè)圖像理解基準(zhǔn)與 3 個(gè)視頻理解基準(zhǔn) 上進(jìn)行了系統(tǒng)評(píng)估，并覆蓋 LLaVA-7B / 13B 等多種主流 Vision-Language Models。

實(shí)驗(yàn)結(jié)果表明，在幾乎所有設(shè)置下，經(jīng)過 attention 去偏修正后，剪枝模型都能獲得一致且穩(wěn)定的性能提升，且在剪枝更激進(jìn)、token 預(yù)算更緊張的情況下效果尤為明顯。這說明，對(duì) attention 進(jìn)行去偏處理，有助于模型在 “更少信息” 的條件下做出更可靠的判斷。

此外，通過對(duì)實(shí)驗(yàn)結(jié)果的可視化分析，原始 attention-based 剪枝方法往往保留了大量位于圖像下方或 padding 區(qū)域的視覺 token，而與問題語義密切相關(guān)的關(guān)鍵區(qū)域卻容易被忽略。引入 attention 去偏修正后，模型保留的視覺區(qū)域更加集中于目標(biāo)物體及關(guān)鍵細(xì)節(jié)位置，有效減少了無關(guān)背景的干擾。該結(jié)果直觀驗(yàn)證了 attention 去偏在提升剪枝合理性和可解釋性方面的作用。

五、總結(jié)

該研究表明，attention 并非天然等價(jià)于語義重要性，尤其在 Vision-Language Models 中，如果忽視 attention 中潛在的結(jié)構(gòu)性偏置，基于 attention 的剪枝策略可能會(huì)被誤導(dǎo)。上海大學(xué)曾丹團(tuán)隊(duì)通過簡(jiǎn)單而有效的 attention 去偏方法，顯著提升了多模態(tài)模型在效率與可靠性之間的平衡能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.