<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      上海大學(xué)聯(lián)合南開大學(xué)揭示多模態(tài)模型中一個(gè)被忽視的重要偏置問題

      0
      分享至



      近年來,Vision-Language Models(視覺 — 語言模型)在多模態(tài)理解任務(wù)中取得了顯著進(jìn)展,并逐漸成為通用人工智能的重要技術(shù)路線。然而,這類模型在實(shí)際應(yīng)用中往往面臨推理開銷大、效率受限的問題,研究者通常依賴 visual token pruning 等策略降低計(jì)算成本,其中 attention 機(jī)制被廣泛視為衡量視覺信息重要性的關(guān)鍵依據(jù)。

      近日,上海大學(xué)曾丹團(tuán)隊(duì)聯(lián)合南開大學(xué)研究人員,從 attention 可靠性的角度出發(fā),系統(tǒng)揭示了 Vision-Language Models 中普遍存在的 attention 偏置問題,并提出了一種無需重新訓(xùn)練的 attention 去偏方法,在多個(gè)主流模型、剪枝策略及圖像與視頻基準(zhǔn)上驗(yàn)證了其有效性,為多模態(tài)模型的高效、可靠部署提供了新的思路。



      • 論文標(biāo)題:Attention Debiasing for Token Pruning in Vision Language Models
      • 論文鏈接:https://arxiv.org/abs/2508.17807
      • 代碼鏈接:https://github.com/intcomp/attention-bias

      一、研究意義


      近年來,視覺 — 語言模型(Vision-Language Models,VLMs)在圖像理解、視覺問答、多模態(tài)對(duì)話等任務(wù)中表現(xiàn)突出,并逐漸成為通用人工智能的重要技術(shù)基礎(chǔ)。然而,這類模型在實(shí)際部署時(shí)往往面臨一個(gè)現(xiàn)實(shí)挑戰(zhàn):模型推理成本高,速度慢。

      為提升效率,研究者通常會(huì)采用visual token pruning(視覺 token 剪枝)技術(shù),即在不顯著影響性能的前提下,丟棄不重要的視覺信息。其中,attention 機(jī)制 被廣泛用作判斷 “哪些視覺 token 更重要” 的核心依據(jù)。

      但上海大學(xué)曾丹團(tuán)隊(duì)在研究中發(fā)現(xiàn):attention 并不總是可靠的 “重要性指標(biāo)”。在多模態(tài)模型中,attention 往往受到多種結(jié)構(gòu)性偏置的影響,這些偏置與真實(shí)語義無關(guān),卻會(huì)直接左右剪枝結(jié)果,從而影響模型性能。

      針對(duì)這一問題,該團(tuán)隊(duì)系統(tǒng)分析了 VLM 中 attention 的行為特性,提出了一種Attention Debiasing(注意力去偏)方法,在無需重新訓(xùn)練模型的前提下,有效提升了多種主流剪枝方法的穩(wěn)定性與可靠性。如下圖所示,提出的方法應(yīng)用于目前基于 attention 的剪枝方法上之后,都有提升。



      二、研究背景

      在直覺上,attention 機(jī)制往往被理解為 “模型更關(guān)注哪里”,因此被自然地視為語義重要性的體現(xiàn)。然而,曾丹團(tuán)隊(duì)的研究表明,在 Vision-Language Models 中,attention 往往并非只由內(nèi)容決定,而是隱含著多種系統(tǒng)性偏置。

      其中最典型的有兩類:

      第一類是位置偏置(recency bias)。研究發(fā)現(xiàn),language-to-vision attention 會(huì)隨著視覺 token 在序列中的位置不斷增大,也就是說,模型更傾向于關(guān)注 “后面的 token”。如圖所示,這通常表現(xiàn)為模型對(duì)圖像下方區(qū)域給予更高 attention,即便這些區(qū)域并不包含關(guān)鍵信息。



      第二類是padding 引發(fā)的 attention sink 現(xiàn)象。在實(shí)際輸入中,為了統(tǒng)一尺寸,圖像往往需要 padding,但這些區(qū)域在語義上是 “空白” 的。然而,由于 hidden state 中出現(xiàn)異常激活,padding 對(duì)應(yīng)的 token 反而可能獲得較高 attention,從而被錯(cuò)誤地保留下來。下圖是 pad 區(qū)域填充不同的數(shù)值時(shí),pad 區(qū)域?qū)?yīng)的 attention score 數(shù)值以及 hidden states 的激活值。



      更值得注意的是,當(dāng) attention 被用于剪枝排序時(shí),這些偏置并不會(huì)被削弱,反而會(huì)被進(jìn)一步放大,最終導(dǎo)致剪枝結(jié)果偏離真實(shí)語義需求。

      三、研究方法

      針對(duì)上述問題,上海大學(xué)曾丹團(tuán)隊(duì)并沒有提出新的剪枝算法,也沒有對(duì)模型結(jié)構(gòu)進(jìn)行修改,而是從一個(gè)更基礎(chǔ)的角度出發(fā):既然 attention 本身是有偏的,是否可以先對(duì) attention 進(jìn)行修正?

      該團(tuán)隊(duì)觀察到,attention 中的偏置并非隨機(jī)噪聲,而是呈現(xiàn)出穩(wěn)定的整體趨勢(shì)。因此,他們通過對(duì) attention 隨 token 位置變化的趨勢(shì)進(jìn)行擬合,構(gòu)建了一條反映 “位置偏置” 的曲線,并在此基礎(chǔ)上對(duì)原始 attention 進(jìn)行去偏修正,顯式削弱與內(nèi)容無關(guān)的位置因素,使 attention 更接近真實(shí)的語義重要性。如下圖所示。

      與此同時(shí),在剪枝階段顯式抑制 padding token 的影響,避免語義為空的區(qū)域干擾剪枝排序。整個(gè)過程無需重新訓(xùn)練模型,也不依賴特定的剪枝策略,可作為plug-and-play 模塊直接集成到現(xiàn)有方法中。



      四、實(shí)驗(yàn)結(jié)果

      在實(shí)驗(yàn)驗(yàn)證中,該團(tuán)隊(duì)將 Attention Debiasing 方法集成到 FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA 等 6 種主流 attention-based 剪枝方法中,在 10 個(gè)圖像理解基準(zhǔn)與 3 個(gè)視頻理解基準(zhǔn) 上進(jìn)行了系統(tǒng)評(píng)估,并覆蓋 LLaVA-7B / 13B 等多種主流 Vision-Language Models。

      實(shí)驗(yàn)結(jié)果表明,在幾乎所有設(shè)置下,經(jīng)過 attention 去偏修正后,剪枝模型都能獲得一致且穩(wěn)定的性能提升,且在剪枝更激進(jìn)、token 預(yù)算更緊張的情況下效果尤為明顯。這說明,對(duì) attention 進(jìn)行去偏處理,有助于模型在 “更少信息” 的條件下做出更可靠的判斷。





      此外,通過對(duì)實(shí)驗(yàn)結(jié)果的可視化分析,原始 attention-based 剪枝方法往往保留了大量位于圖像下方或 padding 區(qū)域的視覺 token,而與問題語義密切相關(guān)的關(guān)鍵區(qū)域卻容易被忽略。引入 attention 去偏修正后,模型保留的視覺區(qū)域更加集中于目標(biāo)物體及關(guān)鍵細(xì)節(jié)位置,有效減少了無關(guān)背景的干擾。該結(jié)果直觀驗(yàn)證了 attention 去偏在提升剪枝合理性和可解釋性方面的作用。



      五、總結(jié)

      該研究表明,attention 并非天然等價(jià)于語義重要性,尤其在 Vision-Language Models 中,如果忽視 attention 中潛在的結(jié)構(gòu)性偏置,基于 attention 的剪枝策略可能會(huì)被誤導(dǎo)。上海大學(xué)曾丹團(tuán)隊(duì)通過簡(jiǎn)單而有效的 attention 去偏方法,顯著提升了多模態(tài)模型在效率與可靠性之間的平衡能力。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      河南一老人用筷子沾酒給5月齡寶寶嘗,致其近乎肝衰竭,醫(yī)生提醒:嬰兒肝臟發(fā)育不完全,幾滴酒可能致命

      河南一老人用筷子沾酒給5月齡寶寶嘗,致其近乎肝衰竭,醫(yī)生提醒:嬰兒肝臟發(fā)育不完全,幾滴酒可能致命

      三湘都市報(bào)
      2026-02-03 18:02:09
      NBA官方:萊昂納德增補(bǔ)入選2026年全明星賽 填補(bǔ)美國隊(duì)人數(shù)缺口

      NBA官方:萊昂納德增補(bǔ)入選2026年全明星賽 填補(bǔ)美國隊(duì)人數(shù)缺口

      羅說NBA
      2026-02-04 07:40:12
      成都個(gè)別領(lǐng)導(dǎo)的風(fēng)險(xiǎn),比劉虎的要大得多

      成都個(gè)別領(lǐng)導(dǎo)的風(fēng)險(xiǎn),比劉虎的要大得多

      不主流講話
      2026-02-03 15:18:01
      勇士追字母失敗?森林狼已成揚(yáng)尼斯首選 金州4首輪+追夢(mèng)小庫無用

      勇士追字母失敗?森林狼已成揚(yáng)尼斯首選 金州4首輪+追夢(mèng)小庫無用

      顏小白的籃球夢(mèng)
      2026-02-04 11:09:37
      大S最后5天足跡曝光!病情惡化求:想回家 S家人急買機(jī)票返臺(tái)來不及

      大S最后5天足跡曝光!病情惡化求:想回家 S家人急買機(jī)票返臺(tái)來不及

      ETtoday星光云
      2026-02-04 12:06:07
      金刻羽教授的粉紅色世界,該破裂了

      金刻羽教授的粉紅色世界,該破裂了

      黔有虎
      2026-02-02 11:04:54
      特斯拉終于拿下4680電池,結(jié)果就它自己在玩?

      特斯拉終于拿下4680電池,結(jié)果就它自己在玩?

      差評(píng)XPIN
      2026-02-04 00:08:43
      外交部:強(qiáng)烈譴責(zé)瓜達(dá)爾港襲擊事件,中方堅(jiān)決反對(duì)一切形式的恐怖主義

      外交部:強(qiáng)烈譴責(zé)瓜達(dá)爾港襲擊事件,中方堅(jiān)決反對(duì)一切形式的恐怖主義

      每日經(jīng)濟(jì)新聞
      2026-02-03 20:28:42
      未成年女性日記曝光:愛潑斯坦將她作為“孵化器”,其癡迷于“優(yōu)越基因庫”

      未成年女性日記曝光:愛潑斯坦將她作為“孵化器”,其癡迷于“優(yōu)越基因庫”

      紅星新聞
      2026-02-04 13:50:19
      “中國只要13天298英鎊,英國要2年3700英鎊”,老外紛紛點(diǎn)贊到中國看病!會(huì)不會(huì)擠占醫(yī)療資源,三級(jí)醫(yī)院院長(zhǎng):遠(yuǎn)未達(dá)到

      “中國只要13天298英鎊,英國要2年3700英鎊”,老外紛紛點(diǎn)贊到中國看病!會(huì)不會(huì)擠占醫(yī)療資源,三級(jí)醫(yī)院院長(zhǎng):遠(yuǎn)未達(dá)到

      每日經(jīng)濟(jì)新聞
      2026-02-03 23:34:17
      新疆塔吉克族:千年保持白人血統(tǒng),為何從不與漢人通婚?

      新疆塔吉克族:千年保持白人血統(tǒng),為何從不與漢人通婚?

      混沌錄
      2026-02-02 23:13:41
      韓媒曝大S去機(jī)場(chǎng)路上心臟驟停,公開大S真正死因,具俊曄情緒崩潰

      韓媒曝大S去機(jī)場(chǎng)路上心臟驟停,公開大S真正死因,具俊曄情緒崩潰

      古希臘掌管月桂的神
      2026-02-04 08:55:27
      滿屏都是劉虎,多少人在等答案?

      滿屏都是劉虎,多少人在等答案?

      走讀新生
      2026-02-03 23:30:07
      湖人16分大勝籃網(wǎng)!里夫斯復(fù)出三巨合砍64分 詹姆斯25+7各種暴扣

      湖人16分大勝籃網(wǎng)!里夫斯復(fù)出三巨合砍64分 詹姆斯25+7各種暴扣

      顏小白的籃球夢(mèng)
      2026-02-04 10:55:10
      日本挖到“稀泥”

      日本挖到“稀泥”

      新民周刊
      2026-02-04 09:09:24
      中國銀聯(lián),嚴(yán)正聲明!

      中國銀聯(lián),嚴(yán)正聲明!

      每日經(jīng)濟(jì)新聞
      2026-02-02 17:03:10
      國民黨剛抵京,7國就竄臺(tái),賴清德支持率驚人,特朗普通告全球

      國民黨剛抵京,7國就竄臺(tái),賴清德支持率驚人,特朗普通告全球

      王姐懶人家常菜
      2026-02-03 16:49:52
      擔(dān)心父親和繼母未來爭(zhēng)房產(chǎn),30歲男子立遺囑指定兒子繼承房產(chǎn)

      擔(dān)心父親和繼母未來爭(zhēng)房產(chǎn),30歲男子立遺囑指定兒子繼承房產(chǎn)

      極目新聞
      2026-02-03 18:12:55
      日活破億!張一鳴又賭對(duì)了:字節(jié)迎來第五個(gè)爆款A(yù)PP

      日活破億!張一鳴又賭對(duì)了:字節(jié)迎來第五個(gè)爆款A(yù)PP

      快科技
      2026-02-04 00:32:29
      2026第一個(gè)笑話!同為騰訊親兒子,元寶紅包剛剛被微信屏蔽了…

      2026第一個(gè)笑話!同為騰訊親兒子,元寶紅包剛剛被微信屏蔽了…

      說財(cái)貓
      2026-02-04 12:40:18
      2026-02-04 14:19:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12248文章數(shù) 142562關(guān)注度
      往期回顧 全部

      科技要聞

      太煩人遭投訴!元寶紅包鏈接被微信屏蔽

      頭條要聞

      月銷暴跌至不到50輛 小米SU7 Ultra專屬銷售團(tuán)隊(duì)解散

      頭條要聞

      月銷暴跌至不到50輛 小米SU7 Ultra專屬銷售團(tuán)隊(duì)解散

      體育要聞

      “也許我的一小步,會(huì)成為中國足球的一大步”

      娛樂要聞

      姜元來在大S墓碑前哭泣,與具俊曄擁抱

      財(cái)經(jīng)要聞

      35歲入行,先被考證“割韭菜”

      汽車要聞

      全偽裝雪地現(xiàn)身 一汽-大眾純電車型線索曝光

      態(tài)度原創(chuàng)

      親子
      手機(jī)
      數(shù)碼
      房產(chǎn)
      公開課

      親子要聞

      45歲高齡備孕攻略:內(nèi)膜薄會(huì)影響懷孕幾率嗎?

      手機(jī)要聞

      歷史首次:三星押注大折疊手機(jī),Galaxy Z Fold8備貨量超過Flip8

      數(shù)碼要聞

      AMD財(cái)報(bào)業(yè)績(jī)會(huì):數(shù)據(jù)中心業(yè)務(wù)強(qiáng)勁增長(zhǎng) MI450系列有望下半年量產(chǎn)

      房產(chǎn)要聞

      龍湖對(duì)面,突然要出新宅地!海口商改住又爆狠料!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版