<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      首篇「Attention Sink」綜述:從利用、理解到消除

      0
      分享至

      來源:市場資訊


      幾乎所有 Transformer 都在做一件反常的事:把大量注意力集中到少數幾個特定 Token 上。這不是 bug,而是 Transformer 固有的「注意力匯聚」(Attention Sink)。首篇系統性綜述,帶你從利用、理解到消除,全面掌握這一核心現象。

      過去幾年,研究者在 Transformer 的「黑盒」里發現了一個普遍卻反常的現象:無論輸入什么內容,模型總是把大量注意力集中到第一個 Token、[SEP] 或圖像背景補丁這類毫無信息量的位置上。傳統語言模型有,大語言模型有,ViT 有,多模態大模型也有。

      這一注意力匯聚(Attention Sink)模式,深刻影響了模型的訓練、推理動態,給注意力機制的理解帶來了挑戰,并且還會引發幻覺等問題。盡管 Attention Sink 引發了眾多討論和前沿的研究,但這一領域始終缺乏系統的全面梳理。


      來自清華大學、香港大學、美團 LongCat 團隊等機構的研究者聯合發布了首篇 Attention Sink 系統綜述,系統梳理了超過 180 篇相關研究。通過統計這些研究的發表時間和主題,綜述勾勒出這一領域的清晰演進軌跡:


      • 初期(2023 年起)—— 基本利用:早期研究的重點是對 Attention Sink 的實證利用,關注如何利用其固有特性或應對其直接影響。這一階段將 Attention Sink 視為可被利用的實際現象。

      • 中期(2024 年起)—— 機制理解:隨著實證應用成熟,研究重點開始深入探究 Attention Sink 背后的成因。這一階段聚焦于可解釋性,旨在精細理解驅動這一現象的內部機制。

      • 近期(2025 年起)—— 策略性消除:基于機理洞察,最新的研究重點轉向直接的結構性消除。開發系統的消除框架已成為當前研究的前沿。

      這一從「基本利用」到「機制理解」再到「策略性消除」的演進,正是綜述核心框架的由來。文章通過三段式框架,系統梳理了這一現象的成因、價值與完整解法。


      • 論文標題:Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

      • 論文鏈接:https://arxiv.org/abs/2604.10098

      • GitHub 項目:https://github.com/ZunhaiSu/Awesome-Attention-Sink

      基本利用:初步駕馭 Attention Sink

      在利用 Attention Sink 的多種策略中,最直接的方式是 Sink Token 保留(Sink Token Preservation):將 Sink 作為永久性的注意力錨點加以保留,在壓縮中穩定注意力分布。注意力重分配(Attention Redistribution)則更進一步,主動識別 Sink 并將其占用的權重轉移到真正承載語義的 Token 上。可學習前綴 token(Learnable Prefix Tokens)不再依賴自然形成的 Sink,而是在輸入序列前端插入可訓練的前綴,成為顯式、可控的替代性 Sink。至于 Sink Token 重利用(Sink Token Repurposing),則另辟蹊徑,利用 Sink 穩定、高注意力的固有屬性,完成原始注意力管理之外的專門任務,如攻擊植入、防御檢測等。

      從策略邏輯看:Sink Token 保留采取被動方式;注意力重分配實施主動干預;可學習前綴 Token 采用更主動的構造策略;Sink Token 重利用則借助 Sink 的固有屬性完成基礎注意力管理之外的專門任務。

      機制理解:洞悉 Attention Sink 根源

      Attention Sink 為何必然出現?現有解釋從不同層面給出了答案。Softmax 限制與空操作理論(Softmax Limitations & No-Op Theory):Softmax 求和為 1 的剛性約束,使得當查詢與所有鍵都不相關時,模型沒有「什么都不選」的選項。于是被迫將注意力集中到語義無關的 Token 上,同時將這些 Token 的值向量學得極小,從而使注意力輸出趨近于零,實現空操作。異常值電路(Outlier Circuits)則揭示了模型內部存在系統性的離群值,它們相互關聯,共同導致了 Sink 的產生。隱式注意力偏置(Implicit Attention Bias)發現,SinkToken 對每個查詢的貢獻幾乎恒定,本質上充當了固定偏置項。幾何錨點(Geometric Anchoring)進一步表明,Sink 在高維表示空間中充當穩定參考點,起到錨定和穩定表示空間的作用。此外,還包括 Anti-Overmixing、Active-Dormant Attention、Mix-Compress-Refine 等其他理論。

      從分析層面看:Softmax 限制與空操作理論闡明的是數學根源,異常值電路揭示的是數值機制,隱式注意力偏置刻畫的是功能角色,幾何錨點描述的是表示空間中的功能特點。多個層面彼此互補,共同勾勒出 Sink 的全貌。

      策略性消除:系統消除 Attention Sink

      基于對成因的深刻理解,研究者開始從架構上系統消除 Attention Sink。門控注意力(Gated Attention)在注意力輸出后添加可學習的門控單元,模型需要空操作時直接關門,無需制造極端 Logits 和 SinkToken。改良 Softmax(Modified Softmax Functions)則直接修改 Softmax 函數,從根本上消除求和為 1 的約束。可學習注意力偏置(Learnable Attention Bias)顯式引入偏置參數,讓模型用干凈的顯式偏置替代隱式 Sink。預訓練干預(Pre-training Interventions)不修改架構,而是在訓練過程中施加干預,從訓練抑制 Sink 的形成。此外,其他消除技術還包括離群值驅動重縮放(Outlier-Driven Rescaling)、架構隔離(Architectural Isolation)等。

      從策略類型看,這些消除方法可以歸為兩類。第一類是提供顯式替代品,使 Attention Sink 不再必要,包括門控注意力和可學習注意力偏置。第二類是切斷因果鏈,從根源消除 Attention Sink,包括改良 Softmax 和預訓練干預。

      未來方向

      基于對 180 多篇論文的系統梳理,綜述指出了多個值得投入的未來方向。在高效輕量級處理(Efficient Lightweight Processing)方面,需要開發低延遲的注意力重分配、與高效內核兼容的改良 Softmax,避免 Sink 處理本身成為推理瓶頸。預訓練模型輕量適配(Lightweight Adaptation for Pretrained Models)則利用參數高效遷移技術,將 Sink 抑制能力注入已訓練好的模型中,從而避免從頭訓練的高昂成本。此外,新興架構探索(Emerging Architectures Exploration)也值得關注,研究混合線性注意力、3D Transformer 等新架構中 Sink 的表現與應用。其他方向還包括:訓練動態研究、統一理論框架、標準化評測基準、跨架構遷移、多技術協同集成等。

      Paper List 指南

      綜述團隊已將 180 多篇論文按三大板塊和應用場景分類整理,每篇標注了類別,方便快速定位。

      完整 Paper List 請訪問原文或 GitHub 項目:

      • 論文鏈接:https://arxiv.org/abs/2604.10098

      • GitHub 項目:https://github.com/ZunhaiSu/Awesome-Attention-Sink


      結語

      本綜述通過基本利用 → 機制理解 → 策略性消除的框架,首次系統梳理了 Attention Sink 從現象到解決方案的完整路線圖。這一領域既有理論深度,也具備明確的工程價值。

      綜述與配套的 Paper List 旨在為社區提供一份實用的參考,幫助讀者快速把握領域全貌與演進邏輯,推動 Transformer 從被動接受 Sink 走向主動駕馭 Sink 的新階段。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      法布雷加斯否認執教切爾西傳聞!德天空:巴薩正運作布魯日新星!

      法布雷加斯否認執教切爾西傳聞!德天空:巴薩正運作布魯日新星!

      足球偵探
      2026-04-26 08:35:07
      風水輪流轉!分手13年熊黛林首談前任,郭富城終究淪為全網笑話

      風水輪流轉!分手13年熊黛林首談前任,郭富城終究淪為全網笑話

      一盅情懷
      2026-04-25 16:37:25
      千島湖又面臨兩大困難:鰱鳙放養60多年,“保水魚”保住了什么?

      千島湖又面臨兩大困難:鰱鳙放養60多年,“保水魚”保住了什么?

      花小貓的美食日常
      2026-04-25 00:18:49
      多艘船通過霍爾木茲海峽!海峽通行步驟曝光:共分4步,伊朗審查設5檔國籍分級,“越友好越寬松”,收多少錢取決于是哪國的船

      多艘船通過霍爾木茲海峽!海峽通行步驟曝光:共分4步,伊朗審查設5檔國籍分級,“越友好越寬松”,收多少錢取決于是哪國的船

      揚子晚報
      2026-04-25 07:09:10
      10億違建豪宅一夜推平,背后“大人物”被扒,官媒:一點都不冤!

      10億違建豪宅一夜推平,背后“大人物”被扒,官媒:一點都不冤!

      網絡易不易
      2026-04-19 06:05:07
      日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

      日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

      行者聊官
      2026-04-24 20:48:30
      以色列,突然發動襲擊!

      以色列,突然發動襲擊!

      每日經濟新聞
      2026-04-25 23:31:10
      芯片觀察者:美國先將中國芯片鎖死在28nm,然后打擊成熟芯片擴產

      芯片觀察者:美國先將中國芯片鎖死在28nm,然后打擊成熟芯片擴產

      蜉蝣說
      2026-04-24 11:38:51
      華晨宇演唱會延期哭了,撫仙湖居民發聲:那我們之前的犧牲算什么

      華晨宇演唱會延期哭了,撫仙湖居民發聲:那我們之前的犧牲算什么

      童叔不飆車
      2026-04-26 00:01:32
      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      阿訊說天下
      2026-04-18 11:52:55
      72歲林青霞現身香港中文大學,頭發濃密,發際線也沒上移狀態超好

      72歲林青霞現身香港中文大學,頭發濃密,發際線也沒上移狀態超好

      點點細語
      2026-04-25 20:15:26
      46歲馬寧領取亞足聯獎牌 霸氣閃耀亞冠決賽 罰下主隊球員:你出去

      46歲馬寧領取亞足聯獎牌 霸氣閃耀亞冠決賽 罰下主隊球員:你出去

      風過鄉
      2026-04-26 06:28:50
      于和偉,獲最佳男主角

      于和偉,獲最佳男主角

      澎湃新聞
      2026-04-25 22:54:06
      “香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

      “香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

      許三歲
      2026-03-26 11:35:13
      純素顏亮相!張凌赫打破粉底液將軍爭議,官媒批評他是真聽進去了

      純素顏亮相!張凌赫打破粉底液將軍爭議,官媒批評他是真聽進去了

      可樂談情感
      2026-04-26 06:32:16
      醫保局聯合財政部出新規!醫保賬戶調整,退休后每月還能返錢嗎?

      醫保局聯合財政部出新規!醫保賬戶調整,退休后每月還能返錢嗎?

      復轉這些年
      2026-04-25 18:23:41
      伊朗外長提前離場,美方宣布取消美伊會談

      伊朗外長提前離場,美方宣布取消美伊會談

      中國日報網
      2026-04-26 02:59:09
      雷電+10級雷雨陣風,“強對流”襲魯!青島的雨+大風馬上到貨,將持續到明天→

      雷電+10級雷雨陣風,“強對流”襲魯!青島的雨+大風馬上到貨,將持續到明天→

      先鋒新聞
      2026-04-26 08:17:07
      美國全面封鎖伊朗進出口,對伊朗的傷害有多大?

      美國全面封鎖伊朗進出口,對伊朗的傷害有多大?

      高博新視野
      2026-04-24 07:30:14
      開始了!凱特王妃全權代表查爾斯出席活動,保持溫莎世襲制的慣例

      開始了!凱特王妃全權代表查爾斯出席活動,保持溫莎世襲制的慣例

      殘夢斷憶
      2026-04-26 06:07:22
      2026-04-26 09:08:49
      新浪財經 incentive-icons
      新浪財經
      新浪財經是一家創建于1999年8月的財經平臺
      3011652文章數 6934關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      2萬海員在霍爾木茲海峽成"活靶子":或隨時被炸成灰燼

      頭條要聞

      2萬海員在霍爾木茲海峽成"活靶子":或隨時被炸成灰燼

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《我們的爸爸2》第一季完美爸爸翻車了

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      本地
      健康
      數碼
      時尚
      公開課

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      干細胞如何讓燒燙傷皮膚"再生"?

      數碼要聞

      OPPO手表6月推送新功能:身心狀態提醒、日照時長監測一應俱全

      伊姐周六熱推:電視劇《方圓八百米》;電視劇《金關》......

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人精品综合在线观看| 亚洲色欲色欲天天天www| 中国农村真卖bbwbbw| 免费很黄很色裸乳在线观看| 无码精品人妻一区二区三区湄公河| 西西人体大胆瓣开下部自慰 | 亚洲人成综合网站7777香蕉| 小罗莉无套内谢2020| 韩国办公室三级hd激情| 免费观看性行为视频的网站| 亚洲av二区| 亚洲经典千人经典日产| 久久精品99久久久久久久久| 乱精品一区字幕二区| 成在线人视频免费视频| 久青草国产97香蕉在线视频| 日本高清视频wwww色| 人妻忍着娇喘被中进中出视频| 国产福利姬喷水福利在线观看| 91你懂的| 国产综合精品一区二区三区| 国产丝袜精品在线播放| 中文字幕日韩精品无码内射| 亚洲AV乱码毛片在线播放| 亚洲精品宾馆在线精品酒店| 720lu国产刺激无码| 国产亚洲欧美在线人成aaaa| 538在线精品视频| 九江县| 北条麻妃一区二区三区av高清| 色噜噜人妻丝袜AⅤ资源| 精品无码国产不卡在线观看| 欧美色欧美亚洲高清在线观看| 日韩色综合| 成人中文在线| 久久无码人妻丰满熟妇区毛片| 国产毛多水多高潮高清| 亚洲欧洲日产国码无码久久99 | 国产国产国产国产系列| 亚洲欧美日韩高清一区二区三区| 亚洲视频一区|