<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      首篇「Attention Sink」綜述:Transformer中注意力匯聚全景解析

      0
      分享至



      幾乎所有 Transformer 都在做一件反常的事:把大量注意力集中到少數(shù)幾個特定 Token 上。這不是 bug,而是 Transformer 固有的「注意力匯聚」(Attention Sink)。首篇系統(tǒng)性綜述,帶你從利用、理解到消除,全面掌握這一核心現(xiàn)象。

      過去幾年,研究者在 Transformer 的「黑盒」里發(fā)現(xiàn)了一個普遍卻反常的現(xiàn)象:無論輸入什么內(nèi)容,模型總是把大量注意力集中到第一個 Token、[SEP] 或圖像背景補丁這類毫無信息量的位置上。傳統(tǒng)語言模型有,大語言模型有,ViT 有,多模態(tài)大模型也有。

      這一注意力匯聚(Attention Sink)模式,深刻影響了模型的訓練、推理動態(tài),給注意力機制的理解帶來了挑戰(zhàn),并且還會引發(fā)幻覺等問題。盡管 Attention Sink 引發(fā)了眾多討論和前沿的研究,但這一領域始終缺乏系統(tǒng)的全面梳理。



      來自清華大學、香港大學、美團 LongCat 團隊等機構的研究者聯(lián)合發(fā)布了首篇 Attention Sink 系統(tǒng)綜述,系統(tǒng)梳理了超過 180 篇相關研究。通過統(tǒng)計這些研究的發(fā)表時間和主題,綜述勾勒出這一領域的清晰演進軌跡:



      • 初期(2023 年起)—— 基本利用:早期研究的重點是對 Attention Sink 的實證利用,關注如何利用其固有特性或應對其直接影響。這一階段將 Attention Sink 視為可被利用的實際現(xiàn)象。
      • 中期(2024 年起)—— 機制理解:隨著實證應用成熟,研究重點開始深入探究 Attention Sink 背后的成因。這一階段聚焦于可解釋性,旨在精細理解驅動這一現(xiàn)象的內(nèi)部機制。
      • 近期(2025 年起)—— 策略性消除:基于機理洞察,最新的研究重點轉向直接的結構性消除。開發(fā)系統(tǒng)的消除框架已成為當前研究的前沿。

      這一從「基本利用」到「機制理解」再到「策略性消除」的演進,正是綜述核心框架的由來。文章通過三段式框架,系統(tǒng)梳理了這一現(xiàn)象的成因、價值與完整解法。



      • 論文標題:Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation
      • 論文鏈接:https://arxiv.org/abs/2604.10098
      • GitHub 項目:https://github.com/ZunhaiSu/Awesome-Attention-Sink

      基本利用:初步駕馭 Attention Sink

      在利用 Attention Sink 的多種策略中,最直接的方式是Sink Token 保留(Sink Token Preservation):將 Sink 作為永久性的注意力錨點加以保留,在壓縮中穩(wěn)定注意力分布。注意力重分配(Attention Redistribution)則更進一步,主動識別 Sink 并將其占用的權重轉移到真正承載語義的Token上??蓪W習前綴 token(Learnable Prefix Tokens)不再依賴自然形成的Sink,而是在輸入序列前端插入可訓練的前綴,成為顯式、可控的替代性Sink。至于Sink Token 重利用(Sink Token Repurposing),則另辟蹊徑,利用Sink穩(wěn)定、高注意力的固有屬性,完成原始注意力管理之外的專門任務,如攻擊植入、防御檢測等。

      從策略邏輯看:Sink Token 保留采取被動方式;注意力重分配實施主動干預;可學習前綴 Token 采用更主動的構造策略;Sink Token 重利用則借助Sink的固有屬性完成基礎注意力管理之外的專門任務。

      機制理解:洞悉 Attention Sink 根源

      Attention Sink 為何必然出現(xiàn)?現(xiàn)有解釋從不同層面給出了答案。Softmax 限制與空操作理論(Softmax Limitations & No-Op Theory):Softmax 求和為 1 的剛性約束,使得當查詢與所有鍵都不相關時,模型沒有「什么都不選」的選項。于是被迫將注意力集中到語義無關的Token上,同時將這些Token的值向量學得極小,從而使注意力輸出趨近于零,實現(xiàn)空操作。異常值電路(Outlier Circuits)則揭示了模型內(nèi)部存在系統(tǒng)性的離群值,它們相互關聯(lián),共同導致了Sink的產(chǎn)生。隱式注意力偏置(Implicit Attention Bias)發(fā)現(xiàn),SinkToken對每個查詢的貢獻幾乎恒定,本質上充當了固定偏置項。幾何錨點(Geometric Anchoring)進一步表明,Sink在高維表示空間中充當穩(wěn)定參考點,起到錨定和穩(wěn)定表示空間的作用。此外,還包括 Anti-Overmixing、Active-Dormant Attention、Mix-Compress-Refine 等其他理論。

      從分析層面看:Softmax 限制與空操作理論闡明的是數(shù)學根源,異常值電路揭示的是數(shù)值機制,隱式注意力偏置刻畫的是功能角色,幾何錨點描述的是表示空間中的功能特點。多個層面彼此互補,共同勾勒出Sink的全貌。

      策略性消除:系統(tǒng)消除 Attention Sink


      基于對成因的深刻理解,研究者開始從架構上系統(tǒng)消除 Attention Sink。門控注意力(Gated Attention)在注意力輸出后添加可學習的門控單元,模型需要空操作時直接關門,無需制造極端 Logits 和SinkToken。改良 Softmax(Modified Softmax Functions)則直接修改 Softmax 函數(shù),從根本上消除求和為 1 的約束。可學習注意力偏置(Learnable Attention Bias)顯式引入偏置參數(shù),讓模型用干凈的顯式偏置替代隱式Sink。預訓練干預(Pre-training Interventions)不修改架構,而是在訓練過程中施加干預,從訓練抑制Sink的形成。此外,其他消除技術還包括離群值驅動重縮放(Outlier-Driven Rescaling)、架構隔離(Architectural Isolation)等。

      從策略類型看,這些消除方法可以歸為兩類。第一類是提供顯式替代品,使 Attention Sink 不再必要,包括門控注意力和可學習注意力偏置。第二類是切斷因果鏈,從根源消除 Attention Sink,包括改良 Softmax 和預訓練干預。

      未來方向


      基于對 180 多篇論文的系統(tǒng)梳理,綜述指出了多個值得投入的未來方向。在高效輕量級處理(Efficient Lightweight Processing)方面,需要開發(fā)低延遲的注意力重分配、與高效內(nèi)核兼容的改良 Softmax,避免Sink處理本身成為推理瓶頸。預訓練模型輕量適配(Lightweight Adaptation for Pretrained Models)則利用參數(shù)高效遷移技術,將Sink抑制能力注入已訓練好的模型中,從而避免從頭訓練的高昂成本。此外,新興架構探索(Emerging Architectures Exploration)也值得關注,研究混合線性注意力、3D Transformer 等新架構中Sink的表現(xiàn)與應用。其他方向還包括:訓練動態(tài)研究、統(tǒng)一理論框架、標準化評測基準、跨架構遷移、多技術協(xié)同集成等。

      Paper List 指南


      綜述團隊已將 180 多篇論文按三大板塊和應用場景分類整理,每篇標注了類別,方便快速定位。

      完整 Paper List 請訪問原文或 GitHub 項目:

      • 論文鏈接:https://arxiv.org/abs/2604.10098
      • GitHub 項目:https://github.com/ZunhaiSu/Awesome-Attention-Sink



      結語


      本綜述通過基本利用 → 機制理解 → 策略性消除的框架,首次系統(tǒng)梳理了 Attention Sink 從現(xiàn)象到解決方案的完整路線圖。這一領域既有理論深度,也具備明確的工程價值。

      綜述與配套的 Paper List 旨在為社區(qū)提供一份實用的參考,幫助讀者快速把握領域全貌與演進邏輯,推動 Transformer 從被動接受Sink走向主動駕馭Sink的新階段。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蘇聯(lián)最瘋狂的實驗,利用日本女戰(zhàn)俘來繁衍人口,差點改變歷史進程

      蘇聯(lián)最瘋狂的實驗,利用日本女戰(zhàn)俘來繁衍人口,差點改變歷史進程

      睡前講故事
      2025-04-23 16:25:26
      社保嚴查全面收緊!無數(shù)中小企業(yè),正在為十年前的小聰明買單

      社保嚴查全面收緊!無數(shù)中小企業(yè),正在為十年前的小聰明買單

      芳姐侃社會
      2026-04-25 18:32:12
      止步7強!車手昏迷張雪離場,網(wǎng)友質疑有黑幕,官方回應盡顯格局

      止步7強!車手昏迷張雪離場,網(wǎng)友質疑有黑幕,官方回應盡顯格局

      南宗歷史
      2026-04-26 10:47:38
      2013年攤販殺死兩名城管判死刑,其子被伊能靜認養(yǎng),如今怎樣了?

      2013年攤販殺死兩名城管判死刑,其子被伊能靜認養(yǎng),如今怎樣了?

      莫地方
      2026-04-25 00:10:03
      “應該把他們放在獨木舟里五天不吃不喝”:一位主教抨擊西班牙反移民人士冷漠無情

      “應該把他們放在獨木舟里五天不吃不喝”:一位主教抨擊西班牙反移民人士冷漠無情

      小虎新車推薦員
      2026-04-26 17:01:31
      北京多區(qū)明日9級陣風,局地可達10級以上!北京剛剛發(fā)布黃警——

      北京多區(qū)明日9級陣風,局地可達10級以上!北京剛剛發(fā)布黃警——

      BRTV新聞
      2026-04-26 17:10:44
      打起來了,以軍不宣而戰(zhàn),以色列總理或生病入院?特朗普開始下令

      打起來了,以軍不宣而戰(zhàn),以色列總理或生病入院?特朗普開始下令

      曉徙娛樂
      2026-04-26 14:09:50
      果然有情況!湖南如廁老兵底褲被扒:刑滿釋放人員、多次鬧訪纏訪

      果然有情況!湖南如廁老兵底褲被扒:刑滿釋放人員、多次鬧訪纏訪

      小鋭有話說
      2026-04-26 15:20:50
      全線跳水,近10萬人爆倉!

      全線跳水,近10萬人爆倉!

      每日經(jīng)濟新聞
      2026-04-25 21:57:11
      調查發(fā)現(xiàn):活得久的糖尿病患者,大多在確診后,改掉了5個惡習

      調查發(fā)現(xiàn):活得久的糖尿病患者,大多在確診后,改掉了5個惡習

      鬼菜生活
      2026-04-26 15:20:30
      假空姐大鬧亞航后續(xù):身份被扒出,只是機場地勤,十級美顏認不出

      假空姐大鬧亞航后續(xù):身份被扒出,只是機場地勤,十級美顏認不出

      往史過眼云煙
      2026-04-26 15:20:56
      這條無恥新聞,引起公憤了!

      這條無恥新聞,引起公憤了!

      胖胖說他不胖
      2026-04-25 14:07:02
      你以為麻豆傳媒是賣片的,其實它是賣人的

      你以為麻豆傳媒是賣片的,其實它是賣人的

      創(chuàng)始人筆記
      2026-04-23 21:44:50
      白宮記協(xié)晚宴安全事件嫌疑人為一名來自加州的30歲男子

      白宮記協(xié)晚宴安全事件嫌疑人為一名來自加州的30歲男子

      界面新聞
      2026-04-26 10:15:44
      看球20年最感慨的反差:曾被中超低估的外援,轉頭在拜仁拿下3冠

      看球20年最感慨的反差:曾被中超低估的外援,轉頭在拜仁拿下3冠

      圣西羅的太陽
      2026-04-26 14:25:14
      美國人為啥不買中國車?福特CEO:自己開中國車,讓美國人買破車

      美國人為啥不買中國車?福特CEO:自己開中國車,讓美國人買破車

      賤議你讀史
      2026-04-25 10:20:03
      美國人終于清醒了,質問:特朗普女婿庫什納有什么資格去談判?

      美國人終于清醒了,質問:特朗普女婿庫什納有什么資格去談判?

      混沌錄
      2026-04-23 17:11:07
      28歲華裔天才成百億富豪,建議美國封鎖中國AI技術,網(wǎng)友:太壞了

      28歲華裔天才成百億富豪,建議美國封鎖中國AI技術,網(wǎng)友:太壞了

      毒sir財經(jīng)
      2026-04-05 21:07:06
      比亞迪:已與多梅尼卡利會面,確實正在討論進軍F1的可能性

      比亞迪:已與多梅尼卡利會面,確實正在討論進軍F1的可能性

      懂球帝
      2026-04-26 01:44:49
      廣東隊將會賺得盆滿缽滿!

      廣東隊將會賺得盆滿缽滿!

      體育哲人
      2026-04-26 08:30:08
      2026-04-26 17:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12855文章數(shù) 142636關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

      頭條要聞

      美國網(wǎng)民質疑:為什么先救萬斯

      頭條要聞

      美國網(wǎng)民質疑:為什么先救萬斯

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環(huán)王》的美劇,有第二季

      財經(jīng)要聞

      中辦、國辦:加強新就業(yè)群體服務管理

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態(tài)度原創(chuàng)

      教育
      數(shù)碼
      旅游
      藝術
      家居

      教育要聞

      四年級數(shù)學:簡便計算,難住不少數(shù)學老師

      數(shù)碼要聞

      Google或正逐步淡化 Fitbit 品牌

      旅游要聞

      游客在山頂打架,景區(qū)又能怎么辦

      藝術要聞

      東漢最美的一幅隸書!這才是中華筆法根源,當代99%的人沒有見過!

      家居要聞

      自然肌理 溫潤美學

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 先锋成人影音| 99热这里只有精品3| 国产又爽又大又黄a片| 亚洲欧美?va天堂人熟伦| 欧美视频精品免费覌看| 国模小黎自慰gogo人体| AV激情亚洲男人的天堂| 久久久婷婷成人综合激情| 手机看片1024人妻| 伊人日韩亚洲| 玖玖国产| 色五月丁香五月综合五月亚洲| 亚洲久悠悠色悠在线播放| 午夜国产精品福利一二| 亚洲国产无套无码av电影| 51国产视频| 日韩一区二区在线观看视频| 丝袜美腿在线观看播放一区| 无码中文幕熟AⅤ一区二区| 日本中文字幕不卡在线一区二区 | 嫩呦囯产一区二区三区| 人人爽人人爽人人片a∨| 精品无码国产自产拍在线观看蜜| 亚洲av永久无码精品九九| 夜夜高潮次次欢爽av女| 本道无码一区二区久久激情| 久久久中日ab精品综合| 92在线精品视频在线播放| 亚洲精品~无码抽插| 青草伊人网| 国产综合色在线精品| 成人频道| 操B小视频| 中文无码人妻少妇| 狠狠色成人| 国产亚洲AV| 亚洲中文字幕A| 亚洲一区二区三区18禁| 免费人成黄页在线观看美国| 日本伊人色综合网| 国产成人高清亚洲综合|