![]()
本論文的第一作者楊慶越是中國科學技術大學 2021 級碩博連讀生,師從王杰教授,主要研究方向為大模型推理加速與高效推理系統。她曾在 NeurIPS、ICLR 等頂級會議發表論文 3 篇,獲華為優秀實習生等榮譽。本工作完成于其在華為諾亞方舟實驗室科研實習期間,與中國科學技術大學 MIRA Lab 和華為團隊合作完成。
近日,中科大王杰教授團隊(MIRA Lab)和華為諾亞方舟實驗室(Huawei Noah's Ark Lab)聯合提出了大模型注意力模式的統一分析框架 TAPPA,從時間序列視角統一解釋自回歸推理過程中多類注意力模式的形成機制,并提出訓練無關的 q-similarity 指標,將理論分析轉化為可應用的推理優化信號,在 KV 緩存壓縮與結構化剪枝中實現更合理的資源分配與穩定的精度增益。
論文發表在人工智能頂級會議 International Conference on Learning Representations(ICLR 2026)。
![]()
- 論文:Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis
- 論文地址:https://arxiv.org/abs/2601.21709
- 代碼:github.com/MIRALab-USTC/LLM-TAPPA
- 相關工作: AttentionPredictor (NeruIPS 2025) https://arxiv.org/abs/2502.04077
注意力模式可以幫助理解和優化大模型
在大模型的自回歸推理中,每一個頭都會產生一個注意力分數矩陣。將它畫成熱力圖后,常能看到一些重復出現的幾何形狀。最常見的例子包括檢索式注意力頭 (retrieval head),它會在很長的上下文里跳躍地尋找少數相關 token;sink 注意力頭,它會在很長一段時間內持續聚焦到序列開頭的少數位置;以及對角線型軌跡 (streaming head),它會沿著最近 token 附近形成穩定的局部帶狀結構。這些現象被統稱為注意力模式(attention pattern)。
這些 pattern 對應了模型在推理時不同的功能分工,例如在長上下文中進行檢索,維持開頭錨點,或者以流式方式持續讀取最新信息。并且 pattern 的結構性可以被用作推理優化的信號,例如在 KV Cache 優化中指導保留重要的歷史 token。因此,研究 pattern 的行為和出現原因對于探究大模型行為邏輯和優化大模型效率非常重要。然而,已有研究往往只描述某一種現象或某一類頭的行為,缺少統一的因果解釋與可遷移的分析框架,因此這些信號也常以經驗規則的形式出現。
從時序視角發現和揭秘注意力模式
我們先前工作AttentionPredictor [1] 從時間序列視角邁出了關鍵一步。它將解碼過程看作注意力隨時間演化的序列,從而以時序視角出發觀察 pattern,歸納出了注意力在解碼過程中重復的時序結構,例如重復訪問,順序訪問與周期性訪問。基于這一觀察,AttentionPredictor 把每一步的注意力視為一個隨時間演化的序列,并訓練輕量預測器去預測下一步注意力分布。預測結果可直接服務于 KV Cache 的保留與淘汰。
本工作TAPPA[2] 延續并推進了這一條邏輯鏈,試圖回答更根本的問題:這些 pattern 為什么會出現?在完全相同的注意力公式下,為什么不同 head 會呈現清晰的對角線、反復聚焦,或看似隨機的檢索式掃描?TAPPA 的目標是給出統一解釋,并把解釋轉化為實用的推理優化信號。
![]()
圖 1:TAPPA 總覽。左側是理論視角,右側展示用 q-similarity 指導 KV 緩存壓縮與結構化剪枝的效果。
TAPPA:Q、K 和 RoPE 聯合分析
TAPPA 采用時間視角審視自回歸推理。自回歸生成每一步的新 token 都建立在此前已生成序列之上,因此跨步的 hidden state 與注意力分布天然構成一段時間序列。為了把這種變化拆解到可分析的來源,TAPPA 從注意力計算的內積結構出發:
![]()
在第 t 步解碼時,歷史 key 基本固定,注意力分布的主要變化來源于 query 的演化。于是,理解 pattern 的第一步是把 query 序列作為時間序列來研究,并分析 query 的時間連續性如何映射到注意力分布的連續性。
進一步地,即便 query 的變化規律已知,注意力熱力圖呈現為哪一種幾何形狀還取決于兩類結構性因素。其一是Q 與 K 的幾何關系如何在跨步傳播,尤其是 Q 與 K 各自的時間連續性是否能夠在內積中被保留。其二是RoPE 如何在不同頻率通道上對相對位移施加相位調制。已有研究發現,在注意力內積中,少數 embedding 通道可能占主導并決定注意力形狀。因此我們提出了 TAPPA(時序注意力模式分析框架),將 Q,K 與 RoPE 聯合分析,一方面解釋 pattern 的跨步演化來自 query 的時間連續性,另一方面解釋具體幾何形態由主導通道與 RoPE 的通道響應共同塑造。
核心發現:穩定模式與隨機模式的來源區別
基于上述分析視角,TAPPA 首先關注一個更基礎的問題:哪些注意力頭更可能產生穩定且可復現的幾何結構,哪些注意力頭更可能呈現難以預測的檢索式分散結構。為此,TAPPA 把注意力模式歸為穩定模式 (predictable) 與隨機模式 (unpredictable) 兩類。穩定模式在時間軸上具有更強的連續性,跨步變化呈現清晰規律。隨機模式缺乏穩定規律,常表現為跨步跳躍的檢索式掃描。
TAPPA 的關鍵結論是,穩定模式與隨機模式的分界與 query 的時間連續性緊密相關。為刻畫這種連續性,論文使用 q-similarity 指標,用于衡量相鄰或近鄰步驟中 query 的自相似程度。直觀上看,高 q-similarity 表示 query 在時間軸上變化更平滑,注意力更容易沿時間保持穩定結構;而低 q-similarity 表示 query 變化更劇烈,注意力更可能轉向分散且難預測的檢索式形態。
![]()
圖 2:TAPPA 用統一的形成條件解釋多類稀疏注意力模式,并把 q-similarity 作為是否可預測的因素。
![]()
圖 3:高與低 q-similarity 對應的注意力圖示例。高相似性更容易形成穩定結構,低相似性更接近檢索式分布。
穩定模式內部:Q、K 連續性與 RoPE 如何塑造幾何形態
在穩定模式內,論文進一步給出三類代表性形狀的形成條件,它們來自 Q、K 的連續性與 RoPE 的共同作用。以順序訪問為例,順序對角線并非只依賴 RoPE 的高頻通道,而需要 Q 與 K 同時具有較高自相似性,從而使注意力沿時間穩定地 “滑動”(如圖 4)。
![]()
圖 4:順序型對角線與 Q、K 自相似性的關系示例。高 Q 相似性與高 K 相似性共同推動順序模式形成。
周期性斜線的等間隔現象同樣來自 Q、K 連續性與 RoPE 的耦合:RoPE 會對不同相對位移引入通道級的相位調制,使得 Q 與 K 的匹配在特定步長處出現相位回歸,從而觸發注意力峰值以固定間隔重復出現。當 Q、K 的連續性使有效能量集中到少數主導通道時,主導通道的旋轉周期便決定了多條平行斜線之間的間隔,即:
![]()
舉例如圖 5 所示,首先,通過 Key 維度的幅值剖面可以觀察到低頻 RoPE 通道在該注意力頭占主導(圖 5 (a)),此時注意力主要集中在主對角線附近,表現為典型的順序型模式(圖 5 (b))。當主導通道被人為調整到更高頻率(m = 2 或 m = 5)時,注意力不再局限于單一主對角線,而是出現周期性的平行對角線(圖 5 (c)(d)),且頻率越高 (m 越小),斜線周期越小。
![]()
圖 5: RoPE 配置如何塑造注意力模式。(a) Key 維度的幅值剖面顯示某一 RoPE 通道占主導(示例為 m = 124)。(b) 在該主導通道下,注意力矩陣呈現近似單一主對角線的順序型模式。(c)(d) 將主導通道切換到更高頻率(m = 2 與 m = 5)后,注意力矩陣中出現周期性的平行對角線結構,且周期與頻率相關。
把理解轉化為優化:q-similarity 指導壓縮與剪枝
TAPPA 將 q-similarity 作為代理信號,應用到 KV Cache 壓縮和模型結構化剪枝兩個推理優化場景。
- KV Cache 壓縮:q-similarity 用于 per-layer 預算分配。低 q-similarity 的層更可能承載檢索式注意力,需要更大緩存預算以保留關鍵 token;高 q-similarity 的層更穩定,可在更小預算下維持精度。實驗證明,在 LongBench 數據集的多種預算設置下,我們方法的表現穩定優于 Expected Attention [1] 等基線。
![]()
圖 6 我們方法相比 Expected Attention 的準確率提升。
- 結構化剪枝:q-similarity 與 ShortGPT [2] 的 Block Influence 結合,形成更可靠的層重要性評分。實驗證明,TAPPA 在多個模型與剪枝比例下均獲得提升,其中在 LLaMA-3.1-8B、28% 剪枝比例時,四個任務的平均準確率提升了 5.6%。
![]()
表 1:TAPPA 與 ShortGPT 在相同剪枝比例下的任務準確率比較。
[1] Yang, Qingyue, et al. Attentionpredictor: Temporal patterns matter for kv cache compression. The Thirty-ninth Annual Conference on Neural Information Processing Systems.
[2] Yang, Qingyue, et al. Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis. arXiv arXiv:2601.21709, 2026.
[3] Devoto et al. Expected Attention: KV Cache Compression by Estimating Attention from Future Queries Distribution. arXiv:2510.00636, 2025.
[4] Men et al. ShortGPT: Layers in Large Language Models are More Redundant Than You Expect. arXiv:2403.03853, 2024.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.