![]()
作者介紹:中科大團隊包括共一作者馮源(博二)、郭浩宇(碩一)以及通訊作者謝希科(研究員),致力于以簡潔算法優化大模型長文本推理,曾提出 AdaKV、CriticalKV 等主流 KV Cache 壓縮方法,僅需數行代碼顯著提升壓縮效果。新作 DefensiveKV 延續這一理念,僅需兩行算法改動,顯著降低 KV Cache 壓縮損失。
隨著大模型長上下文能力快速增長,海量 KV Cache 存儲需求急劇增加,各類 KV Cache 壓縮方法如雨后春筍般涌現。然而,這些方案在真實場景中的工程落地卻常常陷入困境。
![]()
- 論文標題:DefensiveKV: Taming the Fragility of KV Cache Eviction in LLM Inference
- 論文鏈接:https://openreview.net/forum?id=nJgS06sX3O
- 代碼鏈接:https://github.com/FFY0/DefensiveKV/tree/main
中科大研究團隊在 ICLR 2026 的論文 DefensiveKV: Taming the Fragility of KV Cache Eviction in LLM Inference 中給出了答案:KV Cache 壓縮領域的底層假設存在根本性缺陷!當前主流方法都基于一個核心假設:KV Cache 的重要性在不同時間段是穩定的。因此它們不約而同地選擇觀測一段歷史窗口內的平均重要性,并據此淘汰 "不重要" 的 cache。然而,研究團隊驚訝地發現,這一看似合理的穩定性假設在真實場景中十分脆弱!
通過深入分析大模型在真實長文本任務上的行為,團隊觀察到一個令人震驚的現象:盡管平均觀測重要性指標在絕大多數時候能夠準確反映 cache 的真實重要性,但在某些特定區間卻會顯著失效,甚至完全反轉!
圖 1:穩定性假設失效現象
![]()
如上圖所示,藍色曲線代表按照平均重要性保留的一半 "重要" Cache。雖然絕大部分時刻這一半的 cache 能保持整體 90% 以上的真實重要性,但在特定時刻(如第 200-300 時間步),保留的 cache 甚至無法達到全部 cache 50% 的真實重要性!這種” 穩定性崩潰 " 絕非偶發,在單次回復中竟出現高達 65 次之多。
圖 2:穩定性崩潰統計
![]()
這揭示了一個深刻的認知盲區:以往工作過分信任 "平均情況",卻忽視了真實部署中最致命的最壞風險。正如金融領域的經典教訓 —— 只優化平均收益而忽視極端風險的策略注定失敗。當穩定性假設在關鍵時刻失效時,使用平均值作為壓縮指示器就像在薄冰上行走,隨時可能墜入深淵。
針對這一根本性缺陷,團隊提出了革命性的防御性聚合(Defensive Aggregation)策略。這一策略徹底顛覆了傳統的 "平均優化" 范式,轉而采用 "最壞風險控制" 的防御性思維 —— 不再關注平均損失,而是將全部注意力投入到 worst-case 的預防中。
在重塑關注點之后,團隊提出了一個極簡的優雅設計 —— 核心算法僅需兩行代碼即可實現:
![]()
圖 3:核心算法僅需兩行代碼
第一步:最壞風險估計(Worst-case Risk Estimation)
團隊從風險控制角度重新思考驅逐策略 —— 驅逐一個 KV cache 的最大風險等價于它在未來可能達到的最大重要性。由于未來不可知,團隊巧妙地用歷史觀察中的最大值來估計這一風險:只要一個 cache 在任一歷史時刻表現重要,就將其視為高風險而保留。這個看似簡單的 "取最大" 操作,卻能精準捕獲那些可能在未來關鍵時刻大放異彩的 token。
第二步:自適應先驗風險修正(Adaptive Prior-Risk Correction)
考慮到最壞風險估計中的觀測次數有限(通常僅 32 次),可能遺漏一些關鍵的風險。團隊受貝葉斯估計中 Laplace 平滑啟發,提出了一種基于先驗的觀測風險修正機制:計算每個注意力頭中所有 KV cache 的平均觀測風險作為先驗風險。當某個 cache 的觀測風險低于該注意力頭中所有 cache 的平均風險時,自動用先驗風險進行修正,防止因觀測不足而遺漏高風險 cache,提供更保守的保護。
這兩步操作均為線性時間,計算復雜度與傳統平均值聚合相同,卻帶來了質的飛躍:圖中防御性聚合(紅色曲線)相較于之前的平均值聚合(藍色曲線),幾乎完全消除了離群點,將最壞情況下保留的重要性分數從 0.45 提升至 0.65。
![]()
圖 4:Defensive Aggregation(紅色曲線)有效對抗脆弱假設,消除離群點
研究團隊將之前的 SOTA 壓縮方法 CriticalKV 中的平均聚合替換為防御性聚合,實現了全新的壓縮方法DefensiveKV及其層間調度增強版Layer-DefensiveKV。實驗結果令人震撼:僅需兩行代碼的修改,就實現了顯著的性能飛躍。
![]()
圖 5:DefensiveKV 和 Layer-DefensiveKV 展示了領先的性能
文章中的測評橫跨 7 個任務領域、18 個數據集、3 個不同規模的主流開源模型,一致性地刷新了 KV Cache 壓縮的性能邊界。例如,在 Llama-3.1-8B 模型 20% cache 預算的嚴苛壓縮條件下,相比最強基線 CriticalKV(質量損失 9.6%),DefensiveKV 將損失降至 4.1%(2.3 倍提升),而 Layer-DefensiveKV 更是僅為 2.1%(4.6 倍提升)。
![]()
圖 6:DefensiveKV 和 Layer-DefensiveKV 平均壓縮損失極低
這項工作的重要價值不僅在于算法性能提升,更在于重新定義了 KV Cache 壓縮的優化目標。它首次揭示了現有算法底層穩定性假設的本質脆弱性,開創性地將最壞風險控制思想引入該領域,為后續研究指明了全新方向:與其設計更精密的重要性指標,不如構建更具防御性的策略來對抗底層假設的脆弱性。這種防御性思維 —— 寧可錯留、不可錯刪 —— 或許是通往真正魯棒長上下文推理的關鍵鑰匙。
DefensiveKV 的全部代碼已經開源,提供了完整的實驗環境配置、打包數據集、評測代碼以及詳細的使用文檔。團隊額外特別提供了一個一小時內完成的迷你復現 Demo,感受防御性聚合帶來的強大性能。
- 一小時極速驗證:基于 10% RULER benchmark 的快速評測腳本,在單張 RTX 4090 上即可在 1 小時內完成 DefensiveKV 和 Layer-DefensiveKV 在 20% cache size 下的性能驗證。
- 性能真相揭秘:通過糾正先前 benchmark 的評測缺陷,團隊發現 SnapKV 在 20% 壓縮率下的真實得分僅為 39.0,徹底打破了此前 "無損壓縮" 的幻象。
- 算法持續提升:感受 KV Cache 壓縮領域近一年來從 AdaKV 到 CriticalKV 再到 DefensiveKV 的迭代提升,性能從 39.0 一路提升至 91.4。
- 可疊加增益:Defensive Aggregation 作為正交化方法,可與現有各類 KV Cache 壓縮技術無縫結合,實現性能的持續提升。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.