![]()
隨著 LLM 向 1M 上下文演進,KV cache(鍵值緩存)已成為制約推理服務效率的核心瓶頸。自回歸生成的特性使得模型必須存儲歷史 token 的 key-value 狀態(即 KV cache)以避免重復計算,但 KV cache 的顯存占用隨著上下文長度的增長而膨脹,帶來顯著的內存瓶頸。
過去兩年,關于 KV cache 的優化工作爆炸式增長,包括調度、遷移、壓縮等策略層出不窮。然而,現有綜述主要聚焦于 LLM 推理或服務的整體效率,大多僅將 KV cache 作為其中一個子模塊作簡要討論。
近期,來自墨爾本大學和華中科技大學的研究者們發布了一篇深度綜述,從MLSys 的思維出發,用一套新穎的「時間 - 空間 - 結構」系統行為視角對 KV cache 優化方法進行了系統性梳理與深入分析,并將相關資源整理成了持續維護的 Awesome 資源庫,方便研究者與從業人員快速定位與落地。
![]()
- 論文地址: https://doi.org/10.36227/techrxiv.176046306.66521015/v3
- 項目地址: https://github.com/jjiantong/Awesome-KV-Cache-Optimization
什么是「 sKis」?
為了提供更聚焦的視角和理解,作者們首先在綜述中定義了sKis的邊界:在推理服務階段,以 KV cache 為核心優化對象,在不依賴模型重訓或結構修改的前提下,提升吞吐、延遲等核心系統指標。
![]()
從「系統行為」看 KV Cache
聚焦于 sKis,該綜述創新性地提出以系統行為的視角來組織 KV cache 優化技術:不是按具體流程、框架、算法來劃分,而是按優化策略在系統中發生的時間、空間、結構三個維度的行為來劃分,從而更容易對齊工程實現與組合策略。
- 執行與調度(時間維度):KV 什么時候被訪問和計算?該分類關注執行過程與調度。例如設計以 KV 為中心的調度策略,采用流水線來掩蓋延遲,或者根據不同硬件的特性適配操作等。
- 放置與遷移(空間維度):KV 放在哪里、如何遷移?該分類關注數據的存儲。例如在 GPU、CPU、SSD 構成的存儲層級中如何使熱點 KV 留在 GPU 顯存中,或者在分布式或異構的計算設備中設計遷移策略等。
- 表示與留存(結構維度):KV 長什么樣?該分類關注數據表示。這是目前最擁擠的賽道,包括量化、驅逐等論文密集的子領域,旨在直接減少 KV cache 的物理體積。
![]()
基于上述三個維度,該綜述將現有工作歸納為 7 個二級類別,具體包括:以 KV 為中心的調度(KVS)、流水線與重疊(OVLP)、硬件感知的執行(HAE)、跨內存層級的 KV 編排(MHO)、跨計算設備的 KV 編排(CDO)、KV cache 壓縮(KVCC)、KV cache 留存管理(KVRM)。
該論文不僅詳細梳理了每個維度下的不同類型和技術方法,還為每一類提煉了關鍵要點、局限與權衡,給出了可落地的實用指導。
![]()
深度洞察與開放挑戰
這篇綜述最有價值的部分之一,在于作者們對百余篇論文進行了全局交叉分析,從而歸納了7 大關鍵觀察,并引發了6 大開放挑戰。
首先,作者們對文獻進行了跨行為共現分析,以揭示不同維度的 KV 行為之間的內在聯系和協同模式;此外,作者們深入分析了KV 行為和優化目標的作用關系,并統計了文獻中對相關優化指標的實際關注情況。
![]()
![]()
基于以上兩類交叉分析,作者們揭示了當前領域的7 大關鍵觀察,例如什么組合是最常見的協同模式?結構維度(如量化)雖然論文最多,為什么往往淪為系統中的「孤島」?
基于關鍵觀察,作者們進一步提煉了6 大開放挑戰,例如在追求效率的同時,我們雖然常常會關注到對其質量的影響,但是否往往忽視了可信度(trustworthiness)的隱形崩塌?該綜述中對每一個觀察和挑戰都給出了具體的分析和思路,期待能激發社區向著更加高效與可信的 LLM 服務系統的持續探索!
資源分享:Awesome-KV-Cache-Optimization 資源庫
為了方便社區追蹤這一飛速發展的領域的最新進展,論文作者同步維護了一個 Awesome 風格的資源庫,收錄并持續更新 sKis 領域的最新論文和代碼實現。希望這個資源庫能讓你少走彎路!
- 地址:https://github.com/jjiantong/Awesome-KV-Cache-Optimization
如果你正在做 LLM Infra、模型壓縮或者高性能計算等相關方向,歡迎在 GitHub 上 star 支持,或者來倉庫一起補全與更新!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.