<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      KV Cache管理架構大變革:逐步邁向統一混合內存新模式

      0
      分享至

      在生產環境部署過LLM的人都知道模型權重只是問題的一半,另一半是KV cache:存儲注意力狀態的運行時內存,讓模型在生成token時不必從頭開始重算。能不能管好這塊內存決定了系統是一個卡頓的demo還是一個可用的推理服務。

      本文梳理KV cache管理經歷的5個時代,從它根本不存在的階段,到今天正在成型的統一內存架構。文中會結合多個模型的部署經驗,對比vLLM、SGLang和TensorRT-LLM在各階段的應對思路。讀完后應當能建立一套判斷框架,為具體場景選擇合適的方案。

      先從KV cache本身說起。

      背景:Prefill、Decode與KV Cache

      LLM推理分兩個階段。Prefill階段并行處理全部輸入token,在每個注意力層為每個token計算Key和Value向量,屬于計算密集型,GPU并行度越高越好。Decode階段則以自回歸方式逐token生成,每個新token都要對先前所有Key-Value對做注意力計算;GPU大部分時間花在從HBM讀取KV cache而非運算上,瓶頸在內存帶寬。

      KV cache的作用就是把已經算過的Key和Value向量緩存下來,避免每個decode步驟重復計算。沒有它每生成一個token就得對整個序列重跑一遍注意力,推理速度完全無法接受。

      以Llama-3–70B、8K上下文為例:

      KV cache per token = 2 (K+V) x 80 layers x 8 KV heads x 128 head_dim x 2 bytes (FP16)
      = 2 x 80 x 8 x 128 x 2 = 327,680 bytes ≈ 320 KB per token
      For 8K tokens: 320 KB x 8,192 = 2.56 GB per request
      For 32 concurrent requests: 2.56 GB x 32 = 81.9 GB

      81.9 GB:一塊A100 80GB的全部顯存都裝不下留給模型權重的空間是零。KV cache管理重要正是因為這一點。

      Era 0:Pre-GenAI(2017年之前)

      Transformer出現之前深度學習的主力是ResNet、YOLO、VGG、Inception這些無狀態前饋架構。每次推理獨立處理一個輸入步驟之間沒有任何持久狀態,KV cache的概念自然無從談起。

      ONNX Runtime、TensorRT等推理框架也是為這類無狀態負載設計的:加載模型,跑前向傳播,返回結果。

      如果今天仍然只是服務傳統視覺或表格模型,后面這些復雜度都不需要關心。

      Era 1:連續KV Cache(2017年)

      Transformer原始論文(2017)帶來了自注意力機制,也帶來了在decode步驟之間緩存Key和Value張量的需求。

      早期推理引擎如HuggingFace Transformers用最簡單的的方式實現KV cache:為每個請求預分配一個max_seq_len大小的連續張量,單個請求的存儲量為2 x num_layers x num_heads x head_dim x max_seq_len。

      好處是實現簡單,相比每步重算注意力有很大的速度提升。

      代價也很明顯,內存占用按max_seq_len x batch_size線性增長而非跟隨實際序列長度;大多數請求遠短于最大長度,造成嚴重的內部碎片;并發batch大小因此受限,請求之間也無法共享內存。

      性能分析的數據很直白:在這些系統中已分配的KV cache內存只有20–38%真正存儲了有用的token狀態,其余全部浪費在填充和碎片上。

      Era 2:PagedAttention(2023年)

      PagedAttention是真正改變規則的技術,UC Berkeley的vLLM團隊從操作系統借來了一個基本思路:帶分頁的虛擬內存。

      做法是把KV cache切分為固定大小的頁(block),隨著序列增長按需分配,而非一次性為每個請求開辟一大塊連續內存。一個block table將邏輯頁映射到物理內存,原理和操作系統頁表將虛擬地址映射到物理RAM完全一致。

      vLLM論文給出的數據相當驚人:吞吐量比FasterTransformer和Orca提升2–4倍;碎片率降到4%以下(之前是60–80%)內存浪費接近于零;并發請求數從幾十躍升到數百乃至數千。

      PagedAttention還打開了前綴緩存的大門:SGLang的RadixAttention正是基于此。多個請求如果共享同一前綴(系統提示詞、共享文檔等)對應的KV cache頁可以直接復用而非重新計算。對多輪對話和RAG場景而言,這是一個巨大的吞吐量倍增器。

      不過PagedAttention并非沒有取舍:注意力kernel因為非連續內存訪問變得更復雜,block大小需要調優,而且它默認假設KV cache是同構的:每層大小一致。

      這些局限并不妨礙它成為事實標準。今天vLLM、SGLang、TensorRT-LLM全部以PagedAttention為底層基礎。

      實踐比較:vLLM vs SGLang前綴緩存

      兩個框架都支持前綴緩存,實現路徑不同。vLLM在block級別做基于哈希的前綴匹配;SGLang則用RadixAttention樹在基數樹結構中維護KV block的LRU緩存,支持跨多次生成調用的自動復用。

      從實際部署看,SGLang的方案在復雜多調用場景(agent、思維樹)中緩存命中率更高,vLLM的方案更簡潔標準聊天場景下表現良好。

      Era 3:異構KV Cache(2024年)

      2024年模型架構和優化技術快速分化,推理系統需要管理形狀、生命周期、訪問模式各異的多種緩存狀態。"KV cache"這個術語的外延已經遠超原始定義。

      投機解碼用一個小型草稿模型一次提出多個候選token,再由大型目標模型批量驗證,草稿模型和目標模型各自維護獨立的KV cache。視覺語言模型(VLM)如QwenVL、InternVL的視覺編碼器會產生大型圖像嵌入,這些嵌入可以跨請求緩存復用,但尺寸與文本KV cache不同。量化KV Cache用FP8等低精度格式壓縮存儲,需要額外維護縮放因子。滑動窗口注意力(SWA)只關注最近window_size個token,KV cache管理需要判斷哪些token在窗口內、哪些已過期可以淘汰。



      Mamba / 狀態空間模型則是另外一條完全不同的路:用循環狀態替代注意力,每個新token更新一個固定大小的向量。這種狀態無法在token粒度上共享也不容易回滾,和KV cache在本質上就不是一回事。

      混合模型則在單個模型中組合多種層類型:

      • 滑動窗口 + 全注意力(Gemma 2/3、Ministral)
      • Mamba + 全注意力(Jamba、Bamba)
      • 局部分塊 + 全注意力(Llama 4)



      Jenga論文給出了量化數據:Llama 3.2 11B Vision如果把所有層按統一方式管理,內存浪費達79.6%;Gemma-2為25%;Ministral為56.25%。

      異構緩存帶來的麻煩包括:多個獨立緩存管理器之間的內存碎片、服務器啟動時難以預測內存分配、前綴緩存按類型各自實現導致命中率下降,以及功能組合的復雜度急劇上升。

      vLLM等框架在實踐中走向了分離管理器的路線——普通KV cache一個管理器,視覺編碼緩存一個,Mamba緩存又一個。能用,但脆弱,擴展性差。

      Era 4:分布式KV Cache(2025+)

      模型規模持續增長單GPU甚至單節點已不足以承載。KV cache管理正在變成一個多節點、數據中心級別的問題。

      解耦推理

      DistServe的核心提案是將prefill和decode階段部署到不同的GPU實例上。prefill受計算約束,decode受內存約束,兩者適合不同的硬件配置和并行策略——分開部署比混在一起更合理。

      DistServe的實測數據:與共置系統相比請求處理量提升4.48倍(或在同等吞吐下收緊SLO 10.2倍)。這時候問題就變為了KV cache從prefill節點到decode節點的傳輸效率。

      vLLM的Encoder Disaggregation將視覺編碼器拆為獨立可擴展服務,專門用于多模態場景,消除編碼器與解碼器之間的干擾后goodput提升2–2.5倍。

      KV Cache感知的負載均衡

      NVIDIA Dynamo引入了KV cache感知路由:請求路由器優先把請求轉發到已經持有相關KV cache的實例上,在集群層面最大化前綴緩存命中率。這要求每個實例都能獲取集群范圍內的緩存狀態視圖。

      分層KV Cache

      Moonshot AI的Mooncake采用以KV cache為中心的解耦架構,冷KV頁從GPU HBM溢出到CPU DRAM或SSD,熱頁留在GPU上,從而在不犧牲熱數據訪問速度的前提下擴展有效緩存容量。從低層級加載或寫回一層KV的延遲可以和前一層的GPU計算重疊,從而被隱藏。

      長上下文場景下Mooncake的吞吐量最高提升525%,同時滿足SLO約束。在Kimi的真實負載中,請求處理量多出75%。

      分布式時代的困難很實際:投機解碼、VLM等不少優化手段和分布式推理還無法兼容;部署需要相當的專業知識和耐心;節點間網絡(InfiniBand、RoCE)本身就是難題,NIXL一類的庫還很不成熟;故障轉移、落后者節點、硬件缺陷、自動擴縮容。每一項都在真實環境中帶來額外的復雜度。

      Kubernetes原生方案如NVIDIA Dynamo、vLLM Production Stack、llm-d、AIBrix正在試圖收斂這些復雜度,但整體仍處于早期。

      Era 5:統一混合KV Cache(2025+)

      當前前沿工作的方向是構建統一內存系統:異構KV類型共享同一個內存池,而非各自維護獨立的分配器。貫穿其中的主題是可組合性——每一項優化都應當能和其他任意優化疊加使用。

      Jenga:大頁 + LCM尺寸對齊

      Jenga提出了兩級內存分配器。核心思路是取不同嵌入尺寸的最小公倍數(LCM)作為"大頁"尺寸,讓不同KV形狀在同一內存池中共存而不產生碎片。

      舉例來說,圖像token的KV為256字節,文本token的KV為384字節,則取LCM(256, 384) = 768字節為大頁尺寸。大頁再按特定層類型細分為小頁。





      與原版vLLM相比,Jenga的GPU內存利用率最高改善79.6%,吞吐量最高提升4.92倍(平均1.80倍)。

      SGLang:CUDA虛擬內存

      SGLang則又用了另外一個方法:利用CUDA Virtual Memory API動態重映射設備內存,讓KV頁在虛擬地址空間中連續、物理上分散。彈性內存池可以在運行時動態調整不同池類型(如Mamba池與KV cache池)之間的分配比例。



      SGLang 2026年Q1路線圖明確把功能可組合性列為核心目標:在解耦部署中跨多節點對混合VLM執行投機解碼。要達成這一目標,需要對引擎核心組件做長周期的架構重構。

      比較表:各時代一覽



      不同場景下的選擇

      結合生產部署經驗給出一些判斷。

      標準文本LLM服務(聊天、補全):Era 2(PagedAttention)是基礎,選vLLM或SGLang即可。有共享系統提示詞的場景應開啟前綴緩存。

      多模態模型(VLM):屬于Era 3的范疇,需要關注框架對視覺嵌入的處理方式。圖像密集型負載占比高時,可以評估vLLM的編碼器解耦(Era 4)。

      混合架構(Gemma 3、Jamba、Llama 4):Era 5直接相關。SGLang的CUDA虛擬內存方案和Jenga的LCM分配器正是針對此類場景設計。

      大規模高吞吐量生產:Era 4是重點。解耦prefill/decode配合KV感知路由對成本效率的改善非常可觀,NVIDIA Dynamo和Mooncake是參考架構。

      長上下文負載(100K+ token):分層KV cache(Era 4)配合GPU到CPU的溢出機制不可或缺,否則GPU顯存根本撐不住。

      總結

      KV cache才是真正的瓶頸,Llama-3–70B在32個并發8K token請求下的KV cache總量超過80GB,比一整塊A100的顯存還大。

      KV cache管理的演進軌跡和操作系統內存管理的歷史驚人地相似:從連續分配到虛擬內存、分頁,再到分布式共享內存。區別在于操作系統花了40年走完的路,KV cache管理在8年內走完了,背后的驅動力是LLM負載的爆發式增長。對于正在構建LLM基礎設施的工程團隊來說,理解這些演進階段沒有可選項:后面所有工作都建立在這個基礎之上。

      https://avoid.overfit.cn/post/6272647e7bc24c8084545ec3f5ca7972

      by Luv Bansal

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      悅心知足
      2026-02-21 23:03:46
      范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸掉了一生

      范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸掉了一生

      干史人
      2026-03-05 21:06:35
      “新任指揮官瓦希迪:伊朗革命衛隊的‘冷酷無情’時代來臨!”

      “新任指揮官瓦希迪:伊朗革命衛隊的‘冷酷無情’時代來臨!”

      世界探索者探索
      2026-03-07 15:29:39
      頭號援軍到位,伊朗強勢表態!特朗普做一項決定,臺當局陷入絕望

      頭號援軍到位,伊朗強勢表態!特朗普做一項決定,臺當局陷入絕望

      野史日記
      2026-03-06 13:50:03
      身邊毀三觀的八卦,太炸裂了!不準備兩斤瓜子出不來!

      身邊毀三觀的八卦,太炸裂了!不準備兩斤瓜子出不來!

      另子維愛讀史
      2026-01-24 20:54:02
      倪萍看望漸凍癥終末期的蔡磊,稱看到蔡磊的狀態非常鼓舞自己

      倪萍看望漸凍癥終末期的蔡磊,稱看到蔡磊的狀態非常鼓舞自己

      大象新聞
      2026-03-07 14:39:03
      馬刺29分超級逆轉,小卡空砍30+9!福克斯立功,文班亞馬是頭怪獸

      馬刺29分超級逆轉,小卡空砍30+9!福克斯立功,文班亞馬是頭怪獸

      毒舌NBA
      2026-03-07 13:05:00
      新娘臨時要10萬下車費,新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

      新娘臨時要10萬下車費,新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

      千秋歷史
      2026-02-02 20:23:42
      前國腳:梅西并不是公認的球王,個人能力獨一無二,沒有超過C羅

      前國腳:梅西并不是公認的球王,個人能力獨一無二,沒有超過C羅

      夏侯看英超
      2026-03-06 21:05:17
      阿里天才少年出走,硅谷大佬砸重金搶人

      阿里天才少年出走,硅谷大佬砸重金搶人

      大佬灼見
      2026-03-06 16:20:57
      女流直播突然孩子哭鬧,被迫過去“墊一口”,網友:不行下播吧

      女流直播突然孩子哭鬧,被迫過去“墊一口”,網友:不行下播吧

      相思賦予誰a
      2026-03-05 16:09:12
      西方觀察家認為:這次的美伊以沖突會導致永久改寫臺海戰爭的規則

      西方觀察家認為:這次的美伊以沖突會導致永久改寫臺海戰爭的規則

      阿七說史
      2026-03-05 15:43:01
      岳父跟我9年,除夕夜大舅哥來接,臨走時岳父悄悄說:晚點來接我

      岳父跟我9年,除夕夜大舅哥來接,臨走時岳父悄悄說:晚點來接我

      朗威談星座
      2026-03-07 15:21:53
      陳飛宇在巴黎吃麻辣燙被偶遇!衣服破了個大洞,網友:我眼花了?

      陳飛宇在巴黎吃麻辣燙被偶遇!衣服破了個大洞,網友:我眼花了?

      木子愛娛樂大號
      2026-03-06 16:45:32
      隨著巴黎圣日耳曼爆冷1-3轟然倒下,法甲最新積分榜出爐

      隨著巴黎圣日耳曼爆冷1-3轟然倒下,法甲最新積分榜出爐

      側身凌空斬
      2026-03-07 06:34:39
      韓國網友瘋狂稱贊中國電影《731》配日文字幕上線YouTube!

      韓國網友瘋狂稱贊中國電影《731》配日文字幕上線YouTube!

      奮斗在韓國
      2026-03-05 13:52:04
      中國女籃戰捷克,直播頻道有變,張子宇對比劉禹彤,差距顯而易見

      中國女籃戰捷克,直播頻道有變,張子宇對比劉禹彤,差距顯而易見

      體育大學僧
      2026-03-07 11:40:15
      官方:皇馬與阿聯酋航空續約至2031年;據悉價值每年7400萬歐

      官方:皇馬與阿聯酋航空續約至2031年;據悉價值每年7400萬歐

      懂球帝
      2026-03-07 14:11:07
      F35輕松擊落伊朗戰機!看完五代機實戰發現,難怪中國殲20不出口

      F35輕松擊落伊朗戰機!看完五代機實戰發現,難怪中國殲20不出口

      黑鷹觀軍事
      2026-03-06 17:13:39
      名場面!烏克蘭大使公開拒吊唁伊朗高層,字字戳心撕破偽善面具

      名場面!烏克蘭大使公開拒吊唁伊朗高層,字字戳心撕破偽善面具

      老馬拉車莫少裝
      2026-03-06 13:45:05
      2026-03-07 17:07:00
      deephub incentive-icons
      deephub
      CV NLP和數據挖掘知識
      1940文章數 1456關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      伊朗總統:絕不可能無條件投降 向鄰國表示歉意

      頭條要聞

      伊朗總統:絕不可能無條件投降 向鄰國表示歉意

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      手機
      親子
      時尚
      家居
      教育

      手機要聞

      vivo X300 Max手機原型曝光:預估6.78英寸屏幕、7000mAh電池

      親子要聞

      中泰家庭婚姻觀、育兒觀差異巨大,聽聽小葉的真實看法。

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

      家居要聞

      暖棕撞色 輕法奶油風

      教育要聞

      教育部部長懷進鵬:我國義務教育達高收入國家平均水平 #我國義務教育達高收入國家平均水平#2026全國...

      無障礙瀏覽 進入關懷版