<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LMCache:基于KV緩存復用的LLM推理優化方案

      0
      分享至

      LLM推理服務中,(Time-To-First-Token)一直是個核心指標。用戶發起請求到看見第一個token輸出,這段時間越短體驗越好,但實際部署中往往存在各種問題。

      LMCache針對TTFT提出了一套KV緩存持久化與復用的方案。項目開源,目前已經和vLLM深度集成。



      原理

      大模型推理有個特點:每次處理輸入文本都要重新計算KV緩存。KV緩存可以理解為模型"閱讀"文本時產生的中間狀態,類似于做的筆記。

      問題在于傳統方案不復用這些"筆記"。同樣的文本再來一遍,整個KV緩存從頭算。

      LMCache的做法是把KV緩存存下來——不光存GPU顯存里,還能存到CPU內存、磁盤上。下次遇到相同文本(注意不只是前綴匹配,是任意位置的文本復用),直接取緩存,省掉重復計算。

      實測效果:搭配vLLM,在多輪對話、RAG這類場景下,響應速度能快3到10倍。

      偽代碼大概是這樣:

      # Old way: Slow as molasses
      def get_answer(prompt):
      memory = build_memory_from_zero(prompt) # GPU cries
      return model.answer(memory)
      # With LMCache: Zippy and clever
      import lmcache
      def get_answer(prompt):
      if lmcache.knows_this(prompt): # Seen it before?
      memory = lmcache.grab_memory(prompt) # Snag it fast
      else:
      memory = build_memory_from_zero(prompt)
      lmcache.save_memory(prompt, memory) # Keep it for later
      return model.answer(memory)



      幾個特性

      緩存讀取速度比原生方案快7倍左右,吞吐量也有提升。文本不管在prompt的什么位置,只要重復出現就能命中緩存。

      存儲層面支持多級——GPU顯存、CPU內存、磁盤都行,甚至可以接NIXL這種分布式存儲,GPU壓力能減輕不少。

      LMCache和vLLM v1集成得比較深,支持跨設備共享KV緩存、跨節點傳遞等特性。生產環境里可以配合llm-d、KServe這些工具用。

      做聊天機器人或者RAG應用的話,這東西能在不升級硬件的情況下把延遲壓下來一部分。

      安裝

      LMCache目前主要支持Linux,Windows上得走WSL或者社區的適配方案。

      基本要求:Python 3.9+,NVIDIA GPU(V100、H100這類),CUDA 12.8以上。裝好之后離線也能跑。

      pip直接裝:

      pip install lmcache

      自帶PyTorch依賴。遇到奇怪報錯的話,建議換源碼編譯。

      想嘗鮮可以裝TestPyPI上的預發布版:

      pip install --index-url https://pypi.org/simple --extra-index-url https://test.pypi.org/simple lmcache==0.3.4.dev61

      驗證一下版本:

      import lmcache
      from importlib.metadata import version
      print(version("lmcache")) # Should be 0.3.4.dev61 or newer

      具體版本號去GitHub看最新的。

      源碼編譯

      喜歡折騰的可以clone下來自己編:

      git clone https://github.com/LMCache/LMCache.git
      cd LMCache
      pip install -r requirements/build.txt
      # Pick one:
      # A: Choose your Torch
      pip install torch==2.7.1 # Good for vLLM 0.10.0
      # B: Get vLLM with Torch included
      pip install vllm==0.10.0
      pip install -e . --no-build-isolation

      跑個驗證:

      python3 -c "import lmcache.c_ops"

      不報錯就行。

      用uv的話會快一些:

      git clone https://github.com/LMCache/LMCache.git
      cd LMCache
      uv venv --python 3.12
      source .venv/bin/activate
      uv pip install -r requirements/build.txt
      # Same Torch/vLLM choices
      uv pip install -e . --no-build-isolation

      Docker部署

      如果嫌麻煩直接拉鏡像:

      # Stable
      docker pull lmcache/vllm-openai
      # Nightly
      docker pull lmcache/vllm-openai:latest-nightly

      AMD GPU(比如MI300X)需要從vLLM基礎鏡像開始,加上ROCm編譯參數:

      PYTORCH_ROCM_ARCH="gfx942" \
      TORCH_DONT_CHECK_COMPILER_ABI=1 \
      CXX=hipcc \
      BUILD_WITH_HIP=1 \
      python3 -m pip install --no-build-isolation -e .

      小結

      KV緩存復用這個思路已經是基本操作了,但LMCache把它做得比較完整:多級存儲、任意位置匹配、和vLLM的原生集成,這些組合起來確實能解決實際問題。對于多輪對話、RAG這類prompt重復率高的場景,3-10倍的TTFT優化是實打實的。

      LMCache目前主要綁定vLLM生態,Linux優先,AMD GPU支持還在完善中。但作為一個開源方案,值得關注。

      項目地址:https://avoid.overfit.cn/post/7854fe6d56b24e6fb836c6bfe42981fb

      作者:Algo Insights

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      歐爾班宣布反制措施:在我們耗盡石油之前,烏克蘭人將先耗盡資金

      歐爾班宣布反制措施:在我們耗盡石油之前,烏克蘭人將先耗盡資金

      陳恧侃故事
      2026-03-07 11:31:12
      現場直擊:伊朗防空系統攔截美以目標

      現場直擊:伊朗防空系統攔截美以目標

      新華社
      2026-03-06 10:54:01
      鄭爽分享美國近況,穿搭不輸當紅明星,自曝做醫美網友直呼認不出

      鄭爽分享美國近況,穿搭不輸當紅明星,自曝做醫美網友直呼認不出

      萌神木木
      2026-03-06 17:33:33
      河南女孩六年前為救父親性命,稱誰給40萬就嫁給誰,如今過得如何

      河南女孩六年前為救父親性命,稱誰給40萬就嫁給誰,如今過得如何

      牛鍋巴小釩
      2026-03-06 19:45:04
      致敬西虹市首富?切爾西眾人開球前將球圍在中間,解說員啞然失笑

      致敬西虹市首富?切爾西眾人開球前將球圍在中間,解說員啞然失笑

      懂球帝
      2026-03-07 13:08:08
      廣西女子發現罕見青竹鯉,時不時側身蹭水底,網友:魚生天花板!

      廣西女子發現罕見青竹鯉,時不時側身蹭水底,網友:魚生天花板!

      貍貓之一的動物圈
      2026-03-06 09:38:48
      小學生實名投訴極氪 建議取消讓她寫作業的小桌板!極氪回應

      小學生實名投訴極氪 建議取消讓她寫作業的小桌板!極氪回應

      快科技
      2026-03-06 23:12:33
      王震堅決反對中顧委副主任排名,薄一波:我是常務,就這么定了

      王震堅決反對中顧委副主任排名,薄一波:我是常務,就這么定了

      芊芊子吟
      2026-03-06 09:45:07
      莫雷加德全家抵達重慶:對這座城市印象深刻,會請樊振東推薦美食

      莫雷加德全家抵達重慶:對這座城市印象深刻,會請樊振東推薦美食

      乒談
      2026-03-07 00:19:01
      中國女籃72-66再勝巴西,不是張子宇王思雨,她17+7成新核

      中國女籃72-66再勝巴西,不是張子宇王思雨,她17+7成新核

      林子說事
      2026-03-07 08:15:14
      速度滑冰世錦賽:寧忠巖收獲短距離全能、男子1000米兩項季軍

      速度滑冰世錦賽:寧忠巖收獲短距離全能、男子1000米兩項季軍

      懂球帝
      2026-03-07 07:21:57
      高市早苗被逼到絕路:派也死,不派也死

      高市早苗被逼到絕路:派也死,不派也死

      鯨探所長
      2026-03-07 12:02:36
      霍爾木茲海峽船只遭襲4死3重傷!兩萬海員被困,伊朗稱不會關閉海峽,但與以美有關船只不得通行;普京與伊總統通話:通過多種渠道保持聯系

      霍爾木茲海峽船只遭襲4死3重傷!兩萬海員被困,伊朗稱不會關閉海峽,但與以美有關船只不得通行;普京與伊總統通話:通過多種渠道保持聯系

      大風新聞
      2026-03-07 10:05:06
      霍震霆也沒想到,46歲的霍啟剛,會在兩會上憑一個舉動給霍家長臉

      霍震霆也沒想到,46歲的霍啟剛,會在兩會上憑一個舉動給霍家長臉

      攬星河的筆記
      2026-03-06 23:55:22
      結束了!整整27年生涯!曝冠軍主帥最后一舞

      結束了!整整27年生涯!曝冠軍主帥最后一舞

      籃球實戰寶典
      2026-03-06 18:57:43
      晴好周末,出游安排起來 | 天氣早知道

      晴好周末,出游安排起來 | 天氣早知道

      上觀新聞
      2026-03-07 11:57:06
      針對“不敢休、不讓休”怪圈,國家出手了!

      針對“不敢休、不讓休”怪圈,國家出手了!

      國是直通車
      2026-03-07 09:12:15
      村里紅白事從不回,男子母親離世,鄰居等著看笑話,結果長了見識

      村里紅白事從不回,男子母親離世,鄰居等著看笑話,結果長了見識

      子芫伴你成長
      2026-02-23 12:21:40
      重回國乒?塵埃落定,劉國梁發聲,崗位曝光,布局國乒男隊發展

      重回國乒?塵埃落定,劉國梁發聲,崗位曝光,布局國乒男隊發展

      卿子書
      2026-03-06 09:25:27
      比賽還沒開打,上海申花先迎來兩個壞消息,新賽季斬獲開門紅懸了

      比賽還沒開打,上海申花先迎來兩個壞消息,新賽季斬獲開門紅懸了

      零度眼看球
      2026-03-07 08:58:12
      2026-03-07 13:40:49
      deephub incentive-icons
      deephub
      CV NLP和數據挖掘知識
      1940文章數 1456關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      房產
      教育
      藝術
      健康
      親子

      房產要聞

      傳統學區房熄火?2月??诙址勘鸬陌鍓K竟然是…

      教育要聞

      兩會速遞|教育部部長:將實施新一輪學生心理健康促進行動

      藝術要聞

      Mark Grantham | 城市街景

      轉頭就暈的耳石癥,能開車上班嗎?

      親子要聞

      六個月寶寶查出散光,原因竟是父母長期身旁玩手機,媽媽懵了:我一直以為他閉著眼就沒事

      無障礙瀏覽 進入關懷版