網易首頁 > 網易號 > 正文申請入駐

ODCC聯合NVIDIA、焱融等首發KVCache評測結果｜焱融AI存儲實現推理提速降本雙突破

2026-03-09 16:26:02　來源: InfoQ

北京舉報

分享至

AI 從模型能力競爭，進入規模化推理能力競爭的新階段。隨著大模型在企業級場景中的落地，推理系統的性能、成本與資源利用率，正成為決定 AI 商業化成敗的關鍵因素。在這一過程中，存儲作為 AI 基礎設施核心支撐環節，成為釋放 AI 算力、重構推理效率結構的核心能力。

為系統評估算力中心的“存力”水平、打通技術研發與產業應用壁壘，在 NVIDIA、美團、三星、Solidigm 等產業鏈領軍企業支持下，ODCC 成立 AI 存儲實驗室。針對推理場景中的數據響應瓶頸，實驗室聚焦大模型推理中的關鍵制約因素—KV Cache，啟動面向存儲軟硬件的專項協同測試工作，旨在構建一套適配推理場景的 KV Cache 存儲解決方案及測試規范，切實推動 AI 存儲技術的標準化、規范化與規模化落地。

ODCC AI 存儲實驗 KV Cache 評測環境

焱融科技作為國內專業的 AI 存儲廠商，其自主研發的 YRCache 推理存儲系統參與首批測試，并取得優異成果。測試結果不僅驗證了 YRCache 對推理性能的顯著提升，更證明了 YRCache 可以讓中低配置 GPU 跑出接近高配置 GPU 的推理性能，優化推理成本，重構企業 AI 推理基礎設施的投入產出比。

本次測試亮點數據

推理性能全面數量級提升

1. TTFT（首 Token 延時）降低 97%，實時響應，告別等待
2. TPOT（每個輸出 Token 生成時間）降低 97%，流暢輸出不卡頓
3. Token 吞吐量（每秒生成 token 數）提升 22 倍，單 token 成本可隨之同比例降低

低配 GPU 跑出高配性能，推理成本結構性優化

1. YRCache 加持下，中端 GDDR GPU 各項推理性能接近高端 HBM GPU，ROI 提升 14 倍
2. 為企業提供“用更低算力預算獲得更高推理能力”的可行路徑

測試背景

隨著大語言模型（LLM）的持續演進，應用場景不斷拓展，模型能力快速迭代，上下文長度快速增長。以 DeepSeek-R1 為代表的新一代推理模型，已支持 100K+ 的超長上下文。這在提升模型復雜任務處理能力的同時也帶來了 KVCache（Key-Value Cache，鍵值緩存）的爆炸式增長。

KVCache 作為 Transformer 推理階段的核心數據結構，用于緩存注意力機制中間結果，是影響推理效率的關鍵變量。但隨著上下文長度增加，KVCache 占用的顯存呈線性膨脹，成為推理系統的主要瓶頸。如何高效管理 KVCache，已成為決定大模型推理系統規模化能力的關鍵。

測試目的

焱融 YRCache 推理存儲系統是專為大規模推理設計的 KVCache 存儲管理平臺。通過構建 GPU 顯存、主機內存、本地 NVMe SSD 和 YRCloudFile 高性能分布式文件存儲等多級 KV 緩存架構，YRCache 顯著擴展 KV 緩存空間，加速推理性能提升。本次測試旨在評估在基于 NVIDIA 計算和網絡平臺的測試環境下， YRCache 對推理性能的提升效果。

YRCache 架構圖

測試環境

本次測試主要圍繞 PD（Prefill-Decode）一體化推理場景，基于 DeepSeek-R1 等主流大模型，對比原生 vLLM 框架與集成 YRCache 后的系統，在不同網絡帶寬配置（200Gbps / 400Gbps / 800Gbps）下的性能表現。

測試模型：DeepSeek-R1-0528-FP4（671B 參數，FP4 量化），支持 128K tokens 上下文。
測試框架：vLLM + YRCache (焱融客戶端)，基于 RDMA/RoCEv2 協議。
測試環境：采用 NVIDIA Spectrum-X 400Gbps 以太網網絡，搭配 3 臺 GPU 計算節點（節點 A/B/C）和 3 臺焱融存儲服務器，通過 Spine-Leaf 網絡拓撲實現高速互聯。

在具體 GPU 服務器配置方面，測試分別在以下兩類算力環境中進行：

中端 GDDR GPU 服務器

該類服務器顯存容量和帶寬低，主要面向成本敏感型的大規模推理部署、中等規模模型推理服務、輕量級微調、企業 AI 平臺建設等。在此類環境下，系統對顯存容量與帶寬資源更加敏感，KV Cache 占用與跨節點通信效率直接影響整體吞吐與穩定性。

高端 HBM GPU 服務器

該類服務器主要面向超大規模推理、高并發及長上下文推理需求，如 100K+ Tokens 長文本處理、復雜 Agent 推理與高端智算中心部署等。HBM 顯存容量和帶寬更高、單卡計算性能更強，但在大規模并發與 PD 一體負載下，仍對存算協同效率與網絡帶寬提出更高要求。

在不同 GPU 環境下的測試，也進一步揭示了焱融 YRCache 在不同硬件配置下的推理加速與性能提升效果。

測試環境網絡拓步圖

測試結果：不僅是性能指標的飛躍
更是用戶體驗和推理成本的重塑

推理性能全面提升

極致加速：讓“長文本”推理如絲般順滑

在 ODCC 嚴格測試中，對比原生 vLLM 框架，在不同 GPU 和網卡配置下，YRCache 均實現了 TTFT、TPOT、Token 吞吐量等全維度核心指標數量級優化，直接轉化為用戶可感知的真實價值：

瞬時響應，即問即答，用戶交互感拉滿，留存率提升。
流式輸出行云流水，長文檔生成效率質變。
吞吐能力升級，系統能夠服務更多并發用戶請求，單 token 成本也同比例降低。

不同 GPU & 網絡帶寬測試數據：

上圖展示了在 8 卡中端 GDDR GPU 服務器環境中，batch size = 16、輸入長度 10K tokens 條件下，分別在 400Gbps 與 800Gbps 網絡帶寬配置下的測試數據。可以看到：

在 400Gbps 網絡環境下，使用 YRCache 后， TTFT 降低 95%，TPOT 降低 96%，token 吞吐量提升 17 倍。
在 800Gbps 網絡環境下，TTFT 降低 97%，TPOT 降低 97%，token 吞吐量提升 22 倍。

在高端 HBM GPU 服務器環境下，推理性能同樣實現了全面提升。

從上圖數據可以看出，在高端 HBM GPU 環境中，當 batch size 為 16、輸入長度為 10K tokens 時，集成 YRCache 后，在 200Gbps、400Gbps 與 800Gbps 三種網絡帶寬配置下，系統性能均實現大幅優化：

此外，可以看到，隨著網絡能力的增強，推理性能的提升也進一步增強。

不同業務場景：讓“復雜任務”變“高效”

在模擬不同上下文長度場景的測試中，隨著 Token 長度從 100 增加到 100K，YRCache 實現了全程穩定的性能提升，且隨著上下文的增長，YRCache 的性能增益呈放大趨勢（如下面兩張圖所示）。這為企業部署長上下文模型處理復雜長文檔分析、代碼生成、多輪交互等重負載任務提供了技術底氣，無需擔憂性能斷崖。

跨越硬件代差：YRCache 讓中低配卡性能
接近追平高配卡，推理成本革命性優化

如果說性能提升是意想之中的效果，那么跨越硬件代差、實現結構性成本優化，則是在價格波動與供應緊張的現實背景下，YRCache 為企業提供的更具戰略意義的價值支撐。

本次測試結果充分體現了 YRCache 能夠給用戶帶來的核心商業價值：在 YRCache 的加持下，配置較低的中端 GDDR GPU 服務器，其綜合推理性能指標接近高端 HBM GPU 服務器。

從上圖中的數據可以看到，在未使用 YRCache 時，中端 GDDR GPU 相較于高端 HBM GPU 存在明顯的性能差距：

TTFT：19051ms vs 6992ms，比高端 HBM GPU 慢了 173%。
TPOT：1637ms vs 448ms，比高端 HBM GPU 慢了 265%。
Throughput：4341 vs 14269 tokens/s，吞吐量僅為高端 HBM GPU 的 30%。

而在使用 YRCache 后，中端 GDDR GPU 和高端 HBM GPU 的性能均實現顯著躍升，且兩者差距急劇縮小，中端 GDDR GPU 各項性能大幅逼近高端 HBM GPU：

在大模型推理場景中，硬件采購成本與實際產出吞吐量（Token 吞吐量）是衡量投資回報率（ROI）的關鍵因素。本次測試數據進一步揭示了不同配置下的 ROI 表現差異。

如上圖數據所示，雖然在原生狀態下，中端 GDDR GPU 的推理表現并不占優，但在引入 YRCache 優化方案后，其 ROI 呈現出爆發式增長——在 400Gbps 和 800Gbps 網絡環境下，分別提升了 11 倍和 14 倍。這意味著在投入相同資金的情況下，采用“中端 GDDR GPU 服務器 + YRCache”方案能夠帶來遠超高端 HBM GPU 原生方案的產出效率，實現了成本效益的顯著優化。

這正體現了 YRCache 對企業 AI 成本結構的重構。對用戶而言，他們能夠：

擁有更多選擇，不用盲目追求頂級 GPU，通過部署 YRCache，現有硬件也可釋放超強推理性能
規模化部署時，TCO（總擁有成本）可實現顯著優化
中小企業也能用更低門檻，實現高性能 AI 推理服務

對于正處于商業化關鍵期的 AI 企業而言，這不只是性能和成本的優化，更是商業模式的重新定義——當推理成本從"高端卡依賴"轉向"存儲技術創新"，AI 應用的盈虧平衡點將大幅下移，更多創新場景將具備經濟可行性。

此外，焱融 YRCache 推理存儲系統還支持 PD 分離場景，能夠為下一代推理架構的極致優化提供堅實的數據流轉基礎。

此次參與 ODCC AI 存儲實驗室首批 KVCache 場景測試的結果，不僅是焱融 YRCache 技術實力的有力印證，也為整個 AI 推理行業指明了 “存儲驅動性能、架構優化成本” 的全新路徑。

除了面向大規模推理場景的 YRCache 推理存儲系統，焱融科技目前已圍繞 AI 全流程數據需求，構建起覆蓋數據采集、大模型訓練、推理加速與數據治理的完整能力體系。依托 YRCloudFile 分布式文件系統、F9000X 全閃存儲一體機、YRCache 推理存儲系統以及 DataInsight 數據管理平臺，焱融打造了系統化的全棧 AI 存儲解決方案，實現從數據接入、模型運行到數據管理的全鏈路支撐。

未來，我們將繼續深耕 AI 存儲，以數量級性能提升 + 顛覆性成本優化雙重能力，助力企業在 AI 爆發時代，以更低成本、更高效率、更優體驗，搶占規模化落地先機。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.