![]()
AI 從模型能力競爭,進入規模化推理能力競爭的新階段。隨著大模型在企業級場景中的落地,推理系統的性能、成本與資源利用率,正成為決定 AI 商業化成敗的關鍵因素。在這一過程中,存儲作為 AI 基礎設施核心支撐環節,成為釋放 AI 算力、重構推理效率結構的核心能力。
為系統評估算力中心的“存力”水平、打通技術研發與產業應用壁壘,在 NVIDIA、美團、三星、Solidigm 等產業鏈領軍企業支持下,ODCC 成立 AI 存儲實驗室。針對推理場景中的數據響應瓶頸,實驗室聚焦大模型推理中的關鍵制約因素—KV Cache,啟動面向存儲軟硬件的專項協同測試工作,旨在構建一套適配推理場景的 KV Cache 存儲解決方案及測試規范,切實推動 AI 存儲技術的標準化、規范化與規模化落地。
![]()
ODCC AI 存儲實驗 KV Cache 評測環境
焱融科技作為國內專業的 AI 存儲廠商,其自主研發的 YRCache 推理存儲系統參與首批測試,并取得優異成果。測試結果不僅驗證了 YRCache 對推理性能的顯著提升,更證明了 YRCache 可以讓中低配置 GPU 跑出接近高配置 GPU 的推理性能,優化推理成本,重構企業 AI 推理基礎設施的投入產出比。
本次測試亮點數據
推理性能全面數量級提升
1. TTFT(首 Token 延時)降低 97%,實時響應,告別等待
2. TPOT(每個輸出 Token 生成時間)降低 97%,流暢輸出不卡頓
3. Token 吞吐量(每秒生成 token 數)提升 22 倍,單 token 成本可隨之同比例降低
低配 GPU 跑出高配性能,推理成本結構性優化
1. YRCache 加持下,中端 GDDR GPU 各項推理性能接近高端 HBM GPU,ROI 提升 14 倍
2. 為企業提供“用更低算力預算獲得更高推理能力”的可行路徑
測試背景
隨著大語言模型(LLM)的持續演進,應用場景不斷拓展,模型能力快速迭代,上下文長度快速增長。以 DeepSeek-R1 為代表的新一代推理模型,已支持 100K+ 的超長上下文。這在提升模型復雜任務處理能力的同時也帶來了 KVCache(Key-Value Cache,鍵值緩存) 的爆炸式增長。
KVCache 作為 Transformer 推理階段的核心數據結構,用于緩存注意力機制中間結果,是影響推理效率的關鍵變量。但隨著上下文長度增加,KVCache 占用的顯存呈線性膨脹,成為推理系統的主要瓶頸。如何高效管理 KVCache,已成為決定大模型推理系統規模化能力的關鍵。
測試目的
焱融 YRCache 推理存儲系統是專為大規模推理設計的 KVCache 存儲管理平臺。通過構建 GPU 顯存、主機內存、本地 NVMe SSD 和 YRCloudFile 高性能分布式文件存儲等多級 KV 緩存架構,YRCache 顯著擴展 KV 緩存空間,加速推理性能提升。本次測試旨在評估在基于 NVIDIA 計算和網絡平臺的測試環境下, YRCache 對推理性能的提升效果。
![]()
YRCache 架構圖
測試環境
本次測試主要圍繞 PD(Prefill-Decode)一體化推理場景,基于 DeepSeek-R1 等主流大模型,對比原生 vLLM 框架與集成 YRCache 后的系統,在不同網絡帶寬配置(200Gbps / 400Gbps / 800Gbps)下的性能表現。
測試模型:DeepSeek-R1-0528-FP4(671B 參數,FP4 量化),支持 128K tokens 上下文。
測試框架:vLLM + YRCache (焱融客戶端),基于 RDMA/RoCEv2 協議。
測試環境:采用 NVIDIA Spectrum-X 400Gbps 以太網網絡,搭配 3 臺 GPU 計算節點(節點 A/B/C)和 3 臺焱融存儲服務器,通過 Spine-Leaf 網絡拓撲實現高速互聯。
在具體 GPU 服務器配置方面,測試分別在以下兩類算力環境中進行:
中端 GDDR GPU 服務器
該類服務器顯存容量和帶寬低,主要面向成本敏感型的大規模推理部署、中等規模模型推理服務、輕量級微調、企業 AI 平臺建設等。在此類環境下,系統對顯存容量與帶寬資源更加敏感,KV Cache 占用與跨節點通信效率直接影響整體吞吐與穩定性。
高端 HBM GPU 服務器
該類服務器主要面向超大規模推理、高并發及長上下文推理需求,如 100K+ Tokens 長文本處理、復雜 Agent 推理與高端智算中心部署等。HBM 顯存容量和帶寬更高、單卡計算性能更強,但在大規模并發與 PD 一體負載下,仍對存算協同效率與網絡帶寬提出更高要求。
在不同 GPU 環境下的測試,也進一步揭示了焱融 YRCache 在不同硬件配置下的推理加速與性能提升效果。
![]()
測試環境網絡拓步圖
測試結果:不僅是性能指標的飛躍
更是用戶體驗和推理成本的重塑
推理性能全面提升
![]()
極致加速:讓“長文本”推理如絲般順滑
在 ODCC 嚴格測試中,對比原生 vLLM 框架,在不同 GPU 和網卡配置下,YRCache 均實現了 TTFT、TPOT、Token 吞吐量等全維度核心指標數量級優化,直接轉化為用戶可感知的真實價值:
瞬時響應,即問即答,用戶交互感拉滿,留存率提升。
流式輸出行云流水,長文檔生成效率質變。
吞吐能力升級,系統能夠服務更多并發用戶請求,單 token 成本也同比例降低。
不同 GPU & 網絡帶寬測試數據:
![]()
上圖展示了在 8 卡中端 GDDR GPU 服務器環境中,batch size = 16、輸入長度 10K tokens 條件下,分別在 400Gbps 與 800Gbps 網絡帶寬配置下的測試數據。可以看到:
在 400Gbps 網絡環境下,使用 YRCache 后, TTFT 降低 95%,TPOT 降低 96%,token 吞吐量提升 17 倍。
在 800Gbps 網絡環境下,TTFT 降低 97%,TPOT 降低 97%,token 吞吐量提升 22 倍。
在高端 HBM GPU 服務器環境下,推理性能同樣實現了全面提升。
![]()
從上圖數據可以看出,在高端 HBM GPU 環境中,當 batch size 為 16、輸入長度為 10K tokens 時,集成 YRCache 后,在 200Gbps、400Gbps 與 800Gbps 三種網絡帶寬配置下,系統性能均實現大幅優化:
![]()
此外,可以看到,隨著網絡能力的增強,推理性能的提升也進一步增強。
不同業務場景:讓“復雜任務”變“高效”
在模擬不同上下文長度場景的測試中,隨著 Token 長度從 100 增加到 100K,YRCache 實現了全程穩定的性能提升,且隨著上下文的增長,YRCache 的性能增益呈放大趨勢(如下面兩張圖所示)。這為企業部署長上下文模型處理復雜長文檔分析、代碼生成、多輪交互等重負載任務提供了技術底氣,無需擔憂性能斷崖。
![]()
![]()
跨越硬件代差:YRCache 讓中低配卡性能
接近追平高配卡,推理成本革命性優化
如果說性能提升是意想之中的效果,那么跨越硬件代差、實現結構性成本優化,則是在價格波動與供應緊張的現實背景下,YRCache 為企業提供的更具戰略意義的價值支撐。
本次測試結果充分體現了 YRCache 能夠給用戶帶來的核心商業價值:在 YRCache 的加持下,配置較低的中端 GDDR GPU 服務器,其綜合推理性能指標接近高端 HBM GPU 服務器。
![]()
![]()
從上圖中的數據可以看到,在未使用 YRCache 時,中端 GDDR GPU 相較于高端 HBM GPU 存在明顯的性能差距:
TTFT:19051ms vs 6992ms,比 高端 HBM GPU 慢了 173%。
TPOT:1637ms vs 448ms,比 高端 HBM GPU 慢了 265%。
Throughput:4341 vs 14269 tokens/s,吞吐量僅為 高端 HBM GPU 的 30%。
而在使用 YRCache 后,中端 GDDR GPU 和高端 HBM GPU 的性能均實現顯著躍升,且兩者差距急劇縮小,中端 GDDR GPU 各項性能大幅逼近 高端 HBM GPU:
![]()
在大模型推理場景中,硬件采購成本與實際產出吞吐量(Token 吞吐量)是衡量投資回報率(ROI)的關鍵因素。本次測試數據進一步揭示了不同配置下的 ROI 表現差異。
![]()
如上圖數據所示,雖然在原生狀態下,中端 GDDR GPU 的推理表現并不占優,但在引入 YRCache 優化方案后,其 ROI 呈現出爆發式增長——在 400Gbps 和 800Gbps 網絡環境下,分別提升了 11 倍和 14 倍。這意味著在投入相同資金的情況下,采用“中端 GDDR GPU 服務器 + YRCache”方案能夠帶來遠超高端 HBM GPU 原生方案的產出效率,實現了成本效益的顯著優化。
這正體現了 YRCache 對企業 AI 成本結構的重構。對用戶而言,他們能夠:
擁有更多選擇,不用盲目追求頂級 GPU,通過部署 YRCache,現有硬件也可釋放超強推理性能
規模化部署時,TCO(總擁有成本)可實現顯著優化
中小企業也能用更低門檻,實現高性能 AI 推理服務
對于正處于商業化關鍵期的 AI 企業而言,這不只是性能和成本的優化,更是商業模式的重新定義——當推理成本從"高端卡依賴"轉向"存儲技術創新",AI 應用的盈虧平衡點將大幅下移,更多創新場景將具備經濟可行性。
此外,焱融 YRCache 推理存儲系統還支持 PD 分離場景,能夠為下一代推理架構的極致優化提供堅實的數據流轉基礎。
此次參與 ODCC AI 存儲實驗室首批 KVCache 場景測試的結果,不僅是焱融 YRCache 技術實力的有力印證,也為整個 AI 推理行業指明了 “存儲驅動性能、架構優化成本” 的全新路徑。
除了面向大規模推理場景的 YRCache 推理存儲系統,焱融科技目前已圍繞 AI 全流程數據需求,構建起覆蓋數據采集、大模型訓練、推理加速與數據治理的完整能力體系。依托 YRCloudFile 分布式文件系統、F9000X 全閃存儲一體機、YRCache 推理存儲系統以及 DataInsight 數據管理平臺,焱融打造了系統化的全棧 AI 存儲解決方案,實現從數據接入、模型運行到數據管理的全鏈路支撐。
![]()
未來,我們將繼續深耕 AI 存儲,以數量級性能提升 + 顛覆性成本優化雙重能力,助力企業在 AI 爆發時代,以更低成本、更高效率、更優體驗,搶占規模化落地先機。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.