網易首頁 > 網易號 > 正文申請入駐

DeepSeek硬核突破!DualPath破解Agent推理瓶頸，V4升級方向清晰了

2026-02-27 11:25:05　來源: AI先鋒官

北京舉報

分享至

大模型的進化正迎來關鍵拐點。

從單輪對話的聊天機器人，快速迭代為能自主規劃、調用工具、完成百輪交互的Agent智能體，而這一轉變也讓底層推理架構的核心瓶頸徹底暴露——GPU算力不再是制約性能的關鍵，KV-Cache存儲I/O帶寬成為了Agent大模型落地的最大攔路虎。

就在DeepSeek V4發布前夕，DeepSeek-AI聯合北大、清華團隊發布了重磅研究DualPath。

DualPath通過創新的雙路徑架構，讓Agentic大模型離線推理吞吐量最高提升1.87倍，在線服務吞吐量平均提升1.96倍，還在1152張GPU的千卡集群完成驗證，為下一代模型的升級打下了堅實的技術基礎。

之所以會出現如此嚴重的I/O瓶頸，核心源于Agent大模型的工作特性。

與傳統短對話不同，Agent需要在數十甚至上百輪的環境交互中累積上下文，長度可達百萬tokens，而每輪新增的有效信息僅有數百tokens，這讓KV-Cache命中率普遍超過95%。

此時，GPU的大量時間并非用于計算，而是在等待從外部SSD存儲中讀取海量的歷史KV-Cache數據。

再加上現代大模型推理普遍采用的Prefill-Decode（預填充-解碼）分離架構，進一步加劇了這一矛盾，即所有KV-Cache都只能從外部存儲加載到預填充節點，這導致預填充節點的存儲網卡帶寬被完全占滿，成為系統性能的絕對瓶頸，而解碼節點的存儲網卡卻長期處于閑置狀態，算力資源被嚴重浪費。

同時，硬件發展的失衡也讓問題雪上加霜，GPU計算力的增長速度遠超網絡帶寬和顯存容量，計算與I/O的比例嚴重失調，讓這一瓶頸愈發突出。

DualPath的核心創新，正是抓住了解碼節點帶寬閑置的關鍵痛點，重構了KV-Cache的加載架構。

在傳統的“存儲→預填充節點”加載路徑之外，它創新性地開辟了第二條“存儲→解碼節點→預填充節點”的加載通道，通過動態分配兩條路徑的數據流，把原本單一節點的I/O壓力，轉化為全局資源池化的負載分擔，充分聚合所有節點的存儲帶寬，從根源上打破了帶寬天花板。

在第一條預填充讀取路徑中，KV-Cache從持久化存儲讀入預填充節點的內存緩沖，再傳輸到GPU顯存完成計算，最后將完整的KV-Cache傳給解碼節點。

而新增的解碼讀取路徑，則讓KV-Cache先讀入解碼節點的內存緩沖，在預填充階段通過高速RDMA計算網絡，以層級流式傳輸的方式傳給預填充節點參與計算，整個過程中數據加載還能與模型計算無縫重疊，進一步提升效率。

當然，把這個看似直觀的想法，落地到亞毫秒級延遲敏感的大模型推理系統中，需要攻克兩大核心工程難題。

第一個難題是網絡流量的干擾，額外的KV-Cache傳輸極易與模型推理中的關鍵集合通信沖突，拖慢推理速度。

對此DualPath設計了以計算網卡為中心的流量管理機制，讓所有進出GPU的流量都強制通過計算網卡，再利用底層網絡的QoS控制能力，將模型推理通信分配到占99%帶寬的高優先級通道，KV-Cache傳輸則分配到低優先級通道，僅在計算網絡的空閑間隙傳輸，實現了兩者的完美隔離，既保證了推理延遲，又充分利用了閑置帶寬。

第二個難題是動態負載均衡，面對復雜多變的請求，系統需要實時決定每條請求的讀取路徑，同時兼顧網卡隊列長度和GPU負載。

DualPath為此打造了自適應請求調度器，將Token數量作為核心負載指標，把節點劃分為過載、低讀取隊列、高讀取隊列三類，優先將任務分配給未過載且讀取隊列較短的節點。

同時在節點內部，還會基于時間預估機制，將執行時間相近的請求打包成批，最大程度減少GPU同步時的計算氣泡，讓硬件利用率達到最優。

實測數據足以印證DualPath的強悍性能。

研究團隊在NVIDIA Hopper GPU集群上，基于DeepSeek-V3.2 660B、DS 27B、Qwen2.5-32B三大模型，結合真實的Agent強化學習軌跡數據集完成了全面測試。

在離線批量推理場景（如RL訓練的Rollout階段），DualPath對基線系統實現了碾壓式超越，處理DeepSeek 660B模型時吞吐量最高提升1.87倍，且無論每輪追加Token長度、生成長度如何變化，都能保持穩定的性能提升，證明其徹底消除了存儲網絡瓶頸。

在在線服務場景中，在首字延遲≤4秒的嚴格SLO約束下，DualPath能支撐的請求到達率相比基線最高提升2.25倍，還能保持極低的端到端生成延遲。

而消融實驗也證實，雙路徑加載機制和自適應調度算法，是推動性能大幅提升的核心關鍵。

更值得一提的是，DualPath還具備極強的大規模擴展性，在1152張GPU的千卡集群中，系統實現了近乎線性的性能擴展，調度器CPU占用還不到10個核心，完全滿足生產級的部署需求。

從DualPath的技術突破中，我們也能清晰看到DeepSeek V4的核心升級方向。

首先，模型與推理系統的協同優化將進一步深化，V4大概率會內置對雙路徑加載的原生支持，讓模型層的KV-Cache結構優化與系統層的路徑調度深度融合，實現更高的帶寬利用率。

其次，自適應資源配置能力會成為重點，針對不同的工作負載，系統能在線動態調整預填充/解碼節點的比例，讓資源分配更貼合實際需求，避免固定配置的效率浪費。

同時，KV-Cache的智能拆分加載也有望落地，將單個請求的KV-Cache拆分到兩條路徑并行加載，進一步挖掘I/O性能潛力。

此外，結合DeepSeek已有的稀疏注意力技術，V4還可能將模型結構優化與DualPath的系統優化結合，在降低計算量的同時減少KV-Cache數據量，形成“模型+系統”的雙輪驅動。

此次DualPath的發布，不僅為Agentic大模型的推理性能突破提供了全新的解決方案，更讓行業看到了大模型發展的新趨勢。

當模型規模接近物理極限時，底層架構的創新與模型算法的深度協同，將成為突破性能天花板的核心關鍵。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.