網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek深夜發(fā)論文，V4前奏來了？聯(lián)手清北破GPU難題，智能體大爆炸

2026-02-27 12:03:27　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：KingHZ Aeneas

【新智元導(dǎo)讀】一夜之間，AI圈再次地震！這次不是DepSeek V4，而是DeepSeek直接換了推理架構(gòu)。GPU空轉(zhuǎn)的問題，被他們硬生生砍掉了一半。

昨天，DeepSeek-V4要來的消息紛紛揚(yáng)揚(yáng)，整個(gè)AI圈都被攪動(dòng)得心緒不寧，隔壁的美國同行們都快崩了。

結(jié)果就在昨晚，DeepSeek突然又雙叒叕更新了！他們聯(lián)手北大、清華的團(tuán)隊(duì)，發(fā)布了針對(duì)智能體的推理框架DualPath。

這個(gè)框架的核心目標(biāo)，就是緩解因大規(guī)模KV-Cache從外部存儲(chǔ)讀取而帶來的I/O瓶頸問題，避免算力資源因數(shù)據(jù)加載速度受限而被閑置。

鏈接：https://arxiv.org/abs/2602.21548

具體來說，此次架構(gòu)升級(jí)引入了「Storage-to-Decode」的第二條加載通路，通過「雙路徑KV-Cache加載」機(jī)制，有效改善了PD分離架構(gòu)下的讀取瓶頸和資源失衡問題。

可以說，這個(gè)框架直接劍指多輪AI智能體（agentic）場景下的大語言模型推理性能瓶頸——

以后，DeepSeek+OpenClaw的玩法兒不遠(yuǎn)了！

還是熟悉的味道，DeepSeek在AI基礎(chǔ)設(shè)施上的提升一如既往的出色，如今邁入智能體與強(qiáng)化學(xué)習(xí)時(shí)代——

離線推理吞吐量最高提升1.87倍，在線場景下每秒智能體運(yùn)行次數(shù)提升1.96倍。

論文一出，學(xué)界直呼：如此極致的算力管理，如此精準(zhǔn)的調(diào)控，DeepSeek團(tuán)隊(duì)是真正的經(jīng)濟(jì)學(xué)大師！

網(wǎng)友直評(píng)：這正是贏得AI大戰(zhàn)的關(guān)鍵基礎(chǔ)設(shè)施思維。

可以說，這篇論文充分體現(xiàn)出DeepSeek的野心——把AI做成像水氣電一樣的基礎(chǔ)設(shè)施！

OpenClaw引爆智能體

DeepSeek窺天機(jī)

Claude Code\Cowork、OpenClaw等智能體的爆火，毫無爭議地點(diǎn)燃了Agent黃金時(shí)代的開年熱潮！

DeepSeek發(fā)現(xiàn)，在智能體推理任務(wù)期間，GPU存在嚴(yán)重的利用率不足問題。

一個(gè)Agent任務(wù)有多長？幾十分鐘，有時(shí)幾小時(shí)。它要寫代碼、查文檔、跑測試，再回來改代碼。上下文幾百萬token，每一步都要快。

這就帶來了一個(gè)巨大的技術(shù)債——KVCache（鍵值緩存）。

KV Cache是什么？一句話，它是AI的草稿紙。

模型每生成一個(gè)token，都會(huì)把「思考痕跡」存下來；下次繼續(xù)寫，它要翻草稿；草稿越厚，占用顯存越多。

為了讓AI記得上下文，我們必須把這些龐大的數(shù)據(jù)一直存在GPU的顯存（HBM）里。

然而，HBM供不應(yīng)求，死死卡住了AI行業(yè)的脖子。

AI模型推理正演變?yōu)橐粓鰞?nèi)存競賽。

因?yàn)锳I對(duì)HBM需求激增，消費(fèi)級(jí)內(nèi)存被停產(chǎn)，導(dǎo)致在短短幾個(gè)月內(nèi)主流的內(nèi)存DRAM價(jià)格漲了7倍！

所以，把不需要立刻用到的記憶暫時(shí)挪到便宜的SSD或主內(nèi)存里，下次要用時(shí)，再把它搬回來，這成了行業(yè)的出路。

矛盾就在這里爆發(fā)了：傳統(tǒng)的推理架構(gòu)是串行的。

當(dāng)AI需要調(diào)取舊記憶時(shí)，計(jì)算單元（Compute Unit）必須停下來，眼巴巴地等著數(shù)據(jù)通過帶寬有限的PCIe總線慢慢爬進(jìn)顯存。

DeepSeek的研究指出，在多輪智能體推理（Agentic Inference）的場景下，GPU竟然有大量時(shí)間是在「空轉(zhuǎn)」等待數(shù)據(jù)！

他們發(fā)布了一些關(guān)于智能體編碼的真實(shí)世界數(shù)據(jù)，并定義了一個(gè)「緩存-計(jì)算比率」指標(biāo)：該比例取決于模型類型、上下文和追加長度。

他們從代表性編碼任務(wù)中收集的軌跡顯示，平均交互輪數(shù)為157，表明LLMs傾向于進(jìn)行多輪交互。

平均上下文長度為32.7k，而每次追加長度的平均值僅為429，這意味著KV緩存命中率高達(dá)98.7%。

在此場景下，緩存-計(jì)算比（定義為KV緩存加載量與所需計(jì)算量之比）對(duì)于DeepSeek-V3.2約為22GB/PFLOP。

由于每個(gè)節(jié)點(diǎn)上單塊存儲(chǔ)網(wǎng)卡的帶寬有限，KV緩存加載速度成為了瓶頸。

近年來，網(wǎng)絡(luò)帶寬和HBM容量的增長落后于GPU FLOPS的增長，I/O計(jì)算比率下降了14.4倍。

此外，較小的HBM容量限制了GPU內(nèi)核可同時(shí)計(jì)算的token批次大小，阻礙了張量核心等計(jì)算單元被充分利用。

第三，現(xiàn)有的LLM推理系統(tǒng)在不同引擎類型之間表現(xiàn)出嚴(yán)重的存儲(chǔ)網(wǎng)絡(luò)利用率不均衡。

DeepSeek的黑科技：DualPath

DeepSeek的DualPath架構(gòu)，做了一件聽起來簡單、實(shí)現(xiàn)起來卻極具顛覆性的事：它把「思考」和「回憶」這兩件事，從串行變成了并行。

在計(jì)算機(jī)科學(xué)中，這被稱為「計(jì)算與存儲(chǔ)訪問的解耦」（Decoupling Compute and Memory Access）。

讓我們換個(gè)通俗的比喻。

傳統(tǒng)架構(gòu)是串行的：先把數(shù)據(jù)讀進(jìn)顯存，讀完后，GPU才開始算。像下載電影，必須等100%，才能播放。

而DualPath做了一件事：邊下載，邊播放。

SemiAnalysis的技術(shù)團(tuán)隊(duì)成員、高級(jí)工程師Jordan Nanos認(rèn)為：

DeepSeek在DualPath 論文中提出了一個(gè)超酷的點(diǎn)子！

在目前流行的預(yù)填充-解碼分離系統(tǒng)中，命中token的KV緩存完全由預(yù)填充引擎直接從遠(yuǎn)程存儲(chǔ)加載。這種設(shè)計(jì)將所有存儲(chǔ)I/O壓力集中在預(yù)填充端的網(wǎng)卡上，而解碼引擎端的網(wǎng)卡則基本處于空閑狀態(tài)。

因此，無法充分利用聚合的存儲(chǔ)網(wǎng)絡(luò)帶寬。

DeepSeek則另辟蹊徑：

與其直接從本地NVMe（或 DRAM）將所有KV加載到 GPU 上并受限于本地PCIe總線帶寬，不如先將KV暫存到解碼 GPU服務(wù)器的DRAM 中，再通過GDRDMA將KV傳輸至預(yù)填充（prefill）GPU。

DeepSeek設(shè)計(jì)了兩條獨(dú)立的流水線：

存儲(chǔ)路徑（Access Path）：負(fù)責(zé)瘋狂地從SSD/DRAM中搬運(yùn)KV Cache數(shù)據(jù)塊。
計(jì)算路徑（Compute Path）：負(fù)責(zé)利用已經(jīng)搬運(yùn)好的數(shù)據(jù)塊立刻開始計(jì)算。

他們將Prefill GPU定義為PE（Prefill Engines，預(yù)填充引擎），Decode同理；而SNIC表示存儲(chǔ)網(wǎng)卡，CNIC表示計(jì)算型網(wǎng)卡

就像你看網(wǎng)劇一樣，不需要等電影下完，只要緩沖好前5秒，你就可以開始看了。

后臺(tái)的下載和前臺(tái)的播放同時(shí)進(jìn)行，互不干擾。

Inter-Engine PE調(diào)度示意圖。八張GPU均屬于同一個(gè)PE引擎組，調(diào)度器會(huì)從中選擇最優(yōu)的一個(gè)（或一組）進(jìn)行調(diào)度

Intra-Engine Schedule示意圖。左：基于計(jì)算配額的批次選擇。右：應(yīng)用計(jì)算配額前后的 GPU 時(shí)間線對(duì)比

在技術(shù)實(shí)現(xiàn)上，DualPath利用了Chunk-based Streaming（塊式流處理）技術(shù)，將龐大的KV Cache切分成一個(gè)個(gè)小塊。

當(dāng)計(jì)算單元在處理「第N塊」記憶時(shí)，存儲(chǔ)單元已經(jīng)悄悄地把「第N+1塊」預(yù)加載好了。

DRAM緩沖區(qū)（PE緩沖區(qū)和DE緩沖區(qū)）用于從層塊構(gòu)建完整塊

具體而言，DeepSeek的GPU顯存只需容納單層的KV向量即可處理一個(gè)請(qǐng)求，內(nèi)部是這樣進(jìn)行推理的：

你發(fā)送一個(gè)請(qǐng)求（并緩存命中了一堆token），在推理過程中，當(dāng)執(zhí)行LLM的一層時(shí)：下一層的KV向量從CPU加載，以滑動(dòng)窗口的方式從磁盤加載之后那一層的KV。

而且，該架構(gòu)專為適配其基礎(chǔ)設(shè)施而設(shè)計(jì)。

他們分析網(wǎng)絡(luò)接口卡（NIC）與DRAM帶寬，以找出實(shí)際可行的Prefill:Decode配置范圍。

P表示預(yù)填充節(jié)點(diǎn)數(shù)；D表示解碼節(jié)點(diǎn)；g表示每個(gè)節(jié)點(diǎn)的GPU數(shù)量；B表示網(wǎng)卡的帶寬；s表示每臺(tái)機(jī)器的存儲(chǔ)網(wǎng)卡數(shù)量；M表示每臺(tái)機(jī)器的DRAM帶寬

最佳結(jié)果是所有P:D從1:7到7:2。

效果驚人：近2倍效果提升！

在標(biāo)準(zhǔn)的代理推理基準(zhǔn)測試中，DualPath將系統(tǒng)的吞吐量直接提升了1.96倍。

請(qǐng)注意，這不是10%或20%的微調(diào)，而是近乎200%的性能暴漲。

在半導(dǎo)體日益逼近物理極限的今天，純軟件架構(gòu)的優(yōu)化能帶來這種幅度的提升，堪稱神跡。

這意味著，同樣的硬件成本，Agent的反應(yīng)速度快了一倍；或者說，維持同樣的體驗(yàn)，推理成本腰斬。

他們使用一個(gè)智能體軌跡數(shù)據(jù)集，對(duì)DeepSeek V3.2的660B和27B版本以及Qwen 2.5-32B進(jìn)行了評(píng)估。

并在其推理框架中對(duì)比啟用與未啟用DualPath的性能，以及與SGLang（帶HiCache和Mooncake）的對(duì)比。

基本上，DualPath能帶來近2倍的性能提升；下圖灰色條代表理論上限；JCT是離線場景（即強(qiáng)化學(xué)習(xí)rollout）下的作業(yè)完成時(shí)間。

結(jié)果顯示，在在更大的批大小和更長的MAL下，DualPath的優(yōu)勢(shì)更加明顯。圖 7 展示了不同批大小和MAL配置下的JCT。

在DS 660B上，DualPath相比Basic最高可實(shí)現(xiàn)1.87×的加速，并且性能接近 Oracle，表明KV-cache的I/O開銷基本被消除。

在DS 27B上，DualPath相比Basic最高提升1.78×，但由于1P1D配置下存儲(chǔ)帶寬受限（見圖8），其性能仍比Oracle慢 1.09–1.85×。

當(dāng)追加token和生成token較短時(shí)，DualPath的優(yōu)勢(shì)更加明顯。

如圖9所示，隨著追加長度增加，Basic的性能逐漸接近DualPath和Oracle。

與Basic相比，在不同追加比例下，DualPath實(shí)現(xiàn)了1.82–1.99×的加速。

此外，如圖8所示，DualPath在所有配置下平均實(shí)現(xiàn)1.64倍的加速（最高可達(dá)2.46倍）。

這進(jìn)一步驗(yàn)證了：在智能體場景中，存儲(chǔ)帶寬是主要瓶頸。

他們還調(diào)整了預(yù)填充與解碼（P:D）的比例，分別為1:2,1:1,2:1，看起來差別并不大，在這三種場景下性能大約提升了2倍。

對(duì)于在線服務(wù)來說，似乎在更大模型上性能提升更顯著：

APS表示每秒代理到達(dá)率；有SLO限制：TTFT<4秒，TPOT<50毫秒；用InferenceX的術(shù)語來說，交互性表示1/TPOT；所以50毫秒的TPOT等于每位用戶每秒20個(gè)token

團(tuán)隊(duì)還進(jìn)行了消融研究，以將TTFT的改進(jìn)和JCT歸因于所采用的不同技術(shù)。

第一張圖是在不同APS下的堆疊柱狀圖，左側(cè)為使用DualPath的情況，右側(cè)為未使用的情況。時(shí)間按百分比分配給：

Sch.表示調(diào)度

A.表示分配

R.表示讀取KV緩存

PF.表示預(yù)填充

因此你可以看到分配所花費(fèi)的時(shí)間消失了，prefill所花費(fèi)的時(shí)間減少了，而（相對(duì)而言）讀取KV和調(diào)度所花費(fèi)的時(shí)間增加了

第二張圖逐次加入三種技術(shù)時(shí)，對(duì)JCT的對(duì)比的總性能提升：

分層預(yù)填充（layerwise prefill）占45%
雙路徑加載貢獻(xiàn)了39%
而調(diào)度算法負(fù)責(zé)最后的16%

當(dāng)這三種技術(shù)全部應(yīng)用時(shí)，總體性能提升使得平均作業(yè)完成時(shí)間（JCT）加快了45%。

他們最后提到，其系統(tǒng)在由1,152塊GPU組成的集群上支持4.8萬個(gè)并發(fā)智能體，配置為48P:96D。

這是從2P:4D上的2000個(gè)智能體線性擴(kuò)展而來的；還測試了44P:88D，也觀察到了同樣的線性擴(kuò)展。

一個(gè)有意義的限制在于未考慮工具調(diào)用的延遲。

如果智能體在工具調(diào)用期間處于空閑狀態(tài)，理論上你可以提高APS（并發(fā)數(shù)）

但這也會(huì)導(dǎo)致工作集（KV緩存的大小）呈平方級(jí)增長，由于命中率降低，進(jìn)一步加大了對(duì)DRAM和存儲(chǔ)的壓力

也讓人質(zhì)疑他們?cè)缜疤岢龅木彺?計(jì)算比率，很可能會(huì)提高GB:PFLOPs表中的GB數(shù)值（再次附上截圖）

從「算力為王」到「帶寬決勝」

DualPath的誕生，不僅僅是一個(gè)技術(shù)優(yōu)化，它是一個(gè)信號(hào)。它宣告了Pre-filling（預(yù)填充）時(shí)代的終結(jié)，和Agentic Serving（智能體式服務(wù)）時(shí)代的正式確立。

在過去，我們迷信算力。仿佛只要堆足夠多的H100、B200，AI就會(huì)無限變強(qiáng)。

但DeepSeek用DualPath狠狠地打醒了行業(yè)：當(dāng)參數(shù)量不再是瓶頸，IO（輸入輸出）才是阿喀琉斯之踵。

實(shí)際上，DeepSeek就是在構(gòu)建AGI的高效「海馬體」。

通過徹底榨干PCIe 6.0/7.0的帶寬，通過極致的軟硬件協(xié)同，DeepSeek正在把AI從「在線計(jì)算」的束縛中解放出來。

如今，我們離真正的AGI，又近了一步。

參考資料：

https://arxiv.org/pdf/2602.21548

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.