<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<sup id="vnpnn"></sup>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek新論文劇透V4新框架！用閑置網卡加速智能體推理性能

2026-02-27 16:13:34　來源: 量子位

北京舉報

0

分享至

henry 發自凹非寺
量子位 | 公眾號 QbitAI

DeepSeek這小子最精了，當全世界都在盯著他的GitHub倉庫，等待V4時——

他和北大、清華在ArXiv悄咪咪地上了一篇論文，發布了一個全新的針對智能體的推理框架：DualPath

而且就跟前幾天曝出的算力話題相關。

DualPath的核心在于解決Agent長文本推理場景下的I/O瓶頸，通過優化從外部存儲加載KV-Cache的速度，確保計算資源不被存儲讀取拖累。

它改變了傳統的存儲至預填充引擎（Storage-to-Prefill）單路徑加載模式，引入了存儲至解碼引擎（Storage-to-Decode）的第二條路徑。

通過利用解碼引擎閑置的存儲網卡（SNIC）帶寬讀取緩存，并配合高速計算網絡（RDMA）將其傳輸至預填充引擎，DualPath實現了集群存儲帶寬的全局池化與動態負載均衡。

在660B規模的生產級模型的實測中，DualPath表現驚人：

離線推理吞吐量提高了1.87倍，在線服務吞吐量平均提升1.96倍

在高負載下，首字延遲（TTFT）大幅優化，而 Token間的生成速度（TPOT）幾乎不受任何干擾。

接下來，我們一起來看。

雙路徑加載 (Dual-Path Loading)

總的來說，DualPath是一個專門為智能體系統設計的推理框架，它的核心洞見是——

KV-Cache的加載不必以預填充為中心

在以往的理解中，誰負責計算誰就去搬數據。但DualPath認為，緩存可以先加載到解碼引擎中，再通過高性能RDMA網絡傳輸至預填充引擎。

通過在兩條路徑間動態選擇，DualPath重新分配了網絡負載，緩解了預填充側的帶寬壓力。

那么，為什么要費這么大勁去“繞路”？

之所以這樣做，是因為在當前的智能體應用中，對話輪數多且上下文長，KV-Cache命中率通常高達95%以上。

這意味著，每一輪對話都要搬運海量的“舊記憶”，推理性能的瓶頸已經從“計算”轉移到了“搬運”上

在現有的預填充-解碼分離（PD-disaggregated）架構中，所有的加載任務都擁擠在預填充引擎（PE）的存儲網卡上，導致帶寬瞬間飽和；

與此同時，解碼引擎（DE）的存儲網卡卻在閑置，造成了嚴重的資源錯配。

更進一步的，當前GPU算力的增長遠快于網絡帶寬和HBM容量的增長，也加劇了I/O限制。

正如英偉達首席科學家Bill Dally、谷歌架構師Jeff Dean等大佬反復強調的：計算是免費的，但數據移動是昂貴的。

針對這些問題，DualPath構建了創新的雙路徑模型：

路徑 A（傳統）：存儲→PE，緩存直接讀入預填充引擎。
路徑 B（新增）：存儲→DE→PE，緩存先讀入解碼引擎的緩沖池，再通過RDMA傳輸給預填充引擎。

在架構組成上：

推理引擎：每個引擎管理一塊GPU，嚴格區分為預填充（PE）和解碼（DE）。
流量管理器：負責H2D/D2H拷貝、引擎間傳輸以及SNIC存儲讀寫。
中央調度器：擔任“大腦”角色，實時決策每一條請求該走哪條路，從而實現全局帶寬的最大化利用。

核心技術方案：存儲至解碼路徑

如上所述，DualPath推理系統的核心在于打破了傳統的“存儲至預填充”單路徑模式，創新性地引入了“存儲至解碼”路徑

該設計允許KV-Cache先加載至解碼引擎（DE），再通過高帶寬計算網絡（RDMA）無損傳輸給預填充引擎（PE）。

通過在兩條路徑間動態分配負載，系統將集群中原本閑置的解碼側存儲網卡（SNIC）帶寬徹底釋放，構建起一個全局可調度的存儲I/O資源池。

具體來說，為了支持層級流式處理，DualPath在PE和DE上均分配了少量DRAM緩沖區（PE/DE Buffer），并針對不同階段設計了精細的數據流：

PE讀取路徑：命中Token的KV-Cache從存儲讀入PE緩沖區。在每層計算前，該層緩存傳輸至PE HBM，與計算過程重疊執行。計算完成后，全量KV-Cache傳回DE緩沖區以形成完整上下文。
DE讀取路徑： KV-Cache直接進入DE緩沖區。在PE預填充期間，對應層的緩存跨節點傳輸至PE HBM（計算重疊）。計算結束后，PE僅需傳回新生成的KV-Cache片段與DE原有緩存合并。
解碼與持久化： DE緩沖區接收完整KV-Cache后啟動解碼，執行H2D拷貝并隨后釋放CPU內存。雖然引入緩沖增加了DRAM壓力，但能顯著降低GPU顯存占用并優化首字延遲（TTFT）。生成過程中，每累積滿一個Block（如 64 Token）即觸發異步持久化。

但就像前面提到的，“繞路”加載會帶來新問題：比如搬運緩存的流量撞上了模型計算的通信，怎么辦？

對此，DualPath給出了兩套優化方案：

首先是以計算網卡（CNIC）為中心的流量管理，強制所有流量通過配對的CNIC走GPUDirect RDMA路徑。

在InfiniBand或RoCE網絡中，利用虛擬層（VL/TC）技術，將推理通信設為“最高優先級”并預留99%帶寬，讓緩存搬運只能在間隙中“蹭”帶寬，確保互不干擾。

其次是自適應請求調度器：調度器會盯著每個節點的磁盤隊列長度和Token數。系統會優先將任務分配給I/O壓力較小且計算負載較輕的節點，從根本上避免單側網卡或單點計算資源的擁塞。

在實驗階段，DualPath在DeepSeek-V3、Qwen等模型上進行了測試，場景覆蓋了離線Rollout和在線服務。

如開頭所說，在離線推理中，DualPath 將端到端吞吐量提高了高達1.87倍，在線服務吞吐量平均提升1.96倍，顯著降低了首字延遲（TTFT），且保持了極其穩定的Token間延遲（TBT）。

總的來說，DualPath 證明了通過重新思考數據加載路徑可以有效突破當前大模型推理的I/O墻。

它成功利用了解碼引擎原本被浪費的I/O帶寬，配合自適應調度和嚴謹的流量隔離機制，在不增加硬件成本的前提下，大幅提升了智能體LLM推理系統的效率。

One more thing

這篇論文的第一作者吳永彤，是北京大學的博士生，師從金鑫教授。

他的研究方向聚焦于系統軟件與大模型基礎設施（LLM Infrastructure），尤其是推理系統的工程優化與規模化部署。

他目前在DeepSeek系統組，參與下一代模型的推理基礎設施建設，負責大規模軟件系統在多硬件平臺上的性能優化。

此前，他還曾在騰訊、華盛頓大學，微軟亞研院等機構實習。

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

DeepSeek發布下一代技術！北大實習生立功

智東西 2026-02-27 12:59:15
62 跟貼 62
楊植麟暫時挺過風暴

虎嗅APP 2026-02-27 17:11:06
0 跟貼 0

這個 pubmed 插件自帶全文下載通道，校外可用

生物學霸 2025-10-31 17:26:22
0 跟貼 0

訂閱【AI文獻追蹤】，查新省時省力！

醫咖會 2026-02-27 19:28:40
0 跟貼 0
DeepSeek深夜發論文，V4前奏來了？聯手清北破GPU難題，智能體大爆炸

新智元 2026-02-27 12:03:27
33 跟貼 33

精準推理排除炸，穩穩贏3炮！！！

抖球 2026-02-26 01:41:46
0 跟貼 0

媒體：俄烏慘烈的仗或打到2030年雙方旨在"耗盡敵方"

中國新聞周刊 2026-02-26 22:44:14
21094 跟貼 21094
貨輪主引擎開始沖車，沖車結束就開始啟動主引擎

今天吃幾碗 2026-02-25 16:22:57
13 跟貼 13

佛山順德一4A景區灰塑被人拿下，官方通報

南方都市報 2026-02-26 12:58:14
623 跟貼 623
華人天才出走xAI：算力競賽已死，30美元解鎖AI自進化！

新智元 2026-02-27 14:18:25
0 跟貼 0
每33年必有一戰！俄羅斯，為什么停不下擴張的腳步？

阿萞你好 2026-02-25 17:59:52
4 跟貼 4
深圳灣公園晚上“黑燈瞎火”被吐槽，公園管理中心回應：為了讓鳥兒睡好覺，主要出入口等地保留了基礎照明

揚子晚報 2026-02-27 12:33:02
922 跟貼 922
AlphaEvolve再進化！DeepMind用AI「養殖」算法，碾壓所有人類設計

新智元 2026-02-27 17:10:23
0 跟貼 0
遠光軟件：目前公司主要接入或適配了智譜、阿里千問、DeepSeek、盤古等大模型

每日經濟新聞 2026-02-27 12:14:07
1 跟貼 1
MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0
兄妹服務區撿到4萬多元現金和首飾，為等失主錯過高速免費時間

揚子晚報 2026-02-27 07:44:46
2149 跟貼 2149
高速行駛中引擎突然開蓋《飛馳人生3》劇情照進現實

絕對現場 2026-02-25 22:57:02
4 跟貼 4
極氪公布春節十大獵裝旅行路線，揭秘深度自駕游版圖

魯中晨報 2026-02-26 12:29:41
15583 跟貼 15583
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
智能體基礎設施是AI時代操作系統，真正的智能體要能思考、能分析，能行動

量子位 2025-12-11 03:38:22
0 跟貼 0
爆火！把智能體當游戲角色來玩，一個人就是一個公司

機器之心Pro 2026-02-12 18:04:44
0 跟貼 0
年前100多元一斤，年后價格腰斬！有湖北人已迫不及待下單

環球網資訊 2026-02-27 09:52:19
156 跟貼 156
外媒盤點6款被低估的Steam開放世界游戲

Switch2來了 2026-02-27 16:10:12
1 跟貼 1
換引擎會影響開發！《FF7》總監稱第三部放棄虛幻5

游民星空 2026-02-27 16:20:18
1 跟貼 1
五大變化，存儲芯片，競爭核心變了

鈦媒體APP 2026-02-27 18:57:10
0 跟貼 0
垂直Agent之間，在意圖層如何競爭?

虎嗅APP 2026-02-27 06:05:15
2 跟貼 2
河南大二學生攢4萬為爺爺80歲大壽請戲班連唱三天！自己也登臺開唱：平時自學，把豫劇帶到新疆校園內

大象新聞 2026-02-27 12:45:04
118 跟貼 118
魅族回應“手機業務停擺”

第一財經 2026-02-27 10:27:59
140 跟貼 140
900V架構終于下放！別克新車續航632公里，直接對標百萬級豪車

念寒車評 2026-02-27 18:12:52
0 跟貼 0
《生化9》高端平臺畫質對決！A家N家誰是游戲之王？

游民星空 2026-02-27 13:06:24
1 跟貼 1
新一輪美伊談判開始舉行

界面新聞 2026-02-26 15:56:24
479 跟貼 479
2026年計劃實施2次載人飛行任務

央視新聞客戶端 2026-02-27 08:05:58
202 跟貼 202
大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
雷軍稱高度重視安全體系建設！小米專家：目標做同檔最安全車

快科技 2026-02-27 20:22:07
0 跟貼 0
俄軍在蘇梅州擴大安全區

星火聊天下 2026-02-26 07:51:00
22 跟貼 22
讓農民生活更加富裕美好

人民網 2026-02-27 09:13:13
87 跟貼 87
教育部印發指導意見：中小學推行“課間15分鐘”

界面新聞 2026-02-27 15:33:14
231 跟貼 231
千問入局，OPEN AI搬出全家桶：2026，AI硬件是離錢最近的地方

鈦媒體APP 2026-02-27 18:57:13
0 跟貼 0
“太恐怖，iPhone半夜自己給陌生人打47分鐘電話！”

都市快報橙柿互動 2026-02-25 11:28:41
73 跟貼 73

戴腳鐐走完長征的戰士，開國大典前毛主席見他：你不怕我把你忘嘍

戴腳鐐走完長征的戰士，開國大典前毛主席見他：你不怕我把你忘嘍

大運河時空

2026-02-27 12:25:03

2026第一波大裁員來了，注意這5個危險行業

2026第一波大裁員來了，注意這5個危險行業

愛看劇的阿峰

2026-02-25 04:59:54

小學黨委書記教育部發布會做分享：畢業班孩子平均比11年前長高5.52厘米

小學黨委書記教育部發布會做分享：畢業班孩子平均比11年前長高5.52厘米

紅星新聞

2026-02-27 17:25:29

春天，少吃蘋果多吃它，一次買20斤，曬干囤起來，從春天吃到夏天

春天，少吃蘋果多吃它，一次買20斤，曬干囤起來，從春天吃到夏天

阿龍美食記

2026-02-26 19:13:38

這位好萊塢女星對奧斯卡獎根本不抱希望……

這位好萊塢女星對奧斯卡獎根本不抱希望……

電影分享會

2026-02-27 11:08:03

杭州男子失戀游湖南，遇苗族婚宴隨禮1000入席，離場卻被伴娘攔下

杭州男子失戀游湖南，遇苗族婚宴隨禮1000入席，離場卻被伴娘攔下

蘭姐說故事

2025-06-09 10:00:07

唯一無歐冠四分之一區，阿森納抽中勒沃庫森、博德閃耀、葡體

唯一無歐冠四分之一區，阿森納抽中勒沃庫森、博德閃耀、葡體

懂球帝

2026-02-27 19:50:07

黃一鳴帶小孩給爺爺奶奶拜年，嘴巴很甜，被懷疑是變相要紅包

黃一鳴帶小孩給爺爺奶奶拜年，嘴巴很甜，被懷疑是變相要紅包

新游戲大妹子

2026-02-18 09:18:57

蒯曼不敵早田希娜，林詩棟和黃友政擊敗法國組合，都有把握

蒯曼不敵早田希娜，林詩棟和黃友政擊敗法國組合，都有把握

子水體娛

2026-02-27 13:29:32

昔日申花主力門將如今處境不佳，當打之年卻淪落中乙，引發熱議

昔日申花主力門將如今處境不佳，當打之年卻淪落中乙，引發熱議

懂個球

2026-02-27 17:09:33

DeepSeek發布下一代技術！北大實習生立功

DeepSeek發布下一代技術！北大實習生立功

智東西

2026-02-27 12:59:15

四川臥龍現“全網最黑”大熊貓

揚子晚報

2026-02-27 07:37:29

單賽季投進300個三分有多難？NBA至今僅5人達成，庫里6次上榜碾壓

單賽季投進300個三分有多難？NBA至今僅5人達成，庫里6次上榜碾壓

禾三千體育

2026-02-27 20:41:32

記者：梅倫多出席海港出征儀式，蔣光太、張琳芃因傷未出席

記者：梅倫多出席海港出征儀式，蔣光太、張琳芃因傷未出席

懂球帝

2026-02-27 17:48:20

最新！干部任免

新浪財經

2026-02-26 18:22:57

兩個事實證明，我國實際已經控制了面積80平方公里的南沙五方礁

兩個事實證明，我國實際已經控制了面積80平方公里的南沙五方礁

瓦倫西亞月亮

2026-02-27 08:21:11

我國每年近千萬人做腸鏡！醫生直言：做一次腸鏡，或管10年無礙？

我國每年近千萬人做腸鏡！醫生直言：做一次腸鏡，或管10年無礙？

鬼菜生活

2026-02-10 20:14:46

不被任何人拿捏的頂級思維：不要回答別人的問題，要回答別人的目的

不被任何人拿捏的頂級思維：不要回答別人的問題，要回答別人的目的

古代經典

2026-02-25 15:40:12

羨慕！上海彩民守號一年中大樂透3764萬獎金，中獎號碼源自機選！

羨慕！上海彩民守號一年中大樂透3764萬獎金，中獎號碼源自機選！

小李子體育

2026-02-27 15:38:52

連爆大冷世界第4與第5趙心童2-4憾負，8強對陣及賽程出爐中國德比

連爆大冷世界第4與第5趙心童2-4憾負，8強對陣及賽程出爐中國德比

求球不落諦

2026-02-27 06:32:28

追蹤人工智能動態

12209文章數 176397關注度

往期回顧全部

科技要聞

單張不到五毛！谷歌深夜發布Nano Banana 2

頭條要聞

夜間氣溫達零下30℃ 烏總統：烏面臨幾十年來最難冬天

頭條要聞

夜間氣溫達零下30℃ 烏總統：烏面臨幾十年來最難冬天

體育要聞

一場必須要贏的比賽，男籃何止擊敗了裁判

娛樂要聞

繼網暴谷愛凌后美國欲沒收其全部收入

財經要聞

沈明高提共富建議百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市搭載華為四激光智駕方案

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

本地

時尚

家居

公開課

手機要聞

榮耀Magic V6：本季度最大電池大折疊手機來襲！

本地新聞

津南好·四時總相宜

冬季穿搭要避開臃腫感！配色不老氣、穿衣不隨意，越看越高級

家居要聞

素色肌理品意式格調

歸隱于都市慢享自由
藝居辦公溫度與效率
本真棲居愛暖伴流年

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<thead id="kovkj"><rt id="kovkj"></rt></thead>

<sub id="kovkj"><p id="kovkj"></p></sub>

<cite id="kovkj"></cite>

<sub id="kovkj"><p id="kovkj"></p></sub>

<legend id="kovkj"><var id="kovkj"></var></legend>