<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek新論文劇透V4新框架!用閑置網卡加速智能體推理性能

      0
      分享至

      henry 發自 凹非寺
      量子位 | 公眾號 QbitAI

      DeepSeek這小子最精了,當全世界都在盯著他的GitHub倉庫,等待V4時——

      他和北大、清華在ArXiv悄咪咪地上了一篇論文,發布了一個全新的針對智能體的推理框架:DualPath



      而且就跟前幾天曝出的算力話題相關。

      DualPath的核心在于解決Agent長文本推理場景下的I/O瓶頸,通過優化從外部存儲加載KV-Cache的速度,確保計算資源不被存儲讀取拖累。

      它改變了傳統的存儲至預填充引擎(Storage-to-Prefill)單路徑加載模式,引入了存儲至解碼引擎(Storage-to-Decode)的第二條路徑。

      通過利用解碼引擎閑置的存儲網卡(SNIC)帶寬讀取緩存,并配合高速計算網絡(RDMA)將其傳輸至預填充引擎,DualPath實現了集群存儲帶寬的全局池化與動態負載均衡。

      在660B規模的生產級模型的實測中,DualPath表現驚人:

      離線推理吞吐量提高了1.87倍,在線服務吞吐量平均提升1.96倍



      在高負載下,首字延遲(TTFT)大幅優化,而 Token間的生成速度(TPOT)幾乎不受任何干擾。

      接下來,我們一起來看。

      雙路徑加載 (Dual-Path Loading)

      總的來說,DualPath是一個專門為智能體系統設計的推理框架,它的核心洞見是——

      KV-Cache的加載不必以預填充為中心

      在以往的理解中,誰負責計算誰就去搬數據。但DualPath認為,緩存可以先加載到解碼引擎中,再通過高性能RDMA網絡傳輸至預填充引擎。

      通過在兩條路徑間動態選擇,DualPath重新分配了網絡負載,緩解了預填充側的帶寬壓力。

      那么,為什么要費這么大勁去“繞路”?

      之所以這樣做,是因為在當前的智能體應用中,對話輪數多且上下文長,KV-Cache命中率通常高達95%以上。

      這意味著,每一輪對話都要搬運海量的“舊記憶”,推理性能的瓶頸已經從“計算”轉移到了“搬運”上



      在現有的預填充-解碼分離(PD-disaggregated)架構中,所有的加載任務都擁擠在預填充引擎(PE)的存儲網卡上,導致帶寬瞬間飽和;

      與此同時,解碼引擎(DE)的存儲網卡卻在閑置,造成了嚴重的資源錯配。



      更進一步的,當前GPU算力的增長遠快于網絡帶寬和HBM容量的增長,也加劇了I/O限制。

      正如英偉達首席科學家Bill Dally、谷歌架構師Jeff Dean等大佬反復強調的:計算是免費的,但數據移動是昂貴的。

      針對這些問題,DualPath構建了創新的雙路徑模型:



      • 路徑 A(傳統):存儲→PE,緩存直接讀入預填充引擎。
      • 路徑 B(新增):存儲→DE→PE,緩存先讀入解碼引擎的緩沖池,再通過RDMA傳輸給預填充引擎。

      在架構組成上:

      • 推理引擎: 每個引擎管理一塊GPU,嚴格區分為預填充(PE)和解碼(DE)。
      • 流量管理器: 負責H2D/D2H拷貝、引擎間傳輸以及SNIC存儲讀寫。
      • 中央調度器: 擔任“大腦”角色,實時決策每一條請求該走哪條路,從而實現全局帶寬的最大化利用。

      核心技術方案:存儲至解碼路徑

      如上所述,DualPath推理系統的核心在于打破了傳統的“存儲至預填充”單路徑模式,創新性地引入了“存儲至解碼”路徑

      該設計允許KV-Cache先加載至解碼引擎(DE),再通過高帶寬計算網絡(RDMA)無損傳輸給預填充引擎(PE)。

      通過在兩條路徑間動態分配負載,系統將集群中原本閑置的解碼側存儲網卡(SNIC)帶寬徹底釋放,構建起一個全局可調度的存儲I/O資源池。

      具體來說,為了支持層級流式處理,DualPath在PE和DE上均分配了少量DRAM緩沖區(PE/DE Buffer),并針對不同階段設計了精細的數據流:

      • PE讀取路徑: 命中Token的KV-Cache從存儲讀入PE緩沖區。在每層計算前,該層緩存傳輸至PE HBM,與計算過程重疊執行。計算完成后,全量KV-Cache傳回DE緩沖區以形成完整上下文。
      • DE讀取路徑: KV-Cache直接進入DE緩沖區。在PE預填充期間,對應層的緩存跨節點傳輸至PE HBM(計算重疊)。計算結束后,PE僅需傳回新生成的KV-Cache片段與DE原有緩存合并。
      • 解碼與持久化: DE緩沖區接收完整KV-Cache后啟動解碼,執行H2D拷貝并隨后釋放CPU內存。雖然引入緩沖增加了DRAM壓力,但能顯著降低GPU顯存占用并優化首字延遲(TTFT)。生成過程中,每累積滿一個Block(如 64 Token)即觸發異步持久化。

      但就像前面提到的,“繞路”加載會帶來新問題:比如搬運緩存的流量撞上了模型計算的通信,怎么辦?

      對此,DualPath給出了兩套優化方案:

      首先是以計算網卡(CNIC)為中心的流量管理,強制所有流量通過配對的CNIC走GPUDirect RDMA路徑。

      在InfiniBand或RoCE網絡中,利用虛擬層(VL/TC)技術,將推理通信設為“最高優先級”并預留99%帶寬,讓緩存搬運只能在間隙中“蹭”帶寬,確?;ゲ桓蓴_。

      其次是自適應請求調度器: 調度器會盯著每個節點的磁盤隊列長度和Token數。系統會優先將任務分配給I/O壓力較小且計算負載較輕的節點,從根本上避免單側網卡或單點計算資源的擁塞。

      在實驗階段,DualPath在DeepSeek-V3、Qwen等模型上進行了測試,場景覆蓋了離線Rollout和在線服務。

      如開頭所說,在離線推理中,DualPath 將端到端吞吐量提高了高達1.87倍,在線服務吞吐量平均提升1.96倍,顯著降低了首字延遲(TTFT),且保持了極其穩定的Token間延遲(TBT)。

      總的來說,DualPath 證明了通過重新思考數據加載路徑可以有效突破當前大模型推理的I/O墻。

      它成功利用了解碼引擎原本被浪費的I/O帶寬,配合自適應調度和嚴謹的流量隔離機制,在不增加硬件成本的前提下,大幅提升了智能體LLM推理系統的效率。

      One more thing

      這篇論文的第一作者吳永彤,是北京大學的博士生,師從金鑫教授。

      他的研究方向聚焦于系統軟件與大模型基礎設施(LLM Infrastructure),尤其是推理系統的工程優化與規?;渴?。



      他目前在DeepSeek系統組,參與下一代模型的推理基礎設施建設,負責大規模軟件系統在多硬件平臺上的性能優化。



      此前,他還曾在騰訊、華盛頓大學,微軟亞研院等機構實習。

      [1]https://arxiv.org/pdf/2602.21548

      [2]https://jokerwyt.github.io/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我剛從臺灣回來:說實話很難聽,但這就是真實的臺灣省現狀了

      我剛從臺灣回來:說實話很難聽,但這就是真實的臺灣省現狀了

      媛來這樣
      2025-06-01 00:20:57
      50歲男子酷愛喝濃茶,茶葉能占半個杯子!連續5年確診腎結石,痛到打滾如生孩子!醫生提醒→

      50歲男子酷愛喝濃茶,茶葉能占半個杯子!連續5年確診腎結石,痛到打滾如生孩子!醫生提醒→

      大象新聞
      2026-02-26 13:45:08
      山東高鐵全面爆發!2026年預計雙線通車,魯西魯北告別繞行時代

      山東高鐵全面爆發!2026年預計雙線通車,魯西魯北告別繞行時代

      瓜哥的動物日記
      2026-02-27 16:21:14
      “普通人長這樣已經不錯了”,高中女孩自拍引爭議,被流量害苦了

      “普通人長這樣已經不錯了”,高中女孩自拍引爭議,被流量害苦了

      蝴蝶花雨話教育
      2026-02-21 02:15:03
      【2026.2.26】爆姐的飯后爆料:生命不止,爆料不息!

      【2026.2.26】爆姐的飯后爆料:生命不止,爆料不息!

      娛樂真爆姐
      2026-02-26 23:04:39
      黑社會去哪了?原來都藏在這4個場所,老百姓千萬別惹

      黑社會去哪了?原來都藏在這4個場所,老百姓千萬別惹

      小彭的燦爛筆記1
      2026-02-05 18:20:18
      柬埔寨國王太后赴華體檢 汪文斌大使送行

      柬埔寨國王太后赴華體檢 汪文斌大使送行

      看看新聞Knews
      2026-02-27 16:04:02
      立春后,這菜要多吃!一補陽、二通便、三護眼,包餃子吃,真鮮美

      立春后,這菜要多吃!一補陽、二通便、三護眼,包餃子吃,真鮮美

      江江食研社
      2026-02-26 18:30:03
      日本跌出前十!春節出境游目的地大洗牌,榜首是……

      日本跌出前十!春節出境游目的地大洗牌,榜首是……

      中國日報
      2026-02-25 19:16:33
      澳門的賭臺,大面積關停!不是沒人去,而是被“算法”割廢的?

      澳門的賭臺,大面積關停!不是沒人去,而是被“算法”割廢的?

      原廣工業
      2026-02-28 00:58:20
      被裁判針對,男籃為何得罪國際籃聯?姚明埋禍根,郭振明兩招補救

      被裁判針對,男籃為何得罪國際籃聯?姚明埋禍根,郭振明兩招補救

      籃球看比賽
      2026-02-27 13:43:42
      中國發撤離令,美軍果然行動了,兩條消息表明,特朗普要玩把大的

      中國發撤離令,美軍果然行動了,兩條消息表明,特朗普要玩把大的

      Ck的蜜糖
      2026-02-28 00:45:08
      悲催!不自量力把婚離了,飯碗也碎了,50多歲保險女如今欲哭無淚

      悲催!不自量力把婚離了,飯碗也碎了,50多歲保險女如今欲哭無淚

      火山詩話
      2026-02-27 06:14:00
      湖南一女子在網吧騷擾男性玩家,涉事網吧回應:一開始以為情侶爭吵,了解清楚立即制止了

      湖南一女子在網吧騷擾男性玩家,涉事網吧回應:一開始以為情侶爭吵,了解清楚立即制止了

      大象新聞
      2026-02-26 18:53:03
      醫生警告:每天吃一把堅果,可能等于喝了兩勺油,真的假的?

      醫生警告:每天吃一把堅果,可能等于喝了兩勺油,真的假的?

      阿兵科普
      2026-01-24 09:42:35
      原來每個省過年都有專屬飲品!河北露露是標配,江西才需8毛錢

      原來每個省過年都有專屬飲品!河北露露是標配,江西才需8毛錢

      北緯的咖啡豆
      2026-02-27 17:05:06
      封神的大胡子!哈登加盟騎士即封神,歷史第一人竟還是他自己

      封神的大胡子!哈登加盟騎士即封神,歷史第一人竟還是他自己

      體育閑話說
      2026-02-22 15:54:20
      河北一漫水橋發生坍塌,橋面碎裂如“拼圖”,當地回應:因去年雨季上游泄洪沖刷致橋地基受損,已申請資金啟動修復程序

      河北一漫水橋發生坍塌,橋面碎裂如“拼圖”,當地回應:因去年雨季上游泄洪沖刷致橋地基受損,已申請資金啟動修復程序

      大象新聞
      2026-02-27 18:53:43
      司機:“不好意思,你差評有點多,不敢接”,乘客當場破防!

      司機:“不好意思,你差評有點多,不敢接”,乘客當場破防!

      寶哥精彩賽事
      2026-02-27 01:37:35
      WTT大滿貫:國乒小將淘汰世界冠軍,蒯曼首敗早田,陳熠首勝橋本

      WTT大滿貫:國乒小將淘汰世界冠軍,蒯曼首敗早田,陳熠首勝橋本

      十點街球體育
      2026-02-27 19:30:15
      2026-02-28 04:28:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12209文章數 176397關注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創融資神話

      頭條要聞

      特朗普警告伊朗:“有時候不得不打”

      頭條要聞

      特朗普警告伊朗:“有時候不得不打”

      體育要聞

      一場必須要贏的比賽,男籃何止擊敗了裁判

      娛樂要聞

      郭晶晶霍啟剛現身香港藝術節盡顯恩愛

      財經要聞

      沈明高提共富建議 百姓持科技股國家兜底

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      親子
      本地
      數碼
      公開課
      軍事航空

      親子要聞

      驚呆了!12歲小女孩抱弟弟如同媽媽般自然,背后真相感人至深!

      本地新聞

      津南好·四時總相宜

      數碼要聞

      Omdia:時隔5年,小米去年再度回歸可穿戴設備出貨榜首

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國11架F-22隱形戰機抵達以色列

      無障礙瀏覽 進入關懷版