<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek發布下一代技術!北大實習生立功

      0
      分享至


      智東西
      編譯 陳駿達
      編輯 云鵬

      DeepSeek又找到突破大模型推理瓶頸的新方法了!

      智東西2月27日報道,昨天,DeepSeek發布了一項名為DualPath的全新推理系統方案,直指當前大語言模型在智能體應用場景下遭遇的短板——KV緩存存儲I/O瓶頸。該方案通過引入雙路徑加載機制,顯著提升系統吞吐量,基本消除了KV緩存的I/O開銷。

      DualPath的核心創新在于開辟了一條從存儲直通解碼引擎的新通道。KV緩存不再僅由預填充引擎加載,而是可以加載至解碼引擎,再通過計算網絡中的RDMA高效傳輸至預填充端。這一設計不僅緩解了存儲端的壓力,還避免了網絡擁塞,確保延遲敏感型任務不受干擾。

      與全局調度器協同后,DualPath實現了動態平衡兩端負載,進一步提升資源利用率。在真實智能體工作負載測試中,DualPath將離線推理吞吐量提升最高達1.87倍,在線服務吞吐量平均提升1.96倍。

      在大規模可擴展性方面,DualPath系統在最多1152張GPU上進行了驗證。離線推理從2P4D(2K智能體)擴展到48P96D(48K智能體)實現近線性擴展,任務完成時間基本保持一致。

      值得一提的是,與之前DeepSeek發表的許多研究論文類似,這篇論文的第一作者吳永彤同樣是DeepSeek的實習生。吳永彤目前在北京大學攻讀博士學位,師從金鑫教授,主要研究大模型基礎設施相關課題,自2025年8月以來便在DeepSeek系統組工作,曾參與DeepSeek-V3.2的研究。

      論文鏈接:

      https://arxiv.org/pdf/2602.21548

      一、智能體I/O瓶頸凸顯,傳統設計成本高昂

      隨著智能體應用普及,多輪推理已成常態。智能體通過工具與外部環境進行數十甚至數百輪交互,上下文跨輪累積到極長長度。由于多輪、短追加的特性,KV緩存命中率高達95%以上,加載效率取代計算成為性能主導因素。

      現有系統采用分層預填充、預填充-解碼分離(PD分離)和外部KV緩存存儲架構。但問題在于:預填充引擎存儲網卡帶寬持續飽和,而解碼引擎存儲網卡帶寬大量閑置。這種不平衡暴露了根本性低效——存儲網絡帶寬利用不均,而單純增加預填充端帶寬成本高昂。


      ▲現有瓶頸(左)與DualPath(右)

      DualPath的提出正是為了解決上述問題,其核心洞察在于打破“KV緩存加載必須以預填充為中心”的傳統設計。

      現有系統僅通過存儲到預填充引擎的單一路徑加載,導致預填充端帶寬飽和而解碼端帶寬閑置。DualPath則增加了存儲到解碼路徑,將KV緩存先加載至空閑的解碼引擎,再通過RDMA高效傳輸給預填充引擎。

      這一模式聚合了所有存儲網卡帶寬,重新分配網絡負載,從根本上緩解預填充端的I/O瓶頸。

      不過,該設計仍然面臨兩大挑戰:首先,引入額外的加載路徑會產生復雜的流量模式,并可能與模型執行中的集體通信原語產生潛在干擾,若管理不當會降低整體性能。

      其次,系統必須在動態和異構的工作負載下在線決定使用哪條加載路徑,并同時確保GPU和網卡之間的負載均衡。

      二、三大核心組件打造DualPath,新組件并未引入瓶頸

      那么,DeepSeek究竟是如何解決這些挑戰的呢?DualPath使用了兩項廣泛使用的技術:

      (1)PD分離,將提示詞和解碼處理分開以提高效率。

      (1)分層預填充,避免了預填充引擎上的HBM瓶頸,并提高了GPU利用率。

      而DualPath主要由三大核心組件構成。推理引擎是基礎執行單元,每個引擎管理一個GPU,并明確區分為專司預填充計算的預填充引擎和負責解碼生成的解碼引擎。

      流量管理器內嵌于每個引擎,統籌所有數據移動:包括主機與設備間的內存拷貝、預填充與解碼引擎之間的KV緩存傳輸,以及通過存儲網卡進行的KV緩存持久化讀寫。其采用以計算網卡為中心的流量管理策略,確保KV緩存流量不會干擾延遲敏感的模型集體通信。

      請求調度器作為中央決策單元,接收客戶端請求并智能分發給各引擎,同時動態決策每條請求采用傳統存儲到預填充路徑還是新型存儲到解碼路徑,實現雙路徑間的流量均衡與全局負載優化。


      在具體實現上,DualPath在每個預填充引擎和解碼引擎上預留少量DRAM作為緩沖區。對于預填充端讀路徑,命中token的KV緩存首先從存儲讀入預填充引擎緩沖區,然后按層流式傳入預填充引擎的HBM,與未命中token的KV計算過程重疊執行。隨后,完整的提示詞KV會被傳輸至解碼引擎緩沖區,供解碼階段使用。

      對于解碼端讀路徑,命中KV首先加載到解碼引擎緩沖區,在預填充引擎執行預填充時逐層通過RDMA讀取,同時與計算重疊。未命中KV計算完成后回傳至解碼引擎,與命中KV合并形成完整提示詞緩存。

      無論哪條路徑,數據傳輸都采用分層流式方式,以緩解HBM容量壓力并實現計算與通信的重疊。解碼階段開始前,解碼引擎將完整KV從緩沖區傳入HBM,完成主機到設備拷貝后釋放CPU內存;在生成過程中,每當累積滿一個固定大小的token塊,就立即持久化到存儲。

      為了驗證該架構不會引入新的瓶頸,論文對計算網卡帶寬和DRAM帶寬進行了系統性分析。通過建立每對預填充引擎—解碼引擎之間的流量模型,并假設負載均衡與網絡無擁塞,作者推導出在一定的P/D(預填充節點與解碼節點數量之比)范圍內,計算網卡、PCIe以及DRAM均不會成為瓶頸。

      在典型配置(例如每節點8個GPU、存儲帶寬遠小于計算帶寬)下,可行的P/D區間覆蓋大多數實際部署比例,說明系統能夠在充分利用所有存儲網卡帶寬的同時,保持計算與內存資源的穩定運行。

      三、系統落地仍面臨三大挑戰,采用計算網卡為中心的流量管理

      然而,在真實系統中落地雙路徑架構仍面臨三項核心挑戰。首先是細粒度數據傳輸。分層執行緩解了HBM容量壓力,但也將KV拆分為大量小塊,需要在存儲、主機DRAM和GPUHBM之間高效搬運,同時控制軟件與硬件開銷。

      其次是流量隔離。新增的KV傳輸可能干擾模型執行中的延遲敏感型集體通信(如AllToAll、ReduceScatter/AllGather),若缺乏隔離機制,將直接推高端到端推理延遲。

      最后是動態負載均衡。由于系統存在兩條讀取路徑,調度器必須結合磁盤隊列長度、GPU負載和請求特征動態決策,否則容易再次形成局部瓶頸。

      為避免KV傳輸干擾模型通信,系統采用以計算網卡為中心的流量管理機制。所有進出GPU的流量,包括H2D/D2H拷貝,統一經由與GPU配對的計算網卡,并通過GPUDirectRDMA完成傳輸,使全部數據流匯聚到計算網絡,從而利用硬件QoS能力進行優先級隔離。

      在基于InfiniBand的部署中,模型推理通信被映射到高優先級虛擬通道,KV傳輸映射到低優先級通道,并通過加權輪詢保障前者帶寬。這樣既保護了延遲敏感通信,又允許KV流量利用空閑帶寬。實驗還表明,在大量小塊場景下,其更適合細粒度傳輸。

      在調度層面,系統采用兩級自適應機制。引擎間調度為請求選擇預填充引擎—解碼引擎對并確定讀取路徑,通過token數量與磁盤隊列長度實現負載均衡;解碼引擎調度分為跨組與組內兩階段,在平衡總token數的同時考慮HBM容量約束,避免資源過載。

      引擎內調度主要作用于預填充引擎,通過估計注意力層計算量設定“計算配額”,以FIFO方式組批,必要時對請求分塊,使各GPU計算時間趨于一致,減少同步等待。

      總體而言,雙路徑加載聚合存儲帶寬,理論分析保證系統無新增瓶頸,計算網卡中心化設計實現嚴格流量隔離,自適應調度則維持負載均衡與低延遲,共同構成一個高吞吐、可擴展的推理架構。

      四、實驗證明KV緩存I/O開銷已基本消除,在千卡集群上實現線性擴展

      為驗證DualPath帶來的性能提升,DeepSeek在一個由InfiniBand互連的GPU服務器集群上進行實驗,評估了三個模型的表現:DeepSeek V3.2 660B(記為DS 660B)、DS 660B的27B縮小版本(記為DS 27B)以及作為稠密模型代表的Qwen2.5-32B(記為Qwen 32B)。

      實驗結果顯示,DualPath在更大的批次規模和更長的最大有效上下文長度下獲益更加顯著。在DS 660B上,DualPath相較于DeepSeek內部的基線推理框架最高實現1.87倍加速,且性能接近假設零I/O開銷的理論性能上限,說明KV緩存I/O開銷已基本被消除。


      在DS 27B上,DualPath相較于DeepSeek內部的基線推理框架最高提升1.78倍

      在改變追加長度和生成長度時,DualPath在短token場景下優勢更明顯。隨著追加長度增加,GPU計算壓力增大,而生成長度增加則因預填充間隔變長,降低了KV緩存加載壓力。

      圖9顯示,隨著追加長度增長,未采用DualPath的推理引擎表現和DualPath的性能越發接近,表明系統瓶頸逐漸轉向GPU計算。在不同追加規模下,DualPath相較于基線實現1.82至1.99倍加速,生成長度擴展趨勢類似。

      在不同預填充-解碼比例下,DualPath均顯著優于基線,平均實現1.64倍加速,最高達2.46倍。基線推理引擎只能使用預填充節點的存儲帶寬,而DualPath能夠利用所有節點的帶寬,驗證了在智能體場景下存儲帶寬是主要瓶頸。

      在在線服務評估中,DualPath在智能體請求到達速率上顯著優于基線,在DS27B和DS660B上分別達到1.67倍和2.25倍提升


      在負載均衡方面,DualPath顯著改善了存儲網卡和注意力層執行時間的均衡性。相較于輪詢調度,調度算法將存儲網卡負載均衡指標從1.53優化至1.18。同時,在任務前5%執行階段,將注意力層最大/平均執行時間比控制在1.06以內,減少了GPU空閑氣泡。

      在大規模可擴展性方面,DualPath系統在最多1152張GPU上進行了驗證。離線推理從2P4D(2K智能體)擴展到48P96D(48K智能體)實現近線性擴展,任務完成時間基本保持一致。


      在線服務中,44P88D配置在保持相似延遲的同時,將吞吐量提升22倍。所有實驗中調度器CPU占用低于10核,表明其不是性能瓶頸。

      大規模部署不僅減少資源碎片化,還為并行度和P/D比例調優提供更大靈活性,同時在突發在線請求場景下提供更多調度空間以緩解排隊延遲。

      結語:智能體推理迎來提效利器,未來或引入自適應機制

      隨著DualPath論文的發布,它有望為業界在處理大規模智能體推理任務時提供一個新的思路。對于正苦于KV緩存I/O壓力的開發者與研究者而言,這或許是一個值得關注的方向。

      不過,DeepSeek的研究團隊也坦言,離線推理的工作負載高度動態,下一步需要研究更自適應和更靈活的并行度和P/D比例配置方法,例如模擬器或在線調整機制。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普深夜驚聞噩耗,美國內憂外患一起襲來,美債被大規模拋售

      特朗普深夜驚聞噩耗,美國內憂外患一起襲來,美債被大規模拋售

      阿訊說天下
      2026-03-08 00:54:59
      豪門狂歡夜:巴薩1-0,尤文4-0,曼城3-1,切爾西4-2,阿森納2-1

      豪門狂歡夜:巴薩1-0,尤文4-0,曼城3-1,切爾西4-2,阿森納2-1

      側身凌空斬
      2026-03-08 06:12:16
      比亞迪發布閃充,意外拯救了5萬座加油站的中石油中石化

      比亞迪發布閃充,意外拯救了5萬座加油站的中石油中石化

      生活魔術專家
      2026-03-07 22:29:33
      文旅部部長:7名外國游客買了40箱中國貨離境,交了超重費但有退稅政策,還是合算

      文旅部部長:7名外國游客買了40箱中國貨離境,交了超重費但有退稅政策,還是合算

      紅星新聞
      2026-03-07 13:24:24
      董璇是無數人心中的女神,如今被曝欠債千萬

      董璇是無數人心中的女神,如今被曝欠債千萬

      林雁飛
      2026-03-07 20:12:13
      3月8日,券商給予評級并且給出目標價的公司一覽

      3月8日,券商給予評級并且給出目標價的公司一覽

      A股數據表
      2026-03-08 06:00:03
      好家伙《我的山與海》開播就差評一片,觀眾給的理由竟出奇一致!

      好家伙《我的山與海》開播就差評一片,觀眾給的理由竟出奇一致!

      潮鹿逐夢
      2026-03-07 22:02:33
      熬了8年!高速收費終于定了,2026年起,車主上高速徹底變了

      熬了8年!高速收費終于定了,2026年起,車主上高速徹底變了

      奇思妙想草葉君
      2026-03-06 23:23:57
      河村勇輝閃耀G聯賽卻難打NBA!專家詳解困境:最大原因還是身高

      河村勇輝閃耀G聯賽卻難打NBA!專家詳解困境:最大原因還是身高

      羅說NBA
      2026-03-08 06:12:07
      李自成兵敗到底有多悲慘?讓我們看看他手下文臣武將的結局就知道

      李自成兵敗到底有多悲慘?讓我們看看他手下文臣武將的結局就知道

      談史論天地
      2026-03-07 05:58:46
      鄺兆鐳中超處子秀!09年齡段第一人,0突破0射門,3次對抗均失敗

      鄺兆鐳中超處子秀!09年齡段第一人,0突破0射門,3次對抗均失敗

      奧拜爾
      2026-03-07 21:31:37
      回顧:孫子長相神似爺爺,婆婆懷疑兒媳12年,親子鑒定后全家愣住

      回顧:孫子長相神似爺爺,婆婆懷疑兒媳12年,親子鑒定后全家愣住

      談史論天地
      2026-02-28 14:55:57
      伊朗反擊取得重大成果?千萬別信網上的那些專家和爽文

      伊朗反擊取得重大成果?千萬別信網上的那些專家和爽文

      壹家言
      2026-03-04 19:37:20
      長期佩戴骨傳導耳機會致聾?醫生:7天內是黃金治療期

      長期佩戴骨傳導耳機會致聾?醫生:7天內是黃金治療期

      人民日報健康客戶端
      2026-03-06 10:50:07
      拒絕冷門!德約戰滿三盤2-1逆轉過關,迎印第安維爾斯開門紅

      拒絕冷門!德約戰滿三盤2-1逆轉過關,迎印第安維爾斯開門紅

      全景體育V
      2026-03-08 08:11:06
      很多人還不知道,原來只要知道對方手機號碼,就可以查到對方位置了!

      很多人還不知道,原來只要知道對方手機號碼,就可以查到對方位置了!

      CG說科技
      2026-03-05 16:59:05
      B-52重返戰場:當美軍開始用二戰式轟炸,戰爭其實已經結束了一半

      B-52重返戰場:當美軍開始用二戰式轟炸,戰爭其實已經結束了一半

      斌聞天下
      2026-03-07 07:30:03
      離譜!比亞迪閃充的核心,竟是我們小時候吐槽的水池數學題?

      離譜!比亞迪閃充的核心,竟是我們小時候吐槽的水池數學題?

      趣味萌寵的日常
      2026-03-07 22:30:35
      普京與伊朗總統通電話:必須立即停止美國對伊朗的軍事行動

      普京與伊朗總統通電話:必須立即停止美國對伊朗的軍事行動

      俄羅斯衛星通訊社
      2026-03-07 16:11:02
      39分慘案引爆內訌危機!掘金最強陣崩盤,阿德爾曼痛批無競爭精神

      39分慘案引爆內訌危機!掘金最強陣崩盤,阿德爾曼痛批無競爭精神

      田先生籃球
      2026-03-07 20:30:02
      2026-03-08 09:40:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11320文章數 116989關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      汪小菲曝親媽猛料,張蘭公開財產分配

      財經要聞

      油價要失控?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      本地
      游戲
      房產
      數碼
      藝術

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      成功是必然!《幻獸帕魯》高管盛贊《殺戮尖塔2》

      房產要聞

      傳統學區房熄火?2月海口二手房爆火的板塊竟然是…

      數碼要聞

      跌破3000元指日可待,蘋果Macbook Neo會賣爆嗎?

      藝術要聞

      他是二王書法的化身?米芾的秘密揭曉!

      無障礙瀏覽 進入關懷版