<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek硬核突破!DualPath破解Agent推理瓶頸,V4升級方向清晰了

      0
      分享至

      大模型的進化正迎來關鍵拐點。

      從單輪對話的聊天機器人,快速迭代為能自主規劃、調用工具、完成百輪交互的Agent智能體,而這一轉變也讓底層推理架構的核心瓶頸徹底暴露——GPU算力不再是制約性能的關鍵,KV-Cache存儲I/O帶寬成為了Agent大模型落地的最大攔路虎。


      就在DeepSeek V4發布前夕,DeepSeek-AI聯合北大、清華團隊發布了重磅研究DualPath。

      DualPath通過創新的雙路徑架構,讓Agentic大模型離線推理吞吐量最高提升1.87倍,在線服務吞吐量平均提升1.96倍,還在1152張GPU的千卡集群完成驗證,為下一代模型的升級打下了堅實的技術基礎。


      之所以會出現如此嚴重的I/O瓶頸,核心源于Agent大模型的工作特性。


      與傳統短對話不同,Agent需要在數十甚至上百輪的環境交互中累積上下文,長度可達百萬tokens,而每輪新增的有效信息僅有數百tokens,這讓KV-Cache命中率普遍超過95%。

      此時,GPU的大量時間并非用于計算,而是在等待從外部SSD存儲中讀取海量的歷史KV-Cache數據。

      再加上現代大模型推理普遍采用的Prefill-Decode(預填充-解碼)分離架構,進一步加劇了這一矛盾,即所有KV-Cache都只能從外部存儲加載到預填充節點,這導致預填充節點的存儲網卡帶寬被完全占滿,成為系統性能的絕對瓶頸,而解碼節點的存儲網卡卻長期處于閑置狀態,算力資源被嚴重浪費。


      同時,硬件發展的失衡也讓問題雪上加霜,GPU計算力的增長速度遠超網絡帶寬和顯存容量,計算與I/O的比例嚴重失調,讓這一瓶頸愈發突出。


      DualPath的核心創新,正是抓住了解碼節點帶寬閑置的關鍵痛點,重構了KV-Cache的加載架構。

      在傳統的“存儲→預填充節點”加載路徑之外,它創新性地開辟了第二條“存儲→解碼節點→預填充節點”的加載通道,通過動態分配兩條路徑的數據流,把原本單一節點的I/O壓力,轉化為全局資源池化的負載分擔,充分聚合所有節點的存儲帶寬,從根源上打破了帶寬天花板。


      在第一條預填充讀取路徑中,KV-Cache從持久化存儲讀入預填充節點的內存緩沖,再傳輸到GPU顯存完成計算,最后將完整的KV-Cache傳給解碼節點。

      而新增的解碼讀取路徑,則讓KV-Cache先讀入解碼節點的內存緩沖,在預填充階段通過高速RDMA計算網絡,以層級流式傳輸的方式傳給預填充節點參與計算,整個過程中數據加載還能與模型計算無縫重疊,進一步提升效率。

      當然,把這個看似直觀的想法,落地到亞毫秒級延遲敏感的大模型推理系統中,需要攻克兩大核心工程難題。

      第一個難題是網絡流量的干擾,額外的KV-Cache傳輸極易與模型推理中的關鍵集合通信沖突,拖慢推理速度。

      對此DualPath設計了以計算網卡為中心的流量管理機制,讓所有進出GPU的流量都強制通過計算網卡,再利用底層網絡的QoS控制能力,將模型推理通信分配到占99%帶寬的高優先級通道,KV-Cache傳輸則分配到低優先級通道,僅在計算網絡的空閑間隙傳輸,實現了兩者的完美隔離,既保證了推理延遲,又充分利用了閑置帶寬。

      第二個難題是動態負載均衡,面對復雜多變的請求,系統需要實時決定每條請求的讀取路徑,同時兼顧網卡隊列長度和GPU負載。


      DualPath為此打造了自適應請求調度器,將Token數量作為核心負載指標,把節點劃分為過載、低讀取隊列、高讀取隊列三類,優先將任務分配給未過載且讀取隊列較短的節點。

      同時在節點內部,還會基于時間預估機制,將執行時間相近的請求打包成批,最大程度減少GPU同步時的計算氣泡,讓硬件利用率達到最優。


      實測數據足以印證DualPath的強悍性能。

      研究團隊在NVIDIA Hopper GPU集群上,基于DeepSeek-V3.2 660B、DS 27B、Qwen2.5-32B三大模型,結合真實的Agent強化學習軌跡數據集完成了全面測試。

      在離線批量推理場景(如RL訓練的Rollout階段),DualPath對基線系統實現了碾壓式超越,處理DeepSeek 660B模型時吞吐量最高提升1.87倍,且無論每輪追加Token長度、生成長度如何變化,都能保持穩定的性能提升,證明其徹底消除了存儲網絡瓶頸。


      在在線服務場景中,在首字延遲≤4秒的嚴格SLO約束下,DualPath能支撐的請求到達率相比基線最高提升2.25倍,還能保持極低的端到端生成延遲。


      而消融實驗也證實,雙路徑加載機制和自適應調度算法,是推動性能大幅提升的核心關鍵。

      更值得一提的是,DualPath還具備極強的大規模擴展性,在1152張GPU的千卡集群中,系統實現了近乎線性的性能擴展,調度器CPU占用還不到10個核心,完全滿足生產級的部署需求。


      從DualPath的技術突破中,我們也能清晰看到DeepSeek V4的核心升級方向。

      首先,模型與推理系統的協同優化將進一步深化,V4大概率會內置對雙路徑加載的原生支持,讓模型層的KV-Cache結構優化與系統層的路徑調度深度融合,實現更高的帶寬利用率。

      其次,自適應資源配置能力會成為重點,針對不同的工作負載,系統能在線動態調整預填充/解碼節點的比例,讓資源分配更貼合實際需求,避免固定配置的效率浪費。

      同時,KV-Cache的智能拆分加載也有望落地,將單個請求的KV-Cache拆分到兩條路徑并行加載,進一步挖掘I/O性能潛力。

      此外,結合DeepSeek已有的稀疏注意力技術,V4還可能將模型結構優化與DualPath的系統優化結合,在降低計算量的同時減少KV-Cache數據量,形成“模型+系統”的雙輪驅動。

      此次DualPath的發布,不僅為Agentic大模型的推理性能突破提供了全新的解決方案,更讓行業看到了大模型發展的新趨勢。

      當模型規模接近物理極限時,底層架構的創新與模型算法的深度協同,將成為突破性能天花板的核心關鍵。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      長春路虎哥剛被刑拘,人民網出手!多人受牽連,更嚴重的還在后面

      長春路虎哥剛被刑拘,人民網出手!多人受牽連,更嚴重的還在后面

      觀察鑒娛
      2026-03-21 12:25:26
      福建寧德一派出所教導員辦公室猥褻15歲女生,一審被判2年9個月,家屬欲申請抗訴

      福建寧德一派出所教導員辦公室猥褻15歲女生,一審被判2年9個月,家屬欲申請抗訴

      大風新聞
      2026-03-21 11:58:12
      “罕見敗訴”,美媒:馬斯克被裁定對在收購推特期間“誤導投資者”負有責任

      “罕見敗訴”,美媒:馬斯克被裁定對在收購推特期間“誤導投資者”負有責任

      環球網資訊
      2026-03-21 12:33:28
      4月1日后去醫院,只帶醫保卡可能吃大虧,這兩樣缺一不可

      4月1日后去醫院,只帶醫保卡可能吃大虧,這兩樣缺一不可

      萬物知識圈
      2026-03-21 07:12:41
      “這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

      “這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

      妍妍教育日記
      2026-03-21 10:05:03
      全線大跳水! 霍爾木茲海峽,突傳重大消息

      全線大跳水! 霍爾木茲海峽,突傳重大消息

      中吳網
      2026-03-21 10:35:49
      高市早苗“諂媚外交”暴露日美關系深刻不對等

      高市早苗“諂媚外交”暴露日美關系深刻不對等

      上觀新聞
      2026-03-21 00:56:24
      突發!“梅姨”落網!真名謝某某,對多起販賣兒童事實供認不諱

      突發!“梅姨”落網!真名謝某某,對多起販賣兒童事實供認不諱

      聽心堂
      2026-03-21 11:54:22
      在車里認真聊人生大事

      在車里認真聊人生大事

      貴圈真亂
      2026-03-21 13:07:18
      10 位翻車的科技人員!涉核工業、導彈、殲擊機等領域,能力不再是護身符

      10 位翻車的科技人員!涉核工業、導彈、殲擊機等領域,能力不再是護身符

      風向觀察
      2026-03-21 14:12:53
      擊中以色列最大煉油廠,不再攔截這類伊朗導彈!以色列人現在咋樣

      擊中以色列最大煉油廠,不再攔截這類伊朗導彈!以色列人現在咋樣

      鷹眼Defence
      2026-03-20 18:08:06
      小仙女直接抄家啊!安徽網友自爆相親經歷,豆包都憤怒高呼趕緊跑

      小仙女直接抄家啊!安徽網友自爆相親經歷,豆包都憤怒高呼趕緊跑

      火山詩話
      2026-03-21 10:01:19
      伊朗這個想法,過于異想天開了

      伊朗這個想法,過于異想天開了

      寰宇大觀察
      2026-03-20 15:57:07
      4S店賣一輛虧一輛?杭州經銷商:一輛官方指導價12.59萬元的車,成交價已擊穿8.4萬元

      4S店賣一輛虧一輛?杭州經銷商:一輛官方指導價12.59萬元的車,成交價已擊穿8.4萬元

      都市快報橙柿互動
      2026-03-20 19:36:04
      少林寺住持釋永信行賄的是誰?

      少林寺住持釋永信行賄的是誰?

      不主流講話
      2026-03-20 18:43:11
      女子網上吐槽海底撈“點炮”制度遭跨省執法,要求到四川配合調查

      女子網上吐槽海底撈“點炮”制度遭跨省執法,要求到四川配合調查

      Mr王的飯后茶
      2026-03-20 20:17:32
      回顧“91大神”秦先生落網:原本街頭擺攤,很多白富美被其偷拍

      回顧“91大神”秦先生落網:原本街頭擺攤,很多白富美被其偷拍

      就一點
      2025-11-24 16:34:08
      突發!曝北京機車網紅“黃油膩”車禍,前一天還被告誡,張雪回應

      突發!曝北京機車網紅“黃油膩”車禍,前一天還被告誡,張雪回應

      裕豐娛間說
      2026-03-21 08:55:24
      中國剛增持109億美債,不到24小時,美國國債再遭拋售,價格大跌

      中國剛增持109億美債,不到24小時,美國國債再遭拋售,價格大跌

      軍機Talk
      2026-03-21 12:05:55
      這就是赤裸裸的現實!央國企一把手現在已經可以安排人進去了?

      這就是赤裸裸的現實!央國企一把手現在已經可以安排人進去了?

      愛看劇的阿峰
      2026-03-21 07:29:50
      2026-03-21 14:59:00
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      459文章數 69關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      女子花20萬元租下老宅20年 一家三口從城市搬進鄉村住

      頭條要聞

      女子花20萬元租下老宅20年 一家三口從城市搬進鄉村住

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      CMG盛典獲獎名單:章子怡高葉同獲影后

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      房產
      親子
      游戲
      藝術
      公開課

      房產要聞

      全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

      親子要聞

      閨女一直都很尊重她爸的意見啊!

      Take-Two高管認為內存價格不會影響次世代主機發布

      藝術要聞

      第四屆深圳大芬國際油畫雙年展 | 國際入選油畫選刊(二)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版