網易首頁 > 網易號 > 正文申請入駐

智算網絡組網技術研究與實踐

2026-02-27 11:35:23　來源: 通信世界

北京舉報

分享至

通信世界網消息（CWW）AI大模型的快速發展對網絡提出超大帶寬、超低時延、超高穩定性以及超大規模組網等需求。傳統TCP/IP機制因數據需要經過操作系統內核多次復制與協議棧處理，導致CPU資源被網絡協議開銷占用，并引發通信時延抖動，難以滿足AI大模型訓練對低時延與大帶寬的嚴苛要求。而RDMA（Remote Direct Memory Access，遠程直接存儲器訪問）技術可通過繞過操作系統內核實現主機間內存直接訪問，有效降低多機多卡通信時延，因此成為智算時代高性能網絡解決方案。

實現RDMA的方式有IB（InfiniBand，無限帶寬）、RoCE（RDMA over Converged Ethernet，基于以太網的遠程直接內存訪問協議）、iWARP（Internet Wide-Area RDMA Protocol，互聯網廣域RDMA協議）三種[1]。其中，iWARP是基于TCP/IP的RDMA技術，受TCP影響，該技術性能稍差；IB與RoCE作為主流解決方案，為應對AI大模型時代的挑戰提供了關鍵技術路徑。

本文聚焦智算網絡的高性能傳輸需求，重點研究IB、RoCE兩種智算網絡技術及智算網絡典型組網方式，并以RoCE技術為例給出智算網絡組網方案，旨在為智算網絡的規劃和建設提供參考。

1 智算網絡組網技術方案1.1 關鍵技術1.1.1 IB網絡

IB架構由IBTA（InfiniBand Trade Association，InfiniBand貿易聯盟）于1999年發布，其核心技術包括遠程直接存儲器訪問的零拷貝技術和內核旁路技術[2]，通過這兩項技術可顯著降低數據傳輸時延。作為一種面向高性能計算的計算機網絡通信標準，IB采用交換式架構，設計之初便支持RDMA，并從硬件層面保障可靠傳輸，可實現計算機之間、服務器與存儲系統之間、存儲系統之間的數據流轉，同時也是人工智能領域中GPU服務器的首選網絡互連技術。

IB網絡具備低時延、大帶寬、高可擴展性與高吞吐量的顯著優勢：它依托RDMA零拷貝技術降低系統開銷；支持數十Gbit/s甚至更大的帶寬，滿足大規模數據傳輸、并行計算等場景需求；可靈活配置全局互連、樹狀、扁平等多級拓撲結構，還能實現多子網互連，滿足大規模計算集群與數據中心的擴展需求；同時憑借低時延與大帶寬的特性，支持大規模數據流并行傳輸。不過該技術需要配套使用支持IB的網卡和交換機，存在成本較高的缺點。

1.1.2 RoCE網絡

RoCE是一種基于以太網的遠程直接內存訪問協議，旨在通過以太網網絡實現高性能、低時延的數據傳輸，由IBTA于2010年提出，有RoCE v1和RoCE v2兩個版本，目前的主流協議是RoCE v2，該協議作為一種基于RDMA的協議，繼承了RDMA的優勢，并在以太網方面進行了優化。

RoCE的核心原理是通過規避傳統TCP/IP協議棧的多次上下文切換與數據拷貝，并依托RDMA技術讓服務器經網卡直接讀寫遠程主機內存，全程無需操作系統內核介入，從而顯著降低數據傳輸時延與CPU資源占用率；相較于傳統TCP/IP數據傳輸方式，RoCE能夠高效解決超大規模數據中心的內部通信瓶頸，助力服務器間數據高速流轉。

1.1.3 IB與RoCE的技術對比

IB和RoCE均為面向RDMA的高性能交換協議。IB完全依賴專用硬件，從硬件層面確保了網絡的低時延和高吞吐量；RoCE則將RDMA技術應用于以太網，通過PFC（Priority Flow Control，優先級流量控制）和ECN（Explicit Congestion Notification，顯式擁塞通知）等協議實現無損傳輸。兩者在性能、適用規模、成本和供應方面存在顯著差異，詳見表1。

表1 IB與RoCE技術對比

1.2 組網架構基于大模型大規模分布式訓練與推理的超高吞吐量、超低時延、高可靠性組網需求，智算中心典型組網架構如圖1所示，分為參數面、樣本面、帶內網絡和帶外網絡四個部分。

圖1 智算中心典型組網架構

參數面：承擔AI模型訓練與推理的參數同步聚合，常采用RDMA及無損組網技術支撐大規模分布式訓練，參數面網絡應滿足規模、吞吐量、可靠性、智能運維等核心技術要求。

樣本面：樣本面網絡負責傳輸訓練的原始與預處理數據，承載計算節點訪問存儲的流量，通常采用兩層CLOS組網架構，接入層為1:1無收斂組網，按需配置算存比，且須滿足高可靠性要求。

帶內網絡：承擔系統業務調度與帶內管理流量，采用多層CLOS組網架構，為TCP/IP有損網絡，要求具備高可靠性。

帶外網絡：承擔服務器、交換機、防火墻等的帶外管理流量。帶外網絡的性能要求低于訓練網絡，一般無需部署無損網絡。

2 智算組網案例本文以某智算私有云建設項目為例，說明RDMA網絡在智算組網中的應用，該案例為滿足用戶DeepSeek-V3/R1（671B）模型和DeepSeek-R1 Distill Llama-70B的模型部署需求，共建設8臺64卡GPU國產推理服務器，采用RoCE技術組網。

參數面設計：采用200G接入、400G互聯的RoCE組網，Spine-Leaf兩層胖樹架構，采用帶寬1:1無收斂設計。單臺AI服務器配置8塊GPU，8×200G RoCE光口，上行至2臺參數面RoCE Leaf交換機；Spine交換機獨立部署，Leaf交換機采用400G鏈路雙上聯至Spine交換機。

樣本面設計：存儲交換網采用100G RoCE組網，考慮到資源池規模較小，因此采用單層組網架構及帶寬無收斂設計。

帶內網絡：采用Spine-Leaf組網架構，配置一對管理交換機、一對業務交換機、一對存儲交換機，沒有無損網絡要求。

帶外網絡：配備2臺千兆電口交換機，分別進行帶外管理接入，上行接入25G管理業務交換機，最后統一通過核心交換機對外交換數據。

該項目的部署可為社會提供22.4PFLOPS算力，加快相關行業DeepSeek部署和應用推廣。

3 結論隨著AI大模型對算力和數據交換需求的不斷增長，目前智算網絡組網技術正在經歷快速創新與迭代，IB網絡不僅具備高階在網計算能力，而且擁有大規模資源池部署案例豐富、網絡性能與穩定性強的優勢；而對于需要快速擴展的分布式存儲或中小規模AI推理集群，RoCE網絡可通過現有以太網實現低時延、高吞吐量。未來，隨著AI大模型向更大規模參數、更高訓練效率方向演進，智算網絡也將朝著更大帶寬、更低時延、更加智能的方向發展。

參考文獻

[1] 李家清, 王祎瑋, 李道通. 智算中心IB及RoCE網絡技術探究[J]. 電信工程技術與標準化, 2024, 37(1): 42-47.

[2] 陳巖, 張斌, 吳海濤, 等. 智算網絡組網技術綜述[J]. 通信技術, 2025, 58(9): 923-931.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.