通信世界網消息(CWW)AI大模型的快速發展對網絡提出超大帶寬、超低時延、超高穩定性以及超大規模組網等需求。傳統TCP/IP機制因數據需要經過操作系統內核多次復制與協議棧處理,導致CPU資源被網絡協議開銷占用,并引發通信時延抖動,難以滿足AI大模型訓練對低時延與大帶寬的嚴苛要求。而RDMA(Remote Direct Memory Access,遠程直接存儲器訪問)技術可通過繞過操作系統內核實現主機間內存直接訪問,有效降低多機多卡通信時延,因此成為智算時代高性能網絡解決方案。
實現RDMA的方式有IB(InfiniBand,無限帶寬)、RoCE(RDMA over Converged Ethernet,基于以太網的遠程直接內存訪問協議)、iWARP(Internet Wide-Area RDMA Protocol,互聯網廣域RDMA協議)三種[1]。其中,iWARP是基于TCP/IP的RDMA技術,受TCP影響,該技術性能稍差;IB與RoCE作為主流解決方案,為應對AI大模型時代的挑戰提供了關鍵技術路徑。
本文聚焦智算網絡的高性能傳輸需求,重點研究IB、RoCE兩種智算網絡技術及智算網絡典型組網方式,并以RoCE技術為例給出智算網絡組網方案,旨在為智算網絡的規劃和建設提供參考。
1 智算網絡組網技術方案1.1 關鍵技術1.1.1 IB網絡
IB架構由IBTA(InfiniBand Trade Association,InfiniBand貿易聯盟)于1999年發布,其核心技術包括遠程直接存儲器訪問的零拷貝技術和內核旁路技術[2],通過這兩項技術可顯著降低數據傳輸時延。作為一種面向高性能計算的計算機網絡通信標準,IB采用交換式架構,設計之初便支持RDMA,并從硬件層面保障可靠傳輸,可實現計算機之間、服務器與存儲系統之間、存儲系統之間的數據流轉,同時也是人工智能領域中GPU服務器的首選網絡互連技術。
IB網絡具備低時延、大帶寬、高可擴展性與高吞吐量的顯著優勢:它依托RDMA零拷貝技術降低系統開銷;支持數十Gbit/s甚至更大的帶寬,滿足大規模數據傳輸、并行計算等場景需求;可靈活配置全局互連、樹狀、扁平等多級拓撲結構,還能實現多子網互連,滿足大規模計算集群與數據中心的擴展需求;同時憑借低時延與大帶寬的特性,支持大規模數據流并行傳輸。不過該技術需要配套使用支持IB的網卡和交換機,存在成本較高的缺點。
1.1.2 RoCE網絡
RoCE是一種基于以太網的遠程直接內存訪問協議,旨在通過以太網網絡實現高性能、低時延的數據傳輸,由IBTA于2010年提出,有RoCE v1和RoCE v2兩個版本,目前的主流協議是RoCE v2,該協議作為一種基于RDMA的協議,繼承了RDMA的優勢,并在以太網方面進行了優化。
RoCE的核心原理是通過規避傳統TCP/IP協議棧的多次上下文切換與數據拷貝,并依托RDMA技術讓服務器經網卡直接讀寫遠程主機內存,全程無需操作系統內核介入,從而顯著降低數據傳輸時延與CPU資源占用率;相較于傳統TCP/IP數據傳輸方式,RoCE能夠高效解決超大規模數據中心的內部通信瓶頸,助力服務器間數據高速流轉。
1.1.3 IB與RoCE的技術對比
IB和RoCE均為面向RDMA的高性能交換協議。IB完全依賴專用硬件,從硬件層面確保了網絡的低時延和高吞吐量;RoCE則將RDMA技術應用于以太網,通過PFC(Priority Flow Control,優先級流量控制)和ECN(Explicit Congestion Notification,顯式擁塞通知)等協議實現無損傳輸。兩者在性能、適用規模、成本和供應方面存在顯著差異,詳見表1。
表1 IB與RoCE技術對比
![]()
1.2 組網架構基于大模型大規模分布式訓練與推理的超高吞吐量、超低時延、高可靠性組網需求,智算中心典型組網架構如圖1所示,分為參數面、樣本面、帶內網絡和帶外網絡四個部分。
![]()
圖1 智算中心典型組網架構
參數面:承擔AI模型訓練與推理的參數同步聚合,常采用RDMA及無損組網技術支撐大規模分布式訓練,參數面網絡應滿足規模、吞吐量、可靠性、智能運維等核心技術要求。
樣本面:樣本面網絡負責傳輸訓練的原始與預處理數據,承載計算節點訪問存儲的流量,通常采用兩層CLOS組網架構,接入層為1:1無收斂組網,按需配置算存比,且須滿足高可靠性要求。
帶內網絡:承擔系統業務調度與帶內管理流量,采用多層CLOS組網架構,為TCP/IP有損網絡,要求具備高可靠性。
帶外網絡:承擔服務器、交換機、防火墻等的帶外管理流量。帶外網絡的性能要求低于訓練網絡,一般無需部署無損網絡。
2 智算組網案例本文以某智算私有云建設項目為例,說明RDMA網絡在智算組網中的應用,該案例為滿足用戶DeepSeek-V3/R1(671B)模型和DeepSeek-R1 Distill Llama-70B的模型部署需求,共建設8臺64卡GPU國產推理服務器,采用RoCE技術組網。
參數面設計:采用200G接入、400G互聯的RoCE組網,Spine-Leaf兩層胖樹架構,采用帶寬1:1無收斂設計。單臺AI服務器配置8塊GPU,8×200G RoCE光口,上行至2臺參數面RoCE Leaf交換機;Spine交換機獨立部署,Leaf交換機采用400G鏈路雙上聯至Spine交換機。
樣本面設計:存儲交換網采用100G RoCE組網,考慮到資源池規模較小,因此采用單層組網架構及帶寬無收斂設計。
帶內網絡:采用Spine-Leaf組網架構,配置一對管理交換機、一對業務交換機、一對存儲交換機,沒有無損網絡要求。
帶外網絡:配備2臺千兆電口交換機,分別進行帶外管理接入,上行接入25G管理業務交換機,最后統一通過核心交換機對外交換數據。
該項目的部署可為社會提供22.4PFLOPS算力,加快相關行業DeepSeek部署和應用推廣。
3 結論隨著AI大模型對算力和數據交換需求的不斷增長,目前智算網絡組網技術正在經歷快速創新與迭代,IB網絡不僅具備高階在網計算能力,而且擁有大規模資源池部署案例豐富、網絡性能與穩定性強的優勢;而對于需要快速擴展的分布式存儲或中小規模AI推理集群,RoCE網絡可通過現有以太網實現低時延、高吞吐量。未來,隨著AI大模型向更大規模參數、更高訓練效率方向演進,智算網絡也將朝著更大帶寬、更低時延、更加智能的方向發展。
參考文獻
[1] 李家清, 王祎瑋, 李道通. 智算中心IB及RoCE網絡技術探究[J]. 電信工程技術與標準化, 2024, 37(1): 42-47.
[2] 陳巖, 張斌, 吳海濤, 等. 智算網絡組網技術綜述[J]. 通信技術, 2025, 58(9): 923-931.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.