毫無疑問,在當今智能化浪潮的推動下,AI大模型正憑借其強大的處理能力,深刻重塑眾多行業的發展路徑。然而,隨著數據流量爆發式增長、新型應用持續涌現,以及網絡性能需求的不斷提升,同樣也對傳統網絡架構帶來了前所未有的挑戰。
具體而言,單次大模型訓練任務往往需完成數百TB級別的數據傳輸與交換,使得傳統網絡已難以支撐其高效通信需求;同時,AI工作負載呈現顯著的突發性和動態特征,要求網絡具備實時智能調度能力;此外,從集中式訓練到分布式推理的多樣化場景,也對網絡的可靠性與靈活性提出了更高標準。可以說,未來的網絡不僅需要“高速”,更要“聰明”和“可靠”。
![]()
在此背景下,聯想依托“一橫五縱”AI基礎設施戰略布局,在關鍵一縱“數據網絡”產品線上持續發力。近期,聯想問天數據網絡產品線就迎來全面升級,重磅推出面向智算中心層、數據中心層及園區網絡層的全新產品和方案,全面構建了面向未來的新一代數據網絡體系。
這不僅僅是一次簡單的產品或方案的迭代升級,更是聯想基于軟硬一體化的全棧能力,所實現的一次系統性的創新突破,由此不但能夠為行業用戶提供強大的網絡硬件性能,更從根本上解決智算網絡中“部署難、運維難、優化難”的三大核心挑戰,其最終目標,是讓千行百業的客戶能夠像使用水電一樣,簡單地獲取和高效地使用龐大的AI算力集群,真正實現智能算力的普惠與賦能。
01.
問天全面升級,
構筑AI算力時代的硬核實力
據了解,本次聯想問天數據網絡產品線的升級,核心聚焦于高性能網絡硬件,致力于為不同業務場景構建高速、穩定的網絡連接基石,具體來看:
首先,在智算中心領域,人工智能、機器學習、高性能計算和分布式存儲等應用的快速發展,正推動數據中心網絡向400G/800G升級。為應對這一趨勢,聯想問天NE8770-64QC交換機“應運而生”,該產品是專為高端數據中心及AIGC智算場景設計的高性能、高密度盒式交換設備,可滿足下一代智算基礎設施對高速互聯與大規模數據處理的迫切需求。
![]()
聯想問天NE8770-64QC交換機采用先進硬件架構,提供64個400G端口,支持全線速轉發,并配備冗余電源與風扇,在可靠性和擴展性方面表現卓越。其在4U高度內實現64個400G端口的集成,支持二級組網最大2K端口、三級組網最大8K端口規模,滿足AI、HPC及分布式存儲等高帶寬應用需求。
在關鍵功能方面,聯想問天NE8770-64QC交換機具備AI-Fabric增強能力,支持RALB與AILB負載均衡,緩解ECMP哈希不均,提升AIGC訓練效率;支持RoCEv2一鍵部署,可自動化配置PFC、ECN等參數,構建無損低時延RDMA網絡;采用2+2電源冗余與7+1風扇冗余設計,結合BFD、GR等高可用技術,保障業務連續性和系統穩定。
在運維管理方面,聯想問天NE8770-64QC交換機支持AI ECN自動調優、RoCE網絡遙測、擁塞與丟包分析及流量可視化功能,實現精準運維與快速故障定位。同時全面支持IPv4/IPv6雙棧及多層交換,提供豐富路由協議與隧道功能,支持CLI、SNMP、Telemetry等多種管理方式,具備安全加密與流量鏡像分析能力。
其次,在數據中心領域,最新推出的聯想問天NE9770G-4C交換機,是面向數據中心及DCI互聯的新一代國產核心交換機,其采用CLOS正交交換架構與零背板直連設計,降低信號傳輸損耗,支持向400G/800G平滑演進,基于CLOS多級交換架構,實現轉發與控制平面分離,確保全線速無阻塞交換。
![]()
聯想問天NE9770G-4C交換機支持144個40/100GE或192個10GE端口全線速轉發,單機最大提供144個100G端口。同時支持16M VXLAN網段和EVPN協議,可快速構建Overlay網絡,實現大二層靈活擴展。采用關鍵部件全冗余設計,支持N+M備份與熱插拔,提供BFD毫秒級故障檢測與多層次安全機制,保障網絡高可用性;節能方面,聯想問天NE9770G-4C采用了直通風道設計和智能溫控技術,配備高效電源模塊(轉換效率94%)及無PHY芯片設計,前面板開孔率達60%,整體能耗顯著優化,可靠性提升20%以上。
最后,在園區網絡領域,聯想問天NE7550G-8C交換機是面向融合網絡的多業務核心交換機,集園區網與數據中心特性于一體,適用于多種應用場景。支持IPv4/IPv6及VSU虛擬化技術,可將多臺設備虛擬化為單一邏輯設備,簡化網絡結構,提升運維效率,且采用CLOS多級交換架構,確保全線速無阻塞轉發。
![]()
除此之外,聯想問天NE7550G-8C交換機支持熱補丁、BFD毫秒級故障檢測(<50ms)及M-LAG等技術,提供1+1冗余監控,支持故障光模塊隔離與安全啟動。100G端口功耗≤10W,10G端口≤2W,支持多核CPU動態功耗管理及256級智能調速風扇。同時,聯想問天NE7550G-8C提供多種管理方式,包括SNMP、CLI、Web網管及Telemetry,支持CPU防護與ACL檢測,可實現快速故障定位與自動化運維。
值得一提的是,在AI技術迅猛發展的當下,構建高效、穩定且易于部署的算力基礎設施已成為企業智能化轉型的關鍵。為此,聯想也推出了萬全AI一體機網絡方案,以“開箱即用”的集成化交付模式,為行業客戶提供了一條邁向AI應用的快速通道。
該方案針對不同AI應用場景,提供了高度適配的硬件配置。大模型訓練搭載聯想問天WA7880a G3服務器,適配昆侖芯P800等加速卡,支撐千億參數訓練;訓推一體采用聯想問天WA5480 G3服務器,支持天數天垓150、摩爾S4000等加速卡,實現高效訓推協同;云端推理基于聯想問天WR5220 G3服務器,兼容主流推理卡,應對高并發需求。
除了多元化的算力支撐,方案還融合了先進的網絡與存儲技術,其支持InfiniBand和RoCEv2網絡協議,提供100G、200G及400G等多檔帶寬,為分布式訓練與大規模集群構建低延遲、高吞吐的網絡環境;存儲方面,整合DXN分布式存儲、DM/DG系列與DSS-G100/G200等解決方案,全面滿足AI業務對數據讀寫速度與可靠性的嚴苛要求。
可以說,聯想萬全AI一體機網絡方案,以高度集成、穩定可靠和高效易用的特點,賦能科研機構與企業用戶快速部署AI應用,大幅降低從開發到投產的復雜性與時間成本,真正實現“開箱即用”的智能算力體驗。
截至目前,聯想已構建起覆蓋多場景的數據網絡產品與解決方案體系,能夠為千行百業客戶打造高效、智能、可靠的網絡基礎設施。
![]()
其中,在園區網絡方面,依托創新的“極簡光網絡”技術,聯想顯著降低了布線復雜度與運維成本,助力企業構建綠色節能、智能運維的現代化園區網絡環境;在數據中心領域,基于“超融合/云網絡”架構,聯想打造出彈性可擴展、敏捷可靠的數據中心網絡,為企業的業務云化提供堅實基礎,加速云端遷移與應用創新;在AI/HPC 解決方案方面,聯想可提供從10G到400G的超高速網絡互聯能力,全面支持人工智能和高性能計算應用對高帶寬、低延遲的數據傳輸需求,充分釋放智能算力潛能。
除此之外,在物流倉儲無線場景中,聯想引入新一代“Wi-Fi 7”技術,實現高吞吐、低時延、多接入的無線網絡覆蓋,全面提升智慧物流與倉儲管理的自動化水平和響應效率;在業務入云-分支互聯方案中,通過“SD-WAN”技術,也能實現企業總部、分支與云資源之間安全、智能、高效的互聯互通,提供一站式云端接入與組網服務,助力企業輕松邁向云網融合新時代。
不難看出,聯想問天數據網絡產品線的此次全面升級,集中展現了聯想在智算網絡領域深厚的技術積淀,通過打造高性能、高可靠的網絡產品與方案,聯想不僅強化了自身在網絡市場中的競爭力,也為構建面向AI時代的高質量網絡底座、賦能千行百業奠定了堅實基礎。
02.
智能運維體系,
讓AI算力網絡更穩定更高效
如果說強大的網絡硬件產品是支撐AI算力的“軀體”,那么智能的運維體系便是賦予其持續生命力的“大腦”。 為此,聯想也推出智算網絡管理軟件并對萬全異構智算平臺進行升級,致力于從運維自動化和性能優化層面,系統性地提升AI算力基礎設施的穩定性和效率。
聯想智算網絡管理軟件以“簡部署、快交付、易運維”三大特點為核心,顯著提升了智算集群的運維與交付效率。
![]()
在“簡部署、快交付”方面,傳統AI集群——尤其是千卡規模的RoCE網絡部署——往往極為復雜且耗時。通常交付人員需依賴專家經驗,手動逐臺配置交換機中的復雜RoCE參數(如ECN/PFC水線),再通過反復手工打流測試進行調優。該過程常持續一至兩周,才能獲得相對理想的配置,整體效率低下,且高度依賴人力經驗。
面對這一痛點,聯想通過“三個自動化”重塑交付流程,實現了“1日驗收交付上線”的重大突破,包括設備自動上線,設備上電后通過DHCP自動注冊至管理平臺,實現“零配置”接入。平臺自動完成基礎配置與版本分發,將數百臺設備的初始化時間從“天”縮短至“小時”;RoCE一鍵部署,平臺內置專家經驗庫,預置多型號交換機的最佳水線參數。用戶只需選擇策略,即可一鍵批量下發,大幅降低部署門檻與技術依賴;而在自動驗收測試方面,平臺可自動調度測試服務器,執行RDMA性能及NCCL通信測試,并行嘗試多組參數并生成對比報告,全程無需人工干預,一夜之內完成全面驗收。
在“易運維”方面,聯想倡導“運維始于預見,優于預防”。為此,基于Telemetry技術,平臺也實現了秒級網絡遙測,覆蓋以往難以觸及的細粒度數據。例如,在網絡側,不僅監控端口流量,更深入追蹤每隊列Buffer占用、ECN標記報文數、PFC觸發狀態等,實時評估AI業務所需網絡服務質量;在服務器側,實時采集GPU、網卡、CPU等多項指標,并與網絡數據關聯,構建真正的端到端可視化;而在業務流分析方面,則可以清晰呈現GPU卡間通信路徑與實時“路況”,精準識別網絡擁塞或GPU自身慢節點等瓶頸。
與此同時,面對故障時,傳統系統往往產生海量告警,增加排查難度。聯想智算網絡管理軟件也基于知識圖譜技術,自動挖掘告警間的關聯關系,可在分鐘級定位根因,清晰展示傳播路徑與影響范圍,從而實現從被動“救火”到主動“防火”的運維模式轉變。
可以看到,聯想的這套智能運維體系不僅是技術工具的升級,更是運維理念的重大革新,它將高度依賴“老師傅”的“手藝活”轉型為可規模化、標準化復制的“工業化流程”,為AI算力的真正普惠奠定堅實基礎。
當然,除了構建新一代智算中心運維體系,為應對多元AI算力芯片帶來的基礎設施異構化挑戰,聯想萬全異構智算平臺在今年實現了全面升級。全新的聯想萬全異構智算平臺3.0特別針對多樣化GPU型號、機內互聯拓撲以及復雜網絡架構,推出了聯想自研集合通信庫LCCL(Lenovo CCL),其核心優勢主要體現在以下幾個方面:
![]()
第一,節點內拓撲感知優化方面,針對不同機型采用了差異化優化機制。如針對PCIe機型,使用CPU-Reduce技術,利用CPU(如AMX加速器)充當參數服務器,避免跨NUMA訪問的性能瓶頸;針對NVLink機型,采用N-Tree而非Ring算法進行消息收發,提升效率,并降低通信開銷;而針對H800等NVLink帶寬受限的機型,創新性地同時利用NVLink和PCIe(Multi-Path)進行通信,有效提升帶寬利用率。
第二,節點間拓撲感知優化方面,重點提升跨節點通信的效率和穩定性。包括采用節點-集群分層通信,基于節點內互連性能遠高于節點間的特點,將節點作為集群通信的端點,充分釋放節點間互聯帶寬;鏈路預分配,針對AI通信流量相對規律的特征,提前預分配互聯鏈路資源,減少擁塞發生,優化長尾延遲;主動探測方面,則是通過CPU/GPU周期性地收發探測報文,實時監測鏈路質量,評估備用路徑,并支持動態切換,保障通信可靠性。
第三,針對大模型訓練優化方面,聯想也通過多項核心技術對通信與計算過程進行了系統優化。如采用多路徑傳輸機制充分利用NVLink、多個PCIe通道及CPU內存資源,構建多條并發數據傳輸路徑,顯著提升聚合帶寬與通信可靠性;GPU數據拷貝優化方面,通過改進GPU間數據拷貝機制,有效提升帶寬利用率,降低拷貝開銷,釋放更多算力資源用于模型訓練任務。此外,機內拓撲優化方面,則是基于實際硬件連接拓撲,智能調度GPU間通信路徑,充分挖掘NVLink等高速互連的帶寬潛力,避免鏈路擁塞。
不僅如此,在自適應通信方面,平臺還能根據每次規約運算的數據量大小,動態選擇最優通信算法與傳輸路徑,確保不同規模數據均能獲得最佳通信性能;而在計算-通信重疊方面,借助ZeRO-DP等分布式訓練框架,將Reduce-Scatter與反向計算、Allgather與前向計算重疊執行,有效隱藏通信延遲。該優化在PCIe或跨節點通信等帶寬受限場景中效果尤為顯著,可大幅提升整體訓練效率。
![]()
由此可見,無論是面向智能運維推出的聯想智算網絡管理軟件,還是聯想萬全異構智算平臺在網絡能力上的深度調優,其背后都體現出聯想不止于提供網絡數據傳輸的“管道”,而是致力于從智能運維與底層通信兩個核心層面系統發力,推動AI算力基礎設施發揮出極致性能,這背后也標志著聯想數據網絡產品線成功實現了從提供單一網絡硬件設備,到交付智能運維與全局性能優化系統能力的關鍵跨越。
當然,這一系列創新,最終目標都是為了降低企業應用AI的技術門檻與總擁有成本,推動AI算力邁向高效、普惠的“極速時代”,為千行百業的智能化轉型提供更強大、更易用和更可靠的堅實網絡底座。
從這個意義上說,聯想正在鋪設的,是一條讓智能算力暢通無阻的“高速網絡”,這張以“軟硬一體”能力織就的網絡,已成為千行百業邁向智能化未來的關鍵“通行證”,其價值可謂:“不止于當下,更關乎未來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.