在數(shù)字化與智能化浪潮的驅(qū)動下,AI 正成為推動科研進步與產(chǎn)業(yè)升級的核心引擎。無論是氣象模擬、海洋研究,還是醫(yī)藥研發(fā)、工業(yè)設(shè)計,算力已逐漸演變?yōu)殛P(guān)鍵資源,而智算中心則成為這一進程的重要承載平臺。
在此背景下,北京正陽恒卓科技有限公司(以下簡稱“正陽恒卓”)依托 NVIDIA 全棧式解決方案,為某超大型智算中心規(guī)劃并交付了1000PFlops@FP16規(guī)模的算力集群。項目以 NVIDIA H800 Tensor Core GPU 作為核心算力引擎,結(jié)合 NVIDIA Quantum InfiniBand 高速網(wǎng)絡(luò)與 NVIDIA UFM? 統(tǒng)一架構(gòu)管理平臺,構(gòu)建起覆蓋硬件基礎(chǔ)設(shè)施、軟件系統(tǒng)與運維服務(wù)的全生命周期方案。該超大型智算中心實現(xiàn)了計算、存儲與網(wǎng)絡(luò)資源的高效協(xié)同,在跨機房部署等復(fù)雜場景下依然能夠保障系統(tǒng)的穩(wěn)定性與可擴展性,最終將算力密度提升至行業(yè)領(lǐng)先水平。
超大規(guī)模智算集群建設(shè)挑戰(zhàn)
該超大型智算中心項目在規(guī)劃與實施階段面臨三重核心挑戰(zhàn):
其一,網(wǎng)絡(luò)架構(gòu)的極致性能需求。由于該超算中心面向氣候模擬、藥物研發(fā)等需要大規(guī)模并行計算與海量數(shù)據(jù)交互的前沿任務(wù),網(wǎng)絡(luò)架構(gòu)必須滿足極致的性能需求,計算網(wǎng)絡(luò)需實現(xiàn) 400Gbps 節(jié)點間通信,存儲網(wǎng)絡(luò)需達到 200Gbps 帶寬,同時整體延遲需控制在亞微秒級別,這對網(wǎng)絡(luò)拓撲設(shè)計與硬件選型提出嚴苛要求。
其二,大規(guī)模部署的物理限制。與以往同等規(guī)模項目通常需要 6-12 個月的建設(shè)周期相比,該項目必須在 3 個月內(nèi)完成跨 A、B 兩個機房的硬件集成,其中計算服務(wù)器位于 A 機房,存儲與安全設(shè)備部署于 B 機房,存儲網(wǎng)絡(luò)的跨機房布線需克服 200G AOC 線纜 100 米的傳輸距離限制。
其三,現(xiàn)場施工的適應(yīng)性調(diào)整,原設(shè)計采用上走線方案,但實際機房為下走線布局,導(dǎo)致線槽操作空間狹窄、焊接式設(shè)計穿線困難,工人需在無法站立行走的環(huán)境中作業(yè),直接影響施工進度與質(zhì)量。
系統(tǒng)性構(gòu)建高效可靠的 AI 算力集群
面對上述挑戰(zhàn),正陽恒卓基于其在智算中心建設(shè)領(lǐng)域的豐富經(jīng)驗,提出了一系列創(chuàng)新性解決方案。
●高速互連:借助 NVIDIA InfiniBand 構(gòu)建高效、低延遲的網(wǎng)絡(luò)架構(gòu)
NVIDIA Quantum InfiniBand 是全球唯一完全硬件卸載的網(wǎng)絡(luò)計算平臺,具備卓越的數(shù)據(jù)吞吐量和端口密度,并支持網(wǎng)絡(luò)自愈、增強服務(wù)質(zhì)量 (QoS)、擁塞控制和動態(tài)路由等特性,使數(shù)據(jù)中心能夠以更低的成本和復(fù)雜性實現(xiàn)出色性能和更高的總體應(yīng)用程序吞吐量。
在網(wǎng)絡(luò)架構(gòu)設(shè)計上,正陽恒卓采用了NVIDIA Quantum QM9790 NDR 400G InfiniBand 交換機作為核心交換設(shè)備,構(gòu)建了無阻塞胖樹組網(wǎng)架構(gòu)(包含 8 臺 Spine 交換機和 16 臺 Leaf 交換機)(見下圖)。這種架構(gòu)保證了任意節(jié)點間的數(shù)據(jù)傳輸路徑始終等價,避免了網(wǎng)絡(luò)擁塞和帶寬瓶頸,從而實現(xiàn)超低延遲和超高吞吐量,支撐現(xiàn)代工作負載在性能加速、可擴展性和功能豐富性方面的需求。
![]()
NVIDIA Quantum QM9790 NDR 400G InfiniBand 交換機
同時,部署了 1000 多條 400G MPO 線纜確保高速連接,總長度達 20 公里,通過精細化的機柜空間規(guī)劃和布線路徑設(shè)計,實現(xiàn)了高密度互連與穩(wěn)定的高速傳輸,有效保障了大規(guī)模集群的高效運行。
![]()
某大型智算中心網(wǎng)絡(luò)架構(gòu)設(shè)計
存儲網(wǎng)絡(luò)方面,采用NVIDIA Quantum QM8790 HDR 200G InfiniBand 交換機作為核心設(shè)備,構(gòu)建了 Spine-Leaf 架構(gòu)(10 臺 Spine 和 11 臺 Leaf)(見下圖),使用 400 多條 200G AOC 線纜進行連接,這一架構(gòu)不僅保證了存儲節(jié)點之間的多路徑并行訪問能力,顯著提升了 I/O 并發(fā)處理效率,還能在大規(guī)模并發(fā)讀寫時保持穩(wěn)定的低延遲表現(xiàn)。
![]()
NVIDIA Quantum QM8790 HDR 200G InfiniBand 交換機
此外,NVIDIA InfiniBand 的 SHARP? 技術(shù)可卸載聚合通信運算、減少數(shù)據(jù)傳輸量并縮短消息傳遞時間;網(wǎng)絡(luò)自愈功能能快速應(yīng)對鏈路故障,實現(xiàn)遠超軟件方案的恢復(fù)速度;成熟的服務(wù)質(zhì)量機制提供高級擁塞控制和動態(tài)路由;并支持多種網(wǎng)絡(luò)拓撲及優(yōu)化路由算法,從而進一步提升整體數(shù)據(jù)中心的吞吐效率和穩(wěn)定性。
由此,整體系統(tǒng)在實際運行中實現(xiàn)了 1TB/s 級別的數(shù)據(jù)流動,為大數(shù)據(jù)分析、AI 訓(xùn)練和科學(xué)計算工作負載提供了極高的存儲吞吐能力。
![]()
某大型智算中心存儲網(wǎng)絡(luò)架構(gòu)
●復(fù)雜部署環(huán)境中的施工優(yōu)化與調(diào)整
為解決跨機房布線難題,正陽恒卓團隊需要克服 200G AOC 線纜最長 100 米的物理傳輸限制,而計算與存儲設(shè)備分屬 A、B 兩個機房,距離接近極限。如果交換機位置稍有偏差,就可能導(dǎo)致線纜超長、信號衰減甚至無法部署。針對這一困難,項目團隊通過精確測量機房間距與設(shè)備位置,反復(fù)推演布線方案,最終合理規(guī)劃交換機安裝位置,確保所有跨機房連接線纜連接都嚴格控制在 100 米限制內(nèi)。同時,跨機房 AOC 線纜采用了特殊保護套管,防止線纜受損,并在關(guān)鍵路徑部署了冗余連接,保證了整體網(wǎng)絡(luò)的穩(wěn)定性和安全性。
高壓之下,項目團隊在僅有不到 1 周時間內(nèi)完成了走線方案的全面重新設(shè)計,制定了精確到機柜和管槽的的下走線規(guī)劃圖,并通過線纜長度自動計算工具快速生成并更新了上千條線纜的采購清單。這一過程不僅需要工程師對現(xiàn)場環(huán)境進行反復(fù)測量和建模,還要在極短時間內(nèi)完成從設(shè)計到采購的全鏈條閉環(huán)。為保障進度,正陽恒卓同步優(yōu)化了施工計劃與人員安排,將原本順序式的施工轉(zhuǎn)為多工序并行,增派數(shù)十名工程人員分批次開展布線作業(yè),確保在擁擠、工人無法站立的機柜底部空間中依然能夠有序推進。對于不合理的焊接式線槽,項目團隊還協(xié)調(diào)相關(guān)方拆除并重新設(shè)計為卡扣式線槽,大幅提高了穿線效率,最終在緊迫工期內(nèi)完成了高密度布線任務(wù)。
●NVIDIA UFM 平臺賦能智算中心的智能化運維
在軟件與管理層面,正陽恒卓為該超大型智算中心引入了NVIDIA UFM 平臺,這一平臺能夠?qū)崟r監(jiān)控網(wǎng)絡(luò)的性能與健康狀態(tài),提供自動化故障診斷與報警,以及流量分析與優(yōu)化建議。NVIDIA UFM 平臺將增強的實時網(wǎng)絡(luò)遙測與 AI 驅(qū)動的網(wǎng)絡(luò)智能和分析相結(jié)合,為 InfiniBand 高性能數(shù)據(jù)中心網(wǎng)絡(luò)的高效調(diào)配、監(jiān)控、管理和預(yù)防性故障排除提供了強大支持。
![]()
打造科學(xué)計算平臺,支撐多領(lǐng)域科研突破
通過正陽恒卓專業(yè)的技術(shù)方案和高效的落地實施,該智算中心項目在 NVIDIA 網(wǎng)絡(luò)解決方案的賦能下取得了顯著成果。
通過精準的網(wǎng)絡(luò)架構(gòu)設(shè)計與優(yōu)化部署,該超大型智算中心實現(xiàn)了穩(wěn)定、高效的集群互連。這不僅充分發(fā)揮了 NVIDIA InfiniBand 網(wǎng)絡(luò)技術(shù)的潛力,還確保大規(guī)模分布式訓(xùn)練能夠順利進行,實現(xiàn)了規(guī)模擴展和硬件升級帶來的性能提升。
系統(tǒng)穩(wěn)定運行表現(xiàn)同樣令人印象深刻,項目交付后持續(xù)穩(wěn)定運行,實現(xiàn)了網(wǎng)絡(luò)零宕機的優(yōu)秀記錄。這得益于 NVIDIA UFM 監(jiān)控系統(tǒng)能夠提前發(fā)現(xiàn)潛在問題,避免故障發(fā)生。
在支持科研突破方面,該智算中心已經(jīng)為多個大型科研項目提供了強大算力支持,加速了 AI 產(chǎn)業(yè)發(fā)展與數(shù)字化轉(zhuǎn)型,包括:
●氣象領(lǐng)域:參與精細化氣象預(yù)報,提高了天氣預(yù)報的準確性和時效性;
●海洋科學(xué):與高校合作開展海洋環(huán)境模擬,支持海洋生態(tài)系統(tǒng)研究和氣候變化分析;
●醫(yī)藥研發(fā):加速新藥分子篩選與蛋白質(zhì)結(jié)構(gòu)解析,縮短藥物研發(fā)周期;
●工業(yè)領(lǐng)域:支持重工領(lǐng)域在高端裝備制造中的仿真設(shè)計,大幅降低研發(fā)成本;
●大型科技項目:支撐大飛機、深空探測等大型科技項目的計算需求。
AI 基礎(chǔ)設(shè)施建設(shè)是一個系統(tǒng)工程,需要從硬件到軟件進行全面系統(tǒng)性開發(fā),并將具備穩(wěn)定性和高效性的技術(shù)進行封裝,對用戶盡可能透明。正陽恒卓通過這一項目,展示了高性能、高穩(wěn)定性如何成為智算中心的基本能力和發(fā)展趨勢。
構(gòu)建智算生態(tài)新格局
這一超大型智算中心項目的成功,不僅推動了科研與產(chǎn)業(yè)的融合發(fā)展,也為智算建設(shè)積累了寶貴經(jīng)驗。正陽恒卓計劃將該項目的成功實踐推廣至更多大型智算中心,并與高校共建聯(lián)合實驗室,培養(yǎng)新一代科學(xué)計算人才。
作為 NVIDIA 網(wǎng)絡(luò)產(chǎn)品精英級合作伙伴,未來,正陽恒卓致力于將領(lǐng)先的智算中心網(wǎng)絡(luò)解決方案應(yīng)用于各行各業(yè),助力更多行業(yè)實現(xiàn)智能化轉(zhuǎn)型與升級,探索智算中心在智慧城市、生命科學(xué)、工業(yè)互聯(lián)網(wǎng)等更多應(yīng)用場景中的潛力
*與 NVIDIA 產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權(quán)均歸 NVIDIA Corporation 所有。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.