![]()
國(guó)內(nèi)首款原生RDMA高速網(wǎng)絡(luò)系統(tǒng)。
3月12日,中科曙光在鄭州舉辦“智聯(lián)芯基 網(wǎng)擎未來(lái)”高速網(wǎng)絡(luò)產(chǎn)品發(fā)布會(huì),正式推出全棧自研400G無(wú)損高速網(wǎng)絡(luò)scaleFabric。該產(chǎn)品從底層112GSerDesIP、網(wǎng)卡與交換核心芯片,到網(wǎng)卡、交換機(jī)硬件,再到上層驅(qū)動(dòng)、管理軟件實(shí)現(xiàn)100%自主研發(fā),是國(guó)內(nèi)首款原生RDMA高速網(wǎng)絡(luò)系統(tǒng)。
據(jù)了解,該產(chǎn)品已實(shí)現(xiàn)量產(chǎn)現(xiàn)貨交付,并在國(guó)家超算互聯(lián)網(wǎng)位于鄭州的核心節(jié)點(diǎn)完成萬(wàn)卡級(jí)集群落地部署,徹底打破國(guó)外高端高速網(wǎng)絡(luò)長(zhǎng)期壟斷,為我國(guó)超大規(guī)模智算基礎(chǔ)設(shè)施建設(shè)筑牢自主可控根基。
![]()
打破海外壟斷:
國(guó)產(chǎn)高速網(wǎng)絡(luò)迎來(lái)全棧自主突破
長(zhǎng)期以來(lái),全球高端高速網(wǎng)絡(luò)市場(chǎng)被海外廠商主導(dǎo),從高速互聯(lián)IP、交換芯片到InfiniBand(IB)網(wǎng)卡、交換機(jī),再到配套軟件生態(tài),整條產(chǎn)業(yè)鏈高度集中,形成技術(shù)與市場(chǎng)雙重壁壘。隨著人工智能大模型邁入萬(wàn)億參數(shù)時(shí)代,算力集群全面進(jìn)入萬(wàn)卡、十萬(wàn)卡級(jí)別,低時(shí)延、高帶寬、全程無(wú)損的RDMA網(wǎng)絡(luò)成為智算集群的“算力大動(dòng)脈”,傳統(tǒng)以太網(wǎng)難以滿足嚴(yán)苛性能需求,而國(guó)外專(zhuān)用網(wǎng)絡(luò)方案不僅成本高昂,更面臨供應(yīng)鏈與技術(shù)“卡脖子”風(fēng)險(xiǎn),自主可控的高性能高速網(wǎng)絡(luò)成為我國(guó)算力產(chǎn)業(yè)發(fā)展的迫切剛需。
中科曙光高級(jí)副總裁李斌在發(fā)布會(huì)上表示,計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)是超算與智算系統(tǒng)的三大核心子系統(tǒng)。在中小規(guī)模算力場(chǎng)景中,網(wǎng)絡(luò)重要性相對(duì)靠后;但在萬(wàn)卡以上超大規(guī)模集群中,網(wǎng)絡(luò)直接決定系統(tǒng)性能下限,網(wǎng)絡(luò)瓶頸甚至?xí)屨w算力效率歸零。過(guò)去二十余年,曙光超算系統(tǒng)從早期采用Myrinet網(wǎng)絡(luò),到后續(xù)全面切換InfiniBand,已將國(guó)外高速網(wǎng)絡(luò)技術(shù)應(yīng)用到極為熟練,但供應(yīng)鏈與技術(shù)壟斷風(fēng)險(xiǎn),讓自主研發(fā)成為必由之路。
![]()
依托多年超算與智算系統(tǒng)研發(fā)積淀,曙光投入三年時(shí)間,完成scaleFabric全棧自研突破,實(shí)現(xiàn)從核心芯片到整機(jī)、從硬件到軟件、從性能到生態(tài)的全面自主。本次發(fā)布會(huì)推出的scaleFabric400系列包含三款主力產(chǎn)品:scaleFabric400單口標(biāo)準(zhǔn)網(wǎng)卡、scaleFabric4001U80口液冷交換機(jī)、scaleFabric4002U80口風(fēng)冷交換機(jī),全面覆蓋液冷和風(fēng)冷數(shù)據(jù)中心部署需求,可平滑向800G速率演進(jìn)。
scaleFabric的核心是兩顆完全自主研發(fā)的高速網(wǎng)絡(luò)芯片。其中,網(wǎng)卡芯片支持400G帶寬,搭載自研RDMA引擎,端到端RDMA時(shí)延低至0.93微秒;交換芯片實(shí)現(xiàn)64T雙向交換容量,采用VCT架構(gòu),轉(zhuǎn)發(fā)時(shí)延低至260納秒。兩款芯片均搭載曙光自研112G高速SerDesIP,在42db衰減下實(shí)現(xiàn)百萬(wàn)分之一誤碼率,具備優(yōu)異的信號(hào)完整性與鏈路適配能力。
在關(guān)鍵性能指標(biāo)上,scaleFabric全面對(duì)標(biāo)國(guó)際主流NDR產(chǎn)品,部分指標(biāo)實(shí)現(xiàn)超越:交換機(jī)端口密度達(dá)到80口400G,較傳統(tǒng)64口方案提升25%,大幅降低組網(wǎng)成本;單卡最大QP數(shù)支持256K,是常規(guī)方案的兩倍,更好支撐大規(guī)模并行計(jì)算;突破傳統(tǒng)IB協(xié)議不足5萬(wàn)卡的規(guī)模上限,單子網(wǎng)最大可支持11.4萬(wàn)卡集群部署,擴(kuò)展能力提升2.33倍;整體組網(wǎng)成本下降30%,兼顧高性能與普惠性。
作為原生無(wú)損RDMA網(wǎng)絡(luò),scaleFabric采用與InfiniBand一致的信用機(jī)制與鏈路重傳機(jī)制,從硬件層面實(shí)現(xiàn)全程無(wú)損,無(wú)需復(fù)雜調(diào)優(yōu)即可穩(wěn)定運(yùn)行,徹底解決RoCE網(wǎng)絡(luò)依賴(lài)大量配置優(yōu)化才能接近無(wú)損的痛點(diǎn)。同時(shí),曙光自研鏈路故障路由快速恢復(fù)技術(shù),將故障恢復(fù)時(shí)間降至毫秒級(jí),且時(shí)延不隨集群規(guī)模擴(kuò)大而增長(zhǎng),保障萬(wàn)卡級(jí)集群業(yè)務(wù)無(wú)感運(yùn)行。
為驗(yàn)證產(chǎn)品可靠性,曙光在內(nèi)部完成累計(jì)50萬(wàn)小時(shí)設(shè)備穩(wěn)定測(cè)試、1100萬(wàn)小時(shí)端口鏈路測(cè)試,并完成超100項(xiàng)極端環(huán)境驗(yàn)證,確保在復(fù)雜場(chǎng)景下長(zhǎng)期穩(wěn)定。經(jīng)過(guò)三個(gè)月規(guī)模化場(chǎng)景打磨與三個(gè)月量產(chǎn)準(zhǔn)備,scaleFabric已實(shí)現(xiàn)現(xiàn)貨交付,具備即插即用能力,可快速支撐各類(lèi)智算、超算集群部署。
中國(guó)工程院院士鄔賀銓在線上致辭中指出,scaleFabric是國(guó)內(nèi)首款自主研發(fā)的原生RDMA高速網(wǎng)絡(luò)系統(tǒng),經(jīng)規(guī)模化實(shí)踐驗(yàn)證,打破國(guó)外技術(shù)壟斷,補(bǔ)齊國(guó)產(chǎn)高速網(wǎng)絡(luò)短板,對(duì)保障國(guó)家算力基建安全、推動(dòng)智算產(chǎn)業(yè)高質(zhì)量發(fā)展意義重大。
![]()
中國(guó)信通院云計(jì)算與數(shù)字化研究所云計(jì)算部副主任鄭立指出,超大規(guī)模智算集群已成全球AI競(jìng)爭(zhēng)焦點(diǎn),而當(dāng)前智算網(wǎng)絡(luò)普遍面臨時(shí)延過(guò)高、算網(wǎng)協(xié)同難、運(yùn)維難等瓶頸,傳統(tǒng)RDMA實(shí)現(xiàn)路徑存在生態(tài)封閉或性能短板問(wèn)題,倒逼行業(yè)走向融合與自研。scaleFabric的發(fā)布,將助力我國(guó)搶占下一代AI算力制高點(diǎn)。鄭立表示,信通院將聯(lián)合中科曙光等企事業(yè)單位共同推進(jìn)智算網(wǎng)絡(luò)行業(yè)標(biāo)準(zhǔn)制定,打通底層資源壁壘。
落地萬(wàn)卡集群:
scaleFabric賦能?chē)?guó)家算力新基座
本次發(fā)布會(huì)不僅實(shí)現(xiàn)產(chǎn)品發(fā)布,更同步宣告scaleFabric已在國(guó)家超算互聯(lián)網(wǎng)位于鄭州的核心節(jié)點(diǎn)完成部署,支撐三套萬(wàn)卡級(jí)scaleX智算集群正式上線,總規(guī)模達(dá)3萬(wàn)卡,網(wǎng)絡(luò)部署僅用時(shí)36小時(shí),目前已累計(jì)服務(wù)上萬(wàn)客戶(hù)、承載十萬(wàn)級(jí)以上作業(yè),穩(wěn)定運(yùn)行表現(xiàn)獲得用戶(hù)高度認(rèn)可。
依托scaleFabric高速網(wǎng)絡(luò),曙光構(gòu)建全國(guó)產(chǎn)“算、存、傳”一體化架構(gòu),將計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)從獨(dú)立設(shè)計(jì)轉(zhuǎn)向深度協(xié)同,通過(guò)高速互聯(lián)、分布式存儲(chǔ)、GPU直連通信、NUMA拓?fù)鋬?yōu)化四項(xiàng)關(guān)鍵技術(shù),大幅降低通信與IO延遲,提升整體算力利用率。
作為scaleFabric的核心載體,曙光scaleX智算集群系統(tǒng)采用高密度集成設(shè)計(jì),單機(jī)柜可集成640張GPU加速卡,采用正交互聯(lián)網(wǎng)絡(luò)架構(gòu)與浸沒(méi)式相變液冷技術(shù),功率密度最高支持860千瓦,顯著提升數(shù)據(jù)中心能效,適配超大規(guī)模智算集群需求。
在智能運(yùn)維層面,曙光同步推出scaleFabricAIInfra全棧智能運(yùn)維方案,具備自動(dòng)化配置管理、性能壓測(cè)篩查、故障診斷自愈、多維度監(jiān)控、智能運(yùn)維、數(shù)字孿生六大核心能力。系統(tǒng)可支持百萬(wàn)級(jí)設(shè)備、端口、光模塊集中管理,自動(dòng)完成拓?fù)浒l(fā)現(xiàn)、版本管控與配置部署,30小時(shí)內(nèi)完成三套萬(wàn)卡集群上線;通過(guò)主動(dòng)壓測(cè)可發(fā)現(xiàn)90%以上隱性性能風(fēng)險(xiǎn),集群利用率提升20%以上;結(jié)合AI大模型與運(yùn)維知識(shí)庫(kù),實(shí)現(xiàn)日志智能解析、自然語(yǔ)言查詢(xún)與故障自動(dòng)定位,降低大規(guī)模集群運(yùn)維門(mén)檻。
發(fā)布會(huì)上,多位行業(yè)用戶(hù)分享scaleFabric實(shí)際應(yīng)用成果:中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員王展表示,作為首批scaleFabric用戶(hù),該產(chǎn)品在分子動(dòng)力學(xué)模擬等科學(xué)智能場(chǎng)景表現(xiàn)突出,單QP通信性能、多QP并發(fā)、跨NUMA域時(shí)延等指標(biāo)優(yōu)異,交換機(jī)轉(zhuǎn)發(fā)時(shí)延與國(guó)際頂尖IB產(chǎn)品相當(dāng),在鄭州超算節(jié)點(diǎn)4096卡至1萬(wàn)卡規(guī)模測(cè)試中,跨節(jié)點(diǎn)帶寬接近片內(nèi)互聯(lián)水平,可無(wú)縫支撐科學(xué)計(jì)算第五范式落地。
科大訊飛AI工程院智算基礎(chǔ)設(shè)施架構(gòu)師鮑中帥介紹,科大訊飛星火大模型是全國(guó)產(chǎn)算力訓(xùn)練的通用大模型,scaleFabric在鄭州萬(wàn)卡集群中完成模型適配,依托高帶寬、低時(shí)延特性,支撐大模型訓(xùn)練與推理高效運(yùn)行。同時(shí),曙光開(kāi)放生態(tài)支持RoCE與IB雙路線演進(jìn),雙方聯(lián)合完成以太網(wǎng)無(wú)損優(yōu)化與故障診斷工具開(kāi)發(fā),為國(guó)產(chǎn)智算基礎(chǔ)設(shè)施規(guī)模化落地提供示范。
為推動(dòng)國(guó)產(chǎn)高速網(wǎng)絡(luò)生態(tài)成熟,發(fā)布會(huì)現(xiàn)場(chǎng)正式成立光合組織高性能計(jì)算專(zhuān)委會(huì)、AIDC高速網(wǎng)絡(luò)工作組,中科曙光聯(lián)合、聯(lián)想開(kāi)天、中興通訊、科大訊飛等發(fā)起單位,共同推進(jìn)高速網(wǎng)絡(luò)標(biāo)準(zhǔn)、接口、協(xié)議開(kāi)放合作,打通芯片、整機(jī)、軟件、應(yīng)用全鏈條,加速?lài)?guó)產(chǎn)InfiniBand生態(tài)落地,筑牢國(guó)家算力安全屏障。
李斌表示,面向未來(lái),公司對(duì)將scaleFabric打造為國(guó)內(nèi)規(guī)模化普及、普惠易用的高速網(wǎng)絡(luò)產(chǎn)品充滿信心,秉持開(kāi)放理念,與用戶(hù)、國(guó)內(nèi)算力芯片廠商、計(jì)算及系統(tǒng)整機(jī)廠商等產(chǎn)業(yè)鏈上下游伙伴,在網(wǎng)絡(luò)標(biāo)準(zhǔn)、接口、協(xié)議及合作商業(yè)模式等領(lǐng)域開(kāi)展全方位開(kāi)放協(xié)作。呼吁各方攜手推進(jìn)InfiniBand國(guó)產(chǎn)化進(jìn)程,以產(chǎn)業(yè)協(xié)同夯實(shí)高速網(wǎng)絡(luò)生態(tài)根基,筑牢國(guó)家算力安全屏障。
采寫(xiě):李洪力
編輯:洪力
指導(dǎo):新文
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.