<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      讓萬卡算力火力全開,沒那么復(fù)雜,國產(chǎn)AI算力,滿血前進(jìn)

      0
      分享至



      讓中國算力更好地跑在中國網(wǎng)絡(luò)上。

      萬卡集群已成AI算力標(biāo)配,而決定有效算力上限的關(guān)鍵——網(wǎng)絡(luò)卻成掣肘。當(dāng)前業(yè)界要么選供應(yīng)鏈風(fēng)險高的海外IB方案,要么選需專業(yè)團(tuán)隊反復(fù)調(diào)參的RoCE方案。

      近日,中科曙光發(fā)布了首款原生無損RDMA高速網(wǎng)絡(luò)scaleFabric。它試圖打破不用復(fù)雜調(diào)優(yōu),也能讓AI集群跑出“滿血”性能的行業(yè)僵局。



      1.網(wǎng)絡(luò)成AI算力之踵

      很長一段時間里,提升算力的思路很簡單:堆疊GPU。但在真實的萬卡集群中,事情遠(yuǎn)沒有這么容易。

      若把萬卡集群比作一座超大規(guī)模城市,GPU是住宅,CPU是工廠,那么網(wǎng)絡(luò)就是連接一切的“道路交通系統(tǒng)”。

      傳統(tǒng)RoCE方案中,這座城市的交通規(guī)則極其復(fù)雜:為了避免數(shù)據(jù)包“堵車”(丟包),工程師們設(shè)計了各種復(fù)雜的“紅綠燈系統(tǒng)”(PFC流控)和“導(dǎo)航策略”(ECN擁塞控制)。

      這套系統(tǒng)能運轉(zhuǎn),但異常脆弱。有人形象地比喻:RoCE網(wǎng)絡(luò)就像“一腳油門一腳剎車”,為了不撞車,必須時刻緊繃神經(jīng)。

      究其根源,RoCE本質(zhì)是在傳統(tǒng)以太網(wǎng)基礎(chǔ)上“打補丁”,通過PFC(基于優(yōu)先級的流量控制)機制模擬無損環(huán)境。一旦流量突發(fā),緩沖區(qū)瞬間占滿,PFC就會像連鎖反應(yīng)般層層傳導(dǎo),這腳“急剎車”,極易引發(fā)網(wǎng)絡(luò)擁塞的鏈?zhǔn)椒磻?yīng),造成吞吐驟降,甚至全局死鎖的風(fēng)險。

      這正是當(dāng)前AI基建領(lǐng)域的隱秘痛點。

      大多數(shù)企業(yè)沒有互聯(lián)網(wǎng)大廠那樣的專家團(tuán)隊,無法常年累月地“調(diào)水線”、優(yōu)化擁塞控制算法。對他們而言,要跑出理想的訓(xùn)練性能,往往要在部署周期和運維復(fù)雜度上付出巨大代價。

      2.用原生網(wǎng)絡(luò)解決“堵車”


      有沒有一種方案,能從底層設(shè)計上規(guī)避這種復(fù)雜性?曙光scaleFabric給出的答案是:回歸“原生”。

      RDMA技術(shù)有三條路徑:IB、RoCE和iWARP。其中,RoCE是在廣泛部署的以太網(wǎng)“公路”上,通過疊加復(fù)雜的流量控制規(guī)則(PFC/ECN)來構(gòu)建“高速無損”通道;而InfiniBand(IB)則是為高性能計算量身定制的“高速鐵路”,其基于信用的流控機制是與生俱來的核心設(shè)計,如同集中調(diào)度、無紅綠燈的高鐵軌道交通系統(tǒng)。

      曙光此次發(fā)布的scaleFabric,是國內(nèi)首個類InfiniBand原生無損RDMA方案,它不是在以太網(wǎng)的舊土壤上修修補補,而是從底層112G PAM4高速Serdes IP,到交換芯片、網(wǎng)卡芯片,再到軟件平臺,完成了全棧自研的徹底革新。



      這種“原生”帶來的最直觀改變,就是“即插即用”。

      基于信用的流控機制(Credit-based Flow Control),是IB網(wǎng)絡(luò)與生俱來的優(yōu)勢。數(shù)據(jù)傳輸前發(fā)送端會先確認(rèn)接收端有足夠“空位”(緩沖區(qū))再發(fā)車,從根本上杜絕了因資源不足導(dǎo)致的丟包。

      相比之下,RoCE的PFC機制,往往是在接收端快撐不住時才“叫停”,這腳“急剎車”本身,就已埋下風(fēng)險隱患,往往伴隨網(wǎng)絡(luò)性能斷崖性下跌或死鎖風(fēng)險。

      這意味著,采用曙光scaleFabric的AI集群,不再需要工程師反復(fù)估算、調(diào)整那根懸在頭頂?shù)摹八€”。

      網(wǎng)絡(luò)終于回歸基礎(chǔ)設(shè)施的本色:穩(wěn)定、安靜,且高效。

      3.部署從“天”到“小時”


      底層架構(gòu)的差異,最終體現(xiàn)在用戶最敏感的“建設(shè)周期”和“持有成本”上。

      在鄭州國家超算互聯(lián)網(wǎng)核心節(jié)點,曙光scaleFabric經(jīng)歷了一場嚴(yán)苛考驗:3套萬卡集群同步上線,從上電到完成網(wǎng)絡(luò)調(diào)試部署,僅用了36個小時。

      這是什么概念?

      傳統(tǒng)RoCE組網(wǎng)方案中,僅一個千卡集群的調(diào)優(yōu),就往往以“周”為單位,涉及PFC死鎖檢測、ECN水線調(diào)整、擁塞控制策略適配等一系列復(fù)雜操作。若面對萬卡級別規(guī)模,配置復(fù)雜度和故障排查難度會指數(shù)級上升,部署周期拖至數(shù)月也并不罕見。

      scaleFabric能實現(xiàn)36小時完成三萬卡集群部署,核心在于其集中管控、分布式轉(zhuǎn)發(fā)的架構(gòu)。如果說RoCE是分布式的“各自為政”,每臺設(shè)備都需要單獨調(diào)試,那么scaleFabric就像軌道交通的“集中控制”:子網(wǎng)管理系統(tǒng)如同全局調(diào)度員,上電3分鐘內(nèi)即可自動發(fā)現(xiàn)全網(wǎng)拓?fù)洹⑼瓿陕酚捎嬎悖瑢崿F(xiàn)一鍵下發(fā)。 對運維人員而言,相當(dāng)于從“救火隊員”變身“指揮官”。



      這種快速的部署與穩(wěn)定運維能力,得到了來自產(chǎn)品研發(fā)一線的證實。 中科曙光高端計算總工程師解西國在發(fā)布會上詳細(xì)介紹了支撐scaleFabric的智能運維體系。他指出,該體系基于網(wǎng)絡(luò)豐富的監(jiān)控數(shù)據(jù),構(gòu)建了自動化配置管理、主動性能壓測、全棧監(jiān)控、故障診斷自愈、智能分析和數(shù)字孿生可視化六大核心能力。這套系統(tǒng)能夠自動發(fā)現(xiàn)并管理百萬量級的設(shè)備與端口,并通過主動壓測提前發(fā)現(xiàn)90%以上的隱性性能風(fēng)險,從而將集群算力利用率提升20%以上。當(dāng)故障發(fā)生時,能實現(xiàn)毫秒級的鏈路快速恢復(fù),并通過智能體與運維知識庫結(jié)合,顯著降低超大規(guī)模網(wǎng)絡(luò)的運維門檻。

      當(dāng)一條鏈路故障時,scaleFabric的快速容錯路由能在毫秒級完成切換,且恢復(fù)時間不隨網(wǎng)絡(luò)規(guī)模增長而延長;而在RoCE網(wǎng)絡(luò)中,路由收斂往往需要秒級。這期間的訓(xùn)練中斷和回滾,可能意味著幾十萬甚至上百萬的經(jīng)濟(jì)損失。

      4.TCO降低30%的背后

      長期以來,企業(yè)在IB和RoCE之間的糾結(jié),本質(zhì)是“性能”與“成本”的博弈:IB雖好,但價格昂貴、供應(yīng)不穩(wěn);RoCE開放,但隱性運維成本極高。

      曙光試圖在這場“不可能三角”中找到平衡點。

      首先是顯性成本。通過自研高密度交換芯片(單芯片支持80個400G端口或40個800G口),scaleFabric的組網(wǎng)密度較同類產(chǎn)品提升25%。



      這意味著組建同等規(guī)模集群時,所需交換機、光模塊和線纜數(shù)量大幅減少,綜合下來,總體網(wǎng)絡(luò)成本較海外主流IB方案降低約30%。

      其次是隱性成本——這也是最容易被忽視的部分。

      很多企業(yè)選擇RoCE,以為抓住了“性價比”,最終卻需要雇傭高薪專家團(tuán)隊常年調(diào)優(yōu)。RoCE廠商常宣稱產(chǎn)品支持自動調(diào)節(jié)水線,但問及具體實現(xiàn)方式,答案往往是模糊的“AI/強化學(xué)習(xí)”,缺乏可落地的明確路徑。

      而scaleFabric的“原生無損”特性,極大降低了對運維人員經(jīng)驗的依賴。它把網(wǎng)絡(luò)配置從一門依賴直覺的“藝術(shù)”,變成了一門標(biāo)準(zhǔn)化的“科學(xué)”。

      對于大多數(shù)不具備互聯(lián)網(wǎng)大廠自研能力的傳統(tǒng)企業(yè)、科研機構(gòu)和高校計算中心而言,這種“開箱即用”的確定性,本身就是最大的性價比。

      這種“確定性”直接轉(zhuǎn)化為可量化的系統(tǒng)效能提升。 中科曙光工業(yè)計算方案總監(jiān)姚浪從系統(tǒng)工程角度分析指出,在大規(guī)模并行計算中,計算、存儲、網(wǎng)絡(luò)任何一個環(huán)節(jié)成為瓶頸,整體效率都會急劇下降,在萬卡規(guī)模下,這種不平衡會被指數(shù)級放大。他以工業(yè)仿真為例,當(dāng)并行規(guī)模達(dá)到2048核時,通信時間占比可接近50%。姚浪提供的實測數(shù)據(jù)顯示,在并行計算場景中,采用scaleFabric的方案效率可達(dá)85%左右,而傳統(tǒng)RoCE方案效率約為65%,這意味著有效算力利用率可提升20%以上。 在商業(yè)軟件測試中,scaleFabric性能達(dá)到國際主流同類產(chǎn)品(英偉達(dá)NDR 400G網(wǎng)絡(luò))的96%-105%。這證明,選擇高性能網(wǎng)絡(luò)不僅是保障穩(wěn)定,更是直接提升算力資產(chǎn)回報率的關(guān)鍵。

      5.跑贏AI算力的開放邏輯


      scaleFabric的意義,遠(yuǎn)不止一款產(chǎn)品的問世,更在于它為中國AI算力生態(tài),提供了一個“開放的基礎(chǔ)設(shè)施基座”。

      中科曙光并未選擇封閉自研的路線。在光合組織AI計算開放架構(gòu)框架下,曙光牽頭成立“AIDC高速網(wǎng)絡(luò)工作組”,攜手十多家軟硬件合作伙伴,共同開展場景化方案的聯(lián)合研發(fā)。

      scaleFabric不僅是國產(chǎn)的,更是開放的。



      它原生兼容IB應(yīng)用生態(tài),支持主流通信庫接口,PyTorch、OpenMPI等常用框架無需修改代碼,即可無縫遷移。

      其技術(shù)先進(jìn)性與開放兼容性,在科研與產(chǎn)業(yè)最前沿的應(yīng)用中得到了交叉驗證。 在科研領(lǐng)域,通信是制約算力擴(kuò)展的核心瓶頸。中國科學(xué)院計算技術(shù)研究所專家王展的測試結(jié)果顯示,scaleFabric在單QP通信性能、多QP性能以及端到端延遲等關(guān)鍵微觀指標(biāo)上,與國際領(lǐng)先產(chǎn)品相當(dāng)甚至部分更優(yōu)。王展特別指出,其“即插即用”的部署體驗和對國產(chǎn)CPU的良好耦合,為科學(xué)智能(AI for Science)這類前沿探索提供了可靠的底層支撐。

      在產(chǎn)業(yè)落地層面,scaleFabric瞄準(zhǔn)的是最嚴(yán)苛的超大規(guī)模智算場景。 科大訊飛AI工程院智算基礎(chǔ)設(shè)施架構(gòu)師鮑中帥結(jié)合產(chǎn)業(yè)實踐分享道,當(dāng)前AI發(fā)展正從訓(xùn)練擴(kuò)展到推理,亟需強大而穩(wěn)定的智算底座。曙光在鄭州國家超算互聯(lián)網(wǎng)核心節(jié)點部署的scaleX超集群,單機柜集成640張GPU加速卡,正是scaleFabric支撐超萬卡集群能力的集中體現(xiàn)。鮑中帥認(rèn)為,對于企業(yè)用戶而言,scaleFabric與RoCE并非簡單替代關(guān)系,而是針對不同場景的選項。 在追求極致性能、確定性和超大規(guī)模擴(kuò)展的智算集群中,原生無損的scaleFabric提供了關(guān)鍵基礎(chǔ);而在其他場景,產(chǎn)業(yè)界也在持續(xù)優(yōu)化RoCE方案。這種“雙軌”推進(jìn)的策略,體現(xiàn)了國產(chǎn)算力生態(tài)的務(wù)實與開放。

      與此同時,曙光正聯(lián)合產(chǎn)業(yè)鏈上下游,推動自主網(wǎng)絡(luò)標(biāo)準(zhǔn)的制定與優(yōu)化實踐,讓中國AI算力不再依賴單一技術(shù)路線的“舶來品”,走出一條“開放協(xié)作、共同定義”的自主發(fā)展之路。

      2026年伊始,中國移動就啟動了10億元RoCE交換機集采,而隨著國產(chǎn)原生RDMA技術(shù)的突破和產(chǎn)品落地,算力網(wǎng)絡(luò)的國產(chǎn)化替代也全面進(jìn)入深水區(qū)。

      中科曙光scaleFabric的出現(xiàn),不僅填補了國內(nèi)原生RDMA網(wǎng)絡(luò)的技術(shù)空白,更重要的是,它提供了一種新的范式思考:在追求極致性能的道路上,我們不一定要通過復(fù)雜度的飆升來換取。scaleFabric通過集中控制、信用流控和全棧自研,將底層復(fù)雜性徹底封裝。

      讓中國算力,更好地跑在中國網(wǎng)絡(luò)上。當(dāng)網(wǎng)絡(luò)不再需要費心“伺候”,當(dāng)部署周期從數(shù)月縮短至數(shù)十小時,AI創(chuàng)新的腳步,才能真正輕盈起來。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      江西女碩士失蹤,被發(fā)現(xiàn)時已在教授實驗室待6年,魔鬼真的存在

      江西女碩士失蹤,被發(fā)現(xiàn)時已在教授實驗室待6年,魔鬼真的存在

      燦爛夏天
      2025-02-10 20:20:13
      藿香正氣水兌白醋,作用太厲害了!一年省下幾百塊,家家用得到

      藿香正氣水兌白醋,作用太厲害了!一年省下幾百塊,家家用得到

      三農(nóng)老歷
      2026-03-27 10:03:22
      《逐玉》張凌赫被嘲“粉底液將軍”,央視都看不下去了,發(fā)文力挺

      《逐玉》張凌赫被嘲“粉底液將軍”,央視都看不下去了,發(fā)文力挺

      娛樂故事
      2026-03-26 17:11:11
      美媒評中國演員謝苗新片《火遮眼》“或成動作影史經(jīng)典”,該片5月29日北美上映,李連杰說很期待,聽說“超級牛”

      美媒評中國演員謝苗新片《火遮眼》“或成動作影史經(jīng)典”,該片5月29日北美上映,李連杰說很期待,聽說“超級牛”

      極目新聞
      2026-03-26 20:16:01
      67年毛主席離開武漢,空軍竟不放行,楊成武:不認(rèn)我這個代總長?

      67年毛主席離開武漢,空軍竟不放行,楊成武:不認(rèn)我這個代總長?

      史之銘
      2026-03-28 16:48:50
      中國拒絕出席G7峰會,法國表示將采取措施應(yīng)對

      中國拒絕出席G7峰會,法國表示將采取措施應(yīng)對

      二大爺觀世界
      2026-03-28 22:45:28
      中國有色央企龍頭創(chuàng)下歷史最優(yōu)業(yè)績,去年股價大漲市值創(chuàng)近15年新高

      中國有色央企龍頭創(chuàng)下歷史最優(yōu)業(yè)績,去年股價大漲市值創(chuàng)近15年新高

      澎湃新聞
      2026-03-28 21:34:27
      4連勝!加蘭30+5,倫納德28+8絕殺,西部前二難辦了,快船要沖冠

      4連勝!加蘭30+5,倫納德28+8絕殺,西部前二難辦了,快船要沖冠

      巴叔GO聊體育
      2026-03-28 14:30:14
      提醒老人付款,反遭辱罵,撞擊,店主反擊卻獲刑7個月,賠萬元?

      提醒老人付款,反遭辱罵,撞擊,店主反擊卻獲刑7個月,賠萬元?

      寒士之言本尊
      2026-03-28 12:25:24
      從世界第十到世界第一!西班牙這三年太猛了,德拉富恩特真神人

      從世界第十到世界第一!西班牙這三年太猛了,德拉富恩特真神人

      仰臥撐FTUer
      2026-03-28 20:16:09
      NBA分析師:詹姆斯2016年相當(dāng)于2庫里,比地球上任何人都出色得多

      NBA分析師:詹姆斯2016年相當(dāng)于2庫里,比地球上任何人都出色得多

      好火子
      2026-03-29 05:40:30
      老師穿短裙蕾絲襪上課,學(xué)生連頭都不敢抬!老師穿衣底線到底在哪

      老師穿短裙蕾絲襪上課,學(xué)生連頭都不敢抬!老師穿衣底線到底在哪

      小羽叨叨叨
      2026-03-26 13:24:34
      媒體人怒了!公開懟廣東教練組,矛頭對準(zhǔn)一人,杜鋒還有啥話講

      媒體人怒了!公開懟廣東教練組,矛頭對準(zhǔn)一人,杜鋒還有啥話講

      萌蘭聊個球
      2026-03-28 15:47:46
      特朗普已將霍爾木茲稱為“特朗普海峽” 伊朗:正制定戰(zhàn)爭結(jié)束條件,特朗普威脅:“下一個是古巴”

      特朗普已將霍爾木茲稱為“特朗普海峽” 伊朗:正制定戰(zhàn)爭結(jié)束條件,特朗普威脅:“下一個是古巴”

      每日經(jīng)濟(jì)新聞
      2026-03-28 11:48:19
      【2026.3.28】扒醬料不停:那些你不知道的八卦一二三

      【2026.3.28】扒醬料不停:那些你不知道的八卦一二三

      娛樂真爆姐
      2026-03-28 23:54:32
      這是41歲?布朗尼:上次跟我爸在家單挑,他直接把籃板扣碎了

      這是41歲?布朗尼:上次跟我爸在家單挑,他直接把籃板扣碎了

      懂球帝
      2026-03-28 16:10:11
      張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

      張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

      眼光很亮
      2026-03-27 16:04:09
      無需大量運動!《柳葉刀》:每天多動5分鐘、少坐半小時,足以顯著降低死亡風(fēng)險

      無需大量運動!《柳葉刀》:每天多動5分鐘、少坐半小時,足以顯著降低死亡風(fēng)險

      生物世界
      2026-03-25 16:05:30
      中國將迎人口死亡高峰!22年1041萬,23年1100萬,去年死亡多少?

      中國將迎人口死亡高峰!22年1041萬,23年1100萬,去年死亡多少?

      長歌侃娛
      2026-01-16 07:55:03
      斯諾克紅包賽:首日決出第5席8強,小鋼炮拒絕3連敗,NO.1或翻車

      斯諾克紅包賽:首日決出第5席8強,小鋼炮拒絕3連敗,NO.1或翻車

      劉姚堯的文字城堡
      2026-03-29 07:59:15
      2026-03-29 09:11:00
      甲子光年
      甲子光年
      中國科技產(chǎn)業(yè)化前沿智庫
      3388文章數(shù) 9262關(guān)注度
      往期回顧 全部

      科技要聞

      華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

      頭條要聞

      牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

      頭條要聞

      牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

      體育要聞

      全球第二大車企,也救不了這支德甲隊?

      娛樂要聞

      陳牧馳陳冰官宣得子 曬一家三口握拳照

      財經(jīng)要聞

      臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

      汽車要聞

      置換補貼價4.28萬起 第五代宏光MINIEV正式上市

      態(tài)度原創(chuàng)

      家居
      數(shù)碼
      時尚
      手機
      教育

      家居要聞

      曲線華爾茲 現(xiàn)代簡約

      數(shù)碼要聞

      小心假冒偽劣硬盤:山寨版三星990 Pro SSD已能偽造讀寫速度

      和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

      手機要聞

      與直板機坐一桌 OPPO Find N6躋身暢銷機榜單

      教育要聞

      喬會龍:請不要強迫他們做“大人”

      無障礙瀏覽 進(jìn)入關(guān)懷版