![]()
3月12日,中科曙光在鄭州正式發布全自研的scaleFabric高速網絡產品,并宣布其已在位于鄭州的國家超算互聯網核心節點成功部署了萬卡級國產智算集群。這一里程碑事件,標志著國產算力基礎設施在突破“卡脖子”關鍵環節上邁出了堅實一步。
然而,當國產算力剛剛叩開萬卡時代的大門,海外巨頭英偉達已宣稱構建了十萬卡甚至更大規模的集群。從萬卡到十萬卡,國產算力需要跨越的不僅是數字的鴻溝,更是技術、生態與系統工程的全面挑戰。
萬卡初成與十萬卡之距
“目前,從我知道的信息角度,曙光這個萬卡是唯一一個(全國產化集群)。”中國科學院計算技術研究所王展在與筆者的溝通中直言。他的判斷揭示了當前國產算力集群的一個現實:實現CPU、GPU、交換機芯片、網卡芯片全棧國產化的萬卡集群,曙光scaleX是已知的孤例。與之形成鮮明對比的是,英偉達憑借其CUDA生態與InfiniBand(簡稱IB)網絡,早已將集群規模推向了十萬卡級別,并持續探索更大規模。
在國家超算互聯網核心節點國產萬卡集群亮相之前,高速互聯領域的IB網絡技術長期被英偉達形成壟斷格局,其通過收購邁絡思掌握了IB網絡的核心技術,構筑起難以突破的技術壁壘,牢牢把控著全球高端算力集群的網絡核心環節,國內算力產業向超大規模發展的步伐,正因這一關鍵技術的 “卡脖子” 問題備受制約。
這不僅僅是數字上的差距,其背后反映的是系統性能力的代際落差。而曙光scaleX萬卡集群的成功落地,依托自研的scaleFabric 高速網絡實現了IB網絡技術的國產化突破,一舉打破了英偉達的技術壟斷,成功解決了這一領域的“卡脖子”難題。
中科曙光高級副總裁李斌告訴筆者,從萬卡到十萬卡的突破,最核心的技術挑戰并非來自計算節點本身,而在于互聯系統。當集群規模呈數量級增長時,如何保證計算效率的可擴展性、如何維持超高可靠性,成為壓倒性的難題。
無獨有偶,中國信通院云計算與數字化研究所的鄭立也曾公開表示,超大規模集群已成為國內外AI競爭的焦點。
據行業調查數據顯示,到2025年底,全球智算基礎設施投資規模巨大,而支撐下一代萬億乃至十萬億參數大模型,需要八萬到十萬卡左右的集群規模。國產算力若想參與這場頂級競賽,就必須攻克超大規模組網的技術壁壘。
李斌跟筆者算了一筆簡單的賬:規模從百卡放大到十萬卡,單點故障率即便極低,在系統層面也會被指數級放大。確保十萬張加速卡能夠高度協同、穩定持續運行數小時乃至數天完成一次大模型訓練,其技術復雜度呈幾何級數上升。
奇異摩爾聯合創始人、產品及解決方案副總裁祝俊東從互聯角度提供了更技術化的解讀。他將超大規模集群(Scale Out)的挑戰歸納為幾個核心點:
- 首先,隨著規模擴大,對交換機的交換帶寬和存儲容量提出了極高要求(如25.6T、51.2T乃至更高),這是國產化需要追趕的。
- 其次,更關鍵的挑戰在于端側(網卡)和協議層面。傳統基于IB或RoCEv2的協議面向的是“無損網絡”,但當集群規模達到萬卡乃至十萬卡時,網絡必然變為“有損網絡”。這將引發一系列連鎖問題:如何高效重傳、處理丟包、管理大規模擁塞?祝俊東表示,其公司通過自研的Kiwi Fabric協議棧,采用更快速的檢測與重傳機制,來應對這些挑戰。
- 然而,硬件和協議只是基礎。祝俊東和李斌都強調了生態協同的極端重要性。祝俊東指出,到了超大規模,需要網絡側、計算側、供電與機柜形態、上層控制系統進行整體協同。李斌則補充,這還需要與上層應用的算法和分布式訓練流程深度耦合。北京科技大學儲根深教授的優化實踐印證了這一點:通過利用GPU顯存直接互聯技術,將通信路徑優化,使萬卡規模下某些軟件的通信開銷從50%降至10%。這表明,硬件能力必須通過軟件棧的深度適配,才能轉化為實際性能。
實現十萬卡級別的國產算力集群,絕非將現有萬卡方案簡單線性放大。李斌清晰地指出了三個核心挑戰:大規模可靠性、與應用的深度協同、以及極高的軟件系統調優門檻。這構成了國產算力向超大規模進發的“三重門”。
挑戰一:超大規模下的可靠性“魔咒”。 可靠性是十萬卡集群的生命線。曙光信息產業(北京)有限公司副總裁李柳指出,未來萬卡、十萬卡集群可能是常態,每一次計算失敗背后都是巨大的成本損耗,“未來每算一次,我們爭取一次性算成功”。他強調,規模擴大后,故障率恢復時間都是指數級增長,因此高可靠性是比高帶寬、低延遲更重要的指標。
scaleFabric的設計正是圍繞此展開,其采用與InfiniBand(IB)相同的基于信用的流控機制,從理論上保證無損傳輸,避免因少量丟包引發的性能雪崩。同時,曙光研發了鏈路故障路由快速恢復技術,將故障恢復時間降至毫秒級且與規模無關,并進行了長達10個月、累計超50萬小時的設備穩定性測試。這些舉措旨在對抗規模效應下的可靠性衰減,但真正的考驗仍需在未來的十萬卡真實業務環境中持續驗證。
挑戰二:與算法流程的深度協同。 算力集群的高效協同,不僅取決于硬件,更取決于上層應用的算法和分布式訓練策略。李斌指出,集群能協同高效工作,“需要跟應用的算法和流程去高度的耦合”。這意味著硬件系統設計不能背離應用需求太遠。
北京科技大學 計算機與通信工程學院儲根深以其團隊在工程計算軟件上的優化實踐為例,展示了這種協同的價值。通過利用scaleFabric支持的GPU顯存直接互聯(GDR)技術,他們將通信路徑從“GPU->CPU內存->網絡->CPU內存->GPU”優化為“GPU顯存直通網絡到GPU顯存”,顯著降低了通信開銷。在其測試中,某些工程計算軟件的通信時間占比從50%降至10%,在萬卡規模下仍能保持較高的并行效率。這表明,硬件能力必須通過軟件棧的深度適配和優化,才能轉化為實際應用性能。然而,這種深度協同需要跨領域的專家團隊,既懂芯片與系統架構,又懂AI算法與分布式框架,目前國內此類復合型人才團隊仍顯稀缺。
挑戰三:極高的系統級調優門檻。 這是將硬件潛力充分釋放的關鍵,也是國內產業相對薄弱的環節。過去看,國內大模型工程化落地能力比較弱,有很強的算法能力,但到大規模系統上效率往往很低。真正讓萬卡以上集群性能發揮好,需要一支專業團隊進行從硬件到軟件的全棧調優。
科大訊飛AI工程院智算基礎設施架構師鮑中帥從用戶角度印證了這一點。他指出,國產單卡性能已對標甚至超越英偉達A100,但“從單卡到八卡,在一個機器內它的性能度做得還是比較好的,但是如果把它擴散到萬卡,沒有多少廠商有那么高的信心”。其核心瓶頸就在于網絡以及基于網絡的系統性調優能力。鮑中帥強調,實現“1+1=2”的前提是網絡不成為瓶頸,而國內具備強大網絡能力和集群方案能力的廠商并不多。這不僅是硬件的比拼,更是系統工程能力和軟件棧實力的較量。
突破這三重挑戰需要從芯片、網絡、存儲、冷卻到系統軟件、應用框架的“算存傳一體化”協同設計。
未來高性能計算是一項系統工程,計算、存儲、網絡任何一環的短板都會被指數級放大。而曙光提出的scaleX超集群和算存傳耦合架構,正是試圖通過系統級創新,實現“1+1+1>3”的效果。然而,這條道路漫長且需要全產業鏈的緊密協作。
IB還是以太?用戶習慣與產業現實的分野
在邁向超大規模的道路上,除了上述三個挑戰之外,國產算力還面臨著一個基礎性的選擇與挑戰:高速互聯的技術路線之爭。當前主要存在InfiniBand(IB)和基于以太網的RoCE兩條路徑,它們背后代表著不同的技術傳承、產業陣營和用戶習慣,這一分歧深刻影響著國產生態的構建策略。
中科曙光scaleFabric選擇了兼容IB生態的路線。其總工程師萬偉解釋,IB是“真正的無損網絡”,這一特性對RDMA性能至關重要。然而,另一部分行業專家觀點則認為:當前全球大部分智算中心還是基于以太網的RoCE技術,而非IB。有行業專家對筆者表示,IB最初主要服務于超算領域,被英偉達發揚光大后應用于智算,但由于其協議存在局限性,且互聯網大廠已擁有成熟的以太網架構體系,若在智算領域單獨部署IB網絡,會大幅增加網絡形態的復雜性。
這種分歧并非偶然,而是根植于用戶背景。王展精準概括道:“做超算的行業從業者,原來用的是IB體系,所以他們肯定更喜歡用IB。但是現在做智算那幫人還是以互聯網企業為主。這些互聯網企業,他們原來做云的時候,他們就用的是以太網,所以他們覺得以太用得更順手。”
IB網絡,尤其是純國產的IB網絡實現萬卡對于國產算力的“進化”意味著什么?首先,它意味著市場將是雙軌并存的格局。李斌闡述了其開放生態的理念,希望支持國內不同算力芯片的適配。奇異摩爾則直接投身于RoCE路線的演進與優化,并針對其在大規模有損網絡下的缺陷提出了自己的協議解決方案。
其次,這帶來了增量部署的兼容性挑戰。王展指出,在全新部署的國產集群上,應用可以無縫遷移。但如果用戶想保留原有英偉達IB交換機,只替換國產網卡,可能會因英偉達的私有協議限制而無法通信。這體現了生態替代過程中的現實摩擦,也凸顯了掌握自主核心技術的必要性。
因此,國產解決方案能否成功,不僅取決于單一技術路線的性能優劣,更取決于堅定并做強自主可控的 IB 技術路線,同時以開放的姿態,靈活適配IB與RoCE雙軌生態,降低不同背景用戶的遷移和運維成本。
樂觀的一面是,國產算力正走出一條更具優勢、更符合未來趨勢的發展路徑。祝俊東告訴筆者,美國走的是“暴力堆算力”的路線,追求單卡算力和規模的快速迭代;而中國則走高效集約、自主可控、開放共享的精細化發展路線,通過提升算力效率、降低成本,推動AI普惠,同時依托電力優勢和互聯技術的快速追趕,實現“以系統優勢彌補單點差異“的高質量發展。在軟件層面,國產廠商通過精細化優化,充分挖掘現有硬件的算力潛力;在架構層面,DSA路線、存算一體、重構計算等新型架構的探索,也為國產算力突破海外限制提供了新路徑。(文|Leo張ToB雜談,作者|張申宇,編輯丨蓋虹達)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.