當大模型競賽從“百億參數”邁向“萬億參數”;當科學智能、智能體、具身智能等新范式不斷涌現,算力已不再只是技術體系中的底層支撐,而是直接決定創新邊界與產業上限的關鍵變量。在這一背景下,國家超算互聯網核心節點同步部署3套中科曙光的scaleX萬卡超集群,構成全國最大單體國產AI算力池的核心支柱,這不僅意味著中國具備了構建超大規模智算基礎設施的工程能力,也預示著國內算力產業發展和使用范式的躍遷。
![]()
從概念到真機落地,scaleX萬卡“中國速度”彰顯體系協同能力
眾所周知,在全球算力競賽不斷加速的當下,萬卡集群不再只是技術炫技,而是衡量一個國家AI基礎設施建設能力的重要標準。而曙光scaleX萬卡集群之所以引人關注,在于它在國產體系內完成了從架構設計、超節點工程化到萬卡級互聯、主流模型適配的一次性突破,實現了從發布到真機落地只用兩個多月的“中國速度”。
究其原因,中科曙光長期深耕AI計算、高性能計算與大型系統研制,在整機架構設計、網絡拓撲規劃以及軟硬件協同優化方面形成了體系化能力。具體到scaleX萬卡超集群,其采用緊耦合架構,通過自主研發的scaleFabric高速網絡互連,實現了萬卡級規模下的低時延、高帶寬通信,并在設計之初就面向十萬卡、百萬卡級擴展預留空間。而這種“先天可擴展”的架構思維,使得萬卡并非孤立節點,而是未來更大規模算力體系的起點。
![]()
與此同時,關鍵基礎能力的成熟,也是其實現“中國速度”的重要支撐。其中原生RDMA高速網絡、400G級互連能力、高密度單機柜、浸沒相變液冷等技術的工程化應用,讓scaleX萬卡超集群系統在性能、能效和可靠性之間實現平衡,為快速部署提供了現實基礎,再疊加數字孿生、智能調度等系統軟件能力,使萬級節點的統一管理和穩定運行成為可控工程,而非實驗室展示。
更重要的是,這一速度背后還體現出“國家級平臺+龍頭企業+區域節點”協同推進的新型基礎設施建設模式,即國家超算互聯網核心節點作為全國一體化算力網絡的重要樞紐,為scaleX萬卡超集群提供了應用場景與調度入口,而曙光的系統能力,則把頂層規劃轉化為可運行、可服務的現實算力資源。
由此可見,曙光scaleX萬卡之所以跑出“中國速度”,本質上是體系協同能力的集中體現。
萬卡集群落地背后,算力使用和發展范式的躍遷
scaleX萬卡超集群真正產生影響,并不止于建成了一套大系統,而是它開始穩定對外提供服務后,國內算力的使用方式正在發生結構性變化。
首先,算力正逐步向“公共資源”形態演進。依托國家超算互聯網平臺,scaleX萬卡級算力以服務化方式向科研機構、高校、企業和創新團隊開放,至此,算力不再體現為“誰買了多少設備”,而是轉化為通過網絡即可獲取的能力供給。而這種形態,使算力開始具備類似水、電、網絡的公共屬性,讓大模型訓練、高通量推理、AI for Science等場景擁有了更穩定、更可預期的底座。
![]()
目前scaleX萬卡超集群已支持萬億參數模型整機訓練與容錯恢復;在高通量推理場景,持續服務多家頭部互聯網企業的核心智能化業務,并通過聯合深度優化不斷提升推理效能;在AI for Science領域,支撐國內某材料研發大模型登頂國際權威榜單,助力頂級科研團隊將蛋白質研究效率提升3—6個數量級。
由此可見,對大量創新主體而言,最大的變化在于起點被抬高,過去受制于算力規模而難以開展的大模型實驗、復雜仿真等,如今可以在公共平臺上直接運行,從而讓創新主體把更多精力投入到算法創新和場景探索中而不會被基礎設施條件所束縛。
與此同時,算力的使用方式也在發生變化。傳統模式下,算力更多以整機租賃或固定配額的方式分配,資源一旦劃分,利用率很難做到最優。而scaleX萬卡超集群通過智能調度和統一資源管理,把萬級節點納入同一調度體系,使算力能夠根據不同任務的規模、類型和時延要求進行動態匹配。在這種機制下,算力不再是“先到先得”的稀缺資源,而是可以被精細化管理和高效編排的生產要素,這對用戶意味著更快獲得算力、更穩定完成任務;對平臺則是在無需額外擴容的情況下,通過調度效率的提升即可釋放更多有效算力。
此外,隨著規模化算力能力的穩定輸出,算力平臺與大模型、智能體和應用之間也開始形成正向循環。目前,scaleX萬卡超集群已完成400多個主流大模型、世界模型的適配優化,依托國家超算互聯網,更可接入上千款應用,鏈接更多AI產業生態伙伴,實現“算力+應用”一體化交付,這使得其從單純的“算力提供者”演變為模型與應用的孵化器,讓開發者可以在成熟環境中快速驗證模型效果,應用團隊能夠直接調用經過優化的算力與模型能力,創新門檻隨之降低,迭代速度明顯加快。
當然,更深層的變化還體現在國產AI芯片的產業創新和應用空間被進一步釋放。鑒于scaleX萬卡超集群基于AI計算開放架構,其可支持多品牌國產加速卡混合部署,不同廠商的產品可以在同一系統中協同工作,這種異構融合的方式,改變了過去單一生態綁定的路徑,使國產芯片不必在所有指標上與國際巨頭正面競爭,而是在各自擅長的性能區間和應用場景中形成規模化落地。值得一提的是,隨著越來越多真實業務負載跑在國產芯片之上,應用反饋又將反過來推動芯片產品迭代,形成持續演進的創新路徑。
而從更宏觀的角度看,萬卡集群落地帶來的變化,本質上是在重塑中國算力產業的運行方式,即算力從資產走向服務,從封閉走向開放,從分散走向協同。而這種運行和使用機制的變化,遠比單一項目的規模突破更具長遠意義和價值。
從最大單體到體系能力,中國算力產業自主發展的必由之路
如上述,從更宏觀的視角看,scaleX萬卡超集群落地的意義,正在從單純的規模突破,演變為發展和使用范式的轉變,其所代表的不只是中國擁有了更大的算力池,而是逐步具備了構建、運營和持續演進超大規模智算基礎設施的體系能力。
對當下而言,這種體系能力首先提升了中國在全球算力版圖中的確定性。尤其是在外部環境不確定性加大的背景下,單點性能優勢固然重要,但更關鍵的是是否具備持續供給高端算力的能力。而萬卡級超集群上線的穩定運行,意味著中國不僅能設計出高性能系統,也能讓其長期可靠地跑起來、用起來,從而為中國人工智能產業的發展提供了更加穩固的算力底座。
進一步看,這一實踐還為中國算力產業提供了一條可復制和推廣的工程路徑。那就是以開放架構為基礎,通過分層解耦、異構融合和平臺化調度,將芯片、網絡、系統軟件與應用有機整合,形成可以不斷擴展的算力底座。這種路徑,使超大規模智算基礎設施不再是少數項目的“特例”,而是可以在不同區域節點、不同產業場景中持續復制的通用模式,有助于加快全國一體化算力網絡的整體成型與建設。
更重要的是,這種體系能力正在重塑產業協作方式。過去,算力系統往往圍繞單一生態構建,廠商之間邊界清晰卻協同有限,而在開放架構下,不同企業可以圍繞各自擅長的環節參與其中,從芯片、整機到系統軟件、平臺服務和行業應用形成分工協作,從而更有利于形成長期穩定的產業生態,也為更多創新主體提供了參與空間。
而當我們拉到更長的周期看,scaleX萬卡超集群所體現出的不僅是把系統做大,更是把系統做成基礎設施的能力。畢竟,當算力逐漸具備公共屬性,并通過平臺化方式持續供給,它所承載的將不只是當前的大模型訓練需求,還將成為未來科學智能、工業智能、城市智能等多元場景的通用底座。
寫在最后:綜上,我們認為,曙光刷新國產AI算力單體池紀錄的真正價值,不在于規模最大本身,而是它證明了中國不僅能做出萬卡級產品,更能以“中國速度”將其轉化為穩定運行、可對外服務、可持續演進的國家級算力基礎設施。而當算力開始像水電一樣成為公共資源,開放架構讓更多國產力量協同發展,中國算力產業開啟的將是長期自主創新與高質量發展的新路徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.