![]()
智東西
作者 李水青
編輯 漠影
智東西2月6日報道,昨日,由中科曙光提供的3套scaleX萬卡超集群系統,在國家超算互聯網核心節點同時上線試運行。
這是國內第一次在國家級算力樞紐節點上,同步部署并實際投入運營3套萬卡級AI超集群,一舉成為全國首個實現超3萬卡部署、且已進入實際運營階段的最大國產AI算力池。
該算力池覆蓋萬億參數大模型訓練、高通量推理、AI for Science等當前最重型、最前沿的大規模AI計算場景,并通過國家超算互聯網平臺對外提供統一調度與服務。
放在全球背景下,這一節點的上線,恰好發生在AI算力軍備競賽白熱化的時間窗口。
不久前,埃隆·馬斯克剛剛宣布,xAI用于訓練Grok的“Colossus 2”超級計算機投入運行,成為全球首個吉瓦級訓練集群,并計劃在數月內繼續擴容;OpenAI則斥資百億美元,聯合AI芯片企業Cerebras部署750兆瓦級晶圓級系統,試圖打造全球最大高速AI推理平臺……
在海外資本與科技巨頭不斷“堆算力”的同時,國家超算互聯網核心節點三套萬卡集群同步落地,以獨有的工程化、體系化方式,打造國家超算互聯網中一顆強勁的“動力心臟”。
一、從真機亮相到規模落地:不到兩個月完成算力跨越
時間回溯到2025年12月,在昆山舉行的光合組織2025人工智能創新大會(HAIC2025)上,作為全球領先的大規模智能計算系統,中科曙光scaleX萬卡超集群首次以真機形式展出,引起行業廣泛關注。
![]()
當時外界更多將其視為一次技術展示:展示國產萬卡集群在超節點架構、高速互聯、能效控制等方面,已經具備與國際同類路線同臺競爭的能力。
但不到兩個月后,scaleX萬卡超集群就完成了從“真機展示”到“落地國家核心節點試運行”的關鍵跨越——且不是一套,而是三套同步部署、同時上線。
這一速度背后,體現的是工程化能力的集中釋放。
三套萬卡集群同步部署,意味著要在極短時間內,完成從設備交付、機房適配、供配電與散熱系統建設,到網絡調通、軟件棧部署、調度系統聯調,再到穩定性驗證與試運行的完整鏈路。任何一個環節出現瓶頸,都會放大為整體延誤。
這也意味著,萬卡集群不再是“定制化工程”,而已經具備可復制、可規模交付的能力。
值得一提的是,該核心節點并非孤立存在。作為國家超算互聯網的重要樞紐,該核心節點承載了中國最大的國產AI算力資源池,其上線也意味著國產萬卡集群正式進入國家級算力體系的“主干網絡”。
二、揭秘技術底座:萬卡超集群如何真正“跑起來”
萬卡級AI集群,從來不是“把卡堆在一起”這么簡單。
在規模跨過萬卡門檻后,系統面臨的挑戰會呈指數級放大,核心集中在三件事上:算力能否充分釋放、系統能否長期穩定運行、資源能否被高效調度使用。
1、高速互聯:決定萬卡算力是否“有效”
在大模型訓練和推理場景中,節點間通信往往成為性能瓶頸。算力規模越大,通信效率對整體性能的影響就越致命。
scaleX萬卡超集群采用的是中科曙光自主研發的scaleFabric高速互聯網絡。該網絡基于國內首款400G類InfiniBand原生RDMA網卡與交換芯片,可實現400Gb/s帶寬、端到端通信延遲低于1微秒。
這一網絡不僅支撐萬卡級集群高效運行,還在架構上預留了向十萬卡、百萬卡規模平滑擴展的能力。相較傳統IB網絡方案,其通信性能提升超過2倍,同時網絡總體成本下降約30%,為后續更大規模集群建設提供了現實可行的路徑。
2、高密度供電與散熱:平衡算力密度與能效,能效比創新高
算力規模上去之后,真正考驗系統工程能力的,往往是“物理世界”,供電和散熱成為不可忽視的挑戰。
scaleX萬卡超集群采用了全球首創的高密度單機柜設計。通過超高密度刀片架構與浸沒相變液冷技術,單機柜算力密度提升約20倍,整體PUE值低至1.04。
這意味著,在同等機房條件下,可以部署更高密度的AI算力,同時將能耗控制在可持續范圍內。這不僅直接影響運營成本,也決定了萬卡集群是否具備長期穩定運行的現實基礎。
3、統一調度與運維:智能管理萬級節點、服務十萬級用戶
萬卡集群的價值,最終取決于是否“好用”。
在核心節點,三套萬卡超集群并非各自獨立運行,而是通過統一的調度與管理體系,對外提供算力服務。系統引入物理集群數字孿生,實現故障定位、資源狀態、運維流程的可視化管理;智能調度引擎可管理萬級節點、服務十萬級用戶,支持每秒萬級作業調度,長期可用性達到99.99%。
這種“數字孿生+智能調度”的組合,使得萬卡集群不再只是“硬件資產”,而是真正融入國家超算互聯網體系的算力中樞。
![]()
三、連接30+算力中心、服務超100萬用戶,打造國家級“算力樣板間”
如果說萬卡超集群解決的是“算力從哪來”,那么國家超算互聯網解決的,則是“算力如何被用起來”。
由官方數據可知,截至2025年底,國家超算互聯網平臺已連接全國30余家超算與智算中心,服務100多萬用戶,應用商品超7200多個,單日處理作業峰值103萬個,迄今已累計支撐運行1.96億次作業,致力于有效聯動中國乃至全球算力資源與應用需求。
在這一體系中,本次新上線的核心節點角色尤為特殊。
一方面,它以三套萬卡超集群構成全國最大的國產AI算力資源池,為高強度AI任務提供穩定算力供給;另一方面,它也承擔著“算力樣板間”的示范功能——驗證國產萬卡集群在真實業務負載下的可用性、穩定性與經濟性。
從應用層看,該算力池已全面覆蓋萬億參數模型訓練、高通量推理、AI for Science等關鍵場景。在科研領域,支撐材料科學、生命科學等方向的大模型計算;在產業側,面向模型企業、互聯網公司和行業用戶,提供統一入口的普惠算力服務。
更重要的是,其背后采用的,是中科曙光提出并協同20多家AI產業鏈企業大力推動的“AI計算開放架構”理念。
開放架構強調打破單一生態綁定,支持多品牌AI加速卡混合部署,全面兼容CUDA等主流軟件生態,并已完成400余個主流大模型、世界模型的適配優化。對開發者而言,這意味著遷移成本更低、選擇空間更大;對整個產業而言,則有助于推動國產算力的一體化協同。
這也使國產萬卡集群的發展路徑,從“單點技術突圍”,逐步走向“產業生態共建”。
結語:AI基建競爭,正在從“拼建設”走向“拼運營”
隨著核心節點上線,我國AI基礎設施建設正在進入一個比拼運營的新階段。
算力競爭不只是“有沒有萬卡”,更是誰能規模化部署、穩定運營、并真正支撐應用落地。在全球AI算力軍備競賽持續升溫的背景下,國產算力正通過日益成型的國家超算互聯網完成一體化調度,最終實現工程可落地、運行可持續、生態可協同。
“中國最大”只是起點,“以國產算力服務好全球用戶”才是更遠的星辰大海。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.