網易首頁 > 網易號 > 正文申請入駐

scaleX萬卡超集群，宣告中國AI產業生態下一程

2025-12-26 14:12:10　來源: 摩羯商業評論

北京舉報

分享至

2025年，國產AI算力快速增長的新聞不絕于耳。在上周，國內召開了兩場備受矚目的有關AI算力的大會，并且這兩場大會彼此緊密相關，頗有年度收官的意義。

12月20日上午，在首屆MUSA開發者大會上，中國科學院院士、清華大學計算機系教授鄭緯民，在展望中國AI算力增長的廣闊前景之后，指出了一個冰冷的事實：

“當前中國芯片行業面臨著內卷與碎片化問題——不同的廠家提供不同的接口，要做不同的適配，這使得開發者的工作量陡增。”

而就在12月18日，光合組織2025人工智能創新技術大會（以下簡稱HAIC 2025）會期間，海光信息副總裁吳宗友的行業判斷，與鄭緯民院士不謀而合：

“我們國家過去幾年搞信創國產化，芯片行業發展比較快，但是這個快的過程中也給用戶造成了很多困擾，用戶最大的困擾就是說有這么多的芯片，都需要去適配和優化，對用戶來說投入的成本是非常多的。”

鄭緯民院士與吳宗友對國內AI產業的判斷，用一句話來總結就是：中國的AI算力單點突破的成績可喜，但從芯片層就開始的生態割裂令人堪憂。

鄭緯民院士提出的解題思路，是不同芯片、不同系統最好是一套東西，產業聯盟與軟硬件協同設計非常重要，產業界要團結起來，應用界也要團結起來。

其實，主題為"智算無界，光合共生"的HAIC 2025，正是為“協同”和“團結”而召開。

在這次大會上，中科曙光發布了曙光scaleX萬卡超集群系統，這是國產萬卡級算力集群首次以真機形式公開亮相。

這既標志著，由光合組織提出的“AI計算開放架構”已經從共識落地為成果；同時也標志著，在中美AI產業走向開始分道揚鑣之后，中國的AI產業實現算力自主，邁出了關鍵一步。

近年來，國內出現了AI算力芯片創業熱潮，壁仞、燧原等一系列明星創業公司正在不斷涌現。

看起來，AI算力的單點突破景象喜人。

然而，正如鄭緯民院士與吳宗友所指出的那樣，大模型時代的AI算力單位是集群總算力，而非單卡算力。而產業應用場景豐富、算力技術路線多元的中國AI產業優勢，同時也意味著生態割裂的隱患正在與單點突破同步累積。

換句話說，中美AI產業分道揚鑣的第一個層面已經明顯展現，那就是中國算力集群創新需求更為迫切。

基于“AI計算開放架構”的曙光scaleX萬卡超集群系統因此而誕生，其意義不亞于誕生于1980年的TCP/IP協議，后者讓所有AI產業鏈上企業都能參與AI集群設施創新。

而基于“AI計算開放架構”理念，所研發的曙光scaleX萬卡超集群系統，可兼容多品牌AI加速卡以及主流計算生態讓國產AI產業從“單點突破”走向產業“生態共進”，提供一個可靠算力底座。

但要實現萬卡集群的創新，談何容易。

要知道，美國大廠的萬卡以上級別計算集群，幾乎清一色采用了英偉達的GPU。

英偉達能成為AI行業的“水電煤”，同樣依賴的不是單卡而是集群，準確地說，其強大的GPU算力是由“三駕馬車”構成——GPU提供澎湃的浮點算力，NVLink負責計算節點內的高速互聯，InfiniBand網絡將計算節點鏈接為計算集群。

AI計算需要的網絡與傳統的以太網不一樣，它對信號的質量要求非常高，要求做到無損，如此才可以做到硬件上極低的延遲。所以，NVLink與InfiniBand，其技術門檻絲毫不亞于GPU設計。

scaleX萬卡超集群由16個曙光scaleX640超節點通過scaleFabric高速網絡互連而成，可實現10240塊AI加速卡部署，總算力規模超5EFlops。作為世界首個單機柜級640卡超節點，scaleX640采用超高密度刀片、浸沒相變液冷等技術，將單機柜算力密度提升20倍，PUE值低至1.04。

特別值得關注的是曙光scaleFabric網絡，其是基于國內首款400G 類InfiniBand的原生RDMA網卡與交換芯片，可實現400Gb/s超高帶寬、低于1微秒端側通信延遲，超節點間的通信性能達到業內領先水平，充分釋放萬卡超集群算力，并可將超集群規模輕松擴展至10 萬卡以上，相比傳統IB網絡提升2.33倍，同時網絡總體成本降低 30%。

曙光scaleFabric網絡與scaleX萬卡超集群實現的技術躍遷程度，用形象描述會比數據描述更容易理解：要是用原本的技術搭建萬卡集群，HAIC 2025的半個展館都不夠。而現在卻可以放置在門口，其計算密度是數量級上的差距。

“我們這一代的產品，從目前的規格指標和實測的指標穩定性來說，完全可說實現全行業領先。”

中科曙光高級副總裁李斌介紹，scaleX萬卡超集群的部分技術與能力，已超越英偉達研發路線圖的2027年NVL576里程節點。

更讓人佩服的是，scaleX萬卡超集群連一些非核心但對運維很重要的技術，比如讓數據傳輸更穩定的112G SerDes關鍵部件，還有萬一網絡出問題也能很快恢復正常的技術——通過物理集群數字孿生，實現故障定位、修復等全流程可視化智能管理——都一次性搞定了，補表現出了十分全面的技術優勢。

中美AI產業分道揚鑣的第二個層面，表現的更為明顯，那就是中國擁有從不同數量級參數的大模型層，到應用層的蓬勃生態，背后則是中國各行各業產業升級的迫切需求。

也就是說，除了AI算力的提升之外，國內產業還有強烈的生態融合需求。

令行業驚喜的是，scaleX萬卡超集群一出場就自帶開放生態雛形。

在HAIC 2025上，曙光scaleX萬卡超集群系統的發布環節，不僅發布了打破異構算力“存算傳”瓶頸的技術創新，而且直接發布一個開放生態的雛形——兼容市面上所有智算及超算應用場景，應用可實現無感遷移。

作為 “AI計算開放架構”最新重磅成果，scaleX萬卡超集群實現400+主流大模型、世界模型等適配優化。在實際應用中，該超集群可覆蓋大模型訓練、金融風控、地質能源勘探及科學智能等多元場景。

隨著scaleX萬卡超集群的落地，中國AI產業不再局限于追趕硬件性能，而是轉向構建開放、協同、可持續的生態體系。這一轉變，正呼應了光合組織“智算無界，光合共生”的愿景。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.