網易首頁 > 網易號 > 正文申請入駐

scaleX萬卡超集群，宣告中國AI產業(yè)生態(tài)下一程

2025-12-26 10:55:22　來源: 摩羯商業(yè)評論

北京舉報

分享至

2025年，國產AI算力快速增長的新聞不絕于耳。在上周，國內召開了兩場備受矚目的有關AI算力的大會，并且這兩場大會彼此緊密相關，頗有年度收官的意義。

12月20日上午，在首屆MUSA開發(fā)者大會上，中國科學院院士、清華大學計算機系教授鄭緯民，在展望中國AI算力增長的廣闊前景之后，指出了一個冰冷的事實：

“當前中國芯片行業(yè)面臨著內卷與碎片化問題——不同的廠家提供不同的接口，要做不同的適配，這使得開發(fā)者的工作量陡增。”

而就在12月18日，光合組織2025人工智能創(chuàng)新技術大會（以下簡稱HAIC 2025）會期間，海光信息副總裁吳宗友的行業(yè)判斷，與鄭緯民院士不謀而合：

“我們國家過去幾年搞信創(chuàng)國產化，芯片行業(yè)發(fā)展比較快，但是這個快的過程中也給用戶造成了很多困擾，用戶最大的困擾就是說有這么多的芯片，都需要去適配和優(yōu)化，對用戶來說投入的成本是非常多的。”

鄭緯民院士與吳宗友對國內AI產業(yè)的判斷，用一句話來總結就是：中國的AI算力單點突破的成績可喜，但從芯片層就開始的生態(tài)割裂令人堪憂。

鄭緯民院士提出的解題思路，是不同芯片、不同系統(tǒng)最好是一套東西，產業(yè)聯(lián)盟與軟硬件協(xié)同設計非常重要，產業(yè)界要團結起來，應用界也要團結起來。

其實，主題為"智算無界，光合共生"的HAIC 2025，正是為“協(xié)同”和“團結”而召開。

在這次大會上，中科曙光發(fā)布了曙光scaleX萬卡超集群系統(tǒng)，這是國產萬卡級算力集群首次以真機形式公開亮相。

這既標志著，由光合組織提出的“AI計算開放架構”已經從共識落地為成果；同時也標志著，在中美AI產業(yè)走向開始分道揚鑣之后，中國的AI產業(yè)實現(xiàn)算力自主，邁出了關鍵一步。

近年來，國內出現(xiàn)了AI算力芯片創(chuàng)業(yè)熱潮，壁仞、燧原等一系列明星創(chuàng)業(yè)公司正在不斷涌現(xiàn)。

看起來，AI算力的單點突破景象喜人。

然而，正如鄭緯民院士與吳宗友所指出的那樣，大模型時代的AI算力單位是集群總算力，而非單卡算力。而產業(yè)應用場景豐富、算力技術路線多元的中國AI產業(yè)優(yōu)勢，同時也意味著生態(tài)割裂的隱患正在與單點突破同步累積。

換句話說，中美AI產業(yè)分道揚鑣的第一個層面已經明顯展現(xiàn)，那就是中國算力集群創(chuàng)新需求更為迫切。

基于“AI計算開放架構”的曙光scaleX萬卡超集群系統(tǒng)因此而誕生，其意義不亞于誕生于1980年的TCP/IP協(xié)議，后者讓所有AI產業(yè)鏈上企業(yè)都能參與AI集群設施創(chuàng)新。

而基于“AI計算開放架構”理念，所研發(fā)的曙光scaleX萬卡超集群系統(tǒng)，可兼容多品牌AI加速卡以及主流計算生態(tài)讓國產AI產業(yè)從“單點突破”走向產業(yè)“生態(tài)共進”，提供一個可靠算力底座。

但要實現(xiàn)萬卡集群的創(chuàng)新，談何容易。

要知道，美國大廠的萬卡以上級別計算集群，幾乎清一色采用了英偉達的GPU。

英偉達能成為AI行業(yè)的“水電煤”，同樣依賴的不是單卡而是集群，準確地說，其強大的GPU算力是由“三駕馬車”構成——GPU提供澎湃的浮點算力，NVLink負責計算節(jié)點內的高速互聯(lián)，InfiniBand網絡將計算節(jié)點鏈接為計算集群。

AI計算需要的網絡與傳統(tǒng)的以太網不一樣，它對信號的質量要求非常高，要求做到無損，如此才可以做到硬件上極低的延遲。所以，NVLink與InfiniBand，其技術門檻絲毫不亞于GPU設計。

scaleX萬卡超集群由16個曙光scaleX640超節(jié)點通過scaleFabric高速網絡互連而成，可實現(xiàn)10240塊AI加速卡部署，總算力規(guī)模超5EFlops。作為世界首個單機柜級640卡超節(jié)點，scaleX640采用超高密度刀片、浸沒相變液冷等技術，將單機柜算力密度提升20倍，PUE值低至1.04。

特別值得關注的是曙光scaleFabric網絡，其是基于國內首款400G 類InfiniBand的原生RDMA網卡與交換芯片，可實現(xiàn)400Gb/s超高帶寬、低于1微秒端側通信延遲，超節(jié)點間的通信性能達到業(yè)內領先水平，充分釋放萬卡超集群算力，并可將超集群規(guī)模輕松擴展至10 萬卡以上，相比傳統(tǒng)IB網絡提升2.33倍，同時網絡總體成本降低 30%。

曙光scaleFabric網絡與scaleX萬卡超集群實現(xiàn)的技術躍遷程度，用形象描述會比數(shù)據描述更容易理解：要是用原本的技術搭建萬卡集群，HAIC 2025的半個展館都不夠。而現(xiàn)在卻可以放置在門口，其計算密度是數(shù)量級上的差距。

“我們這一代的產品，從目前的規(guī)格指標和實測的指標穩(wěn)定性來說，完全可說實現(xiàn)全行業(yè)領先。”

中科曙光高級副總裁李斌介紹，scaleX萬卡超集群的部分技術與能力，已超越英偉達研發(fā)路線圖的2027年NVL576里程節(jié)點。

更讓人佩服的是，scaleX萬卡超集群連一些非核心但對運維很重要的技術，比如讓數(shù)據傳輸更穩(wěn)定的112G SerDes關鍵部件，還有萬一網絡出問題也能很快恢復正常的技術——通過物理集群數(shù)字孿生，實現(xiàn)故障定位、修復等全流程可視化智能管理——都一次性搞定了，補表現(xiàn)出了十分全面的技術優(yōu)勢。

中美AI產業(yè)分道揚鑣的第二個層面，表現(xiàn)的更為明顯，那就是中國擁有從不同數(shù)量級參數(shù)的大模型層，到應用層的蓬勃生態(tài)，背后則是中國各行各業(yè)產業(yè)升級的迫切需求。

也就是說，除了AI算力的提升之外，國內產業(yè)還有強烈的生態(tài)融合需求。

令行業(yè)驚喜的是，scaleX萬卡超集群一出場就自帶開放生態(tài)雛形。

在HAIC 2025上，曙光scaleX萬卡超集群系統(tǒng)的發(fā)布環(huán)節(jié)，不僅發(fā)布了打破異構算力“存算傳”瓶頸的技術創(chuàng)新，而且直接發(fā)布一個開放生態(tài)的雛形——兼容市面上所有智算及超算應用場景，應用可實現(xiàn)無感遷移。

作為 “AI計算開放架構”最新重磅成果，scaleX萬卡超集群實現(xiàn)400+主流大模型、世界模型等適配優(yōu)化。在實際應用中，該超集群可覆蓋大模型訓練、金融風控、地質能源勘探及科學智能等多元場景。

隨著scaleX萬卡超集群的落地，中國AI產業(yè)不再局限于追趕硬件性能，而是轉向構建開放、協(xié)同、可持續(xù)的生態(tài)體系。這一轉變，正呼應了光合組織“智算無界，光合共生”的愿景。

- 往期爆款 -

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.