
![]()
2025年,國產AI算力快速增長的新聞不絕于耳。在上周,國內召開了兩場備受矚目的有關AI算力的大會,并且這兩場大會彼此緊密相關,頗有年度收官的意義。
12月20日上午,在首屆MUSA開發(fā)者大會上,中國科學院院士、清華大學計算機系教授鄭緯民,在展望中國AI算力增長的廣闊前景之后,指出了一個冰冷的事實:
“當前中國芯片行業(yè)面臨著內卷與碎片化問題——不同的廠家提供不同的接口,要做不同的適配,這使得開發(fā)者的工作量陡增。”
而就在12月18日,光合組織2025人工智能創(chuàng)新技術大會(以下簡稱HAIC 2025)會期間,海光信息副總裁吳宗友的行業(yè)判斷,與鄭緯民院士不謀而合:
“我們國家過去幾年搞信創(chuàng)國產化,芯片行業(yè)發(fā)展比較快,但是這個快的過程中也給用戶造成了很多困擾,用戶最大的困擾就是說有這么多的芯片,都需要去適配和優(yōu)化,對用戶來說投入的成本是非常多的。”
![]()
鄭緯民院士與吳宗友對國內AI產業(yè)的判斷,用一句話來總結就是:中國的AI算力單點突破的成績可喜,但從芯片層就開始的生態(tài)割裂令人堪憂。
鄭緯民院士提出的解題思路,是不同芯片、不同系統(tǒng)最好是一套東西,產業(yè)聯(lián)盟與軟硬件協(xié)同設計非常重要,產業(yè)界要團結起來,應用界也要團結起來。
其實,主題為"智算無界,光合共生"的HAIC 2025,正是為“協(xié)同”和“團結”而召開。
![]()
在這次大會上,中科曙光發(fā)布了曙光scaleX萬卡超集群系統(tǒng),這是國產萬卡級算力集群首次以真機形式公開亮相。
這既標志著,由光合組織提出的“AI計算開放架構”已經從共識落地為成果;同時也標志著,在中美AI產業(yè)走向開始分道揚鑣之后,中國的AI產業(yè)實現(xiàn)算力自主,邁出了關鍵一步。
![]()
近年來,國內出現(xiàn)了AI算力芯片創(chuàng)業(yè)熱潮,壁仞、燧原等一系列明星創(chuàng)業(yè)公司正在不斷涌現(xiàn)。
看起來,AI算力的單點突破景象喜人。
然而,正如鄭緯民院士與吳宗友所指出的那樣,大模型時代的AI算力單位是集群總算力,而非單卡算力。而產業(yè)應用場景豐富、算力技術路線多元的中國AI產業(yè)優(yōu)勢,同時也意味著生態(tài)割裂的隱患正在與單點突破同步累積。
![]()
換句話說,中美AI產業(yè)分道揚鑣的第一個層面已經明顯展現(xiàn),那就是中國算力集群創(chuàng)新需求更為迫切。
基于“AI計算開放架構”的曙光scaleX萬卡超集群系統(tǒng)因此而誕生,其意義不亞于誕生于1980年的TCP/IP協(xié)議,后者讓所有AI產業(yè)鏈上企業(yè)都能參與AI集群設施創(chuàng)新。
而基于“AI計算開放架構”理念,所研發(fā)的曙光scaleX萬卡超集群系統(tǒng),可兼容多品牌AI加速卡以及主流計算生態(tài)讓國產AI產業(yè)從“單點突破”走向產業(yè)“生態(tài)共進”,提供一個可靠算力底座。
但要實現(xiàn)萬卡集群的創(chuàng)新,談何容易。
要知道,美國大廠的萬卡以上級別計算集群,幾乎清一色采用了英偉達的GPU。
英偉達能成為AI行業(yè)的“水電煤”,同樣依賴的不是單卡而是集群,準確地說,其強大的GPU算力是由“三駕馬車”構成——GPU提供澎湃的浮點算力,NVLink負責計算節(jié)點內的高速互聯(lián),InfiniBand網絡將計算節(jié)點鏈接為計算集群。
AI計算需要的網絡與傳統(tǒng)的以太網不一樣,它對信號的質量要求非常高,要求做到無損,如此才可以做到硬件上極低的延遲。所以,NVLink與InfiniBand,其技術門檻絲毫不亞于GPU設計。
![]()
scaleX萬卡超集群由16個曙光scaleX640超節(jié)點通過scaleFabric高速網絡互連而成,可實現(xiàn)10240塊AI加速卡部署,總算力規(guī)模超5EFlops。作為世界首個單機柜級640卡超節(jié)點,scaleX640采用超高密度刀片、浸沒相變液冷等技術,將單機柜算力密度提升20倍,PUE值低至1.04。
![]()
特別值得關注的是曙光scaleFabric網絡,其是基于國內首款400G 類InfiniBand的原生RDMA網卡與交換芯片,可實現(xiàn)400Gb/s超高帶寬、低于1微秒端側通信延遲,超節(jié)點間的通信性能達到業(yè)內領先水平,充分釋放萬卡超集群算力,并可將超集群規(guī)模輕松擴展至10 萬卡以上,相比傳統(tǒng)IB網絡提升2.33倍,同時網絡總體成本降低 30%。
曙光scaleFabric網絡與scaleX萬卡超集群實現(xiàn)的技術躍遷程度,用形象描述會比數(shù)據描述更容易理解:要是用原本的技術搭建萬卡集群,HAIC 2025的半個展館都不夠。而現(xiàn)在卻可以放置在門口,其計算密度是數(shù)量級上的差距。
“我們這一代的產品,從目前的規(guī)格指標和實測的指標穩(wěn)定性來說,完全可說實現(xiàn)全行業(yè)領先。”
中科曙光高級副總裁李斌介紹,scaleX萬卡超集群的部分技術與能力,已超越英偉達研發(fā)路線圖的2027年NVL576里程節(jié)點。
更讓人佩服的是,scaleX萬卡超集群連一些非核心但對運維很重要的技術,比如讓數(shù)據傳輸更穩(wěn)定的112G SerDes關鍵部件,還有萬一網絡出問題也能很快恢復正常的技術——通過物理集群數(shù)字孿生,實現(xiàn)故障定位、修復等全流程可視化智能管理——都一次性搞定了,補表現(xiàn)出了十分全面的技術優(yōu)勢。
![]()
中美AI產業(yè)分道揚鑣的第二個層面,表現(xiàn)的更為明顯,那就是中國擁有從不同數(shù)量級參數(shù)的大模型層,到應用層的蓬勃生態(tài),背后則是中國各行各業(yè)產業(yè)升級的迫切需求。
也就是說,除了AI算力的提升之外,國內產業(yè)還有強烈的生態(tài)融合需求。
令行業(yè)驚喜的是,scaleX萬卡超集群一出場就自帶開放生態(tài)雛形。
在HAIC 2025上,曙光scaleX萬卡超集群系統(tǒng)的發(fā)布環(huán)節(jié),不僅發(fā)布了打破異構算力“存算傳”瓶頸的技術創(chuàng)新,而且直接發(fā)布一個開放生態(tài)的雛形——兼容市面上所有智算及超算應用場景,應用可實現(xiàn)無感遷移。
![]()
作為 “AI計算開放架構”最新重磅成果,scaleX萬卡超集群實現(xiàn)400+主流大模型、世界模型等適配優(yōu)化。在實際應用中,該超集群可覆蓋大模型訓練、金融風控、地質能源勘探及科學智能等多元場景。
隨著scaleX萬卡超集群的落地,中國AI產業(yè)不再局限于追趕硬件性能,而是轉向構建開放、協(xié)同、可持續(xù)的生態(tài)體系。這一轉變,正呼應了光合組織“智算無界,光合共生”的愿景。
- 往期爆款 -
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.