2025年,國產AI算力快速增長的新聞不絕于耳。在上周,國內召開了兩場備受矚目的有關AI算力的大會,并且這兩場大會彼此緊密相關,頗有年度收官的意義。
12月20日上午,在首屆MUSA開發者大會上,中國科學院院士、清華大學計算機系教授鄭緯民,在展望中國AI算力增長的廣闊前景之后,指出了一個冰冷的事實:
“當前中國芯片行業面臨著內卷與碎片化問題——不同的廠家提供不同的接口,要做不同的適配,這使得開發者的工作量陡增。”
而就在12月18日,光合組織2025人工智能創新技術大會(以下簡稱HAIC 2025)會期間,海光信息副總裁吳宗友的行業判斷,與鄭緯民院士不謀而合:
“我們國家過去幾年搞信創國產化,芯片行業發展比較快,但是這個快的過程中也給用戶造成了很多困擾,用戶最大的困擾就是說有這么多的芯片,都需要去適配和優化,對用戶來說投入的成本是非常多的。”
![]()
鄭緯民院士與吳宗友對國內AI產業的判斷,用一句話來總結就是:中國的AI算力單點突破的成績可喜,但從芯片層就開始的生態割裂令人堪憂。
鄭緯民院士提出的解題思路,是不同芯片、不同系統最好是一套東西,產業聯盟與軟硬件協同設計非常重要,產業界要團結起來,應用界也要團結起來。
其實,主題為"智算無界,光合共生"的HAIC 2025,正是為“協同”和“團結”而召開。
![]()
在這次大會上,中科曙光發布了曙光scaleX萬卡超集群系統,這是國產萬卡級算力集群首次以真機形式公開亮相。
這既標志著,由光合組織提出的“AI計算開放架構”已經從共識落地為成果;同時也標志著,在中美AI產業走向開始分道揚鑣之后,中國的AI產業實現算力自主,邁出了關鍵一步。
![]()
近年來,國內出現了AI算力芯片創業熱潮,壁仞、燧原等一系列明星創業公司正在不斷涌現。
看起來,AI算力的單點突破景象喜人。
然而,正如鄭緯民院士與吳宗友所指出的那樣,大模型時代的AI算力單位是集群總算力,而非單卡算力。而產業應用場景豐富、算力技術路線多元的中國AI產業優勢,同時也意味著生態割裂的隱患正在與單點突破同步累積。
![]()
換句話說,中美AI產業分道揚鑣的第一個層面已經明顯展現,那就是中國算力集群創新需求更為迫切。
基于“AI計算開放架構”的曙光scaleX萬卡超集群系統因此而誕生,其意義不亞于誕生于1980年的TCP/IP協議,后者讓所有AI產業鏈上企業都能參與AI集群設施創新。
而基于“AI計算開放架構”理念,所研發的曙光scaleX萬卡超集群系統,可兼容多品牌AI加速卡以及主流計算生態讓國產AI產業從“單點突破”走向產業“生態共進”,提供一個可靠算力底座。
但要實現萬卡集群的創新,談何容易。
要知道,美國大廠的萬卡以上級別計算集群,幾乎清一色采用了英偉達的GPU。
英偉達能成為AI行業的“水電煤”,同樣依賴的不是單卡而是集群,準確地說,其強大的GPU算力是由“三駕馬車”構成——GPU提供澎湃的浮點算力,NVLink負責計算節點內的高速互聯,InfiniBand網絡將計算節點鏈接為計算集群。
AI計算需要的網絡與傳統的以太網不一樣,它對信號的質量要求非常高,要求做到無損,如此才可以做到硬件上極低的延遲。所以,NVLink與InfiniBand,其技術門檻絲毫不亞于GPU設計。
![]()
scaleX萬卡超集群由16個曙光scaleX640超節點通過scaleFabric高速網絡互連而成,可實現10240塊AI加速卡部署,總算力規模超5EFlops。作為世界首個單機柜級640卡超節點,scaleX640采用超高密度刀片、浸沒相變液冷等技術,將單機柜算力密度提升20倍,PUE值低至1.04。
![]()
特別值得關注的是曙光scaleFabric網絡,其是基于國內首款400G 類InfiniBand的原生RDMA網卡與交換芯片,可實現400Gb/s超高帶寬、低于1微秒端側通信延遲,超節點間的通信性能達到業內領先水平,充分釋放萬卡超集群算力,并可將超集群規模輕松擴展至10 萬卡以上,相比傳統IB網絡提升2.33倍,同時網絡總體成本降低 30%。
曙光scaleFabric網絡與scaleX萬卡超集群實現的技術躍遷程度,用形象描述會比數據描述更容易理解:要是用原本的技術搭建萬卡集群,HAIC 2025的半個展館都不夠。而現在卻可以放置在門口,其計算密度是數量級上的差距。
“我們這一代的產品,從目前的規格指標和實測的指標穩定性來說,完全可說實現全行業領先。”
中科曙光高級副總裁李斌介紹,scaleX萬卡超集群的部分技術與能力,已超越英偉達研發路線圖的2027年NVL576里程節點。
更讓人佩服的是,scaleX萬卡超集群連一些非核心但對運維很重要的技術,比如讓數據傳輸更穩定的112G SerDes關鍵部件,還有萬一網絡出問題也能很快恢復正常的技術——通過物理集群數字孿生,實現故障定位、修復等全流程可視化智能管理——都一次性搞定了,補表現出了十分全面的技術優勢。
![]()
中美AI產業分道揚鑣的第二個層面,表現的更為明顯,那就是中國擁有從不同數量級參數的大模型層,到應用層的蓬勃生態,背后則是中國各行各業產業升級的迫切需求。
也就是說,除了AI算力的提升之外,國內產業還有強烈的生態融合需求。
令行業驚喜的是,scaleX萬卡超集群一出場就自帶開放生態雛形。
在HAIC 2025上,曙光scaleX萬卡超集群系統的發布環節,不僅發布了打破異構算力“存算傳”瓶頸的技術創新,而且直接發布一個開放生態的雛形——兼容市面上所有智算及超算應用場景,應用可實現無感遷移。
![]()
作為 “AI計算開放架構”最新重磅成果,scaleX萬卡超集群實現400+主流大模型、世界模型等適配優化。在實際應用中,該超集群可覆蓋大模型訓練、金融風控、地質能源勘探及科學智能等多元場景。
隨著scaleX萬卡超集群的落地,中國AI產業不再局限于追趕硬件性能,而是轉向構建開放、協同、可持續的生態體系。這一轉變,正呼應了光合組織“智算無界,光合共生”的愿景。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.