網易首頁 > 網易號 > 正文申請入駐

萬卡集群+開放架構，scaleX加速國產算力崛起

2025-12-26 20:37:16　來源: 老冀談科技

北京舉報

分享至

如今的中國，已經成為全球的AI創新高地。隨著生成式AI蓬勃興起，中國市場上已經涌現了數以百計的基礎大模型、垂類大模型與智能體，并驅動科學智能、智能駕駛、具身智能等產業的高速發展。

AI算力，就是AI時代的基礎底座。國家發布的《深入實施“東數西算”工程加快構建全國一體化算力網的實施意見》、《關于深入實施“人工智能+”行動的意見》等政策，均將AI算力列為智能經濟基礎支撐。

根據知名研究機構IDC預測，2020年到2028年，中國AI算力年均復合增長率高達46.2%，并在2028年達到2781EFLOPS驚人規模。

可是，AI算力在中國的發展也遇到了不小瓶頸。由于技術封鎖等原因，在單卡算力方面，國內主流AI芯片與英偉達旗艦產品仍存在代差，如何破局？

前不久在江蘇昆山舉辦的光合組織2025人工智能創新大會（HAIC2025）上，中科曙光scaleX萬卡超集群以真機形式首次公開亮相，也為中國AI算力行業提出了破局的方法，那就是開放的系統級創新。

系統級創新

在中科曙光看來，雖然國產單卡算力的性能還有差距，但是只要從Scale-up（縱向擴展）和Scale-out（橫向擴展）兩個維度做好拓展，整體的AI算力能夠有前沿突破。這次發布的中科曙光scaleX萬卡超集群，正是這個思路的集中體現。

先說Scale-up，這里的關鍵詞就是“超節點”。它采用了全球首創單機柜級640卡超節點，將單機柜算力密度提升20倍，PUE值低至1.04。

再說Scale-out，關鍵在于“超集群”。中科曙光打造了scaleX萬卡超集群，由16個曙光scaleX640超節點通過scaleFabric高速網絡互連而成，可實現10240塊AI加速卡部署，總算力規模超5EFlops。而且，萬卡并不是上限，超集群還能夠輕松地拓展到10萬卡以上。

這個總算力規模無疑是驚人的。要知道，目前國內三大電信運營商的智算規模也不過137.35EFlops。其中規模最大的中國移動，其總智算規模為61.35EFlops，平均到分布在全國的21個智算中心，單個智算中心的算力也不過2.9EFlops。

要把總算力規?！袄逼饋?，中科曙光scaleX萬卡超集群就必須同時做好Scale-up和Scale-out。這個時候，由于兩種擴展范式需要突破的技術瓶頸不盡相同，而且還相互制約，單點突破式的技術創新顯然就不夠用了，必須做到系統級創新。

在老冀看來，中科曙光scaleX萬卡超集群的系統級創新主要體現在以下四個方面：

1.高密度機柜：一個單機柜級超節點，竟然“塞”下了640張AI加速卡，這也是業界最高的集成度。為了解決散熱的難題，采用了“一拖二”模式，兩個640卡單機柜在兩邊，中間則是同樣業界領先的浸沒相變液冷單元，能夠為兩側的機柜提供最高1.7MW的散熱能力。再加上高壓直流供電等手段，使得PUE只有1.04，同樣也在業界領先。

2.高速網絡：我們知道，即使單個超節點的性能很強，如果超節點之間的連接速度跟不上，仍然會拖超集群的后腿。因此，中科曙光專門花了3年時間自研了原生RDMA高速網絡ScaleFabric，它基于國內首款400G類InfiniBand架構網卡與交換芯片，可提供400Gb/s帶寬和低于1微秒的端到端延遲，通信效率較傳統IB提升2.33倍，成本降低30%。

老冀特意查了一下，英偉達即將在2027年發布的NVL576里程節點，InfiniBand帶寬也才達到400Gb/s帶寬。也就是說，在超節點連接方面，曙光已經實現了對英偉達的部分能力領先。

3.深度優化：為進一步打通數據流動瓶頸，中科曙光通過“超級隧道”與AI數據加速等設計，實現存、算、傳的深度緊耦合與協同優化，從芯片級、系統級到應用級構建三級數據傳輸優化體系，高效應對萬卡并發帶來的極致讀寫與挑戰挑戰，顯著提升高通量AI推理響應速度與結果精準度，并將AI加速卡的資源利用率提高55%。

這里老冀重點提一下中科曙光在存儲領域的超強技術實力，做到了讓存儲深度介入AI業務流水線，把存儲從倉庫升級成“AI數據工廠”，不光存，還要算和加速，從而實現了整體加速。

4.智能調度：如此龐大的算力集群，如何才能管好？曙光又凸顯了自己的軟件實力，做到了“用AI來管AI算力”。曙光專門構建了超集群數字孿生與智能調度體系，實現運維全流程可視化與智能化，保障集群高達99.99%的可用性；智能調度引擎可高效管理萬級節點、服務十萬級用戶，支持每秒萬級作業的高并發調度，確保大規模AI業務穩定高效運行。

正是通過以下四個方面的系統級創新，曙光scaleX萬卡超集群才得以實現技術的集大成，部分技術與能力已經超越英偉達一年多之后才發布的NVL576里程節點。

開放式創新

僅僅自己搞好創新就夠了嗎？當然不夠。老冀發現，在中科曙光scaleX萬卡超集群還充分體現了海納百川、有容乃大的開放式創新。

中科曙光scaleX萬卡超集群可支持多品牌加速卡以及主流計算生態，并實現400+主流大模型、世界模型等適配優化。

這里的關鍵，是中科曙光聯合20多家AI產業鏈企業共同推出的“AI計算開放架構”，大家共享若干關鍵共性技術能力，依托系統工程思維推進智算集群創新。通過scaleX萬卡超集群，AI企業可降低智算集群研發門檻，并從技術“單點突圍”走向產業“生態共進”，將開放理念轉化為可落地普惠算力。

老冀注意到，在HAIC2025上，還公布了AI計算開放架構聯合實驗室首批項目組協同創新計劃，旨在匯聚頂尖力量，針對科學大模型、多元異構算力融合、統一基礎軟件棧、超大規模集群優化等共性關鍵技術開展聯合攻關，將開放協作深入研發源頭。

為了更好地實現協同創新，在AI計算開放架構聯合實驗室下面已經成立了一些專門的工作組，有針對性地研究芯片之間的互連、芯片底層軟件之間的開放共享、互連網絡等專門問題?？梢灶A見的是，未來工作組的研究方向會越來越多，產業界形成的共識和成果也會越來越多。

中科曙光也非常清楚，發布萬卡超集群不僅僅只是為了“秀肌肉”，更是為了讓產業界把萬卡超集群的強大算力用起來。為此，就需要敞開胸懷，開放合作。

未來，中科曙光scaleX萬卡超集群的使用方式也是靈活多樣。在實際應用中，大型企業和機構可以將其用于大模型訓練、金融風控、地質能源勘探、科學智能等多元場景。

創新模式建繁榮生態

在芯片、模型、基礎軟件等核心技術自主創新突破的基礎上，發展更大規模、更高效的智算集群，突破國內AI算力瓶頸，已經成為產業共識。在探索突破路線的過程中，目前國內形成了兩種模式：

第一種是部分開放模式，底層硬件相對封閉，上層軟件棧及應用可細分適配。少數頭部企業發揮其垂直資源整合能力，解決底層的GPU緊耦合設計、異構芯片協同等核心技術，打造大規模算力集群，向上提供統一的接口規范。

第二種是完全開放模式，底層硬件層、AI軟件棧層及AI應用層均可自定義適配，全AI產業鏈上下游的企業進行分工協作與跨層優化，形成開放繁榮的生態，吸引更多開發者參與，不斷催生新的應用與服務。

以中科曙光為代表的部分國內企業，走的是完全開放的道路。在HAIC2025上發布的“眾創”產品——中科曙光scaleX萬卡超集群，以及眾多合作伙伴的踴躍參與和積極奉獻，無不凸顯出完全開放模式的優點。

老冀認為，這兩種模式均有其合理性。不過，完全開放模式能夠建立更加繁榮的生態，從而讓更多的用戶和供應商受益，也更利于AI應用在神州大地的普及。老冀相信，假以時日，完全開放模式勢必會取得更好更快的發展，并涌現出更多像中科曙光scaleX萬卡超集群這樣的重量級創新產品。

長風破浪會有時，直掛云帆濟滄海，中國AI的歷史時刻正在到來！

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.