在萬億參數模型成為AI“入場券”的當下,算力競賽的底層邏輯正在發生深刻質變。
日前舉辦的第七屆中國超級算力大會(ChinaSC2025)上,錢德沛院士、鄭緯民院士、張云泉研究員、何寶宏所長、張林波研究員、中科院計算技術研究所研究員譚光明、清華大學教授陳文光、中國智能計算產業聯盟秘書長安靜共同發布《2025中國算力發展研究報告之AI計算開放架構》。該報告由單志廣、張云泉、何寶宏、張廣彬牽頭編著指導,指向一個趨勢——
AI產業的決勝點,正從對“單卡性能”的盲目崇拜,轉向對“萬卡集群效率”的極致追求;產業模式也正從“垂直封閉”的“蘋果模式”,邁向“水平分工”的“安卓模式”。
一個以開放架構為底座的智算新周期已然開啟。
![]()
算力競爭換道,從單卡性能轉向集群效率
眾所周知,長期以來,AI算力競爭被簡化為圍繞單卡峰值性能(FLOPS)的“軍備競賽”。
然而,當模型參數從千億躍升至萬億,尤其是MoE(混合專家模型)等復雜架構成為主流時,產業界開始意識到,單純堆疊高性能芯片,無法線性換來模型訓練效率的提升。
而真正的瓶頸則在于“集群效率”。
對此,有業內專家指出,當AI集群規模達到萬卡甚至十萬卡時,系統的性能瓶頸往往不在芯片內部,而在芯片之間,具體表現在數據墻、通信墻、I/O墻以及能耗墻,共同構成了阻礙AI繼續擴展的“效率墻”。
以目前主流AI集群為例,即使單卡性能不斷提升,但通信效率若下降5%,模型訓練的總時長可能增加數周,算力利用率也將驟降20%以上。
與此同時,國內AI算力還面臨“異構并存”下多品牌、多架構AI加速卡共存的現實國情,而在此種現實之下,若缺乏統一的軟件棧與開放的硬件標準,極易形成“算力孤島”。
這意味著,即便是算力供給總量在增長,但可用效率卻被架構割裂所消耗。
針對上述挑戰,《報告》提出:AI產業的發展拐點,正從“堆算力”轉向“組織算力”,尤其是在智能算力總規模逼近千EFLOPS的當下,算力資源的組織方式、系統間協同效率及架構開放程度,將決定未來AI創新的速度和邊界。
換言之,誰能率先實現“集群效率”的躍遷,誰就能在新一輪智能化浪潮中占據先機。
![]()
開放共生,AI計算開放架構重塑產業新秩序
面對上述“單卡性能代差”與“集群效率瓶頸”的雙重挑戰,《報告》提出了中國AI產業的破局路徑,即AI計算開放架構(Open AI Computing Architecture)。這不僅是一項技術標準,更是一場產業組織方式的范式革命。
《報告》稱,AI產業正從“垂直封閉”的“蘋果模式”,轉向“水平分工”的“安卓模式”。
在傳統的封閉模式下,硬件、軟件與生態被強行綁定,廠商各自為陣。
尤其在國內異構算力并存的現實下,這種封閉模式容易造成重復研發、標準割裂和資源浪費。
相比之下,開放架構的核心思想,則是通過“水平分工”,以“集群規模效益彌補單卡性能代差”。
而提及開放架構,根據《報告》定義,AI計算開放架構應具備“多元算力、高速互連、存算協同、綠色高效、穩定可靠、生態繁榮”六大特征,強調建立統一的接口規范與標準體系,向上兼容主流AI軟件生態(如飛槳、PyTorch、TensorFlow等),向下適配多品牌AI加速卡,形成軟硬協同、生態共建的新模式。
事實是,這場“開放革命”已在產業層面展開。
例如大會期間,中科曙光作為常務理事成員單位加入“九源智能計算系統生態聯合體”,推動其DeepAI深算智能引擎與“九源”智能計算軟件棧標準對接,體現了開放架構理念的落地實踐。
正如中科曙光總裁助理、智能計算產品事業部總經理杜夏威所言:“中科曙光與九源聯合體在智能計算系統生態發展理念上高度契合,將攜手其他成員在AI軟件棧兼容性、系統標準制定、生態適配與行業應用等領域開展深度合作,共建自主可控AI生態。”
![]()
scaleX640登場,以開放架構定義中國智算新底座
當然,上述理念的轉變和生態的協同,最終需要一款“現象級”的硬件產品來承載,而這便是中科曙光最新推出的scaleX640超節點。
它是全球首個單機柜級640卡超節點系統,面向萬億參數大模型而生,也是繼曙光9月份發布AI超級群系統后,首個AI計算開放架構完整落地的產品。
首先scaleX640的設計思路極具代表性,以架構協同取代了堆料式性能擴展。
通過“一拖二”的高密設計,單機柜即可實現640卡高速總線互連;通過機柜間高速網絡互聯,雙scaleX640超節點組成1280千卡計算單元。
與此同時,浸沒相變液冷等創新技術加持,可提供高達1.72MW的散熱能力,使得其在高功耗、高密度環境下仍能維持極致穩定運行。
性能之外,更關鍵的是效率與開放。
曙光scaleX640中首次實現軟硬協同全局優化,在MoE大模型訓練與高通量推理場景下,整體性能相較傳統架構提升約30%-40%。
更值得關注的是,scaleX640完全基于AI計算開放架構,可兼容多品牌AI加速卡,支持包括飛槳、PyTorch、TensorFlow在內的主流AI框架,以及400余種大模型的快速遷移與優化。
這意味著,開發者無需被綁定在單一廠商生態中,而可在開放環境中實現靈活擴展。
在運維與可靠性層面,采用多層級RAS機制和智能容錯系統,scaleX640已通過30天以上長穩運行驗證,可擴展至十萬卡級集群。
由上述可見,scaleX640不僅具備超強算力,更代表著算、存、網、電、冷、管、軟七大子系統協同運行的“體系化開放”能力,是開放架構下新的完整AI基礎設施底座。
對此,中科曙光高級副總裁李斌表示,“scaleX640超節點的推出承載雙重關鍵意義,一是通過開放架構創新突破算力瓶頸;二是支撐前沿大模型持續創新,為各行業‘人工智能+’打造堅實高效、好用易用的智算基礎設施。”
而在我們看來,從技術到生態,scaleX640所代表的,正是中國算力產業的集群化方向,即不再強調單點極限性能,而是以系統整體效率與生態協同為核心,而這與報告中所提倡的“AI計算開放架構”趨勢可謂高度契合,符合AI產業的發展趨勢。
可以說,scaleX640既是這一理念的技術樣本,也是中國AI算力體系重塑的一個標志性節點。
不僅意味著中科曙光在技術路線上的領先,也預示著國產AI算力體系正從“設備制造”走向“架構定義”。
而它的開放兼容特性,為異構計算環境中的協同提供了現實路徑,對中國AI基礎設施的標準化建設具有示范意義。
▎寫在最后:
從“開放架構”定義之初,到中科曙光推出的scaleX640超節點,再到《報告》的發布,我們可以看到,中國AI算力體系正形成以開放架構為橋梁,以集群效率為核心,以生態協作為牽引的進化路徑。
與此同時,AI競賽的決勝點正在從單卡性能到集群效率,從封閉體系到開放生態的轉移。
而這對于正在加速升級的中國智算產業而言,不僅是一次技術路線的選擇,更是一場產業格局的重塑。
(本文轉載自財聯社)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.