當大模型競賽從“百億參數(shù)”邁向“萬億參數(shù)”;當科學智能、智能體、具身智能等新范式不斷涌現(xiàn),算力已不再只是技術體系中的底層支撐,而是直接決定創(chuàng)新邊界與產業(yè)上限的關鍵變量。在這一背景下,國家超算互聯(lián)網(wǎng)核心節(jié)點同步部署3套中科曙光的scaleX萬卡超集群,構成全國最大單體國產AI算力池的核心支柱,這不僅意味著中國具備了構建超大規(guī)模智算基礎設施的工程能力,也預示著國內算力產業(yè)發(fā)展和使用范式的躍遷。
![]()
從概念到真機落地,scaleX萬卡“中國速度”彰顯體系協(xié)同能力
眾所周知,在全球算力競賽不斷加速的當下,萬卡集群不再只是技術炫技,而是衡量一個國家AI基礎設施建設能力的重要標準。而曙光scaleX萬卡集群之所以引人關注,在于它在國產體系內完成了從架構設計、超節(jié)點工程化到萬卡級互聯(lián)、主流模型適配的一次性突破,實現(xiàn)了從發(fā)布到真機落地只用兩個多月的“中國速度”。
究其原因,中科曙光長期深耕AI計算、高性能計算與大型系統(tǒng)研制,在整機架構設計、網(wǎng)絡拓撲規(guī)劃以及軟硬件協(xié)同優(yōu)化方面形成了體系化能力。具體到scaleX萬卡超集群,其采用緊耦合架構,通過自主研發(fā)的scaleFabric高速網(wǎng)絡互連,實現(xiàn)了萬卡級規(guī)模下的低時延、高帶寬通信,并在設計之初就面向十萬卡、百萬卡級擴展預留空間。而這種“先天可擴展”的架構思維,使得萬卡并非孤立節(jié)點,而是未來更大規(guī)模算力體系的起點。
![]()
與此同時,關鍵基礎能力的成熟,也是其實現(xiàn)“中國速度”的重要支撐。其中原生RDMA高速網(wǎng)絡、400G級互連能力、高密度單機柜、浸沒相變液冷等技術的工程化應用,讓scaleX萬卡超集群系統(tǒng)在性能、能效和可靠性之間實現(xiàn)平衡,為快速部署提供了現(xiàn)實基礎,再疊加數(shù)字孿生、智能調度等系統(tǒng)軟件能力,使萬級節(jié)點的統(tǒng)一管理和穩(wěn)定運行成為可控工程,而非實驗室展示。
更重要的是,這一速度背后還體現(xiàn)出“國家級平臺+龍頭企業(yè)+區(qū)域節(jié)點”協(xié)同推進的新型基礎設施建設模式,即國家超算互聯(lián)網(wǎng)核心節(jié)點作為全國一體化算力網(wǎng)絡的重要樞紐,為scaleX萬卡超集群提供了應用場景與調度入口,而曙光的系統(tǒng)能力,則把頂層規(guī)劃轉化為可運行、可服務的現(xiàn)實算力資源。
由此可見,曙光scaleX萬卡之所以跑出“中國速度”,本質上是體系協(xié)同能力的集中體現(xiàn)。
萬卡集群落地背后,算力使用和發(fā)展范式的躍遷
scaleX萬卡超集群真正產生影響,并不止于建成了一套大系統(tǒng),而是它開始穩(wěn)定對外提供服務后,國內算力的使用方式正在發(fā)生結構性變化。
首先,算力正逐步向“公共資源”形態(tài)演進。依托國家超算互聯(lián)網(wǎng)平臺,scaleX萬卡級算力以服務化方式向科研機構、高校、企業(yè)和創(chuàng)新團隊開放,至此,算力不再體現(xiàn)為“誰買了多少設備”,而是轉化為通過網(wǎng)絡即可獲取的能力供給。而這種形態(tài),使算力開始具備類似水、電、網(wǎng)絡的公共屬性,讓大模型訓練、高通量推理、AI for Science等場景擁有了更穩(wěn)定、更可預期的底座。
![]()
目前scaleX萬卡超集群已支持萬億參數(shù)模型整機訓練與容錯恢復;在高通量推理場景,持續(xù)服務多家頭部互聯(lián)網(wǎng)企業(yè)的核心智能化業(yè)務,并通過聯(lián)合深度優(yōu)化不斷提升推理效能;在AI for Science領域,支撐國內某材料研發(fā)大模型登頂國際權威榜單,助力頂級科研團隊將蛋白質研究效率提升3—6個數(shù)量級。
由此可見,對大量創(chuàng)新主體而言,最大的變化在于起點被抬高,過去受制于算力規(guī)模而難以開展的大模型實驗、復雜仿真等,如今可以在公共平臺上直接運行,從而讓創(chuàng)新主體把更多精力投入到算法創(chuàng)新和場景探索中而不會被基礎設施條件所束縛。
與此同時,算力的使用方式也在發(fā)生變化。傳統(tǒng)模式下,算力更多以整機租賃或固定配額的方式分配,資源一旦劃分,利用率很難做到最優(yōu)。而scaleX萬卡超集群通過智能調度和統(tǒng)一資源管理,把萬級節(jié)點納入同一調度體系,使算力能夠根據(jù)不同任務的規(guī)模、類型和時延要求進行動態(tài)匹配。在這種機制下,算力不再是“先到先得”的稀缺資源,而是可以被精細化管理和高效編排的生產要素,這對用戶意味著更快獲得算力、更穩(wěn)定完成任務;對平臺則是在無需額外擴容的情況下,通過調度效率的提升即可釋放更多有效算力。
此外,隨著規(guī)模化算力能力的穩(wěn)定輸出,算力平臺與大模型、智能體和應用之間也開始形成正向循環(huán)。目前,scaleX萬卡超集群已完成400多個主流大模型、世界模型的適配優(yōu)化,依托國家超算互聯(lián)網(wǎng),更可接入上千款應用,鏈接更多AI產業(yè)生態(tài)伙伴,實現(xiàn)“算力+應用”一體化交付,這使得其從單純的“算力提供者”演變?yōu)槟P团c應用的孵化器,讓開發(fā)者可以在成熟環(huán)境中快速驗證模型效果,應用團隊能夠直接調用經(jīng)過優(yōu)化的算力與模型能力,創(chuàng)新門檻隨之降低,迭代速度明顯加快。
當然,更深層的變化還體現(xiàn)在國產AI芯片的產業(yè)創(chuàng)新和應用空間被進一步釋放。鑒于scaleX萬卡超集群基于AI計算開放架構,其可支持多品牌國產加速卡混合部署,不同廠商的產品可以在同一系統(tǒng)中協(xié)同工作,這種異構融合的方式,改變了過去單一生態(tài)綁定的路徑,使國產芯片不必在所有指標上與國際巨頭正面競爭,而是在各自擅長的性能區(qū)間和應用場景中形成規(guī)模化落地。值得一提的是,隨著越來越多真實業(yè)務負載跑在國產芯片之上,應用反饋又將反過來推動芯片產品迭代,形成持續(xù)演進的創(chuàng)新路徑。
而從更宏觀的角度看,萬卡集群落地帶來的變化,本質上是在重塑中國算力產業(yè)的運行方式,即算力從資產走向服務,從封閉走向開放,從分散走向協(xié)同。而這種運行和使用機制的變化,遠比單一項目的規(guī)模突破更具長遠意義和價值。
從最大單體到體系能力,中國算力產業(yè)自主發(fā)展的必由之路
如上述,從更宏觀的視角看,scaleX萬卡超集群落地的意義,正在從單純的規(guī)模突破,演變?yōu)榘l(fā)展和使用范式的轉變,其所代表的不只是中國擁有了更大的算力池,而是逐步具備了構建、運營和持續(xù)演進超大規(guī)模智算基礎設施的體系能力。
對當下而言,這種體系能力首先提升了中國在全球算力版圖中的確定性。尤其是在外部環(huán)境不確定性加大的背景下,單點性能優(yōu)勢固然重要,但更關鍵的是是否具備持續(xù)供給高端算力的能力。而萬卡級超集群上線的穩(wěn)定運行,意味著中國不僅能設計出高性能系統(tǒng),也能讓其長期可靠地跑起來、用起來,從而為中國人工智能產業(yè)的發(fā)展提供了更加穩(wěn)固的算力底座。
進一步看,這一實踐還為中國算力產業(yè)提供了一條可復制和推廣的工程路徑。那就是以開放架構為基礎,通過分層解耦、異構融合和平臺化調度,將芯片、網(wǎng)絡、系統(tǒng)軟件與應用有機整合,形成可以不斷擴展的算力底座。這種路徑,使超大規(guī)模智算基礎設施不再是少數(shù)項目的“特例”,而是可以在不同區(qū)域節(jié)點、不同產業(yè)場景中持續(xù)復制的通用模式,有助于加快全國一體化算力網(wǎng)絡的整體成型與建設。
更重要的是,這種體系能力正在重塑產業(yè)協(xié)作方式。過去,算力系統(tǒng)往往圍繞單一生態(tài)構建,廠商之間邊界清晰卻協(xié)同有限,而在開放架構下,不同企業(yè)可以圍繞各自擅長的環(huán)節(jié)參與其中,從芯片、整機到系統(tǒng)軟件、平臺服務和行業(yè)應用形成分工協(xié)作,從而更有利于形成長期穩(wěn)定的產業(yè)生態(tài),也為更多創(chuàng)新主體提供了參與空間。
而當我們拉到更長的周期看,scaleX萬卡超集群所體現(xiàn)出的不僅是把系統(tǒng)做大,更是把系統(tǒng)做成基礎設施的能力。畢竟,當算力逐漸具備公共屬性,并通過平臺化方式持續(xù)供給,它所承載的將不只是當前的大模型訓練需求,還將成為未來科學智能、工業(yè)智能、城市智能等多元場景的通用底座。
寫在最后:綜上,我們認為,曙光刷新國產AI算力單體池紀錄的真正價值,不在于規(guī)模最大本身,而是它證明了中國不僅能做出萬卡級產品,更能以“中國速度”將其轉化為穩(wěn)定運行、可對外服務、可持續(xù)演進的國家級算力基礎設施。而當算力開始像水電一樣成為公共資源,開放架構讓更多國產力量協(xié)同發(fā)展,中國算力產業(yè)開啟的將是長期自主創(chuàng)新與高質量發(fā)展的新路徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.