通信世界網(wǎng)消息(CWW)2025年,人工智能算力需求呈指數(shù)級(jí)增長,超大規(guī)模集群成為技術(shù)競(jìng)爭(zhēng)的核心戰(zhàn)場(chǎng)。在首屆光合組織人工智能創(chuàng)新大會(huì)(HAIC2025)上,中科曙光scaleX萬卡超集群、開放聯(lián)合實(shí)驗(yàn)室驚艷亮相,以“開放架構(gòu)”打破行業(yè)“生態(tài)圍墻”,引發(fā)全產(chǎn)業(yè)鏈關(guān)注。大會(huì)期間,中科曙光高級(jí)副總裁李斌與高性能計(jì)算軟件研發(fā)總經(jīng)理呂灼恒共同接受媒體專訪,深入解讀曙光在智算集群建設(shè)、技術(shù)創(chuàng)新、生態(tài)協(xié)同等方面的戰(zhàn)略布局,勾勒出2025年曙光在人工智能算力領(lǐng)域的發(fā)展脈絡(luò)與行業(yè)思考。
開放是必然:打破內(nèi)卷困局,重構(gòu)產(chǎn)業(yè)協(xié)同生態(tài)
在行業(yè)普遍追求“生態(tài)閉環(huán)”、構(gòu)筑競(jìng)爭(zhēng)壁壘的當(dāng)下,曙光毅然選擇“開放架構(gòu)”路線,這一決策背后是對(duì)產(chǎn)業(yè)痛點(diǎn)的深刻洞察。“人工智能產(chǎn)業(yè)鏈極長,從芯片到系統(tǒng)再到應(yīng)用,需要各環(huán)節(jié)緊耦合協(xié)同,但當(dāng)前行業(yè)陷入‘各自為戰(zhàn)’的內(nèi)卷困境——企業(yè)總想覆蓋全鏈條,結(jié)果每個(gè)環(huán)節(jié)都做不精,最終讓用戶陷入選擇困境。”李斌直言,這種分散發(fā)展模式既無法滿足用戶需求,也讓企業(yè)難以找準(zhǔn)自身定位。
![]()
中科曙光高級(jí)副總裁李斌
曙光提出的AI計(jì)算開放架構(gòu),核心是讓產(chǎn)業(yè)鏈合作伙伴聚焦各自優(yōu)勢(shì)領(lǐng)域,實(shí)現(xiàn)協(xié)同共贏。“我們?cè)敢鈹y手產(chǎn)業(yè)伙伴,推動(dòng)芯片、系統(tǒng)、軟件、應(yīng)用等環(huán)節(jié)的技術(shù)整合與協(xié)同規(guī)劃。”李斌表示,開放不是簡(jiǎn)單的技術(shù)共享,而是通過建立統(tǒng)一標(biāo)準(zhǔn)和協(xié)同機(jī)制,讓不同廠商的產(chǎn)品能夠無縫適配,最終為用戶提供高效、可靠的一體化解決方案。
2025年,曙光的開放戰(zhàn)略在HAIC2025大會(huì)上落地為開放聯(lián)合實(shí)驗(yàn)室,成為推動(dòng)開放架構(gòu)實(shí)踐的核心載體。實(shí)驗(yàn)室通過設(shè)立專項(xiàng)工作組,聚焦芯片互連、底層軟件標(biāo)準(zhǔn)、高速網(wǎng)絡(luò)等關(guān)鍵技術(shù)方向,推動(dòng)產(chǎn)業(yè)鏈協(xié)同攻關(guān)。對(duì)于中小企業(yè)而言,這一平臺(tái)大幅降低了參與門檻——無需投入巨額資源搭建算力平臺(tái),即可借助曙光提供的技術(shù)支撐和測(cè)試環(huán)境,專注于細(xì)分領(lǐng)域的創(chuàng)新突破。“比如一家專注于算法的小企業(yè),有了開放實(shí)驗(yàn)室的支持,就能把‘敢想但沒條件做’的技術(shù)落地,這正是開放生態(tài)的價(jià)值所在。”李斌舉例道。
scaleX萬卡超集群打造國產(chǎn)智算標(biāo)桿
HAIC2025大會(huì)上,曙光scaleX萬卡超集群的發(fā)布,標(biāo)志著我國在超大規(guī)模智算基礎(chǔ)設(shè)施領(lǐng)域?qū)崿F(xiàn)關(guān)鍵突破。這套由16個(gè)scaleX640超節(jié)點(diǎn)組成的集群系統(tǒng),算力超5Eflops,能夠滿足萬億參數(shù)大模型訓(xùn)練、科學(xué)智能等極致場(chǎng)景需求。然而,超大規(guī)模集群的建設(shè)絕非簡(jiǎn)單的設(shè)備堆砌,而是對(duì)工程技術(shù)的全面考驗(yàn)。
![]()
“當(dāng)系統(tǒng)規(guī)模擴(kuò)大到萬卡級(jí)別,任何單點(diǎn)問題都會(huì)被無限放大,可靠性、可擴(kuò)展性、能效比成為三大核心挑戰(zhàn)。”李斌有著二十余年超算建設(shè)經(jīng)驗(yàn),他坦言,超大規(guī)模集群首先要解決互連網(wǎng)絡(luò)瓶頸——必須具備高帶寬、低延遲、可管理的特性,才能避免規(guī)模擴(kuò)大后計(jì)算效率下降。曙光自主研發(fā)的ScaleFabric高速網(wǎng)絡(luò),作為國內(nèi)首款400G類IB原生RDMA網(wǎng)絡(luò)產(chǎn)品,帶寬與延遲對(duì)標(biāo)國際主流水平,端口密度提升25%,組網(wǎng)成本降低30%,為萬卡集群提供了核心支撐。
在可靠性方面,萬卡規(guī)模意味著故障概率呈指數(shù)級(jí)增長。曙光通過數(shù)字孿生技術(shù)構(gòu)建了與物理集群1:1對(duì)應(yīng)的虛擬模型,實(shí)時(shí)采集計(jì)算、網(wǎng)絡(luò)、供電等全鏈路數(shù)據(jù),結(jié)合AI算法實(shí)現(xiàn)故障主動(dòng)預(yù)測(cè)與根因定位。“傳統(tǒng)運(yùn)維是被動(dòng)告警,現(xiàn)在我們能主動(dòng)發(fā)現(xiàn)潛在問題,甚至在故障發(fā)生前提前干預(yù),將集群可用性提升至99.99%。”呂灼恒補(bǔ)充道,這套智能運(yùn)維系統(tǒng)還能根據(jù)任務(wù)特征實(shí)現(xiàn)資源精準(zhǔn)調(diào)度,讓科研人員無需關(guān)注底層運(yùn)維,專注于核心創(chuàng)新。
能效比則是超大規(guī)模算力中心的另一關(guān)鍵命題。面對(duì)未來五年可能出現(xiàn)的“3吉瓦級(jí)”算力中心,曙光采用浸沒式相變液冷、高壓直流供電等先進(jìn)技術(shù),將scaleX超節(jié)點(diǎn)的PUE控制在1.04的超低水平,在保證系統(tǒng)高效穩(wěn)定運(yùn)行的同時(shí),實(shí)現(xiàn)了綠色節(jié)能目標(biāo)。“這些技術(shù)突破不是孤立的,而是軟硬件協(xié)同優(yōu)化的結(jié)果,體現(xiàn)了曙光在系統(tǒng)工程領(lǐng)域的深厚積累。”李斌強(qiáng)調(diào)。
深度融合區(qū)域發(fā)展,賦能千行百業(yè)智能化
算力的價(jià)值最終要通過應(yīng)用場(chǎng)景實(shí)現(xiàn)。2025年,曙光在算力落地方面持續(xù)發(fā)力,不僅打造了重慶等區(qū)域數(shù)據(jù)中心標(biāo)桿項(xiàng)目,更通過“光耀百城2.0”計(jì)劃推動(dòng)算力資源向全國下沉。李斌表示,區(qū)域數(shù)據(jù)中心的成功關(guān)鍵在于“需求匹配”與“產(chǎn)業(yè)賦能”雙輪驅(qū)動(dòng)。“我們建設(shè)數(shù)據(jù)中心不是簡(jiǎn)單堆砌算力,而是要與當(dāng)?shù)禺a(chǎn)業(yè)需求深度結(jié)合,成為吸引投資、培育新興產(chǎn)業(yè)的基礎(chǔ)設(shè)施。”
以重慶數(shù)據(jù)中心為例,曙光采用“算力+場(chǎng)景”的合作模式,將超算、智算能力與當(dāng)?shù)刂圃鞓I(yè)、數(shù)字經(jīng)濟(jì)發(fā)展需求相結(jié)合,通過靈活的運(yùn)營機(jī)制,為企業(yè)提供定制化算力服務(wù)。這種模式既保證了數(shù)據(jù)中心的高效運(yùn)轉(zhuǎn),又為當(dāng)?shù)禺a(chǎn)業(yè)升級(jí)注入了動(dòng)力。“未來,我們將在更多區(qū)域復(fù)制這種模式,讓算力真正成為區(qū)域經(jīng)濟(jì)發(fā)展的‘?dāng)?shù)字引擎’。”李斌說。
在行業(yè)應(yīng)用方面,scaleX萬卡超集群已展現(xiàn)出廣泛的適配性。在金融領(lǐng)域,高帶寬、低延遲的特性滿足了結(jié)算業(yè)務(wù)的時(shí)效性與安全性需求;在制造業(yè),海量算力支撐新能源汽車仿真測(cè)試、工業(yè)數(shù)字孿生等場(chǎng)景,縮短研發(fā)周期;在科研領(lǐng)域,為新藥研發(fā)、材料科學(xué)、氣象預(yù)測(cè)等提供強(qiáng)大算力支撐,推動(dòng)科研模式從“經(jīng)驗(yàn)驅(qū)動(dòng)”向“數(shù)據(jù)與模型雙驅(qū)動(dòng)”轉(zhuǎn)變。“萬卡集群的價(jià)值不僅在于算力規(guī)模,更在于它能讓過去難以實(shí)現(xiàn)的科研創(chuàng)新和產(chǎn)業(yè)升級(jí)成為可能。”呂灼恒補(bǔ)充道。
國產(chǎn)智算高質(zhì)量發(fā)展,必須聚焦核心技術(shù)
談及2025年后的發(fā)展規(guī)劃,李斌表示,曙光將持續(xù)聚焦核心技術(shù)研發(fā),深化開放生態(tài)建設(shè),推動(dòng)超算、智算、通算的融合發(fā)展。“海外超算的核心定義就是‘性能更強(qiáng)、能做一般計(jì)算機(jī)做不到的事’,并沒有刻意區(qū)分智算和超算。”他認(rèn)為,國內(nèi)過度割裂三者的發(fā)展模式不利于產(chǎn)業(yè)協(xié)同,未來曙光將以統(tǒng)一的開放架構(gòu)為基礎(chǔ),實(shí)現(xiàn)不同計(jì)算形態(tài)的融合,滿足多樣化場(chǎng)景需求。
在技術(shù)迭代方面,曙光將持續(xù)推進(jìn)高速互連、智能運(yùn)維、綠色節(jié)能等核心技術(shù)的升級(jí),同時(shí)加大對(duì)AI原生應(yīng)用的支持力度。“我們要讓集群不僅能提供算力,更能理解AI應(yīng)用的需求,實(shí)現(xiàn)軟硬件的深度協(xié)同優(yōu)化。”李斌表示,曙光將通過開放聯(lián)合實(shí)驗(yàn)室,與產(chǎn)業(yè)鏈伙伴共同制定更多技術(shù)標(biāo)準(zhǔn),推動(dòng)國產(chǎn)智算產(chǎn)業(yè)從“單點(diǎn)突破”向“系統(tǒng)領(lǐng)先”跨越。
![]()
對(duì)于行業(yè)競(jìng)爭(zhēng),李斌始終堅(jiān)持“協(xié)同大于競(jìng)爭(zhēng)”的理念。“國產(chǎn)智算產(chǎn)業(yè)與國際仍有差距,這種差距需要大廠牽頭、協(xié)同攻關(guān)才能彌補(bǔ)。”他呼吁行業(yè)摒棄內(nèi)卷壁壘,通過開放架構(gòu)實(shí)現(xiàn)資源共享、優(yōu)勢(shì)互補(bǔ),共同提升國產(chǎn)算力的整體競(jìng)爭(zhēng)力。
2025年,曙光以scaleX萬卡超集群彰顯了技術(shù)硬實(shí)力,以開放架構(gòu)展現(xiàn)了產(chǎn)業(yè)擔(dān)當(dāng)。李斌表示,未來曙光將繼續(xù)以“開放、協(xié)同、創(chuàng)新”為核心,與生態(tài)伙伴一道破解技術(shù)瓶頸、拓展應(yīng)用場(chǎng)景,讓國產(chǎn)智算集群不僅成為算力供給的核心載體,更成為推動(dòng)中國人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展的關(guān)鍵力量。“我們的目標(biāo)是打造真正好用、易用的智算基礎(chǔ)設(shè)施,為千行百業(yè)的智能化轉(zhuǎn)型提供堅(jiān)實(shí)支撐。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.