文/黃海峰的通信生活
11月11日,在北京召開的第六屆創(chuàng)新和知識產(chǎn)權(quán)論壇上,華為正式公布“十大發(fā)明”評選結(jié)果。值得關(guān)注的是,華為“Scale-Up超大規(guī)模超節(jié)點算力平臺”(以下簡稱“Scale-Up超節(jié)點”)憑借其顛覆性的架構(gòu)設(shè)計與廣泛的產(chǎn)業(yè)影響,成功入選,備受關(guān)注。
![]()
眾所周知,當(dāng)下AI算力炙手可熱。諸多科技企業(yè)競逐芯片,攻堅大模型;千億資本注入,萬億支出將啟,超算集群狂飆,創(chuàng)新與熱錢共燃全球算力賽場。但是更多參數(shù)的大模型訓(xùn)練,遇到算力瓶頸、通信延遲、供電承壓和內(nèi)存限制等核心挑戰(zhàn)。
為此,華為推出創(chuàng)新的Scale-Up超節(jié)點,成為“一個機架就是一個節(jié)點”的超大規(guī)模算力平臺,通過系統(tǒng)性架構(gòu)創(chuàng)新,有效解決了制約大規(guī)模AI訓(xùn)練的關(guān)鍵技術(shù)難題,為AI產(chǎn)業(yè)提供了核心技術(shù)底座。
我們認為,Scale-Up超節(jié)點不僅是一項技術(shù)的勝利,更是華為在AI算力基礎(chǔ)設(shè)施領(lǐng)域發(fā)起的一場范式革命,這背后隱藏著華為對AI算力瓶頸的深刻洞察與破局之道。
破局之道:AI算力從“橫向堆疊”邁向“縱向擴展”
隨著大模型參數(shù)規(guī)模從千億邁向萬億,單個芯片的性能提升已遠遠跟不上算力需求的爆發(fā)式增長。當(dāng)一顆芯片不夠用時,行業(yè)傳統(tǒng)做法是采用橫向擴展(Scale-out)——通過堆疊獨立服務(wù)器組成計算集群,如同建設(shè)別墅區(qū)來解決住房問題。
然而,這種架構(gòu)下,每個節(jié)點都是獨立的別墅,擁有自己的計算、內(nèi)存和存儲資源。節(jié)點間的通信需要經(jīng)過復(fù)雜的網(wǎng)絡(luò)協(xié)議,如同郵差在不同別墅間送信,效率低下,通信開銷巨大。隨著卡數(shù)增加,有效算力利用率不升反降。
Scale-Up超節(jié)點提供了全新的思路——縱向擴展(Scale-Up),Scale-Up系統(tǒng)就相當(dāng)于蓋高樓,把樓蓋高之后,就可以住更多的人。具體而言,華為通過高速互聯(lián)技術(shù)將384個昇騰芯片緊密連接成一個整體,形成昇騰384超節(jié)點。
這不再是簡單的芯片堆疊,而是將原本分散的計算資源(NPU、CPU、DPU)、內(nèi)存、存儲等全部池化,如同將獨立別墅的車庫、花園收歸大樓統(tǒng)一管理,形成巨型的共享資源池。
這一架構(gòu)實現(xiàn)了“一切皆可池化、一切皆可對等、一切皆可組合”的理念:池化打破單節(jié)點邊界,對等互聯(lián)去除CPU中心化瓶頸,動態(tài)組合能根據(jù)任務(wù)需求靈活調(diào)配資源,最終數(shù)百個AI處理器能夠像一臺計算機一樣協(xié)同工作,從根本上破解了大規(guī)模AI計算的效率瓶頸。
技術(shù)基石:Scale-Up超節(jié)點實現(xiàn)三大核心技術(shù)突破
Scale-Up超節(jié)點之所以能成為“十大發(fā)明”,核心源于其在架構(gòu)、硬件與軟件層面的深度協(xié)同創(chuàng)新,實現(xiàn)了三大關(guān)鍵技術(shù)突破,為極致性能筑牢根基。
![]()
突破一:內(nèi)存語義通信,降低通信時延與開銷。傳統(tǒng)集群節(jié)點間通信需經(jīng)過復(fù)雜網(wǎng)絡(luò)協(xié)議,存在時延高、開銷大的痛點。Scale-Up超節(jié)點通過內(nèi)存語義通信技術(shù),可直接訪問對端 NPU,大幅提升通信效率,從根本上解決了大規(guī)模計算中節(jié)點協(xié)同的效率瓶頸。
筆者認為,華為內(nèi)存語義通信技術(shù)的核心價值,在于將節(jié)點間通信轉(zhuǎn)化為類本地內(nèi)存訪問,這種范式轉(zhuǎn)變讓數(shù)百個昇騰芯片真正融為一體,有效算力利用率的提升對大模型訓(xùn)練周期的縮短起到了決定性作用,為萬億參數(shù)模型的研發(fā)掃清了關(guān)鍵障礙。
突破二:ODSP檢測技術(shù),提升互聯(lián)可靠性與可維護性。超節(jié)點規(guī)模龐大,對互聯(lián)可靠性和可維護性提出極高要求。Scale-Up超節(jié)點采用業(yè)界首提的基于ODSP的檢測技術(shù),能高效準(zhǔn)確識別鏈路故障,既保障了超大規(guī)模集群的穩(wěn)定運行,也降低了后期維護成本。
其實,超大規(guī)模集群的可靠性與可維護性是一對隱性矛盾,傳統(tǒng)檢測方式要么誤報率高要么排查慢,一旦停機維護,對AI訓(xùn)練任務(wù)的損失難以估量。華為基于ODSP的檢測技術(shù),讓Scale-Up超節(jié)點的穩(wěn)定運行有了安全閥,是其從實驗室技術(shù)走向產(chǎn)業(yè)化應(yīng)用的關(guān)鍵。
突破三:創(chuàng)新供電架構(gòu),破解供配電壓力。超大規(guī)模集群運行時,尖峰功率帶來的供配電壓力極易限制算力發(fā)揮。Scale-Up超節(jié)點采用爆發(fā)式柜級供電架構(gòu),能夠平穩(wěn)承接AI場景下的突發(fā)負載,從能源供給端為超節(jié)點穩(wěn)定運行提供堅實保障。
AI算力集群的算力天花板,往往先受限于供配電能力。華為爆發(fā)式柜級供電架構(gòu),精準(zhǔn)匹配了AI負載“突發(fā)式、脈沖式”的特性,為萬卡級以上超大規(guī)模集群的穩(wěn)定運行提供了關(guān)鍵的能源支撐,這在行業(yè)內(nèi)是極具前瞻性的工程實踐。
價值躍遷:Scale-Up超節(jié)點從技術(shù)領(lǐng)先到產(chǎn)業(yè)定義
通過攻克從架構(gòu)到工程的三大技術(shù)難關(guān),Scale-Up超節(jié)點證明了自身技術(shù)上的卓越性。然而,它能從華為眾多頂尖創(chuàng)新中脫穎而出,成為“十大發(fā)明”之一,更在于其超越了單一技術(shù)維度的價值,實現(xiàn)了從技術(shù)領(lǐng)先到商業(yè)成功、再到產(chǎn)業(yè)定義的全面跨越。
![]()
首先,無可爭議的技術(shù)領(lǐng)先性,為AI算力規(guī)模設(shè)定了新標(biāo)桿。Scale-Up超節(jié)點不僅是全球首個實現(xiàn)全對等互聯(lián)的超大規(guī)模計算系統(tǒng),它還將大規(guī)模集群從量變推動至質(zhì)變,為應(yīng)對下一代萬億參數(shù)大模型提供了迄今最堅實的算力底座。
其次,直擊行業(yè)痛點的商業(yè)價值,讓前沿技術(shù)轉(zhuǎn)化為現(xiàn)實生產(chǎn)力。Scale-Up超節(jié)點通過資源池化與內(nèi)存語義通信技術(shù),將大規(guī)模集群的算力利用率推至新高,能把大模型訓(xùn)練任務(wù)從周級縮短至天級,極大地降低了千行百業(yè)擁抱大模型技術(shù)的門檻。
最終,深遠的產(chǎn)業(yè)影響力,重新定義了算力基礎(chǔ)設(shè)施的演進方向。Scale-Up超節(jié)點正在成為下一代智算數(shù)據(jù)中心的設(shè)計藍圖,其成功實踐證明了縱向擴展(Scale-Up)是突破萬卡集群瓶頸的關(guān)鍵路徑,從而在戰(zhàn)略層面引領(lǐng)了行業(yè)的技術(shù)路線選擇。
生態(tài)共振:Scale-Up超節(jié)點的落地應(yīng)用與行業(yè)影響
憑借在技術(shù)、商業(yè)與產(chǎn)業(yè)層面的三重價值,Scale-Up超節(jié)點得以迅速走出實驗室,其影響力正在真實的產(chǎn)業(yè)土壤中扎根、蔓延,確立了其行業(yè)標(biāo)桿的地位。
在規(guī)模部署與商業(yè)化落地上,Scale-Up超節(jié)點已從技術(shù)演示步入批量應(yīng)用階段。筆者獲悉,華為Atlas 900 A3超節(jié)點已累計部署超過300套,服務(wù)覆蓋互聯(lián)網(wǎng)、金融、運營商、電力、制造等20余個行業(yè)的頭部客戶。
在榮譽認可方面,Scale-Up超節(jié)點獲得業(yè)界最高規(guī)格的肯定。在2025年世界人工智能大會(WAIC)上,該系統(tǒng)被授予大會最高榮譽——“鎮(zhèn)館之寶”獎。這一權(quán)威獎項不僅是對其技術(shù)領(lǐng)先性的背書,也代表了整個產(chǎn)業(yè)界對Scale-Up作為未來算力方向的高度共識。
而其背后最核心的護城河,在于華為打通了光通信這一任督二脈。對比業(yè)界普遍采用的電互聯(lián)或傳統(tǒng)網(wǎng)絡(luò)方案,華為憑借其在光芯片、光模塊和光纖傳輸上的全棧能力,突破了在可靠性、時延和傳輸距離上的根本性限制。這正是Scale-Up架構(gòu)能夠從理論走向工程實踐,并敢于規(guī)劃萬卡級以上規(guī)模的底層支撐,構(gòu)成了短期內(nèi)難以被超越的技術(shù)壁壘。
筆者觀察:算力新時代的地基工程
Scale-Up超節(jié)點的意義遠不止于單項技術(shù)突破,它代表了AI算力基礎(chǔ)設(shè)施的新范式。結(jié)合華為在昇騰芯片、鴻蒙系統(tǒng)、光互聯(lián)等領(lǐng)域的全面布局,可以看出其“軟硬協(xié)同、端到端優(yōu)化”的技術(shù)路線已經(jīng)構(gòu)建起強大的生態(tài)護城河。
這種創(chuàng)新也完美呼應(yīng)了華為“開放驅(qū)動創(chuàng)新”的理念。2024年,華為新公開專利達3.7萬件,向標(biāo)準(zhǔn)組織貢獻提案超1萬篇,OpenHarmony社區(qū)吸引超8100名共建者——這些數(shù)字背后,是華為通過專利、開源、標(biāo)準(zhǔn)等多重形式推動技術(shù)開放的堅定承諾。
在AI定義的新時代,這種將頂層架構(gòu)創(chuàng)新與底層工程實現(xiàn)完美結(jié)合的能力,這種以前瞻性思維重構(gòu)算力根基的魄力,正是中國科技企業(yè)從跟跑、并跑到領(lǐng)跑的關(guān)鍵轉(zhuǎn)折。
Scale-Up超節(jié)點不僅是一座技術(shù)里程碑,更是一面旗幟,它向世界證明:在通往通用AI的道路上,中國智慧正在為全球算力基礎(chǔ)設(shè)施的演進,提供不可或缺的堅實底座。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.