解讀華為“十大發(fā)明”之Scale-Up超節(jié)點：破解AI算力瓶頸

2025-11-17 13:45:10　來源: 黃海峰

陜西舉報

分享至

文/黃海峰的通信生活

11月11日，在北京召開的第六屆創(chuàng)新和知識產(chǎn)權(quán)論壇上，華為正式公布“十大發(fā)明”評選結(jié)果。值得關(guān)注的是，華為“Scale-Up超大規(guī)模超節(jié)點算力平臺”（以下簡稱“Scale-Up超節(jié)點”）憑借其顛覆性的架構(gòu)設(shè)計與廣泛的產(chǎn)業(yè)影響，成功入選，備受關(guān)注。

眾所周知，當(dāng)下AI算力炙手可熱。諸多科技企業(yè)競逐芯片，攻堅大模型；千億資本注入，萬億支出將啟，超算集群狂飆，創(chuàng)新與熱錢共燃全球算力賽場。但是更多參數(shù)的大模型訓(xùn)練，遇到算力瓶頸、通信延遲、供電承壓和內(nèi)存限制等核心挑戰(zhàn)。

為此，華為推出創(chuàng)新的Scale-Up超節(jié)點，成為“一個機架就是一個節(jié)點”的超大規(guī)模算力平臺，通過系統(tǒng)性架構(gòu)創(chuàng)新，有效解決了制約大規(guī)模AI訓(xùn)練的關(guān)鍵技術(shù)難題，為AI產(chǎn)業(yè)提供了核心技術(shù)底座。

我們認為，Scale-Up超節(jié)點不僅是一項技術(shù)的勝利，更是華為在AI算力基礎(chǔ)設(shè)施領(lǐng)域發(fā)起的一場范式革命，這背后隱藏著華為對AI算力瓶頸的深刻洞察與破局之道。

破局之道：AI算力從“橫向堆疊”邁向“縱向擴展”

隨著大模型參數(shù)規(guī)模從千億邁向萬億，單個芯片的性能提升已遠遠跟不上算力需求的爆發(fā)式增長。當(dāng)一顆芯片不夠用時，行業(yè)傳統(tǒng)做法是采用橫向擴展（Scale-out）——通過堆疊獨立服務(wù)器組成計算集群，如同建設(shè)別墅區(qū)來解決住房問題。

然而，這種架構(gòu)下，每個節(jié)點都是獨立的別墅，擁有自己的計算、內(nèi)存和存儲資源。節(jié)點間的通信需要經(jīng)過復(fù)雜的網(wǎng)絡(luò)協(xié)議，如同郵差在不同別墅間送信，效率低下，通信開銷巨大。隨著卡數(shù)增加，有效算力利用率不升反降。

Scale-Up超節(jié)點提供了全新的思路——縱向擴展（Scale-Up），Scale-Up系統(tǒng)就相當(dāng)于蓋高樓，把樓蓋高之后，就可以住更多的人。具體而言，華為通過高速互聯(lián)技術(shù)將384個昇騰芯片緊密連接成一個整體，形成昇騰384超節(jié)點。

這不再是簡單的芯片堆疊，而是將原本分散的計算資源（NPU、CPU、DPU）、內(nèi)存、存儲等全部池化，如同將獨立別墅的車庫、花園收歸大樓統(tǒng)一管理，形成巨型的共享資源池。

這一架構(gòu)實現(xiàn)了“一切皆可池化、一切皆可對等、一切皆可組合”的理念：池化打破單節(jié)點邊界，對等互聯(lián)去除CPU中心化瓶頸，動態(tài)組合能根據(jù)任務(wù)需求靈活調(diào)配資源，最終數(shù)百個AI處理器能夠像一臺計算機一樣協(xié)同工作，從根本上破解了大規(guī)模AI計算的效率瓶頸。

技術(shù)基石：Scale-Up超節(jié)點實現(xiàn)三大核心技術(shù)突破

Scale-Up超節(jié)點之所以能成為“十大發(fā)明”，核心源于其在架構(gòu)、硬件與軟件層面的深度協(xié)同創(chuàng)新，實現(xiàn)了三大關(guān)鍵技術(shù)突破，為極致性能筑牢根基。

突破一：內(nèi)存語義通信，降低通信時延與開銷。傳統(tǒng)集群節(jié)點間通信需經(jīng)過復(fù)雜網(wǎng)絡(luò)協(xié)議，存在時延高、開銷大的痛點。Scale-Up超節(jié)點通過內(nèi)存語義通信技術(shù)，可直接訪問對端 NPU，大幅提升通信效率，從根本上解決了大規(guī)模計算中節(jié)點協(xié)同的效率瓶頸。

筆者認為，華為內(nèi)存語義通信技術(shù)的核心價值，在于將節(jié)點間通信轉(zhuǎn)化為類本地內(nèi)存訪問，這種范式轉(zhuǎn)變讓數(shù)百個昇騰芯片真正融為一體，有效算力利用率的提升對大模型訓(xùn)練周期的縮短起到了決定性作用，為萬億參數(shù)模型的研發(fā)掃清了關(guān)鍵障礙。

突破二：ODSP檢測技術(shù)，提升互聯(lián)可靠性與可維護性。超節(jié)點規(guī)模龐大，對互聯(lián)可靠性和可維護性提出極高要求。Scale-Up超節(jié)點采用業(yè)界首提的基于ODSP的檢測技術(shù)，能高效準(zhǔn)確識別鏈路故障，既保障了超大規(guī)模集群的穩(wěn)定運行，也降低了后期維護成本。

其實，超大規(guī)模集群的可靠性與可維護性是一對隱性矛盾，傳統(tǒng)檢測方式要么誤報率高要么排查慢，一旦停機維護，對AI訓(xùn)練任務(wù)的損失難以估量。華為基于ODSP的檢測技術(shù)，讓Scale-Up超節(jié)點的穩(wěn)定運行有了安全閥，是其從實驗室技術(shù)走向產(chǎn)業(yè)化應(yīng)用的關(guān)鍵。

突破三：創(chuàng)新供電架構(gòu)，破解供配電壓力。超大規(guī)模集群運行時，尖峰功率帶來的供配電壓力極易限制算力發(fā)揮。Scale-Up超節(jié)點采用爆發(fā)式柜級供電架構(gòu)，能夠平穩(wěn)承接AI場景下的突發(fā)負載，從能源供給端為超節(jié)點穩(wěn)定運行提供堅實保障。

AI算力集群的算力天花板，往往先受限于供配電能力。華為爆發(fā)式柜級供電架構(gòu)，精準(zhǔn)匹配了AI負載“突發(fā)式、脈沖式”的特性，為萬卡級以上超大規(guī)模集群的穩(wěn)定運行提供了關(guān)鍵的能源支撐，這在行業(yè)內(nèi)是極具前瞻性的工程實踐。

價值躍遷：Scale-Up超節(jié)點從技術(shù)領(lǐng)先到產(chǎn)業(yè)定義

通過攻克從架構(gòu)到工程的三大技術(shù)難關(guān)，Scale-Up超節(jié)點證明了自身技術(shù)上的卓越性。然而，它能從華為眾多頂尖創(chuàng)新中脫穎而出，成為“十大發(fā)明”之一，更在于其超越了單一技術(shù)維度的價值，實現(xiàn)了從技術(shù)領(lǐng)先到商業(yè)成功、再到產(chǎn)業(yè)定義的全面跨越。

首先，無可爭議的技術(shù)領(lǐng)先性，為AI算力規(guī)模設(shè)定了新標(biāo)桿。Scale-Up超節(jié)點不僅是全球首個實現(xiàn)全對等互聯(lián)的超大規(guī)模計算系統(tǒng)，它還將大規(guī)模集群從量變推動至質(zhì)變，為應(yīng)對下一代萬億參數(shù)大模型提供了迄今最堅實的算力底座。

其次，直擊行業(yè)痛點的商業(yè)價值，讓前沿技術(shù)轉(zhuǎn)化為現(xiàn)實生產(chǎn)力。Scale-Up超節(jié)點通過資源池化與內(nèi)存語義通信技術(shù)，將大規(guī)模集群的算力利用率推至新高，能把大模型訓(xùn)練任務(wù)從周級縮短至天級，極大地降低了千行百業(yè)擁抱大模型技術(shù)的門檻。

最終，深遠的產(chǎn)業(yè)影響力，重新定義了算力基礎(chǔ)設(shè)施的演進方向。Scale-Up超節(jié)點正在成為下一代智算數(shù)據(jù)中心的設(shè)計藍圖，其成功實踐證明了縱向擴展（Scale-Up）是突破萬卡集群瓶頸的關(guān)鍵路徑，從而在戰(zhàn)略層面引領(lǐng)了行業(yè)的技術(shù)路線選擇。

生態(tài)共振：Scale-Up超節(jié)點的落地應(yīng)用與行業(yè)影響

憑借在技術(shù)、商業(yè)與產(chǎn)業(yè)層面的三重價值，Scale-Up超節(jié)點得以迅速走出實驗室，其影響力正在真實的產(chǎn)業(yè)土壤中扎根、蔓延，確立了其行業(yè)標(biāo)桿的地位。

在規(guī)模部署與商業(yè)化落地上，Scale-Up超節(jié)點已從技術(shù)演示步入批量應(yīng)用階段。筆者獲悉，華為Atlas 900 A3超節(jié)點已累計部署超過300套，服務(wù)覆蓋互聯(lián)網(wǎng)、金融、運營商、電力、制造等20余個行業(yè)的頭部客戶。

在榮譽認可方面，Scale-Up超節(jié)點獲得業(yè)界最高規(guī)格的肯定。在2025年世界人工智能大會（WAIC）上，該系統(tǒng)被授予大會最高榮譽——“鎮(zhèn)館之寶”獎。這一權(quán)威獎項不僅是對其技術(shù)領(lǐng)先性的背書，也代表了整個產(chǎn)業(yè)界對Scale-Up作為未來算力方向的高度共識。

而其背后最核心的護城河，在于華為打通了光通信這一任督二脈。對比業(yè)界普遍采用的電互聯(lián)或傳統(tǒng)網(wǎng)絡(luò)方案，華為憑借其在光芯片、光模塊和光纖傳輸上的全棧能力，突破了在可靠性、時延和傳輸距離上的根本性限制。這正是Scale-Up架構(gòu)能夠從理論走向工程實踐，并敢于規(guī)劃萬卡級以上規(guī)模的底層支撐，構(gòu)成了短期內(nèi)難以被超越的技術(shù)壁壘。

筆者觀察：算力新時代的地基工程

Scale-Up超節(jié)點的意義遠不止于單項技術(shù)突破，它代表了AI算力基礎(chǔ)設(shè)施的新范式。結(jié)合華為在昇騰芯片、鴻蒙系統(tǒng)、光互聯(lián)等領(lǐng)域的全面布局，可以看出其“軟硬協(xié)同、端到端優(yōu)化”的技術(shù)路線已經(jīng)構(gòu)建起強大的生態(tài)護城河。

這種創(chuàng)新也完美呼應(yīng)了華為“開放驅(qū)動創(chuàng)新”的理念。2024年，華為新公開專利達3.7萬件，向標(biāo)準(zhǔn)組織貢獻提案超1萬篇，OpenHarmony社區(qū)吸引超8100名共建者——這些數(shù)字背后，是華為通過專利、開源、標(biāo)準(zhǔn)等多重形式推動技術(shù)開放的堅定承諾。

在AI定義的新時代，這種將頂層架構(gòu)創(chuàng)新與底層工程實現(xiàn)完美結(jié)合的能力，這種以前瞻性思維重構(gòu)算力根基的魄力，正是中國科技企業(yè)從跟跑、并跑到領(lǐng)跑的關(guān)鍵轉(zhuǎn)折。

Scale-Up超節(jié)點不僅是一座技術(shù)里程碑，更是一面旗幟，它向世界證明：在通往通用AI的道路上，中國智慧正在為全球算力基礎(chǔ)設(shè)施的演進，提供不可或缺的堅實底座。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.