文/黃海峰的通信生活
11月11日,在北京召開的第六屆創新和知識產權論壇上,華為正式公布“十大發明”評選結果。值得關注的是,華為“Scale-Up超大規模超節點算力平臺”(以下簡稱“Scale-Up超節點”)憑借其顛覆性的架構設計與廣泛的產業影響,成功入選,備受關注。
![]()
眾所周知,當下AI算力炙手可熱。諸多科技企業競逐芯片,攻堅大模型;千億資本注入,萬億支出將啟,超算集群狂飆,創新與熱錢共燃全球算力賽場。但是更多參數的大模型訓練,遇到算力瓶頸、通信延遲、供電承壓和內存限制等核心挑戰。
為此,華為推出創新的Scale-Up超節點,成為“一個機架就是一個節點”的超大規模算力平臺,通過系統性架構創新,有效解決了制約大規模AI訓練的關鍵技術難題,為AI產業提供了核心技術底座。
我們認為,Scale-Up超節點不僅是一項技術的勝利,更是華為在AI算力基礎設施領域發起的一場范式革命,這背后隱藏著華為對AI算力瓶頸的深刻洞察與破局之道。
破局之道:AI算力從“橫向堆疊”邁向“縱向擴展”
隨著大模型參數規模從千億邁向萬億,單個芯片的性能提升已遠遠跟不上算力需求的爆發式增長。當一顆芯片不夠用時,行業傳統做法是采用橫向擴展(Scale-out)——通過堆疊獨立服務器組成計算集群,如同建設別墅區來解決住房問題。
然而,這種架構下,每個節點都是獨立的別墅,擁有自己的計算、內存和存儲資源。節點間的通信需要經過復雜的網絡協議,如同郵差在不同別墅間送信,效率低下,通信開銷巨大。隨著卡數增加,有效算力利用率不升反降。
Scale-Up超節點提供了全新的思路——縱向擴展(Scale-Up),Scale-Up系統就相當于蓋高樓,把樓蓋高之后,就可以住更多的人。具體而言,華為通過高速互聯技術將384個昇騰芯片緊密連接成一個整體,形成昇騰384超節點。
這不再是簡單的芯片堆疊,而是將原本分散的計算資源(NPU、CPU、DPU)、內存、存儲等全部池化,如同將獨立別墅的車庫、花園收歸大樓統一管理,形成巨型的共享資源池。
這一架構實現了“一切皆可池化、一切皆可對等、一切皆可組合”的理念:池化打破單節點邊界,對等互聯去除CPU中心化瓶頸,動態組合能根據任務需求靈活調配資源,最終數百個AI處理器能夠像一臺計算機一樣協同工作,從根本上破解了大規模AI計算的效率瓶頸。
技術基石:Scale-Up超節點實現三大核心技術突破
Scale-Up超節點之所以能成為“十大發明”,核心源于其在架構、硬件與軟件層面的深度協同創新,實現了三大關鍵技術突破,為極致性能筑牢根基。
![]()
突破一:內存語義通信,降低通信時延與開銷。傳統集群節點間通信需經過復雜網絡協議,存在時延高、開銷大的痛點。Scale-Up超節點通過內存語義通信技術,可直接訪問對端 NPU,大幅提升通信效率,從根本上解決了大規模計算中節點協同的效率瓶頸。
筆者認為,華為內存語義通信技術的核心價值,在于將節點間通信轉化為類本地內存訪問,這種范式轉變讓數百個昇騰芯片真正融為一體,有效算力利用率的提升對大模型訓練周期的縮短起到了決定性作用,為萬億參數模型的研發掃清了關鍵障礙。
突破二:ODSP檢測技術,提升互聯可靠性與可維護性。超節點規模龐大,對互聯可靠性和可維護性提出極高要求。Scale-Up超節點采用業界首提的基于ODSP的檢測技術,能高效準確識別鏈路故障,既保障了超大規模集群的穩定運行,也降低了后期維護成本。
其實,超大規模集群的可靠性與可維護性是一對隱性矛盾,傳統檢測方式要么誤報率高要么排查慢,一旦停機維護,對AI訓練任務的損失難以估量。華為基于ODSP的檢測技術,讓Scale-Up超節點的穩定運行有了安全閥,是其從實驗室技術走向產業化應用的關鍵。
突破三:創新供電架構,破解供配電壓力。超大規模集群運行時,尖峰功率帶來的供配電壓力極易限制算力發揮。Scale-Up超節點采用爆發式柜級供電架構,能夠平穩承接AI場景下的突發負載,從能源供給端為超節點穩定運行提供堅實保障。
AI算力集群的算力天花板,往往先受限于供配電能力。華為爆發式柜級供電架構,精準匹配了AI負載“突發式、脈沖式”的特性,為萬卡級以上超大規模集群的穩定運行提供了關鍵的能源支撐,這在行業內是極具前瞻性的工程實踐。
價值躍遷:Scale-Up超節點從技術領先到產業定義
通過攻克從架構到工程的三大技術難關,Scale-Up超節點證明了自身技術上的卓越性。然而,它能從華為眾多頂尖創新中脫穎而出,成為“十大發明”之一,更在于其超越了單一技術維度的價值,實現了從技術領先到商業成功、再到產業定義的全面跨越。
![]()
首先,無可爭議的技術領先性,為AI算力規模設定了新標桿。Scale-Up超節點不僅是全球首個實現全對等互聯的超大規模計算系統,它還將大規模集群從量變推動至質變,為應對下一代萬億參數大模型提供了迄今最堅實的算力底座。
其次,直擊行業痛點的商業價值,讓前沿技術轉化為現實生產力。Scale-Up超節點通過資源池化與內存語義通信技術,將大規模集群的算力利用率推至新高,能把大模型訓練任務從周級縮短至天級,極大地降低了千行百業擁抱大模型技術的門檻。
最終,深遠的產業影響力,重新定義了算力基礎設施的演進方向。Scale-Up超節點正在成為下一代智算數據中心的設計藍圖,其成功實踐證明了縱向擴展(Scale-Up)是突破萬卡集群瓶頸的關鍵路徑,從而在戰略層面引領了行業的技術路線選擇。
生態共振:Scale-Up超節點的落地應用與行業影響
憑借在技術、商業與產業層面的三重價值,Scale-Up超節點得以迅速走出實驗室,其影響力正在真實的產業土壤中扎根、蔓延,確立了其行業標桿的地位。
在規模部署與商業化落地上,Scale-Up超節點已從技術演示步入批量應用階段。筆者獲悉,華為Atlas 900 A3超節點已累計部署超過300套,服務覆蓋互聯網、金融、運營商、電力、制造等20余個行業的頭部客戶。
在榮譽認可方面,Scale-Up超節點獲得業界最高規格的肯定。在2025年世界人工智能大會(WAIC)上,該系統被授予大會最高榮譽——“鎮館之寶”獎。這一權威獎項不僅是對其技術領先性的背書,也代表了整個產業界對Scale-Up作為未來算力方向的高度共識。
而其背后最核心的護城河,在于華為打通了光通信這一任督二脈。對比業界普遍采用的電互聯或傳統網絡方案,華為憑借其在光芯片、光模塊和光纖傳輸上的全棧能力,突破了在可靠性、時延和傳輸距離上的根本性限制。這正是Scale-Up架構能夠從理論走向工程實踐,并敢于規劃萬卡級以上規模的底層支撐,構成了短期內難以被超越的技術壁壘。
筆者觀察:算力新時代的地基工程
Scale-Up超節點的意義遠不止于單項技術突破,它代表了AI算力基礎設施的新范式。結合華為在昇騰芯片、鴻蒙系統、光互聯等領域的全面布局,可以看出其“軟硬協同、端到端優化”的技術路線已經構建起強大的生態護城河。
這種創新也完美呼應了華為“開放驅動創新”的理念。2024年,華為新公開專利達3.7萬件,向標準組織貢獻提案超1萬篇,OpenHarmony社區吸引超8100名共建者——這些數字背后,是華為通過專利、開源、標準等多重形式推動技術開放的堅定承諾。
在AI定義的新時代,這種將頂層架構創新與底層工程實現完美結合的能力,這種以前瞻性思維重構算力根基的魄力,正是中國科技企業從跟跑、并跑到領跑的關鍵轉折。
Scale-Up超節點不僅是一座技術里程碑,更是一面旗幟,它向世界證明:在通往通用AI的道路上,中國智慧正在為全球算力基礎設施的演進,提供不可或缺的堅實底座。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.