網易首頁 > 網易號 > 正文申請入駐

揭秘超節點，AI算力需要“統一的語言” |?對話華為靈衢

2025-10-20 15:01:25　來源: 光錐智能

北京舉報

分享至

文｜白鴿

編｜王一粟

AI大模型帶動的熱潮，也在持續地席卷算力行業。

從CPU到GPU，再到NPU，各種AI芯片逐漸成為了市場中的香餑餑。

中國AI芯片也趁此機會開始崛起。從華為、阿里、百度等大廠，到寒武紀、云天勵飛、?壁仞科技?、摩爾線程等新興企業，中國AI芯片的單顆能力在不斷提升。

但是，哪怕單顆芯片能力再強，算力也不能夠滿足大模型的需求。

尤其是隨著大模型參數的不斷翻倍，很多企業可能都會遇見的問題，就是8張卡的服務器根本跑不動，勉強用多臺機器拆分任務，結果CPU、AI芯片、存儲之間“各說各話”，數據傳著傳著就“堵車”，算力損耗快到一半。

更要命的在于，不同廠商的設備像說不同方言的人：

A廠的CPU用一套協議，B廠的GPU用另一套，數據從CPU傳到GPU，得先“翻譯”，一來一回就浪費時間；甚至同一廠商的不同設備，規模擴大后性能也會“打折”，比如10個節點本應發揮10倍算力，實際可能只到1倍，這就是行業常說的“線性度”問題。

單個芯片算力不夠用、不同設備溝通有障礙，成了整個行業的“卡脖子”難題。那么，要怎么解決這些問題，才能夠支撐大模型的需求？

眾所周知，當單獨作戰打不過之時，團隊配合戰斗則成為了贏取戰爭勝利的關鍵，而中國AI算力突破算力瓶頸的一個關鍵，就是開始走團隊戰斗路線。

此前，華為發布了“超節點”架構，配套的技術則是“靈衢”（UnifiedBus）。

簡單理解兩者的關系，當單顆芯片算力不夠用，就需要將多種算力如CPU、GPU、NPU、存力等統一起來干活，超節點架構就是將多種算力部件整合為一個大節點，而互聯協議則是讓這些部件能順暢溝通的規則，只有雙方相互配合，才能夠把整個算力系統的能力提升上去。

其中最核心的就是靈衢技術，其搞出了“算力普通話”，即一套能覆蓋所有場景的統一協議，不管是超節點內部的CPU和GPU的溝通，還是超節點之間的集群互聯，都不用換“語言”，這就像全國都講普通話，不用到一個地方學一種方言，溝通效率自然高。

這套“普通話”還打破了兩個關鍵界限：計算機網絡，如平時上網的物理層、鏈路層，以及計算機內部架構，如內存管理、節點控制等。

過去，這倆像兩個獨立的房間，數據得“開門、進門、再開門”，而靈衢直接拆了兩者之間的“墻”，底層用網絡邏輯連設備，上層用架構邏輯管資源，數據傳輸的“路”一下子變通暢了。

同時，靈衢的超節點也不是“把部件堆一起就行”。華為專家強調，靈衢超節點是“超級單一節點”，不是“松散的部件集合”，就像把多間小房子改成一套大平層，所有家具（CPU、GPU、NPU、內存）都連在一條“統一的高速總線”上，不用再繞路，如交換機，過去只是“數據中轉站”，現在在靈衢里成了“處理單元”，能直接參與算力協作。

基于這些突破，靈衢要實現四個目標，即讓不同算力“組隊干活”（提升計算性能）、系統出問題能快速恢復（高可用）、內存帶寬等資源“集中共用不浪費”（資源池化）、不同廠商部件“插進去就能用”（組件貨架化）。

這些目標的最終目的，都是為了讓整個算力系統“更高效、更靈活、更省錢”。

而華為靈衢之所以能夠實現“一套通吃”，原因在于，華為從一開始就盯著“整個算力系統”，不是只做單個產品，沒有受制于老產品的束縛。

同時，華為靈衢于2019年正式立項，并把華為過去自研IT設備的經驗、技術成果，還有搞集群的工程經驗全部融入其中，同時還和鯤鵬、昇騰這些華為芯片一起反復測試。

基于這些實踐經驗，“現在靈衢1.0已經完成產品化，經過了芯片驗證、集群交付驗證，是工業化級別的可靠系統。”華為集群計算總經理朱照生說。

華為集群計算總經理朱照生

同時，在具體落地客戶實踐場景中，也會考慮客戶原有設備，比如客戶已有以太網，靈衢也能直接在上面跑，不用大改基礎設施，還能和現有的應用互通。

而為了讓更多的廠商參與進來，華為還開放了靈衢的“全套說明書”，即從物理層到事務層的協議規范全公開，甚至找了第三方做“協議驗證儀”。

“不管是做CPU的、做GPU的，只要按規范做，就能用靈衢，未來還能通過第三方驗證是不是符合標準。”朱照生說到，“說實話，靈衢發布后，已經有很多廠商找過來跟我們交流，這已經超出了我們最初的預期。”畢竟，在其預期中，可能只有2-3家頭部廠商會找過來。

業內皆知，過去，不同廠商的協議不互通，客戶只能“綁定一家”，選擇少還貴。但現在靈衢開放了協議，不管是華為的競爭對手，還是中小廠商，都能基于靈衢做產品。

朱照生說：“我們希望先做企標，再慢慢形成團標、甚至國標，讓大家一起把算力基礎設施做好。”比如某廠商想做GPU，不用自己再搞一套協議，直接用靈衢，就能和華為的CPU、其他廠商的存儲兼容，大大降低了研發成本。

據靈衢系統架構師介紹，在AI大模型訓練場景，通過超節點互聯降低通信占比，端到端性能收益達到20%+；通算數據庫場景，通過三層池化支撐多寫多讀，TPCC提升20%。結論表明，靈衢技術特別適合高并行、高同步的負載特征場景，能為業務帶來顯著提升。

另外，當前行業關于超節點是否越大越好也存在著諸多爭議。對此，朱照生的回答很坦誠：“現在沒人能說清‘甜點區’在哪，因為AI的發展總是超出預期。我們能做的，就是把超節點的規模做大，給行業留足空間。”

因此，靈衢2.0作為核心技術底座，支撐華為發布兩款超大規模算力產品，覆蓋不同階段需求：

Atlas 950 SuperCluster（2026年Q4上市）：由64個Atlas 950超節點組成，FP8算力達524 EFLOPS，規模與算力超過當前全球最大集群xAI Colossus；

Atlas 960 SuperCluster（2027年Q4上市）：百萬卡級集群，FP8算力2 ZFLOPS、FP4算力4 ZFLOPS，支持UBoE（靈衢推薦模式）與RoCE協議，適配未來更大規模AI訓練、推理需求；

越大的超節點集群，整體算力性能越突出，以Atlas 950 SuperPoD為例，其支持8192張昇騰卡，訓練吞吐達4.91M TPS，推理吞吐達19.6MTPS，遠超前代產品。

“如果我們不能夠準確預判未來負載模型一旦收斂于某一類模型某一個大小，我們就沒法在算力基礎設施層面給它設個框，如果設定那個框，那個框一定會反過來制約模型發展。”朱照生說。

當前，我們不難發現：算力的競爭，早已不是“單芯片誰更強”，而是“系統誰更高效”。

靈衢的價值，就在于用一套“通用語言”，把分散的算力聚合成一股力量，它或許不會馬上改變所有，但至少給行業指了一個方向：未來的計算，不該有“語言壁壘”，不該有“設備孤島”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.