美國全面封殺英偉達向中國出口H20芯片的消息,再一次說明,把中國AI發展的希望寄希望于別人身上,是十分危險的。
本輪封殺的確令不少業內人士感到意外,一方面,H20芯片是一款一再閹割的芯片,性能本就不算強大;另一方面,是此前一度傳出消息,認為英偉達已經做通了特朗普政府的工作。
特別是路透社在4月9日援引美國全國公共廣播電臺(NPR)的一篇報道。這篇報道的主題是“海湖莊園晚宴后,特朗普政府放棄打擊英偉達AI芯片H20“。
很多人據此認為,海湖莊園的主人已經“答應”黃仁勛,給H20一條生路。
而現在官方消息已經證實,美國封殺H20的態度極為堅決,這恰恰證明了,AI是中美科技博弈的核心高地;也說明了,美國對中國日益發展和進步的AI產業極為忌憚。
AI是移動互聯網之后,最具希望的一次人類數字技術的范式轉換,可能徹底改變人類的發展方式。在此前的若干次范式轉換中,中國的核心科技從未有如此的在某一領域如此逼近美國的領先地位。
如果要趕超,就一定要有戰略思維——找到我們最擅長的戰場。事實證明,中國人找到了解決AI發展算力的辦法——這一切,在4月10日華為云發布CloudMatrix 384超節點的一刻,已經開始。
——導語
01
非標式趕超
我非常欣賞華為公司副總裁、中國云業務部部長張修征在今年華為云生態大會上的一段話,他說:“很多事情并不會等到我們做好準備再發生。在大機會也是大挑戰面前,我有一句話就是——戰術千萬條,敢打第一條。華為云就是要打造中國最堅實的算力底座,為世界提供第二選擇。”
![]()
當然,張修征如此有信心的站在臺上說這番話,總有他的憑持。說得再具體一點,他的底氣來自于剛發布的華為云CloudMatrix 384超節點——這可能是目前世界上性能最強的商用超節點。
此前,你可能不知道CloudMatrix 384超節點是什么,但你或許對英偉達的GB200 NVL72有一定的認知,這是一套是專為大規模AI和高性能計算(HPC)設計的革命性系統。
而你沒聽錯的是:CloudMatrix 384的性能力壓GB200 NVL72——沒錯,我們的確用了更多的芯片才換來更強的性能,準確的說就是384張卡。
但這種更強性能的優勢的體現,絕不是堆芯片這么簡單,而是華為云圍繞建立超級強大的單體云服務器(也就是我們所說的超節點)這個目標,需要拉升方方面面的技術……從算力架構、超級帶寬、智能調度、先進存儲等等。
就像當年美國NASA研究航天飛機,有人說,一架航天飛機拉動了相關民用技術二十年的跨越。
但是,具體的細節我們稍后講,我們先來聊點更宏觀的東西。
科學界認識到GPU更適合于高度并行化的科學計算,是一個至少有20年或更久的話題。但直到需要千卡、萬卡集群的AI特別是大模型的訓練、推理需求爆發后,人們才發現在搭建此類集群上的需要的工程化能力是一個技術黑洞。
一直以來,搭建此類大集群一直是傳統互聯網巨頭、軟件巨頭在自家地盤上的操作。應該說,從需求催生產品的角度說,這很合邏輯。但另一個問題是,這些巨頭往往不是搞高性能計算和超算集群起家的,這使得這些企業自建的萬卡大集群往往非常脆弱,持續運行時間甚至只能持續十幾分鐘到幾個小時,能持續運轉一兩天已經非常驚人了。
另外,傳統的服務器集群在架構也有許多天生不足,例如,受限于單卡或多卡間的通信帶寬(如PCIe或早期NVLink),難以處理某些超大規模任務;另外,它們在體系架構、硬件、通訊、存力甚至散熱、節能等方面的底層能力,也是相對薄弱的。
但是畢竟這些大廠有大把的工程師,所以能自己消化困難;但有這樣多工程師的大廠有幾個呢?特別是在大型政企、國企,以及絕大多數的大中型、中小型,很難玩轉大模型所需的集群。
在這種背景下,由底層硬件也就是GPU或AI計算芯片的研發者,基于對底層技術的深入理解來開發一種高度集成、開箱可用,同時在穩定性、效率、易用性、總體擁有成本等方面具有明顯優勢的集中式的、高擴展性的節點級硬件系統,也就非常自然。
NVL 72就是這樣的一種產品,但華為的CloudMatrix 384超節點則是對NVL 72的一種非對標式的趕超。
寫到這里,我突然想到了我讀過很多遍的《硅谷之火》——現在的AI賽道特別是在硬件賽道,很像上世紀70年代的那個充滿活力的美國硅谷——大家都知道個人電腦是未來的方向,但絕大多數真正玩電腦的往往是工程師和程序員,而市面上存在數以百計的操作系統、軟件和各種不同的“機型”,呈現出路徑不固化、競爭很激烈、優秀創意層出不窮的局面。
然而,總有人來一統天下,所以IBM出現了,它統一了個人計算機的標準,使得PC變成一種標品……硬件上百花齊放的局面結束了,PC成為主流產品——它的真正意義在于,極大的降低了整個軟件行業、硬件行業無序發展的局面,使人們能夠基于某些通用標準進行創新,最終極大降低了重復造輪子的成本……至于最后的贏家,未必是IBM,但這并不重要。
我認為,隨著DeepSeek和未來無數個類似DeepSeek這樣的企業帶來的跳躍式創新,AI應用將加速降臨在我們的生活中。而AI對基礎設施的渴求將難以想象。這種背景下,最有效率的建設中國算力基礎設施的辦法,就是用超節點這樣的產品,來統一人們對超級單體智算服務器的標準。
這種“統一標準”,并不是說要用華為的標準來取代行業標準。而是行業對此類新生的“超級裝置”尚沒有標準,而華為384上的大部分特征都代表了這一領域的領先水平,所以它可以作為某種客觀參照物,去照見行業發展的路徑。
當然,如果我們更理性一點,談到這個超級裝置存在的核心意義,我認為至少有三個點要引起高度的重視:
首先,它的出現肯定了高度集成化的“超節點”存在的意義,那就是突破傳統服務器架構/集群的性能和擴展性瓶頸,為萬億級甚至更高參數級的AI模型訓練與推理提供全棧優化的支持,并以一個非常高完成度、集中度的產品形態來提供。每臺這類裝置都是中國算力長城上的一塊“標準磚”。
更重要的是,CloudMatrix 384超節點,從底層硬件開始向上基本都是全面自主研發的,這意味著在未來的極限施壓和技術封鎖出現時,中國AI產業可以得到不受限的、持續的優質算力供給;
雖然在單卡算力上我們距離世界頂尖水平仍有差距,而CloudMatrix 384超節點通過集成更多的芯片,實現了同類設備上整體性能的趕超。
02
CloudMatrix 384超節點的優勢在哪里?
CloudMatrix 384超節點已在華為云的蕪湖數據中心規模上線,成為國內唯一正式商用的大規模超節點集群。當我走進機房,看到CloudMatrix 384超節點的真身的時候,它的緊湊設計、出色外形所展現出的一種硬件科學的美感,在視覺上就有強大的沖擊力。
事實上,自從在2018年10月的華為全聯接大會上,昇騰310芯片與世人見面,同時基于昇騰310的華為云服務也正式上線,一輪加速跑就此開始了——在這個過程中,2019年,昇騰910正式發布,并在9月份發布了計算戰略及Atlas900;2021年,華為發布了盤古大模型1.0;2023年9月,華為公司正式宣布全面智能化戰略;而2024年6月,正式發布了盤古大模型5.0……某種程度上,今天我見到的一切,是華為云在AI技術上每一步都踩對技術節點后的集大成之作。
而CloudMatrix 384的發布,則意味著華為云開始從提供智能算力,走向了提供“先進智能算力”的升維之路。
從此,超節點將是華為AI宇宙中的基本粒子,這并非炫技,而是一種高度理性的判斷。
如張修征所言——在單個芯片上,可能我們還會受制于不夠先進的半導體制程帶來的性能上限問題,故此更需要有整體戰的思維。在算力、運力、存力到電力這四個要素上,動態運用我們的優勢,使我們從算力單維的競爭跳到四維多要素的競爭,“以升維的方式和業界的競爭對手及美國算力競爭”。
當然,這是一種宏觀思維,但當它具體落到CloudMatrix 384超節點上時,就需要有具象的技術優勢。
![]()
令人印象深刻的首先是384的算力密度,簡單說,它將傳統各自為戰的單節點8卡昇騰服務器,通過新型高速總線實現多臺、多卡的緊耦合互聯,打造成一個物理意義上的單一超級云服務器。具體來說,這種整合實現了算力規模的50倍提升,可支持更大參數模型統一訓練。
但讀者千萬不要理解為這是簡單的大力出奇跡,因為多卡、多臺的緊耦合,雖然帶來了算力提升,但也帶來了許多的技術難點。
簡單說就是,“大力”如果是通過“增肌”的方式來實現,那你就需要一個鋼澆鐵鑄的“肉身”來承載這種大力,否則自身就會被壓垮。
架構設計則將是決定性的因素,而華為云目前是業界唯一采用對等架構超節點技術提供算力服務的云廠商,384也是在對等架構(或稱“對稱架構”)設計思想下產生的超級云服務器。
對等架構,簡言之,就是所有處理器在硬件和軟件層面上都是等價的。這意味著每個處理器都可以訪問相同的內存空間,并且具有相同的權限和能力來執行任務。
在華為云,這種設計思想落實為了一個短語“一切可池化”。你可以理解為,這種池化的本質,就是讓CPU、NPU、GPU、高速內存等多樣資源統一抽象,然后被放進一個資源池里。再基于精妙的調動,可以容納更多的資源單元的池化融入,這是算力倍增的一個重要前提。
然而,“一切皆對等”并不容易實現,其中最大的問題就是一致性的問題——所有的資源從理論上是一體的,但實際卻受制于帶寬和調度因素,很難保持高度的一致性。
打個比方,某個城市因為交通運力不足而出現了乘車難,于是增加了50倍的車輛投入運營。然而,如果不同時拓闊城市道路、升級交通調度系統和交管能力,帶來的首先將不是出行體驗的提升,而是擁堵的出現甚至城市交通的崩潰。
當然,至關重要的首先是拓寬道路和提升通行速度,這方面,華為的技術顯然是世界級的——通過超高帶寬Scale-Up新型高速總線網絡,實現了從“傳統以太網”向“共享總線網絡”演進,將資源互聯帶寬提升了10倍以上。
當然,一味提高路的寬度的邊際成本會非常高。故此,華為還引入了很多黑科技,它們類似于智能化的交通設施,通過每一個細節的優化,提升了整體的性能。
例如,目前GPU上堆砌HBM內存已經到了“喪心病狂”的程度,而大家都知道的是,HBM作為一種超低延遲的介質非常昂貴。為此,華為超節點中則應用了EMS內存存儲服務,通過“內存補顯存”,使得相同大模型訓練算力消耗降低50%。
還有,超節點還融合了華為的存儲黑科技,大模型訓練的兩個典型的“吃存儲”性能的環節——分別是天量的數據加載和中途建立恢復點(check point)及斷點恢復。華為存儲提供的SFS Turbo存儲分級,使得訓練數據加載速度提升20倍。秒級故障監控和自動恢復可以在10分鐘內恢復訓練作業,而業界平均水平為60分鐘。
以上種種,無論是超高速總線、超高速內度以及超高速存儲,不僅可以使AI訓練錯誤概率更小,斷點恢復(checkpoint)更快,而且在一定程度更接近于“存算一體化”這個長期目標,而這是當下AI領域乃至超算領域都在研究的熱門課題,華為則默默的將之融入了超節點中。
更可貴的是,超節點以及對等超節點網絡不僅能夠扛下最艱巨、最龐大的運算需求,也可以展現出”大象跳舞”式的高彈性,這就是“一切可組合”——具體來說,這是指通過“瑤光智慧云腦”,提供NPU、GPU、CPU、內存等資源按需組合,讓用戶需求智能的去匹配最優的算力組合,無論是百億參數模型需要的靈活資源,還是萬億級模型訓練所需的龐大資源,超節點都可以高彈性的實現。用一個華為的比喻就是,算力是“可以切片”的。
必須記住的一個指標是——40天,這是華為基于超節點組成的集群在萬億級參數模型訓練中能夠持續運轉、不中斷的時間,相對來說,很多企業自用的集群在調試早期,經常運行幾分鐘、十幾分鐘就會中斷,而即使經過多次迭代,平均可持續水平也不超過3天。其韌性和穩定性,是業界標準的十幾倍乃至幾十倍。
華為云還宣布CloudMatrix 384超節點集群正式上線昇騰AI云服務,提供超大規模、性能卓越、穩定可靠的AI算力集群,以滿足復雜大模型訓練、推理需求。這也就是說通過昇騰AI云服務,所有企業都能用上這一集大成的AI算力基礎設施。
業界反應也很迅速,大會現場,硅基流動即宣布率先上線CloudMatrix 384超節點昇騰AI云服務,實測顯示在保證單用戶20 TPS水平前提下,單卡Decode吞吐突破1920 Tokens/s,可比肩H100部署性能。
![]()
值得一提的是,除了算力底座的升級,昇騰AI云服務還在資源調度、推理服務和集群可靠方面實現升級。
容器級Serverless資源調度,實現高并發應用場景時,系統能夠依據實時的AI業務任務負載,動態地調整算力資源分配,算力資源利用率平均提升50%;全新升級分布式彈性推理服務,深度融合資源調度優化、彈性推理機制及智能路由等技術,MoE+CoT模型推理有效吞吐提升50%;昇騰云腦-全棧故障診斷模型,實現萬卡集群故障分鐘級感知、定界與恢復。在實際的模型訓練環境中,通過昇騰云腦實現單集群日均硬件故障次數由2.5次降至至0.15次,提升客戶集群訓練的可用度。
華為云昇騰AI云服務特別是超節點的優勢,很難用一篇文章覆蓋。但總而言之,基于自主創新的AI底層硬件,為大模型的訓練,推理,AI 應用的開發、運行了提供穩定可靠的全棧算力保障。
同時,我也相信,中國先進智算能力的市場絕不會只有華為一個玩家,但華為超節點的發布,對提升整個行業的技術水平和競爭強度都有深遠的意義,其技術亮點也勢必被產業鏈的其它玩家所學習、吸收、應用,從而帶來中國智算能力的整體進步,這才是華為云的技術進步,超乎于服務其自身商業運營之外的更大社會意義。
03
運用之妙 存乎一心
在AI發展中,超節點和先進智算云服務是鋒利無匹的利器,但如何發揮最大價值,需要與用戶的長期溝通。
可以肯定的是,一些AI賽道頭部的超級大廠仍會堅持自研、自建大集群,一方面這涉及到保護此前的投資,另一方面也有很多具體的業務考量,但這樣的企業一只手就可以數得過來。
對于更普遍的用戶而言,用云的方式獲取AI算力,性價比遠遠大于自建智算中心,這毋庸置疑。
而隨著超節點的快速普及,這種優勢將是壓倒式的——因為自建模式不僅建設成本高、費時費力,還要面對技術復雜、保障困難、芯片更新換代等等問題,這些成本將吃掉用戶大量的經費,但更重要的是浪費了時間,而時間在競爭中是無價之寶。
當然,用戶也可能自建超節點,華為云的CloudMatrix 384也不是非賣品,但此類超節點運維難度很高。尤其因為其架構復雜,涉及到的運維工具更多,也需要更多元化的運維人員的參與。反之,華為云自己運維自家的超節點,會達到一個普通用戶無法想象的穩定程度,讓超節點長期、穩定的智能運維,能更好地幫助客戶解決問題。
此外,我們曾經提到過對等架構,這種架構并不只是運用于單一的云服務器上,而是貫穿在整個華為云的智算云服務中——基于超節點的普及,數以百萬的服務器將實現更高層面的對等架構。這樣的最終目的就是,用戶始終可以基于一個單一的界面和框架,來簡便易行的架構自己所需要的訓練、推理、應用開發、計算機仿真等。而完全不用考慮其背后的物理架構是如何運行的,這使得用戶能夠把更多的精力集中于研發創新本身,而非保障自身算力系統不輕易崩潰。
當然,如果你把華為云當作一個僅僅提供優質算力的平臺,那就會極大窄化對華為AI能力的認知。事實上,作為一個全棧AI服務平臺,華為云在框架、工具、生態上都可圈可點。
僅就此次令人印象深刻的一些重磅產品來說,KooSearch作為一款即開即用的RAG(檢索增強生成)解決方案,去年在業界向量數據庫檢索精準度ANN benchmark中拔得頭籌。它的向量搜索性能卓越,還支持多模態檢索,實現圖文并茂的交互,是有效幫助AI跳出“幻覺”的強有力工具。
大模型的安全隱患很多,華為云的辦法則是“用魔法打敗魔法”——通過安全大模型守護大模型的安全。張修征表示,華為云在業界率先推出了端到端大模型安全方案,構筑了一個中心、七層防線的“AI+全棧式云原生安全體系”,實現AI推理安全、保障訓練語料安全、守護AI 環境安全。
![]()
04
應用落地 成果批量化產出
如果說DeepSeek帶來了一輪AI普及風暴,極大的催生了全社會對AI應用開發的積極性。那么,華為云則已經遠遠超出了許多AI廠商還在開發單點式、示范性的AI應用的階段,在應用開發上已經展示了自己的“流水線”級的應用開發賦能體系,并充分的向用戶開放。
盤古大模型堅定向B端賦能,打造行業解決方案,而軟件開發生產線CodeArts,則是AI+賦能的顛覆之作。
很多人都認為用AI寫代碼是軟件工程人員提高個體勞動輸出的利器,但事實上,真正的軟件開發流程非常之長,覆蓋需求與設計、開發、測試、部署、運維等軟件交付全生命周期環節,我們說的寫代碼只是其中“開發”這一個環節。
華為云軟件開發生產線CodeArts的核心能力,源于華為30年研發實踐積累,是一個典型的華為“能力外溢”的項目。
大名鼎鼎的德邦快遞,省市區覆蓋率達到99%,但在規模化背后,數字化能力建設的短板仍然存在,“怎么建設數字化”成為了其所關切的問題。
德邦快遞此前使用的系統,由第三方公司基于開源組件開發,歷史遺留問題頗多。加之整體維護成本較高,存在安全隱患及不穩定威脅等,在軟件生產線高可用、備份等方面能力都不夠完善。
而通過與華為云CodeArts的合作,實現了在效率、質量、安全、組織認知四個方面,全面賦能德邦快遞快速實現數字化轉型。
例如,針對德邦快遞跨團隊管理、可視化的全景規劃、多維度的度量統計等需求,CodeArts可謂是從無到有,提供了精細化的用戶管理方案,不僅能快速復用,還有15+維度測試指標度量,支撐企業全方位決策;同時,優化了測試設計,提升測試流程線上化程度,實現需求、用例、缺陷、報告整體可追溯,在代碼開發階段對代碼質量和安全問題進行自動化檢查,實現研發效率提升30%。
而德邦獲得的不僅僅是流程的自動化,還有組織認知和運作層面的提升,通過敏捷的需求管理,專業標準的敏捷Scrum項目協作和看板流程,支持多項目組合管理,從會用到用好,從根本上改變了這家企業對數字化的看法,從基因上融入了AI原生的價值觀。
DeepSeek興起后,一種新的觀點是,“將來換模型會像衣服換季一樣高頻”。這句話起初只是針對C端而言,但華為云察覺到了用戶對多模型協同、比較、探索的需求,在CodeArts開始支持客戶自定義接入DeepSeek等多種業界SOTA模型,開發者可在業務操作中靈活切換,用最適合的模型高效解決研發問題。
甚至,華為云還持續外溢自身的智能化研發實踐,把公司內部智能化研發的最佳實踐和特性能力通過CodeArts共享出去,使得用戶可以分享業界SOTA模型的場景化調優經驗和黃金語料。
數字人是數字內容領域的亮點,但在實踐中,不同企業開發的數字人能力相差極大,而華為云則將之打包成了一條“智能交互數字人”的生產線。
具體來說,是將數字人的能力解耦成幾個主要的技術棧——從視覺角度,基于盤古數字人大模型、音頻大模型及昇騰AI芯片,實現口型匹配度>95%、表情自然度提升40%,動作驅動時延低至1.5秒;從多模態交互角度,可以支持語音驅動、文本驅動、視覺驅動及動捕設備混合控制。
更重要的,是“智能”屬性的提升。
這其中的關鍵,是通過DeepSeek大模型增強語義理解能力,而針對DeepSeek比較突出的幻覺問題,則通過支持檢索增強生成(RAG)與企業知識庫對接,使得問答準確率提升至92%。
看上去,這是DeepSeek的“功勞”,但在我看來,其核心價值在于華為云對“智能”的深入理解和充分應用,也就是將傳統數字人的“單向應答”升級為“主動認知+場景驅動”的智能服務,這種思維力的升維才是真正的寶貴財富。
結語
中美之間最大的競爭之一,是AI的創新策源地之爭,這是一次全方面的pk。
前面說過,目前來講,中國雖然緊隨美國之后,但主要的基礎理論和基礎工具,還是基于美國等國家此前的基礎研發。
而華為超節點的發布,其實只是其AI產業鏈中突出的一環,雖然這一環本身的份量并不輕,已經意味著我們有可能在自主、自研的基礎設施層面實現智算能力的后發但至。
如果說DeepSeek的爆火,是繼AI戰勝人類棋手、大模型橫空出世之后,AI又向真實世界應用邁出的關鍵一步,那么其背后隱藏的是對算力特別是先進算力的極度渴求。
DeepSeek的出現并沒有讓規模法則失效(規模法則:通過增加參數規模如從千億到萬億級,和訓練數據量提升性能),有科學家認為,目前的大模型和算力需求在1000倍以內還將遵循這一法則。
黃仁勛也提到過,推理模型需要更多的計算,因為模型更復雜。R1的尺寸是6800億個參數,它的下一代版本可能有數萬億個參數。Agentic AI應用是無數次調用類似DeepSeek-R1做推理的過程,需要的計算只會更多。
從這個角度來看,超節點的出現,既是算力領域的好消息,是孵化AI產業的“黑土地”,但“作物”要茁壯成長,還需要方方面面的努力,由此我們也看到,華為云主動外溢了大量自己的AI領域Know-how,為的就是搞好發展AI應用生態的土壤和生態環境,以及配套的整個工具鏈。
如果說阿里通過通義的開源極大增加了自身的滲透率,那百度就在超前十年的時間優勢上試圖厚積薄發,豆包則憑借極為厚實的C端生態建立應用規模......那么,華為云就主打的是一個全產業鏈的全家桶式的閉環,而且堅定不碰應用、不做C端,最典型的就是盤古大模型,此次華為云生態大會更重申堅定To B戰略,堅定深耕行業……它們都代表或部分代表了中國AI發展的一面,也都是中國AI興旺發達的重要表征。
“自古知兵非好戰”,中國的AI產業不畏懼真正的全球競爭,不僅僅是因為我們有道義上的優勢,還因為中國有華為、華為云這樣的企業和業務群體,它們用十幾年的時間默默的在很多方面儲備了能力——最終的華為AI生態能力,是這種高壓強創新一以貫之的追求底層技術創新結果,而并不是為了一場戰斗發明了什么具體武器。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.