AI是算力與電力的耦合。隨著性能瓶頸從單一計算單元轉向互聯結構,越來越龐大的超節點與集群,正在重塑電力轉化為算力的路徑。算力與電力的協同擴展,正在成為AI時代的下一個關鍵詞。
為了讓AI以更高效率、更低成本運行,全球科技巨頭在日前舉行的OCP(開放計算項目)全球峰會上,紛紛提交各自的架構藍圖,試圖在算力與電力的協同設計標準中,占據更多話語權,以“引領AI未來”。
AI基礎設施正從芯片之爭,轉向機架級系統架構的較量。英偉達推出了Kyber機架,取代基于Blackwell架構的Oberon機架,可集成多達576個Rubin Ultra GPU。AMD推出了基于下一代MI450系列的Helios機架,已披露版本搭載72塊GPU;它采納了Meta提出的ORW(開放機架寬體)規范。
擴展,成為了本屆大會的核心議題。在英偉達看來,AI 的演化是一場持續的擴展,從GPU升級到AI基礎設施,它需要縱向、橫向以及跨域的擴展;在博通眼里,AI構筑于以太網之上,唯有它才是支持這三大擴展的最優解;AMD則認為,行業的每一次重大突破,都來自于開放,AI也是如此。
于是,這次峰會誕生了ESUN。它是基于以太網(Ethernet)的縱向擴展(Scale-Up)網絡(Networking)項目。首批成員堪稱豪華,包括AMD、Arista、ARM、博通、思科、慧與、Marvell、Meta、微軟、英偉達、OpenAI和甲骨文。無論英偉達與 AMD最終投入多少資源,這一倡議本身,已構成業界罕見的共識。
![]()
ESUN不是在現有的以太網上加了一層,而是涉及到物理層(PHY)、數據鏈路(Data Link)與幀頭(Header)。對OpenAI來說,這正契合它的戰略節奏。奧特曼正在串聯起軟硬件協同的生態,已經自己組了一個算力的局,也需要加入網絡的圈子;它與博通的合作,本來就希望加強在網絡、機架與互聯上的協同。可以說,美國的AI基礎設施共識,正在由此成型。
在這次峰會上,Meta就提出,算力硬件的多元化不可避免。一方面,是為了避免依賴單一廠商,保證供應鏈韌性;另一方面,則是為了負載適配,針對不同AI任務選擇“性能最優硬件”。而要充分復用這些異構資源,就必須盡可能減少硬件碎片化,降低軟件層的適配復雜度,建立更統一的互操作標準。
當前,縱向擴展已成為當前平衡AI工作負載的關鍵路徑。隨著稀疏架構中專家(Expert)數量與通信需求不斷攀升,芯片和節點規模同步擴大。為了突破銅纜物理限制,把更多GPU納入同一個低延遲域,機架級計算應運而生。稀疏模型的專家規模正在快速膨脹,從最早的Mixtral的8個,到DeepSeek-V3的256個,再到Kimi-K2的384個,甚至Qwen3-Next的512個。阿里云與華為等也在不斷擴大它們的節點的縱向擴展規模。
在此之前,圍繞縱向擴展,各大廠商一直各行其道。英偉達擁有自己的NVLink與NVSwitch,幾乎完全封閉,只是在今年通過NVLink Fusion的形式,向AI世界工廠“適度開放”,允許客戶將自己的CPU與英偉達的GPU一起使用,或將英偉達的GPU與其他定制AI芯片一起使用。三星,以及英偉達剛花了50億美元入股的英特爾,已經加入這一生態。但這個生態仍然稍顯狹窄,無法應對更復雜的AI定制芯片之間互聯的未來。
![]()
AMD原本帶頭創新了UAlink聯盟,這次也加入了ESUN。UALink作為NVLink的開放替代方案,如今成為ESUN的擴展協議。完全基于UALink的挑戰在于,占據最大GPU市場的英偉達不在其中,占據最大XPU市場的博通也被傳言有意退出。
博通無疑是這次 ESUN 的最大贏家之一。它一直試圖讓以太網同時承擔起縱向擴展 與橫向擴展 的雙重使命。作為網絡業務的“基本盤”廠商,博通在英偉達主導 AI 芯片敘事后,一度失去了定義未來網絡的主導權。
今年年中,博通推出了SUE(縱向擴展以太網)架構。三季度,又迅速升級了網絡交換芯片Tomahawk,從量產的Tomahawk 5衍生出Tomahawk 6與Tomahawk Ultra,前者主打橫向擴展性能的提升,后者則是專為縱向擴展優化。它們意在挑戰英偉達的InfiniBand與NVLink架構。在這次的OCP峰會上,博通還發布了Thor Ultra 800G的網卡芯片,鞏固在橫向擴展領域的地位。
![]()
但是,算力的終點是電力。愈發龐大的縱向擴展,也正讓電力瓶頸勒得越來越緊。這不僅關乎外部能否提供足夠的發電規模,更在于AI任務本身的功率波動性與高密度能耗需求,正在重塑數據中心內部的電力設計邏輯。
傳統的54V機架電源系統,在高功率密度不斷攀升的場景下,已暴露出電阻損耗高、銅纜用量激增等短板,難以滿足AI時代的新需求。而且,傳統現行架構需經過多級電能變換,將電網送來的中壓交流電先降至低壓交流,再由UPS調節并通過PDU與母線槽分配到機架內,歷經多次轉換,最終送到各計算節點。
微軟、谷歌與Meta共同打造的Mt. Diablo配電架構,專為應對現代AI硬件的極端功率需求而設計。它采用±400VDC配電方案,可支撐機1MW級機架功率,顯著提升了供電效率與系統緊湊性。它還免去了多余的交流-直流轉換,以及變壓器等大量調節設備,節省了整套系統的空間占用,降低了系統復雜度與運維成本。
未來,這套系統還將進一步引入固態變壓器(SST),進一步實現供電鏈路的精簡化。它專為高功率密度的AI數據中心而設計,能夠在更高效率下靈活接入電網與儲能系統,并在負載劇烈波動時維持電網穩定。除原有的Mt. Diablo成員外,英偉達也加入了進來。各方希望通過聯合創新,降低整體基礎設施成本,并借助供應鏈復用,將該技術推廣至更廣泛的行業場景。
![]()
英偉達下一代Kyber機架,則采用了800VDC高壓直流配電方案。其生態伙伴包括旗下的AI新興云CoreWeave、Nebius等公司。黃仁勛早已為自己的算力電力協同生態,拉攏了一大波供應鏈上下游企業。今年,在COMPUTEX上,他宣布成立800V高壓直流(HVDC)供電供應商聯盟。
![]()
英偉達的愿景是,未來將在設施級層面集中完成所有交流至直流的能量轉換,構建本地直流數據中心,實現從電力到算力的端到端一體化。在于 OCP 大會同期發布的800VDC白皮書中,英偉達同樣提到未來將引入固態變壓器(SST)。
算力與電力協同的下一代 AI 基礎設施,或許將成為“AI 泡沫”留下的最好技術遺產。
附錄,主議程列表
谷歌:敏捷AI架構:面向AI時代的可替換數據中心
英偉達:塑造AI開放基礎設施的未來
甲骨文:與OCI共建澤級(Zettascale)AI集群:攜手開放生態,共創下一代AI
AMD:完全開放且協作的AI生態系統
超微:未來AI數據中心:標準化與創新并重
微軟:新時代基礎設施:在前沿規模上推動AI
ARM:AI的新需求:新硅片、新系統、數據中心的新紀元
博通:面向AI擴展的網絡
戴爾:擴展數據中心基礎設施
Scaleway:在新興AI云上擴展集群
英特爾:以開放速度擴展 AI:從硅片到系統
Meta:將AI基礎設施擴展至數據中心區域
所有主議程keynotes,均可在OCP峰會官網獲得:
https://www.opencompute.org/events/past-events/2025-ocp-global-summit
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.