網易首頁 > 網易號 > 正文申請入駐

OCP全球峰會，算力電力協同擴展|?筆記

2025-10-17 00:00:38　來源: 未盡研究

上海舉報

分享至

AI是算力與電力的耦合。隨著性能瓶頸從單一計算單元轉向互聯結構，越來越龐大的超節點與集群，正在重塑電力轉化為算力的路徑。算力與電力的協同擴展，正在成為AI時代的下一個關鍵詞。

為了讓AI以更高效率、更低成本運行，全球科技巨頭在日前舉行的OCP（開放計算項目）全球峰會上，紛紛提交各自的架構藍圖，試圖在算力與電力的協同設計標準中，占據更多話語權，以“引領AI未來”。

AI基礎設施正從芯片之爭，轉向機架級系統架構的較量。英偉達推出了Kyber機架，取代基于Blackwell架構的Oberon機架，可集成多達576個Rubin Ultra GPU。AMD推出了基于下一代MI450系列的Helios機架，已披露版本搭載72塊GPU；它采納了Meta提出的ORW（開放機架寬體）規范。

擴展，成為了本屆大會的核心議題。在英偉達看來，AI 的演化是一場持續的擴展，從GPU升級到AI基礎設施，它需要縱向、橫向以及跨域的擴展；在博通眼里，AI構筑于以太網之上，唯有它才是支持這三大擴展的最優解；AMD則認為，行業的每一次重大突破，都來自于開放，AI也是如此。

于是，這次峰會誕生了ESUN。它是基于以太網（Ethernet）的縱向擴展（Scale-Up）網絡（Networking）項目。首批成員堪稱豪華，包括AMD、Arista、ARM、博通、思科、慧與、Marvell、Meta、微軟、英偉達、OpenAI和甲骨文。無論英偉達與 AMD最終投入多少資源，這一倡議本身，已構成業界罕見的共識。

ESUN不是在現有的以太網上加了一層，而是涉及到物理層（PHY）、數據鏈路（Data Link）與幀頭（Header）。對OpenAI來說，這正契合它的戰略節奏。奧特曼正在串聯起軟硬件協同的生態，已經自己組了一個算力的局，也需要加入網絡的圈子；它與博通的合作，本來就希望加強在網絡、機架與互聯上的協同。可以說，美國的AI基礎設施共識，正在由此成型。

在這次峰會上，Meta就提出，算力硬件的多元化不可避免。一方面，是為了避免依賴單一廠商，保證供應鏈韌性；另一方面，則是為了負載適配，針對不同AI任務選擇“性能最優硬件”。而要充分復用這些異構資源，就必須盡可能減少硬件碎片化，降低軟件層的適配復雜度，建立更統一的互操作標準。

當前，縱向擴展已成為當前平衡AI工作負載的關鍵路徑。隨著稀疏架構中專家（Expert）數量與通信需求不斷攀升，芯片和節點規模同步擴大。為了突破銅纜物理限制，把更多GPU納入同一個低延遲域，機架級計算應運而生。稀疏模型的專家規模正在快速膨脹，從最早的Mixtral的8個，到DeepSeek-V3的256個，再到Kimi-K2的384個，甚至Qwen3-Next的512個。阿里云與華為等也在不斷擴大它們的節點的縱向擴展規模。

在此之前，圍繞縱向擴展，各大廠商一直各行其道。英偉達擁有自己的NVLink與NVSwitch，幾乎完全封閉，只是在今年通過NVLink Fusion的形式，向AI世界工廠“適度開放”，允許客戶將自己的CPU與英偉達的GPU一起使用，或將英偉達的GPU與其他定制AI芯片一起使用。三星，以及英偉達剛花了50億美元入股的英特爾，已經加入這一生態。但這個生態仍然稍顯狹窄，無法應對更復雜的AI定制芯片之間互聯的未來。

AMD原本帶頭創新了UAlink聯盟，這次也加入了ESUN。UALink作為NVLink的開放替代方案，如今成為ESUN的擴展協議。完全基于UALink的挑戰在于，占據最大GPU市場的英偉達不在其中，占據最大XPU市場的博通也被傳言有意退出。

博通無疑是這次 ESUN 的最大贏家之一。它一直試圖讓以太網同時承擔起縱向擴展與橫向擴展的雙重使命。作為網絡業務的“基本盤”廠商，博通在英偉達主導 AI 芯片敘事后，一度失去了定義未來網絡的主導權。

今年年中，博通推出了SUE（縱向擴展以太網）架構。三季度，又迅速升級了網絡交換芯片Tomahawk，從量產的Tomahawk 5衍生出Tomahawk 6與Tomahawk Ultra，前者主打橫向擴展性能的提升，后者則是專為縱向擴展優化。它們意在挑戰英偉達的InfiniBand與NVLink架構。在這次的OCP峰會上，博通還發布了Thor Ultra 800G的網卡芯片，鞏固在橫向擴展領域的地位。

但是，算力的終點是電力。愈發龐大的縱向擴展，也正讓電力瓶頸勒得越來越緊。這不僅關乎外部能否提供足夠的發電規模，更在于AI任務本身的功率波動性與高密度能耗需求，正在重塑數據中心內部的電力設計邏輯。

傳統的54V機架電源系統，在高功率密度不斷攀升的場景下，已暴露出電阻損耗高、銅纜用量激增等短板，難以滿足AI時代的新需求。而且，傳統現行架構需經過多級電能變換，將電網送來的中壓交流電先降至低壓交流，再由UPS調節并通過PDU與母線槽分配到機架內，歷經多次轉換，最終送到各計算節點。

微軟、谷歌與Meta共同打造的Mt. Diablo配電架構，專為應對現代AI硬件的極端功率需求而設計。它采用±400VDC配電方案，可支撐機1MW級機架功率，顯著提升了供電效率與系統緊湊性。它還免去了多余的交流-直流轉換，以及變壓器等大量調節設備，節省了整套系統的空間占用，降低了系統復雜度與運維成本。

未來，這套系統還將進一步引入固態變壓器（SST），進一步實現供電鏈路的精簡化。它專為高功率密度的AI數據中心而設計，能夠在更高效率下靈活接入電網與儲能系統，并在負載劇烈波動時維持電網穩定。除原有的Mt. Diablo成員外，英偉達也加入了進來。各方希望通過聯合創新，降低整體基礎設施成本，并借助供應鏈復用，將該技術推廣至更廣泛的行業場景。

英偉達下一代Kyber機架，則采用了800VDC高壓直流配電方案。其生態伙伴包括旗下的AI新興云CoreWeave、Nebius等公司。黃仁勛早已為自己的算力電力協同生態，拉攏了一大波供應鏈上下游企業。今年，在COMPUTEX上，他宣布成立800V高壓直流（HVDC）供電供應商聯盟。

英偉達的愿景是，未來將在設施級層面集中完成所有交流至直流的能量轉換，構建本地直流數據中心，實現從電力到算力的端到端一體化。在于 OCP 大會同期發布的800VDC白皮書中，英偉達同樣提到未來將引入固態變壓器（SST）。

算力與電力協同的下一代 AI 基礎設施，或許將成為“AI 泡沫”留下的最好技術遺產。

附錄，主議程列表

谷歌：敏捷AI架構：面向AI時代的可替換數據中心

英偉達：塑造AI開放基礎設施的未來

甲骨文：與OCI共建澤級（Zettascale）AI集群：攜手開放生態，共創下一代AI

AMD：完全開放且協作的AI生態系統

超微：未來AI數據中心：標準化與創新并重

微軟：新時代基礎設施：在前沿規模上推動AI

ARM：AI的新需求：新硅片、新系統、數據中心的新紀元

博通：面向AI擴展的網絡

戴爾：擴展數據中心基礎設施

Scaleway：在新興AI云上擴展集群

英特爾：以開放速度擴展 AI：從硅片到系統

Meta：將AI基礎設施擴展至數據中心區域

所有主議程keynotes，均可在OCP峰會官網獲得：

https://www.opencompute.org/events/past-events/2025-ocp-global-summit

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.