網易首頁 > 網易號 > 正文申請入駐

多數據中心訓練：OpenAI、Google、Anthropic三家野心勃勃

2024-09-06 17:56:02　來源: dobigdata

北京舉報

分享至

【編者按】大模型競爭的背后也是基礎設施的競爭。隨著大模型規模越來越大，單體數據中心所能承受的訓練量逐步達到臨界值，未來多數據中心訓練成為趨勢。大模型三巨頭OpenAI、Google和Anthropic均在布局多數據中心訓練，Semianalysis對三巨頭多數據中心訓練的情況進行了分析，以下是具體內容。

由于Scaling Laws不斷改進，當前的人工智能基礎設施愈發難以滿足需求。像OpenAI、Google Gemini等領先的前沿人工智能模型訓練集群今年已擴展到10 萬個 GPU ，并計劃到 2025 年將超過 30 萬個 GPU 集群。考慮到建設時間、許可、法規和電力可用性等物理限制，傳統的同步訓練方法單個數據中心站點的大型模型已達到臨界點。

Google、OpenAI 和 Anthropic 已經在執行相關計劃，將其大型模型訓練從一個站點擴展到多個數據中心園區。谷歌擁有當今世界上最先進的計算系統，并率先大規模使用了許多關鍵技術，這些技術直到現在才被其他公司采用，例如機架級液冷架構和多數據中心訓練。

Gemini 1 Ultra 在多個數據中心進行了培訓。盡管他們擁有更多的 FLOPS，但他們現有的模型仍落后于 OpenAI 和 Anthropic，因為他們在合成數據、強化學習和模型架構方面仍在追趕，但即將發布的 Gemini 2 將改變這一現狀。此外，到 2025 年，谷歌將有能力在多個園區進行千兆瓦級的訓練，但令人驚訝的是，谷歌的長期計劃并不像 OpenAI 和微軟那么積極。

大多數公司才剛剛引入采用 Nvidia GB200 架構的高密度液冷 AI 芯片，預計明年產量將達到數百萬顆。另一方面，谷歌已經部署了數百萬個液冷 TPU，占液冷 AI 芯片容量超過 1 GW。谷歌的基礎設施與其競爭對手之間的差異肉眼可見。

上圖所示的人工智能培訓園區已擁有接近 300MW 的電力容量，明年將增至 500MW。除了規模龐大之外，這些設施還非常節能。我們可以在下面看到大型冷卻塔和集中設施供水系統，水管連接三座建筑物，能夠排出近 200 兆瓦的熱量。根據最新的環境報告，該系統允許 Google 全年大部分時間無需使用冷卻器即可運行，從而在 2023 年實現 1.1 PUE（電力使用效率）。

雖然上圖僅顯示了設施供水系統，但水也通過直接到芯片系統輸送到機架，液-液熱交換器將熱量從機架傳輸到中央設施供水系統。這種非常節能的系統類似于 Nvidia GB200 的 L2L 部署 - 在我們的GB200 深入研究中詳細描述。

另一方面，微軟當今最大的培訓集群（如下所示）不支持液體冷卻，并且每棟建筑的 IT 容量降低了約 35%，盡管建筑 GFA（總建筑面積）大致相似。已發布的數據顯示 PUE 為 1.223，但 PUE 計算對風冷系統有利，因為服務器內部的風扇功率沒有得到正確考慮 - 對于風冷 H100 服務器來說，這是服務器功率的 15%+，而對于風冷 H100 服務器來說，PUE 計算為 <5%液體 DLC 冷卻服務器。因此，對于提供給芯片的每瓦特，微軟需要額外約 45% 以上的功率用于服務器風扇功率、設施冷卻和其他非 IT 負載，而谷歌則接近每瓦特 IT 功率約 15% 的額外負載。疊加 TPU 的更高效率，情況就變得模糊了。

此外，為了在沙漠（亞利桑那州）實現良好的能源效率，微軟需要大量的水 - 用水效率 (L/kWh) 為 2.24，遠高于集團平均值 0.49，谷歌的平均值略高于 1。用水量增加引起了媒體的負面關注，他們被要求為該園區即將建設的數據中心改用風冷式冷水機，這將減少每棟建筑的用水量，但會進一步增加 PUE，從而擴大與 Google 的能效差距。在未來的報告中，我們將更詳細地探討數據中心的工作方式和典型的超大規模設計。

因此，基于現有的數據中心參考設計，Google 擁有更高效的基礎設施，并且可以更快地建造兆瓦，因為每棟建筑的容量提高了 >50%，并且每個 IT 負載需要承包的公用電力更少。

0 1

谷歌的AI訓練基礎設施

谷歌總是有一種獨特的方式來構建基礎設施。雖然他們各自的數據中心設計比當今的微軟、亞馬遜和 Meta 更先進，但這并不能全面體現他們的基礎設施優勢。十多年來，谷歌也一直在建設大型園區。下圖所示的 Google 位于愛荷華州康瑟爾布拉夫斯的站點就是一個很好的例子，盡管已有多年歷史，但其西部地區的 IT 容量仍接近 300MW 。雖然大量容量被分配給傳統工作負載，但我們相信底層的建筑承載著大量的 TPU 。東部擴建采用最新的數據中心設計，將進一步提高人工智能培訓能力。

谷歌最大的人工智能數據中心也彼此非常接近。 Google 有兩個主要的多數據中心區域，位于俄亥俄州和愛荷華州/內布拉斯加州。如今，康瑟爾布拉夫斯周圍的區域正在積極擴建，容量已達到現有容量的兩倍以上。除了上述園區外，谷歌還在該地區擁有其他三個站點，這些站點都在建設中，并且正在升級為高帶寬光纖網絡。

三個站點彼此相距約 15 英里（康瑟爾布拉夫斯、奧馬哈和 Papillon 愛荷華州），另一個站點位于內布拉斯加州林肯市約 50 英里。下圖所示的 Papillion 園區將為 Google 在奧馬哈和康瑟爾布拉夫斯周圍的業務增加 >250MW 的容量，加上上述總容量，到 2023 年將超過 500MW，其中很大一部分分配給 TPU。

另外兩個站點尚未那么大，但正在快速發展：到 2026 年，所有四個園區合并起來將形成一個 GW 規模的人工智能訓練集群。約 50 英里外的林肯數據中心將成為 Google 最大的單個站點。

谷歌龐大的 TPU 足跡還不止于此。另一個即將到來的千兆瓦級集群位于俄亥俄州哥倫布市周圍 - 該地區遵循類似的主題，正在開發三個園區，到 2025 年底總裝機容量將達到 1 GW！

如下所示的新奧爾巴尼集群將成為 Google 最大的集群之一，并且已經托管 TPU v4、v5、v6。

谷歌俄亥俄州和谷歌愛荷華州/內布拉斯加州的集中區域也可以進一步互連，為訓練單個模型提供數千兆瓦的電力。我們在數據中心模型中擁有超過 5,000 個數據中心的精確詳細的季度歷史和預測電力數據。這包括人工智能實驗室、超大規模、新云和企業的集群構建狀態。本報告稍后將詳細介紹多數據中心培訓的軟件堆棧和方法。

0 2

微軟和OpenAI開始反擊？

微軟和 OpenAI 很清楚他們短期內在基礎設施方面的劣勢，并開始了一項雄心勃勃的基礎設施建設，以超越谷歌。他們正試圖在自己的水冷多數據中心訓練集群游戲中擊敗谷歌。

微軟和 OpenAI正在建設接近GW級的超密集液冷數據中心園區，并與Oracle、Crusoe、CoreWeave、QTS、Compass 等公司合作，幫助他們實現比 Google更大的總AI 訓練和推理能力。

其中一些園區一旦建成，將比目前任何一個谷歌園區還要大。事實上，微軟在威斯康星州的園區將比谷歌在俄亥俄州的所有園區加起來還要大，但建設它需要一些時間。

更雄心勃勃的是 OpenAI 和微軟計劃將各個超大型園區互連在一起，并在全國范圍內開展大規模的分布式培訓。微軟和 OpenAI 將率先推出多 GW 計算系統。他們與供應鏈合作伙伴一起深入開展有史以來最雄心勃勃的基礎設施建設。

這份報告將在接近尾聲時詳細介紹微軟和 OpenAI 的基礎設施建設。在此之前，它將首先介紹多校區同步和異步訓練方法、落后者、容錯、靜默數據損壞以及與多數據中心訓練相關的各種挑戰。

0 3

多數據中心分布式訓練

大型語言模型 ( LLMs ) 主要是同步訓練的。訓練數據通常分為幾個較小的小批量，每個小批量都由在不同 GPU 組上運行的模型的單獨數據副本進行處理。處理完小批量后，每個副本都會計算梯度，然后所有副本必須在每個小批量處理結束時同步。

這種同步涉及聚合來自所有副本的梯度，通常通過像全歸約這樣的集體通信操作。一旦梯度被聚合，它們就會被平均并用于一致更新模型的參數。這確保了所有數據副本都維護一組相同的參數，從而使模型能夠以穩定的方式收斂。此過程的鎖步性質（所有設備在進入下一步之前等待彼此完成）確保沒有設備在模型狀態方面領先或落后太遠。

雖然同步梯度下降提供了穩定的收斂，但它也帶來了重大挑戰，特別是當您在單個訓練作業中擴展到超過 100k+ 芯片時，通信開銷會增加。同步性質還意味著您有嚴格的延遲要求，并且必須有一個連接所有芯片的大管道，因為數據交換會發生巨大的突發。

當您嘗試使用來自多個區域的 GPU 來處理相同的訓練工作負載時，它們之間的延遲會增加。即使光纖中的光速為 208,188 公里/秒，從美國東海岸到美國西海岸的往返時間 (RTT) 也為 43.2 毫秒 (ms)。此外，各種電信設備也會造成額外的延遲。這是一個很大的延遲，對于標準同步訓練來說很難克服。

根據阿姆達爾定律，當存在大量同步活動時，向工作負載添加更多芯片所帶來的加速效果會遞減。當您添加更多芯片時，并且程序運行時需要同步的部分（即對應于保持串行且無法并行化的計算比例）保持不變，將達到理論極限，即使 GPU 數量增加一倍不會使總體吞吐量增加超過 1%。

除了阿姆達爾定律描述的將更多 GPU 擴展到單個工作負載的理論限制之外，同步梯度下降還存在諸如落后者等實際挑戰。當只有一個芯片慢 10% 時，就會導致整個訓練運行慢 10%。例如，在下圖中，從第 7,500 步到第 19,000 步，字節跳動看到他們的 MFU 慢慢下降，因為工作負載中越來越多的芯片逐漸變慢，整個工作負載變得落后。

在識別并清除掉隊者后，他們從檢查點重新開始訓練工作量，將 MFU 增加到正常水平。正如您所看到的，MFU 從 40% 降至 30%，下降了 25%。當您擁有 100 萬個 GPU 時，MFU 減少 25% 相當于在任何給定時間有 25 萬個 GPU 處于空閑狀態，僅 IT 資本支出就相當于超過 10B 美元的成本。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.