![]()
機器之心編輯部
一覺醒來,我們看到了微軟自研 AI 芯片的最新進展。
微軟原定于 2025 年發(fā)布的下一代 AI 芯片 Maia 200,終于在今天問世!
![]()
微軟 CEO Satya Nadella
根據(jù)微軟官方介紹,Maia 200 作為一款強大的 AI 推理加速器,旨在顯著改善 AI token 生成的經(jīng)濟性。
Maia 200 基于臺積電的 3 納米工藝打造,配備原生 FP8/FP4 張量核心、重新設計的內(nèi)存系統(tǒng),擁有 216GB HBM3e 內(nèi)存、7TB/s 帶寬以及 272MB 片上 SRAM,并配有數(shù)據(jù)傳輸引擎,從而能夠保證大規(guī)模模型高效、快速地進行數(shù)據(jù)流動。
這些使得 Maia 200 成為任何超級計算平臺中表現(xiàn)最強的第一方硅片,其 FP4 性能是第三代 Amazon Trainium 的三倍,F(xiàn)P8 性能超越了谷歌第七代 TPU。
與此同時,Maia 200 還是微軟迄今為止最高效的推理系統(tǒng),每美元性能比該公司當前集群中的最新一代硬件提升了 30%。
![]()
Maia 200 是微軟異構(gòu) AI 基礎(chǔ)設施的重要組成部分,將為包括 OpenAI 最新 GPT-5.2 在內(nèi)的多個大模型提供支持,為 Microsoft Foundry 和 Microsoft 365 Copilot 帶來更高的性價比優(yōu)勢。
微軟超級智能團隊將利用 Maia 200 進行合成數(shù)據(jù)生成和強化學習,以提升下一代自研模型的性能。在合成數(shù)據(jù)流水線應用場景中,Maia 200 的獨特設計有助于加速高質(zhì)量、特定領(lǐng)域數(shù)據(jù)的生成與篩選,從而為后續(xù)的模型訓練提供更及時、更具針對性的信號。
Maia 200 已部署在愛荷華州德梅因附近的美國中部數(shù)據(jù)中心區(qū)域,接下來將部署在亞利桑那州菲尼克斯附近的美國西部 3 區(qū)域,未來還將擴展至更多地區(qū)。
Maia 200 與 Azure 實現(xiàn)了無縫集成。目前,微軟正在開放 Maia SDK 的預覽,該 SDK 提供了一整套用于構(gòu)建和優(yōu)化 Maia 200 模型的工具,涵蓋了 PyTorch 集成、Triton 編譯器、優(yōu)化內(nèi)核庫以及對 Maia 底層編程語言的訪問權(quán)限。這既能讓開發(fā)者在需要時進行精細化控制,又能實現(xiàn)模型在不同異構(gòu)硬件加速器之間的輕松遷移。
對于微軟這波突如其來的「秀肌肉」,社區(qū)反響熱烈。
有網(wǎng)友送出點贊,并強調(diào)了微軟在基礎(chǔ)設施層面的統(tǒng)治力。
![]()
也有人關(guān)心上面是否能安裝最近爆火的 Clawdbot。
![]()
也不乏靈魂拷問/調(diào)侃。
![]()
專為 AI 推理打造
Maia 200 芯片采用臺積電最先進的 3 納米工藝制造,單顆芯片包含超過 1400 億個晶體管。它專門針對大規(guī)模 AI 工作負載進行了定制,同時兼顧了極高的能效比。因此,無論是在性能還是成本效益方面,Maia 200 均表現(xiàn)卓越。
Maia 200 專為使用低精度計算的最新模型設計,在 750W 的 SoC 熱設計功耗(TDP)范圍內(nèi),單顆芯片可以提供超過 10 PetaFLOPS 的 FP4 性能和超過 5 PetaFLOPS 的 FP8 性能。
從實際應用來看,Maia 200 可以輕松運行當今規(guī)模最大的模型,并為未來更龐大的模型預留了充足的性能空間。
![]()
關(guān)鍵在于,算力(FLOPS)并非提升 AI 速度的唯一因素,數(shù)據(jù)的傳輸效率同樣至關(guān)重要。Maia 200 通過重新設計的內(nèi)存子系統(tǒng)解決了這一瓶頸。
該子系統(tǒng)以窄精度數(shù)據(jù)類型為核心,配備了專門的 DMA 引擎、片上 SRAM 和專用的片上網(wǎng)絡(NoC)總線,用于實現(xiàn)高帶寬數(shù)據(jù)移動,從而提升了 Token 吞吐量。
![]()
優(yōu)化的 AI 系統(tǒng)
在系統(tǒng)層面,Maia 200 引入了一種基于標準以太網(wǎng)的新型兩層 Scale-up 網(wǎng)絡設計。通過定制的傳輸層和緊密集成的網(wǎng)卡(NIC),它在不依賴私有協(xié)議矩陣的情況下,實現(xiàn)了高性能、高可靠性和顯著的成本優(yōu)勢。
每個加速器可以提供:
- 2.8 TB/s 的雙向?qū)S?Scale-up 帶寬;
- 在包含多達 6,144 個加速器的集群中,實現(xiàn)可預測的高性能集合通信。
這種架構(gòu)為密集型推理集群提供了可擴展的性能,同時降低了功耗和 Azure 全球機架的整體擁有成本(TCO)。
在每個托架(tray)內(nèi),四個 Maia 加速器通過直接的非交換鏈路全連接,使高帶寬通信保持在本地,實現(xiàn)最佳推理效率。機架內(nèi)和機架間的聯(lián)網(wǎng)均采用相同的 Maia AI 傳輸協(xié)議,通過最少的網(wǎng)絡跳數(shù)實現(xiàn)跨節(jié)點、機柜和集群的無縫擴展。
這種統(tǒng)一的架構(gòu)簡化了編程,提高了工作負載的靈活性,減少了閑置容量,并在云端規(guī)模下保持了性能與成本效率的一致性。
![]()
云原生開發(fā)模式
Microsoft 芯片開發(fā)計劃的一個核心原則,是在最終芯片就緒之前,盡可能地驗證整個端到端系統(tǒng)。
針對 Maia 200,一套復雜的預芯片環(huán)境從架構(gòu)設計之初便發(fā)揮了引導作用,能夠高保真地模擬大語言模型的計算與通信模式。正是通過這種早期的協(xié)同開發(fā)環(huán)境,微軟得以在首顆芯片生產(chǎn)出來之前,就將芯片、網(wǎng)絡與系統(tǒng)軟件視為統(tǒng)一整體進行深度優(yōu)化。
為了確保 Maia 200 能夠在數(shù)據(jù)中心實現(xiàn)快速且無縫的部署,微軟從設計階段就同步開展了對后端網(wǎng)絡及第二代閉環(huán)液冷換熱單元等復雜系統(tǒng)組件的早期驗證。通過與 Azure 控制平面的原生集成,該系統(tǒng)在芯片和機架層面實現(xiàn)了安全性、遙測、診斷及管理能力的全面覆蓋,從而顯著提升了生產(chǎn)級關(guān)鍵 AI 負載的可靠性與運行時間。
得益于這些投入,在首批封裝件送達后的幾天內(nèi),AI 模型便已在 Maia 200 芯片上成功運行。從首顆芯片到首個數(shù)據(jù)中心機架部署的時間縮短了一半以上,優(yōu)于同類 AI 基礎(chǔ)設施項目。這種從芯片到軟件再到數(shù)據(jù)中心的端到端方法,直接轉(zhuǎn)化為更高的利用率、更短的投產(chǎn)時間,以及在云規(guī)模下每美元性能和每瓦特性能的持續(xù)提升。
![]()
大規(guī)模 AI 時代才剛剛開啟,基礎(chǔ)設施將決定創(chuàng)新的邊界。微軟表示,Maia AI 加速器計劃是跨代發(fā)展的。
在向全球基礎(chǔ)設施部署 Maia 200 的同時,微軟已經(jīng)在設計未來幾代產(chǎn)品,并期待每一代都能不斷樹立新標桿,為最重要的 AI 工作負載提供更卓越的性能和效率。
官方博客:
https://blogs.microsoft.com/blog/2026/01/26/maia-200-the-ai-accelerator-built-for-inference/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.