微軟終于發布了第二代定制AI芯片Maia 200。這距離它上一代AI芯片已經過去了兩年多,迭代節奏既慢于英偉達不斷加速的產品周期,也落后于谷歌TPU的代際推進。但它已經能夠讓微軟站穩,參與這場大規模云廠商之間的“軍備競賽”。作為后來者,它更直接地圍繞當前推理負載的真實約束展開。
AI已經進入推理時代,不同應用場景需要針對不同約束條件優化。這正是過去一年英偉達 GPU 敘事出現松動的底層原因。但到了2026年,競爭的重心進一步下沉至超大規模云廠商定制 AI 芯片之間的正面較量。誰能在給定成本、延遲和能耗水平下,提供更高的實際性能,誰才有望贏得這場競爭。
去年,TPU最先改變了AI競爭。谷歌Gemini 3與第七代TPU Ironwood的組合,開始對主要基于英偉達GPU的OpenAI,形成了總擁有成本上的長期競爭優勢。到年底,亞馬遜第三代Trainium發布,讓Anthropic有底氣不斷推出更強大的智能體應用。在這場競賽中,無論是微軟還是OpenAI,盡管關系日益微妙,但仍然誰都離不開誰。
2025/12/1 完整閱讀 >
在官方博客中,微軟將Maia 200描述為“目前所有超大規模數據中心中性能最高的自研芯片”。按照微軟給出的測算,如果以Maia 200替換其現有AI推理基礎設施,那么在相同投入下,每1美元可獲得約30%的額外性能,相當于將OpenAI最新GPT-5.2模型的單位推理成本降低近25%。
具體而言,Maia 200采用臺積電3nm工藝制造,擁有超過1400億顆晶體管。每塊芯片在FP4精度下,可實現超過10 PFLOPS的算力,是亞馬遜Trainium 3的近4倍,FP8性能超越了谷歌第七代TPU。它搭載了216GB的HBM3e,內存帶寬7 TB/s,縱向擴展帶寬高達2.8 TB/s。
事實上,如果僅從紙面指標來看,Maia 200的多項性能參數,已經不在英偉達的B200之下,甚至在部分精度推理場景下,可以與最新的B300相提并論。當然,下半年英偉達Vera Rubin架構的GPU,將再次抬高這場競賽的準入門檻。
不過,在超大規模系統擴展能力上,微軟仍然有所取舍。Maia 200支持最多6,144顆AI芯片縱向互聯,規模略低于谷歌Ironwood所能支持的9,216顆芯片,超節點層面的峰值算力也因此稍遜一籌。
![]()
在大規模推理時代,能效正在上升為另一個決定性競爭要素。如果說,每一美元可獲得的算力決定了“token工廠”的資本開支,那么,每一瓦所能輸出的性能則直接影響其長期運營成本。在微軟披露的典型推理工況下,Maia 200在750W的TDP(熱設計功耗)約束內,仍能釋放出極高的有效算力,其單位功耗性能明顯優于谷歌、亞馬遜與英偉達當前一代的AI芯片。
為了以更低的成本持續生成token,微軟在Maia 200上做出了一系列高度指向性的架構取舍。它或部分代表了未來定制AI芯片的趨勢。
其中最核心的一點,是它從底層開始就為低精度執行而原生設計。通過降低數值精度,不僅可以顯著提升推理吞吐、壓縮內存占用,還能同步改善每瓦性能。相比之下,谷歌第七代 TPU 并未公開其在FP4精度下的算力表現,而亞馬遜第三代Trainium在FP4下的算力,也并未相較FP8出現提升。
盡管市場普遍認為,谷歌第七代TPU在單位成本算力上已對英偉達Blackwell架構形成壓力,但這種優勢并非在所有推理階段都同樣成立。有分析顯示,在Prefill階段,英偉達憑借對FP4精度的支持,使GB200/GB300相較TPU v7 External仍保有約35%–50%的成本優勢;而在Decode階段,雙方的實際性價比差距也沒有那樣懸殊。
這也從側面解釋了英偉達近幾代架構的演進邏輯。Blackwell為超低精度推理系統性地鋪平了道路,原生支持FP4、MXFP4與NVFP4等多種4位浮點格式,為模型在更低精度下運行預留了充分空間。在此基礎上,相較GB200,GB300的主要性能增量幾乎全部集中在FP4吞吐率與低精度執行效率上;而隨后的Vera Rubin架構,則繼續放大FP4在整體算力結構中的權重。
但在推理場景中,決定系統上限的,往往并不只是算力本身,而是數據如何被存儲、如何被訪問,以及能夠被多近地反復使用。正如“HBM 之父”金正浩(Jung Ho Kim)所形容的那樣,AI系統更像是一塊奶油蛋糕,真正決定品質與價值的,是內存這層“奶油”。
正是在這樣的背景下,Maia 200的設計開始圍繞大體量片上SRAM做文章。微軟并沒有繼續單純押注更高帶寬的HBM,而是重新設計了內存層次結構,將大量存儲能力前移到計算單元附近。Maia 200搭載了272 MB的片上SRAM,不僅高于亞馬遜Trainium 3的256 MB,也超過了以速度著稱的Groq LPU的230 MB。
這種思路并不陌生。如果HBM代表著“更大的帶寬”,那么通過SRAM層面的創新,實現“更近的距離”。某種意義上,這也是英偉達近年來重新審視推理架構的重要線索。去年底,黃仁勛砸了200億美元,把Groq的核心團隊收編回家。
2025/12/25 完整閱讀 >
片上SRAM之于Maia 200的意義,并不只在于容量本身,更在于它重新定義了數據在推理芯片中的流動方式。與依賴硬件緩存自動調度不同,Maia 200將片上SRAM劃分為Tile級與Cluster級兩個層次,并交由軟件進行顯式管理。這意味著,哪些數據該被固定在計算單元附近、哪些數據需要在不同計算階段之間流轉,成為可被精確規劃的數據路徑選擇。大量原本必須往返HBM的數據,駐留在片上,降低了對更高延遲內存層級的依賴。這使得即便在模型結構愈發復雜、序列長度不斷拉長的情況下,計算單元仍能維持較高的利用率和穩定的吞吐表現,也降低了能耗。
圍繞這一重新設計的內存層次結構,Maia 200構建了一套高度面向推理的數據流架構。與之配合的,是分層設計的專用DMA(Direct Memory Access)引擎。其中,Tile級DMA負責計算單元與本地SRAM之間的細粒度搬運,Cluster級DMA調度片上不同計算單元與HBM之間的數據流動。更關鍵的是,這套DMA體系并非被動響應計算請求,而是通過提前調度與傳輸重疊,將數據在計算單元真正需要之前送達,從而最大限度地減少空轉。
對于微軟而言,Maia 200并非單純的硬件升級路徑。去年底,微軟CEO薩蒂亞·納德拉(Satya Nadella)在一次訪談中,提及微軟的計劃是在自己的MAI模型和芯片之間建立協同設計的閉環。
目前,Maia 200已率先部署在微軟位于愛荷華州的數據中心,并開始進入實際生產環境。MicrosoftAI的CEO穆斯塔法·蘇萊曼(Mustafa Suleyman)透露,微軟已經在使用Maia 200研發自己的前沿大模型。同時,下一代Maia 300的設計工作也已啟動。
![]()
在這個意義上,Maia系列并不是為了“對標英偉達”而存在,而是被定位為“一家擁有統一平臺邏輯的公司”中的關鍵拼圖。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.