網易首頁 > 網易號 > 正文申請入駐

微軟Maia 200掰TPUv7手腕，AI推理加速進入定制時代

2026-01-27 23:54:23　來源: 未盡研究

上海舉報

分享至

微軟終于發布了第二代定制AI芯片Maia 200。這距離它上一代AI芯片已經過去了兩年多，迭代節奏既慢于英偉達不斷加速的產品周期，也落后于谷歌TPU的代際推進。但它已經能夠讓微軟站穩，參與這場大規模云廠商之間的“軍備競賽”。作為后來者，它更直接地圍繞當前推理負載的真實約束展開。

AI已經進入推理時代，不同應用場景需要針對不同約束條件優化。這正是過去一年英偉達 GPU 敘事出現松動的底層原因。但到了2026年，競爭的重心進一步下沉至超大規模云廠商定制 AI 芯片之間的正面較量。誰能在給定成本、延遲和能耗水平下，提供更高的實際性能，誰才有望贏得這場競爭。

去年，TPU最先改變了AI競爭。谷歌Gemini 3與第七代TPU Ironwood的組合，開始對主要基于英偉達GPU的OpenAI，形成了總擁有成本上的長期競爭優勢。到年底，亞馬遜第三代Trainium發布，讓Anthropic有底氣不斷推出更強大的智能體應用。在這場競賽中，無論是微軟還是OpenAI，盡管關系日益微妙，但仍然誰都離不開誰。

2025/12/1 完整閱讀 >

在官方博客中，微軟將Maia 200描述為“目前所有超大規模數據中心中性能最高的自研芯片”。按照微軟給出的測算，如果以Maia 200替換其現有AI推理基礎設施，那么在相同投入下，每1美元可獲得約30%的額外性能，相當于將OpenAI最新GPT-5.2模型的單位推理成本降低近25%。

具體而言，Maia 200采用臺積電3nm工藝制造，擁有超過1400億顆晶體管。每塊芯片在FP4精度下，可實現超過10 PFLOPS的算力，是亞馬遜Trainium 3的近4倍，FP8性能超越了谷歌第七代TPU。它搭載了216GB的HBM3e，內存帶寬7 TB/s，縱向擴展帶寬高達2.8 TB/s。

事實上，如果僅從紙面指標來看，Maia 200的多項性能參數，已經不在英偉達的B200之下，甚至在部分精度推理場景下，可以與最新的B300相提并論。當然，下半年英偉達Vera Rubin架構的GPU，將再次抬高這場競賽的準入門檻。

不過，在超大規模系統擴展能力上，微軟仍然有所取舍。Maia 200支持最多6,144顆AI芯片縱向互聯，規模略低于谷歌Ironwood所能支持的9,216顆芯片，超節點層面的峰值算力也因此稍遜一籌。

在大規模推理時代，能效正在上升為另一個決定性競爭要素。如果說，每一美元可獲得的算力決定了“token工廠”的資本開支，那么，每一瓦所能輸出的性能則直接影響其長期運營成本。在微軟披露的典型推理工況下，Maia 200在750W的TDP（熱設計功耗）約束內，仍能釋放出極高的有效算力，其單位功耗性能明顯優于谷歌、亞馬遜與英偉達當前一代的AI芯片。

為了以更低的成本持續生成token，微軟在Maia 200上做出了一系列高度指向性的架構取舍。它或部分代表了未來定制AI芯片的趨勢。

其中最核心的一點，是它從底層開始就為低精度執行而原生設計。通過降低數值精度，不僅可以顯著提升推理吞吐、壓縮內存占用，還能同步改善每瓦性能。相比之下，谷歌第七代 TPU 并未公開其在FP4精度下的算力表現，而亞馬遜第三代Trainium在FP4下的算力，也并未相較FP8出現提升。

盡管市場普遍認為，谷歌第七代TPU在單位成本算力上已對英偉達Blackwell架構形成壓力，但這種優勢并非在所有推理階段都同樣成立。有分析顯示，在Prefill階段，英偉達憑借對FP4精度的支持，使GB200/GB300相較TPU v7 External仍保有約35%–50%的成本優勢；而在Decode階段，雙方的實際性價比差距也沒有那樣懸殊。

這也從側面解釋了英偉達近幾代架構的演進邏輯。Blackwell為超低精度推理系統性地鋪平了道路，原生支持FP4、MXFP4與NVFP4等多種4位浮點格式，為模型在更低精度下運行預留了充分空間。在此基礎上，相較GB200，GB300的主要性能增量幾乎全部集中在FP4吞吐率與低精度執行效率上；而隨后的Vera Rubin架構，則繼續放大FP4在整體算力結構中的權重。

但在推理場景中，決定系統上限的，往往并不只是算力本身，而是數據如何被存儲、如何被訪問，以及能夠被多近地反復使用。正如“HBM 之父”金正浩（Jung Ho Kim）所形容的那樣，AI系統更像是一塊奶油蛋糕，真正決定品質與價值的，是內存這層“奶油”。

正是在這樣的背景下，Maia 200的設計開始圍繞大體量片上SRAM做文章。微軟并沒有繼續單純押注更高帶寬的HBM，而是重新設計了內存層次結構，將大量存儲能力前移到計算單元附近。Maia 200搭載了272 MB的片上SRAM，不僅高于亞馬遜Trainium 3的256 MB，也超過了以速度著稱的Groq LPU的230 MB。

這種思路并不陌生。如果HBM代表著“更大的帶寬”，那么通過SRAM層面的創新，實現“更近的距離”。某種意義上，這也是英偉達近年來重新審視推理架構的重要線索。去年底，黃仁勛砸了200億美元，把Groq的核心團隊收編回家。

2025/12/25 完整閱讀 >

片上SRAM之于Maia 200的意義，并不只在于容量本身，更在于它重新定義了數據在推理芯片中的流動方式。與依賴硬件緩存自動調度不同，Maia 200將片上SRAM劃分為Tile級與Cluster級兩個層次，并交由軟件進行顯式管理。這意味著，哪些數據該被固定在計算單元附近、哪些數據需要在不同計算階段之間流轉，成為可被精確規劃的數據路徑選擇。大量原本必須往返HBM的數據，駐留在片上，降低了對更高延遲內存層級的依賴。這使得即便在模型結構愈發復雜、序列長度不斷拉長的情況下，計算單元仍能維持較高的利用率和穩定的吞吐表現，也降低了能耗。

圍繞這一重新設計的內存層次結構，Maia 200構建了一套高度面向推理的數據流架構。與之配合的，是分層設計的專用DMA（Direct Memory Access）引擎。其中，Tile級DMA負責計算單元與本地SRAM之間的細粒度搬運，Cluster級DMA調度片上不同計算單元與HBM之間的數據流動。更關鍵的是，這套DMA體系并非被動響應計算請求，而是通過提前調度與傳輸重疊，將數據在計算單元真正需要之前送達，從而最大限度地減少空轉。

對于微軟而言，Maia 200并非單純的硬件升級路徑。去年底，微軟CEO薩蒂亞·納德拉(Satya Nadella)在一次訪談中，提及微軟的計劃是在自己的MAI模型和芯片之間建立協同設計的閉環。

目前，Maia 200已率先部署在微軟位于愛荷華州的數據中心，并開始進入實際生產環境。MicrosoftAI的CEO穆斯塔法·蘇萊曼（Mustafa Suleyman）透露，微軟已經在使用Maia 200研發自己的前沿大模型。同時，下一代Maia 300的設計工作也已啟動。

在這個意義上，Maia系列并不是為了“對標英偉達”而存在，而是被定位為“一家擁有統一平臺邏輯的公司”中的關鍵拼圖。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.