網易首頁 > 網易號 > 正文申請入駐

算力暴增25倍！Meta連發四款AI芯片：每6個月升級一代！

2026-03-13 09:21:59　來源: 芯智訊

安徽舉報

分享至

當地時間3月11日，Meta公司宣布，繼此前推出的兩代自研AI芯片MTIA（Meta Training and Inference Accelerators）系列（MTIA 100、MTIA 200）成功商用后，現在正在開發四款全新的AI芯片，主要用于提升其生成式AI功能及內容排名系統。

據介紹，這四款AI芯片分別為MTIA 300、MTIA 400、MTIA 450和MTIA 500，由Meta與博通公司合作開發，基于開源的RISC-V構架（采用的是Meta去年收購的Rivos公司的內核設計），并由全球領先的晶圓代工廠臺積電（TSMC）生產。目前，MTIA 300已經開始生產，而其他三款芯片預計將在2027年初至年底之間出貨。

MTIA 100/200已部署數十萬顆，兩年再推4款芯片

在ISCA'23和ISCA'25上，Meta就曾發表了研究論文，詳細介紹了前兩代MTIA芯片：MTIA 100和MTIA 200（以前稱為MTIA 1和MTIA 2i）。目前，Meta已經在業務中部署了數十萬個MTIA系列芯片，加入了許多內部生產模型，并使用Llama等大型語言模型（LLM）測試了MTIA。

在MTIA 100和200推出之后，Meta正在連續開發四代MTIA系列芯片，包括MTIA 300、MTIA 400、MTIA 450和MTIA 500。這些新芯片計劃在2026年或2027年部署，將覆蓋從排名和推薦（R&R）推理擴展到R&R培訓、通用GenAI工作負載和具有針對性優化的GenAI推理。

Meta表示，人工智能模型的發展速度比傳統芯片開發周期快。芯片設計基于預計的工作負載，但當硬件投入生產時——通常是兩年后——這些工作負載可能已經發生了實質性的變化。與其下注并等待很長一段時間，Meta故意采取了快速迭代的方法：即每一代MTIA芯片都建立在上一代之上，使用模塊化小芯片，結合最新的AI工作負載見解和硬件技術，并以更短的節奏進行部署。這種更緊密的循環使Meta的硬件更好地與不斷發展的模型保持一致，同時能夠更快地采用新技術。

具體來說，最新的四代MTIA系列芯片包括：

MTIA 300：經濟高效的基礎

MTIA 300針對R&R模型進行了優化，這是GenAI起飛前的主要Meta工作負載，其構建的模塊為后續針對GenAI模型進行優化的芯片奠定了堅實的基礎。

與前幾代產品相比，MTIA 300 的顯著特點還包括內置網卡芯片、用于卸載通信任務的專用消息引擎以及用于歸約任務的近內存計算。雖然最初是針對 R&R 訓練進行優化的，但這些低延遲、高帶寬的通信組件為后續 MTIA 芯片中高效的 GenAI 推理和訓練奠定了基礎。

具體來說，MTIA 300 由一個計算芯片、兩個網絡芯片和多個 HBM 內存堆棧組成。每個計算芯片包含一個處理單元 (PE) 網格，其中一些 PE 具有冗余以提高良率。

每個PE包含：兩個 RISC-V 向量核心、用于矩陣乘法的點積引擎、用于激活和元素級操作的特殊功能單元、用于累積和 PE 間通信的縮減引擎、DMA引擎用于本地暫存內存的數據進出。

具體配置參數方面，MTIA 300配備了216GB HBM；帶寬為6.1 TB/s；FP8/MX8 性能1.2 PFlops；BF16 性能 0.6 PFlops；加速器縱向擴展域規模為16個節點；縱向擴展網絡 1 TB/s（單向帶寬）；橫向擴展網絡200 GB/s（單向帶寬）；TDP為800W。

目前這款芯片正在生產中，用于R&R培訓。

MTIA 400：極具競爭力的原始性能

MTIA 400主要是為了應對GenAI需求的激增，以更好地支持GenAI模型，同時保持支持R&R工作負載的能力。MTIA 400 相較于 MTIA 300 有了顯著提升，其 FP8 FLOPS 性能提升了 400%，HBM 帶寬提升了 51%。并且，MTIA 400具有72個加速器擴展域，可提供與領先商業產品競爭的高性能。

如果說，MTIA 300 是一款經濟高效的產品，那么 MTIA 400 則是首款旨在不僅降低成本，而且提供與領先商用產品相媲美的原始性能的 MTIA 芯片。

MTIA 400集成了兩個計算芯片組，使計算密度翻倍，并且還支持增強版的 MX8 和 MX4，這兩種低精度格式對于高效的 GenAI 推理至關重要。一個機架可以包含 72 個 MTIA 400，通過交換式背板連接，即可構成一個單一的擴展域。

具體參數方面，MTIA 400配備了288GB HBM；帶寬為 9.2TB/s；MX4性能 12 PFlops；FP8/MX8 性能 6 PFlops；BF16 性能 3 PFlops；加速器縱向擴展域規模為72個節點；縱向擴展網絡1.2 TB/s（單向帶寬）；橫向擴展網絡100 GB/s（單向帶寬）；TDP為1200W。

Meta已經在實驗室完成了MTIA 400的測試，并正計劃將其部署到Meta數據中心。

MTIA 450：GenAI推理的飛躍

考慮到GenAI推理需求的快速增長，Meta將MTIA 400升級到MTIA 450，通過在以下四個方面進行改進，使其更適合 GenAI 推理：

將 HBM 帶寬比上一版本提高一倍，以加快解碼速度。

將 MX4 FLOPS 提高 75%，以加快混合專家 (MoE) 前饋網絡 (FFN) 的計算速度。

引入硬件加速，使注意力機制和 FFN 計算更加高效（例如，通過緩解 Softmax 和 FlashAttention 的瓶頸）。

低精度數據類型的創新。

MTIA 450 超越了 FP8/MX8，其 MX4 FLOPS 是 FP16/BF16 的 6 倍，這體現了低精度 FLOPS 對推理的重要性。MTIA 450 還支持混合低精度計算，而無需承擔數據類型轉換帶來的軟件開銷。此外，它還引入了Meta自主研發的數據類型創新，在保證模型質量的同時提升 FLOPS，且對芯片面積的影響極小。

具體參數方面，MTIA 400配備了288GB HBM；帶寬為18.4 TB/s；MX4性能21 PFlops；FP8/MX8 性能 7 PFlops；BF16 性能 3.5 PFlops；加速器縱向擴展域規模依然是72個節點；縱向擴展網絡1.2 TB/s（單向帶寬）；橫向擴展網絡100 GB/s（單向帶寬）；TDP為1400W。

MTIA 450計劃于2027年初大規模部署。

MTIA 500：以更少的資源實現更多GenAI推理

隨著 GenAI 推理需求的持續增長，Meta將 MTIA 450 升級為 MTIA 500，以更具成本效益的方式支持 GenAI 推理。

MTIA 500 的 HBM 帶寬提升了 50%，HBM 容量提升了高達 80%，MX4 FLOPS 提升了 43%。MTIA 500 進一步強化了模塊化理念，采用 2x2 的小型計算芯片組配置，周圍環繞著多個 HBM 堆棧和兩個網絡芯片組，以及一個提供 PCIe 連接以連接主機 CPU 和橫向擴展網卡的 SoC 芯片組。與 MTIA 450 一樣，MTIA 500 也引入了額外的硬件加速和數據類型創新，以解決 GenAI 推理中遇到的瓶頸問題。

具體參數方面，MTIA 500配備了384-512 GB HBM，帶寬為 27.6 TB/s；MX4性能 30 PFlops；FP8/MX8 性能 10 PFlops；BF16 性能 5 PFlops；加速器縱向擴展域規模為72個節點；縱向擴展網絡1.2 TB/s（單向帶寬）；橫向擴展網絡100 GB/s（單向帶寬）；TDP為1700W。

MTIA 500計劃于2027年大規模部署。

總結來看，從MTIA 300到MTIA 500，HBM帶寬增加了4.5倍，計算性能（FLOPS）增加了25倍，這一切都將發生在不到兩年的時間里，這一快速發展凸顯了Meta加速戰略的好處。

Meta的策略：高速、推理優先、原生 PyTorch

在競爭激烈的AI芯片領域，Mtea的MTIA戰略基于三大支柱：高速迭代芯片開發、以推理為先導、通過基于 PyTorch 等行業標準進行原生構建，實現無縫采用。

高速迭代

鑒于人工智能創新日新月異，Meta已具備大約每6個月推出一款新芯片的能力。這種快速的研發速度帶來了兩個優勢：

快速適應不斷發展的 AI 技術：隨著新的模型架構、低精度數據類型和服務技術的出現，Mtea可以針對這些進步優化其最新的芯片，為重要操作引入硬件加速，并解決計算、內存和 I/O 之間的瓶頸轉移。

快速采用最新硬件技術：例如最新的工藝節點、HBM 和封裝技術。

Meta通過貫穿所有層面的可重用模塊化設計實現高速發展：從芯片組、機箱、機架到網絡基礎設施。Meta將加速器架構為芯片組系統——獨立的、可重用的計算、I/O 和網絡構建模塊。由于每個芯片組都可以單獨升級，Meta可以在數月內而非數年內完成改進。此外，不同的芯片組可以在不同的工藝節點上制造，從而在滿足性能和功耗要求的同時，最大限度地降低成本。

在系統層面，MTIA 400、450 和 500 均采用相同的機箱、機架和網絡基礎設施。因此，每一代新芯片都可以安裝在相同的物理空間內，從而加快從芯片設計到生產部署的過渡。Meta模塊化、可復用的設計也最大限度地減少了開發和部署多代芯片所需的資源，而這些高度優化的芯片所帶來的優勢足以抵消開發和部署過程中所消耗的資源。

推理優先

主流GPU通常是為最苛刻的工作負載——大規模GenAI預訓練——而設計的，然后才被應用于其他工作負載，例如GenAI推理，而后者往往成本效益較低。Meta采用不同的方法：MTIA 450和500首先針對GenAI推理進行優化，然后可根據需要用于支持其他工作負載，包括R&R訓練和推理，以及GenAI訓練。這使得MTIA能夠很好地適應預期中GenAI推理需求的增長。

無摩擦采用

MTIA 從一開始就基于行業標準的軟硬件生態系統——PyTorch、vLLM、Triton 和開放計算項目 (OCP)——原生構建，而非將兼容性和可移植性視為事后考慮。由于PyTorch 起源于 Meta，并且已成為應用最廣泛的機器學習框架，MTIA 自然而然地采用了 PyTorch 原生架構。PyTorch、vLLM 和 Triton 共同為開發者提供了一套熟悉的軟件棧，支持開源社區資源的復用，并簡化了模型遷移。除了行業標準的軟件之外，MTIA 的系統和機架解決方案也符合 OCP 標準，從而能夠無縫部署到數據中心。

MTIA 軟件棧：一種基于 PyTorch 的原生方法

MTIA 軟件棧在所有芯片代際中都能提供一致的編程體驗。它采用 PyTorch 原生架構，為開發者提供了一個熟悉且完整的生態系統。

該軟件棧的關鍵屬性包括：

無縫模型部署： MTIA 同時支持 eager 模式和 graph 模式。在 graph 模式下，它直接與PyTorch 2.0 的編譯流程集成。開發者可以使用熟悉的工具——torch.compile 和 torch.export——來捕獲和優化模型圖。無需對 MTIA 進行任何特定的重寫即可啟用模型。這種可移植性使得Meta的生產模型能夠同時部署在 GPU 和 MTIA 上。

編譯器：在 PyTorch 前端之下，MTIA 專用編譯器將高級圖表示轉換為高度優化的設備代碼。圖編譯器基于 Torch FX IR 和 TorchInductor 構建。內核編譯器和底層后端基于 Triton、MLIR 和 LLVM，并針對 MTIA 進行了增強和優化。Meta改進并定制了 TorchInductor 的 Triton 代碼生成和內核融合功能，使其更適用于 MTIA，并引入了 MTIA 感知的 MLIR 方言和 Triton DSL 擴展。這些擴展可選擇性地用于對性能要求極高的內核。編譯器堆棧具有自動調優功能，可使用多種編譯策略自動優化工作負載。

內核編寫： MTIA 支持編譯器驅動的內核生成和融合，支持使用 Triton 和 C++ 進行自動生成和用戶手動內核編寫，并提供內核自動調優和優化功能。此外，Meta還構建了智能體 AI 系統來實現內核生成的自動化。

通信與傳輸： MTIA 的通信庫 Hoot Collective Communications Library (HCCL) 與 GPU 通信庫類似，但具有多項差異化優勢。它利用 MTIA 芯片內置的網絡芯片實現高效通信，將集體操作卸載到專用消息引擎，并使用近內存計算來加速需要大量歸約的集體操作。HCCL 還支持融合計算內核和集體內核以最大限度地降低延遲。最后，其傳輸協議棧針對低延遲事務進行了優化，并將整個數據路徑卸載到主機，從而降低主機協議棧的運行時開銷。

運行時和固件： MTIA 運行時管理設備內存、內核調度以及跨多個設備的執行協調。它支持即時執行模式和圖執行模式。此外，它還以 Inductor 原生的即時圖模式編排計算和集體操作。這種方法能夠將計算和通信一起捕獲和調度，從而以最小的開銷提供類似 GPU 的體驗。運行時與基于 Rust 的用戶空間驅動程序交互，而不是傳統的內核級 Linux 驅動程序。固件采用裸機 Rust 編寫，具有低延遲和高性能，并內置內存和線程安全機制。

vLLM 支持： vLLM 的插件架構使其能夠輕松與 MTIA 集成。Meta的 MTIA 插件使用 MTIA 專用內核替換了 FlashAttention 和融合 LayerNorm 等重要運算符。通過自定義的 torch.compile 后端支持圖模式執行。MTIA 繼承并受益于 vLLM 的諸多特性，例如預填充解碼分解和連續批處理。

生產工具：為了確保數十萬顆 MTIA 芯片在生產環境中可靠運行，MTIA 提供與主流 GPU 同類產品相媲美的生產級監控、性能分析和調試工具，同時還提供獨特的功能，例如跨主機和設備的全棧式、大規模可觀測性，涵蓋軟件、固件和硬件層面。其調試器支持精細控制，包括 PE 級別的斷點和協同單步執行。

總結

雖然Meta大規模部署的前兩代 MTIA 芯片已展現出強大的 R&R 推理能力，但Meta預計最新的四代產品——包括近期發布或計劃于 2026 年或 2027 年發布的產品——將進一步拓展 GenAI 推理的邊界，實現 R&R 訓練，并為未來的 GenAI 訓練奠定基礎。

Meta表示，每一代 MTIA 芯片都汲取了前代產品的經驗，與其軟件棧協同設計，并以未來 AI 模型的發展軌跡為指導。MTIA 芯片的模塊化、多芯片設計和垂直整合的協同設計方法，能夠在保持系統級兼容性的同時，實現快速且持續的性能提升。這些產品將共同助力我們實現目標：為平臺上的每一位用戶提供當今乃至未來最強大的 AI 體驗。

編輯：芯智訊-浪客劍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.