網易首頁 > 網易號 > 正文申請入駐

AWS發布全新AI芯片Trainium3：性能提升4.4倍！

2025-12-03 12:26:43　來源: 芯智訊

廣東舉報

分享至

當地時間12月2日，亞馬遜云計算部門（AWS，Amazon Web Services）的年度技術盛會“re:Invent 2025”在美國拉斯維加斯正式開幕。在此次會議上，AWS正式發布了新一代自研AI芯片Trainium3，以及為下一代AI 工作負載打造的Trainium3 UltraServers，同時還公布了Trainium4 路線圖。

眾所周知，為了滿足自身需求及降低成本，亞馬遜、谷歌等眾多云服務大廠在數年前就已經開始了自研云端AI芯片。根據亞馬遜AWS公布的信息顯示，目前其定制芯片業務規模已達數十億美元，Trainium系列芯片全球部署總量突破100萬張，成為支撐超大規模AI計算的核心支柱，在全球云廠商自研芯片中僅次于谷歌TPU。

具體來說，Trainium 3 基于臺積電3nm制程工藝，單芯片可提供2.52 PFLOPs（FP8）算力，支持FP32、BF16、MXFP8及新增MXFP4等多種精度格式。同時，該芯片還將HBM3e內存容量提升至144GB、帶寬提升至4.9TB/s，同時強化結構化稀疏性和微縮放硬件支持，進一步優化大語言模型訓練與推理效率。

AWS表示，Trainium 3有望將AI模型全生命周期成本整體降低50%，可以為客戶帶來更高的性價比AI算力服務。

同時，AWS還推出了基于全新一代Neuron Fabric互聯技術的Trainium3 UltraServers，最多可以將144顆Trainium3 整合在單一系統中總算力達362 FP8 PFLOPs。

△Trainium3 UltraServers

根據AWS的說法，相較上一代的Trainium2 UltraServers，全新的Trainium3 UltraServers 的原始性能提升了4.4倍，性能功耗比提升4倍，整體能源效率提升40%。實測數據顯示，部署主流開源模型（如 GPT-OSS）時，單芯片吞吐量提升3倍，響應延遲縮短4倍。這使客戶能以更快速度訓練模型，把原先需要數月時間縮短到數周，同時支持更多推理請求，降低上線時間和營運成本，讓過去被視為不切實際或太昂貴的AI 項目化為可能。

通過EC2 UltraClusters 3.0架構，Trainium3 UltraServers 可擴展至最高100萬張芯片的超級集群，規模較上一代提升10倍，已為Anthropic的“Project Rainier”項目提供核心算力支撐（目前已部署50萬張Trainium 2，計劃年底前擴容至100萬張）。

AWS指出，已有多家客戶使用Trainium3 和Trainium3 UltraServers 取得成效，包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等，訓練成本比其他方案最多降低50%。

此外，AWS 還曝光了下一代AI 加速器Trainium4。雖然目前這款芯片正在開發中，AWS也沒有公布Trainium4 推出的具體時間，但是AWS 承諾Trainium4 將會帶來至少6倍處理性能（FP4）、3倍FP8 性能、4倍內存頻寬。

更重要的是，Trainium4 將支持NVIDIA NVLink Fusion 高速互連技術，使Trainium4、Graviton 及EFA（Elastic Fabric Adapter）能在通用的MGX 機架順暢協作，與NVIDIA GPU 相互操作、擴展性能。

編輯：芯智訊-浪客劍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.