![]()
當地時間12月2日,亞馬遜云計算部門(AWS,Amazon Web Services)的年度技術盛會“re:Invent 2025”在美國拉斯維加斯正式開幕。在此次會議上,AWS正式發布了新一代自研AI芯片Trainium3,以及為下一代AI 工作負載打造的Trainium3 UltraServers,同時還公布了Trainium4 路線圖。
眾所周知,為了滿足自身需求及降低成本,亞馬遜、谷歌等眾多云服務大廠在數年前就已經開始了自研云端AI芯片。根據亞馬遜AWS公布的信息顯示,目前其定制芯片業務規模已達數十億美元,Trainium系列芯片全球部署總量突破100萬張,成為支撐超大規模AI計算的核心支柱,在全球云廠商自研芯片中僅次于谷歌TPU。
具體來說,Trainium 3 基于臺積電3nm制程工藝,單芯片可提供2.52 PFLOPs(FP8)算力,支持FP32、BF16、MXFP8及新增MXFP4等多種精度格式。同時,該芯片還將HBM3e內存容量提升至144GB、帶寬提升至4.9TB/s,同時強化結構化稀疏性和微縮放硬件支持,進一步優化大語言模型訓練與推理效率。
AWS表示,Trainium 3有望將AI模型全生命周期成本整體降低50%,可以為客戶帶來更高的性價比AI算力服務。
同時,AWS還推出了基于全新一代Neuron Fabric互聯技術的Trainium3 UltraServers,最多可以將144顆Trainium3 整合在單一系統中總算力達362 FP8 PFLOPs。
![]()
△Trainium3 UltraServers
根據AWS的說法,相較上一代的Trainium2 UltraServers,全新的Trainium3 UltraServers 的原始性能提升了4.4倍,性能功耗比提升4倍,整體能源效率提升40%。實測數據顯示,部署主流開源模型(如 GPT-OSS)時,單芯片吞吐量提升3倍,響應延遲縮短4倍。這使客戶能以更快速度訓練模型,把原先需要數月時間縮短到數周,同時支持更多推理請求,降低上線時間和營運成本,讓過去被視為不切實際或太昂貴的AI 項目化為可能。
通過EC2 UltraClusters 3.0架構,Trainium3 UltraServers 可擴展至最高100萬張芯片的超級集群,規模較上一代提升10倍,已為Anthropic的“Project Rainier”項目提供核心算力支撐(目前已部署50萬張Trainium 2,計劃年底前擴容至100萬張)。
AWS指出,已有多家客戶使用Trainium3 和Trainium3 UltraServers 取得成效,包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等,訓練成本比其他方案最多降低50%。
此外,AWS 還曝光了下一代AI 加速器Trainium4。雖然目前這款芯片正在開發中,AWS也沒有公布Trainium4 推出的具體時間,但是AWS 承諾Trainium4 將會帶來至少6倍處理性能(FP4)、3倍FP8 性能、4倍內存頻寬。
![]()
更重要的是,Trainium4 將支持NVIDIA NVLink Fusion 高速互連技術,使Trainium4、Graviton 及EFA(Elastic Fabric Adapter)能在通用的MGX 機架順暢協作,與NVIDIA GPU 相互操作、擴展性能。
編輯:芯智訊-浪客劍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.