![]()
摩爾線程AI旗艦級計算卡MTT S5000性能首次曝光,這是摩爾線程2024年推出的、專為大模型訓練、推理及高性能計算而設計的訓推一體全功能GPU智算卡。
摩爾線程在其官網中,首次公布了S5000的硬件參數:支持FP8到FP64的全精度計算,其單卡AI算力(FP8)最高可達1 PFLOPS,顯存容量為80GB,顯存帶寬達到1.6TB/s,卡間互聯帶寬為784GB/s。業內人士表示,MTT S5000實測性能對標H100,在多模態大模型微調任務中,部分性能甚至超越H100。
![]()
在芯片架構層面,S5000采用第四代MUSA架構“平湖”,專為大規模AI訓練優化,依托MUSA全棧軟件平臺,原生適配PyTorch、Megatron-LM、vLLM及SGLang等主流框架,讓用戶能夠以“零成本”完成代碼遷移,兼容國際主流CUDA生態。
在計算精度方面,S5000作為國內一批最早原生支持FP8精度的訓練GPU,配置了硬件級FP8 Tensor Core加速單元。相比傳統的BF16/FP16,FP8可將數據位寬減半,顯存帶寬壓力降低50%,理論計算吞吐量翻倍。其FP8引擎全面支持DeepSeek、Qwen等前沿架構,可提升30%以上訓練性能。
基于S5000構建的夸娥萬卡集群已經落地,其浮點運算能力達到10Exa-Flops,在Dense模型訓練中MFU達60%,在MoE模型中維持在40%左右,有效訓練時間占比超過90%,訓練線性擴展效率達95%。依托原生FP8能力,它能夠完整復現頂尖大模型的訓練流程,其中Flash Attention算力利用率超過95%,多項關鍵指標均達到國際主流水平。
在集群通信層面,S5000采用獨創的ACE技術,將復雜通信任務從計算核心卸載,實現計算與通信的零沖突并行,大幅提升模型算力利用率(MFU)。實測顯示,從64卡擴展至1024卡,系統保持90%以上的線性擴展效率,訓練速度隨算力增加幾乎同步倍增。
2026年1月,智源研究院基于S5000千卡集群,完成了前沿具身大腦模型RoboBrain 2.5的端到端訓練與對齊驗證。結果顯示,與英偉達H100集群的訓練結果高度重合,訓練損失值(loss)差異僅為0.62%。
除了訓練,S5000在推理場景同樣表現優異。2025年12月,摩爾線程聯合硅基流動,基于S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試,實測單卡Prefill吞吐超4000 tokens/s,Decode吞吐超1000 tokens/s,這一成績刷新了國產GPU的推理紀錄。
—— 芯榜 ——
芯榜成立于 2015 年,是半導體垂直領域的產業媒體與數字化服務平臺。全網覆蓋超 100 萬垂直行業用戶,核心提供專業榜單發布、原創訪談、產業報告、峰會活動及研究咨詢等服務。已合作近千家半導體生態企業,聯動多家基金公司與產業媒體,助力硬科技產業發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.