![]()
經濟觀察報記者 鄭晨燁
12月20日,北京中關村國際創新中心,摩爾線程(688795.SH)舉辦了首屆MUSA開發者大會,在現場,這家剛登陸A股市場的國產GPU公司,發布了其最新的全功能GPU架構“花港”,以及基于該架構的芯片路線圖。
就在這場開發者大會舉辦的兩天前,12月18日,另一家老牌國產算力系統廠商中科曙光(603019.SH),對外發布了名為“scaleX”的萬卡超集群系統。
在2025年即將結束時,國產算力產業鏈拿出了兩份有實質性突破的新成果,同時也不難看出,國產算力的競爭焦點,已經從單純比拼單張顯卡的參數,轉移到了如何構建一個能穩定運行的萬卡級系統上。
對于正在訓練萬億參數大模型的下游客戶來說,單張芯片的性能早已不是唯一的考量標準。
當模型參數量突破萬億,單一芯片的物理性能觸及瓶頸,算力的提升只能依靠規模堆疊。行業面臨的核心問題,變成了如何讓一萬張計算卡像一張卡一樣協同工作。
在12月20日的發布會上,摩爾線程試圖從底層的芯片架構層面解決這個問題。
根據現場信息,其最新的“花港”架構,最核心的變化在于計算密度的提升與對低精度的支持,摩爾線程官方數據顯示,相較于上一代產品,新架構的算力密度提升了50%,效能提升了10倍。
此外,“花港”架構還支持從FP4到FP64的全精度計算,并新增了對MTFP6、MTFP4及混合低精度的支持。
基于這一新架構,摩爾線程公布了兩款未來芯片的規劃,“華山”與“廬山”。
“華山”定位為AI訓推一體芯片,專攻大規模智算,旨在為萬卡級智算集群提供算力支撐。“廬山”則專注于高性能圖形渲染,官方數據顯示,“廬山”的AI計算性能較前代提升64倍,光線追蹤性能提升50%。
從對下一代產品的規劃上看,摩爾線程依然繼續堅持走“全功能GPU”的技術路線,即同時覆蓋圖形渲染與人工智能計算兩個市場。
就在摩爾線程發布新架構的前兩天,中科曙光也發布了scaleX萬卡超集群系統,這是國產萬卡級算力集群首次以真機形式公開亮相。
與芯片廠商側重于微觀架構的視角不同,中科曙光解決的是算力堆疊后的物理與工程難題。
構建一個萬卡集群,最大的挑戰不僅在于軟件,還需要解決散熱、供電與物理空間限制等多重挑戰。
當上萬張高功率的算力芯片集中在一個數據中心時,產生的熱量和消耗的電力是驚人的。
中科曙光12月18日發布的scaleX萬卡集群系統,由16個scaleX640超節點通過scaleFabric高速網絡互連而成,總計可部署10240塊AI加速卡。
為了解決高密度帶來的散熱問題,該系統采用了浸沒相變液冷技術。
官方數據顯示,scaleX萬卡集群系統單機柜算力密度相比業界提升了20倍,PUE(能源使用效率)值降至1.04。
這意味著,在同等的物理空間和電力供給下,液冷技術能夠容納更多的算力密度。對于寸土寸金的數據中心而言,這直接關系到運營成本和算力部署的上限。
在解決了“熱”和“電”的問題后,橫亙在萬卡集群面前的另一道墻,是“網”。
在分布式計算中,當GPU數量增加到一定規模時,節點間的通信延遲會成為拖累整體性能的短板,如果網絡帶寬不夠,計算卡計算得再快,也得停下來等待數據傳輸,這就是業內常說的“通信墻”。
兩家公司也都拿出了針對這一問題的解決方案。
摩爾線程在“花港”架構中集成了新一代異步編程模型,并通過自研的MTLink互聯技術,宣稱支持十萬卡以上規模的智算集群擴展;而中科曙光則發布了scaleFabric網絡,基于國內首款400G類InfiniBand的原生RDMA網卡與交換芯片,實現了400Gb/s的帶寬與低于1微秒的端側通信延遲。
除了訓練端的競賽,大模型應用落地帶來的推理需求,也成為兩大廠商關注的另一個重點。
隨著DeepSeek等國產大模型的參數量達到671B(6710億)級別,如何在國產硬件上跑通這些“龐然大物”,成為檢驗硬件廠商成色的試金石。
摩爾線程在現場展示了其與硅基流動合作的測試數據:在DeepSeek R1 671B全量模型上,其MTT S5000單卡Prefill(預填充)吞吐量突破4000 tokens/s,Decode(解碼)吞吐量突破1000 tokens/s。
簡單來說,國產GPU在應對千億參數大模型的復雜推理任務時,已經具備了跑通全流程的吞吐能力。
硬件的堆疊終究只是基礎,算力的釋放最終依賴于軟件生態的成熟度。
摩爾線程在大會上宣布其MUSA統一架構升級至5.0版本,并披露了核心計算庫muDNN在GEMM(通用矩陣乘法)與FlashAttention(閃電注意力機制)上的效率超過98%。
在硬件規格逼近國際主流水平后,國產廠商的研發重心正在向軟件棧的優化轉移,試圖修補長期以來在CUDA生態面前的短板。
與此同時,中科曙光方面也強調了其系統的兼容性。
scaleX萬卡超集群支持多品牌加速卡,并已完成400余個主流大模型的適配優化,這種開放架構的策略,亦反映了系統廠商在多芯片共存時代的生存邏輯,不綁定單一芯片,而是提供一個能夠兼容不同國產算力的底座。
(作者 鄭晨燁)
免責聲明:本文觀點僅代表作者本人,供參考、交流,不構成任何建議。
![]()
鄭晨燁
深圳采訪部記者 關注新能源、半導體、智能汽車等新產業領域,有線索歡迎聯系:zhengchenye@eeo.com.cn,微信:zcy096x。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.