
“全功能GPU的創(chuàng)新,就是一部算力進(jìn)化史。”
在近日摩爾線程首屆MUSA開發(fā)者大會(MDC 2025)的開場演講中,摩爾線程創(chuàng)始人、董事長兼CEO張建中用這樣一句話定義了過去幾十年的GPU技術(shù)變革。這句話的潛臺詞是清晰的:在國產(chǎn)GPU賽道上,單純比拼硬件參數(shù)的“硬堆料”時代正在過去,架構(gòu)的通用性與軟件生態(tài)的成熟度,正成為衡量技術(shù)護(hù)城河的新標(biāo)尺。
從地下的盾構(gòu)機(jī)大腦到指尖的眼科手術(shù)機(jī)器人,從氣象大模型的云端推演到挖掘機(jī)的邊緣計算,大會現(xiàn)場覆蓋AI大模型&Agent、具身智能、科學(xué)計算、空間智能等前沿技術(shù)領(lǐng)域,延伸至工業(yè)智造、數(shù)字孿生、數(shù)字文娛、智慧醫(yī)療等領(lǐng)域的幾十款創(chuàng)新應(yīng)用,外加20+場專題論壇,將“軟件生態(tài)”這個略顯抽象的概念,具象化為可觸摸的實體。
![]()
大會上,摩爾線程不僅展示了萬卡集群的肌肉,更系統(tǒng)性地披露了其底層技術(shù)底座的演進(jìn)邏輯——從MUSA架構(gòu)的持續(xù)迭代到全新“花港”架構(gòu)的亮相。這不僅是一次產(chǎn)品的更新,更是一次對國產(chǎn)GPU技術(shù)路線的“實地驗證”:摩爾線程正試圖通過架構(gòu)層面的軟硬協(xié)同,讓國產(chǎn)算力從“可用”變?yōu)椤昂糜玫纳a(chǎn)力”。
![]()
“花港”架構(gòu)與“華山”芯片:以指令集重塑算力密度
在摩爾線程的技術(shù)路線圖中,“花港”被定義為新一代全功能GPU架構(gòu)。與以往單純追求制程紅利不同,“花港”架構(gòu)的核心突破在于通過微架構(gòu)設(shè)計來“榨取”性能。
![]()
據(jù)大會披露的數(shù)據(jù),基于新一代指令集架構(gòu),“花港”在同等工藝下實現(xiàn)了算力密度提升50%,能效提升10倍。這種設(shè)計并非空中樓閣,而是為了承載即將面世的AI訓(xùn)推一體芯片——“華山”。
在計算精度方面,“華山”芯片展現(xiàn)了對大模型時代需求的精準(zhǔn)響應(yīng)。它不僅支持從FP4到FP64的全精度端到端計算,還新增了MTFP6和MTFP4及混合低精度計算技術(shù)。這直接回應(yīng)了當(dāng)前大模型量化推理的主流趨勢——通過降低精度損耗來換取更高的吞吐量。
![]()
架構(gòu)層面的另一大革新在于互聯(lián)與調(diào)度。面對萬卡乃至十萬卡集群的擴(kuò)展需求,“華山”集成了自研的MTLink高速互聯(lián)技術(shù)和新一代異步編程模型。
![]()
對于這一復(fù)雜的底層技術(shù),張建中在演講中給出了一個極具開發(fā)者視角的解釋:
“我們希望利用異步編程模型,讓開發(fā)者無感去操作芯片,讓芯片自動為你服務(wù)。”
這種“無感”的背后,是硬件級對任務(wù)與資源調(diào)度機(jī)制的重構(gòu),旨在減少流水線中的“氣泡”,提升并行執(zhí)行效率。
架構(gòu)的先進(jìn)性最終需要通過集群來驗證。基于“華山”的前序技術(shù)積累,摩爾線程發(fā)布的夸娥(KUAE)萬卡智算集群已經(jīng)交出了工程化的答卷:在Dense大模型上MFU(模型算力利用率)達(dá)到60%,訓(xùn)練線性擴(kuò)展效率達(dá)95%。特別是在DeepSeek V3模型的復(fù)現(xiàn)中,摩爾線程通過自研FP8 GEMM的精細(xì)化優(yōu)化,不僅突破了FP8累加精度的瓶頸,更實現(xiàn)了算力利用率高達(dá)90%的成績。這證明了其架構(gòu)在大規(guī)模工程實踐中的可靠性。
![]()
MUSA 5.0軟件棧:生態(tài)是核心護(hù)城河
如果說架構(gòu)是骨架,軟件棧則是靈魂。長期以來,CUDA生態(tài)的壁壘是國產(chǎn)GPU難以逾越的高墻。
“生態(tài)體系是GPU行業(yè)的核心護(hù)城河與價值所在。”張建中在大會上強(qiáng)調(diào),摩爾線程致力于攻克從硬件到軟件的核心技術(shù)挑戰(zhàn),目的就是“共同構(gòu)建自立自強(qiáng)的國產(chǎn)計算產(chǎn)業(yè)生態(tài)”。
發(fā)布的MUSA 5.0軟件棧,采取了一條“兼容主流+原生創(chuàng)新”的雙軌策略。
兼容性方面,MUSA 5.0不僅原生支持MUSA C,還深度兼容TileLang、Triton等新興編程語言。這種廣泛的兼容性旨在降低開發(fā)者的遷移成本。
性能優(yōu)化方面,為了解決兼容帶來的性能折損,MUSA 5.0在底層計算庫上進(jìn)行了極致優(yōu)化。數(shù)據(jù)顯示,其核心計算庫muDNN在HGEMM和FlashAttention等關(guān)鍵算子上的效率超過98%,通信效率達(dá)到97%。
軟件棧的成熟度,最終要看它能否跑通真實的業(yè)務(wù)邏輯。在MDC 2025的展區(qū),MUSA軟件棧支撐下的多元化圖景變得鮮活:
在大模型推理端,摩爾線程與硅基流動的合作就是一個典型樣本。通過深度適配MUSA軟件棧,雙方在DeepSeek R1 671B全量模型上實現(xiàn)了性能突破:S5000單卡Prefill吞吐突破4000 tokens/s,Decode吞吐突破1000 tokens/s。這一數(shù)據(jù)不僅樹立了國產(chǎn)推理性能的新標(biāo)桿,也驗證了MUSA軟件棧在處理復(fù)雜大模型時的從容。

在硬核工業(yè)端,雪浪云展示的盾構(gòu)機(jī)大腦,利用全功能GPU的算力打通了盾構(gòu)機(jī)七大控制系統(tǒng);柳工的CLG922E挖掘機(jī)則通過板載的GPU模組實現(xiàn)了邊緣側(cè)的故障診斷與自動駕駛模型運行。
在精準(zhǔn)醫(yī)療端,微眸醫(yī)療的眼科手術(shù)機(jī)器人,依托端側(cè)算力實現(xiàn)了毫秒級的RGBD圖像處理與微米級的手術(shù)操作。
在科學(xué)計算端,摩爾線程聯(lián)合北京大學(xué)高毅勤課題組,基于國產(chǎn)SPONGE軟件,摩爾線程的全功能GPU正在加速分子動力學(xué)模擬,推動生命科學(xué)的底層突破。
這些橫跨千行百業(yè)的實體展示,證明了摩爾線程已經(jīng)把生態(tài)落實到一行行代碼和一臺臺設(shè)備上。
此外,針對特定領(lǐng)域的痛點,MUSA 5.0還推出了差異化的工具鏈,如聯(lián)合量子領(lǐng)域生態(tài)伙伴打造“QPU+GPU”智算融合平臺,以及攜手51SIM利用“圖形+計算”能力加速自動駕駛世界模型的生成。
而隨著AI計算的個人化,摩爾線程也在企業(yè)級市場之外完成了個人智算平臺的關(guān)鍵拼圖——MTT AIBOOK。與傳統(tǒng)筆記本電腦不同,MTT AIBOOK針對開發(fā)者群體,在50TOPS異構(gòu)算力基礎(chǔ)上提供了開源計算加速庫、通信庫等核心組件的底層支撐,預(yù)置了VS Code、PyTorch、vLLM等全套開發(fā)環(huán)境,支持Linux/Windows/Android多環(huán)境切換,實現(xiàn)了AI學(xué)習(xí)與開發(fā)的開箱即用。配合摩爾學(xué)院20萬開發(fā)者學(xué)習(xí)資源,AIBOOK或許可成為個人開發(fā)者接入國產(chǎn)AI生態(tài)的“入口級”載體。
![]()
談及未來規(guī)劃時,張建中表示,摩爾線程將在明年上半年開放中間語言MTX 1.0,并逐步開源計算加速庫(MATE)、通信庫(MT DeepEP)及系統(tǒng)管理框架。前者類似于CUDA的PTX,允許高階開發(fā)者繞過上層封裝,直接對GPU硬件資源進(jìn)行細(xì)粒度的調(diào)度和優(yōu)化,后者則有助于構(gòu)建一個更具活力的開發(fā)者社區(qū),驅(qū)動生態(tài)體系從“可用”向“好用”進(jìn)化。
![]()
全功能GPU的“物理AI”拼圖
在AI計算之外,“花港”架構(gòu)并未放棄圖形能力,反而通過“廬山”芯片強(qiáng)化了“圖形+AI”的物理融合。
“廬山”芯片專注于高性能圖形渲染,AI性能提升64倍,光線追蹤性能提升50倍,并完整支持DirectX 12 Ultimate。這種設(shè)計思路試圖利用AI算力來加速圖形渲染流水線,從而實現(xiàn)從傳統(tǒng)的“計算渲染”向“生成式渲染”的范式轉(zhuǎn)變。這對于數(shù)字孿生、具身智能等“物理AI”場景至關(guān)重要。
![]()
正如張建中所預(yù)判的,未來的AI將從數(shù)字世界走向物理世界。無論是51SIM的自動駕駛仿真,還是光輪智能的具身智能數(shù)據(jù)合成,都需要一顆既懂AI又懂圖形的“全功能GPU”。
![]()
結(jié)語
回顧摩爾線程過去五年的發(fā)展歷程,從累計投入43億元研發(fā)費用,到獲批500多項授權(quán)專利,這家公司正在用實際行動構(gòu)建一條完整的國產(chǎn)技術(shù)棧。展區(qū)那些正在運行的實體設(shè)備則證明,這個技術(shù)棧已經(jīng)具備了解決實際問題的能力。
然而摩爾線程并不滿足于此,大會發(fā)布的架構(gòu)路線圖,固然是一份面向未來的“預(yù)告”,但它更多是向全體開發(fā)者發(fā)出的一份“協(xié)同邀請函”,一起為國產(chǎn)GPU“好用”添加柴火。
“中國科技的自立自強(qiáng)應(yīng)該會走得更快、走得更好,我們也希望摩爾線程持續(xù)為美好世界加速。”
張建中結(jié)束演講的話語,既是對摩爾線程未來的期許,也是對中國計算產(chǎn)業(yè)的信心。MDC 2025展示的不僅僅是“花港”架構(gòu)或MUSA 5.0軟件棧的技術(shù)細(xì)節(jié),更是一種構(gòu)建自主計算生態(tài)的決心。在全功能GPU這條擁擠且艱難的賽道上,摩爾線程正試圖通過架構(gòu)的底層創(chuàng)新和軟件生態(tài)的開放共建,為中國計算產(chǎn)業(yè)提供一個可行的、具備技術(shù)深度與演進(jìn)潛力的替代方案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.