告別“硬堆料”時代：摩爾線程全功能GPU的技術(shù)路線圖與生態(tài)突圍樣本

2025-12-24 20:14:30　來源: CSDN

北京舉報

分享至

“全功能GPU的創(chuàng)新，就是一部算力進(jìn)化史。”

在近日摩爾線程首屆MUSA開發(fā)者大會（MDC 2025）的開場演講中，摩爾線程創(chuàng)始人、董事長兼CEO張建中用這樣一句話定義了過去幾十年的GPU技術(shù)變革。這句話的潛臺詞是清晰的：在國產(chǎn)GPU賽道上，單純比拼硬件參數(shù)的“硬堆料”時代正在過去，架構(gòu)的通用性與軟件生態(tài)的成熟度，正成為衡量技術(shù)護(hù)城河的新標(biāo)尺。

從地下的盾構(gòu)機(jī)大腦到指尖的眼科手術(shù)機(jī)器人，從氣象大模型的云端推演到挖掘機(jī)的邊緣計算，大會現(xiàn)場覆蓋AI大模型&Agent、具身智能、科學(xué)計算、空間智能等前沿技術(shù)領(lǐng)域，延伸至工業(yè)智造、數(shù)字孿生、數(shù)字文娛、智慧醫(yī)療等領(lǐng)域的幾十款創(chuàng)新應(yīng)用，外加20+場專題論壇，將“軟件生態(tài)”這個略顯抽象的概念，具象化為可觸摸的實體。

大會上，摩爾線程不僅展示了萬卡集群的肌肉，更系統(tǒng)性地披露了其底層技術(shù)底座的演進(jìn)邏輯——從MUSA架構(gòu)的持續(xù)迭代到全新“花港”架構(gòu)的亮相。這不僅是一次產(chǎn)品的更新，更是一次對國產(chǎn)GPU技術(shù)路線的“實地驗證”：摩爾線程正試圖通過架構(gòu)層面的軟硬協(xié)同，讓國產(chǎn)算力從“可用”變?yōu)椤昂糜玫纳a(chǎn)力”。

“花港”架構(gòu)與“華山”芯片：以指令集重塑算力密度

在摩爾線程的技術(shù)路線圖中，“花港”被定義為新一代全功能GPU架構(gòu)。與以往單純追求制程紅利不同，“花港”架構(gòu)的核心突破在于通過微架構(gòu)設(shè)計來“榨取”性能。

據(jù)大會披露的數(shù)據(jù)，基于新一代指令集架構(gòu)，“花港”在同等工藝下實現(xiàn)了算力密度提升50%，能效提升10倍。這種設(shè)計并非空中樓閣，而是為了承載即將面世的AI訓(xùn)推一體芯片——“華山”。

在計算精度方面，“華山”芯片展現(xiàn)了對大模型時代需求的精準(zhǔn)響應(yīng)。它不僅支持從FP4到FP64的全精度端到端計算，還新增了MTFP6和MTFP4及混合低精度計算技術(shù)。這直接回應(yīng)了當(dāng)前大模型量化推理的主流趨勢——通過降低精度損耗來換取更高的吞吐量。

架構(gòu)層面的另一大革新在于互聯(lián)與調(diào)度。面對萬卡乃至十萬卡集群的擴(kuò)展需求，“華山”集成了自研的MTLink高速互聯(lián)技術(shù)和新一代異步編程模型。

對于這一復(fù)雜的底層技術(shù)，張建中在演講中給出了一個極具開發(fā)者視角的解釋：

“我們希望利用異步編程模型，讓開發(fā)者無感去操作芯片，讓芯片自動為你服務(wù)。”

這種“無感”的背后，是硬件級對任務(wù)與資源調(diào)度機(jī)制的重構(gòu)，旨在減少流水線中的“氣泡”，提升并行執(zhí)行效率。

架構(gòu)的先進(jìn)性最終需要通過集群來驗證。基于“華山”的前序技術(shù)積累，摩爾線程發(fā)布的夸娥（KUAE）萬卡智算集群已經(jīng)交出了工程化的答卷：在Dense大模型上MFU（模型算力利用率）達(dá)到60%，訓(xùn)練線性擴(kuò)展效率達(dá)95%。特別是在DeepSeek V3模型的復(fù)現(xiàn)中，摩爾線程通過自研FP8 GEMM的精細(xì)化優(yōu)化，不僅突破了FP8累加精度的瓶頸，更實現(xiàn)了算力利用率高達(dá)90%的成績。這證明了其架構(gòu)在大規(guī)模工程實踐中的可靠性。

MUSA 5.0軟件棧：生態(tài)是核心護(hù)城河

如果說架構(gòu)是骨架，軟件棧則是靈魂。長期以來，CUDA生態(tài)的壁壘是國產(chǎn)GPU難以逾越的高墻。

“生態(tài)體系是GPU行業(yè)的核心護(hù)城河與價值所在。”張建中在大會上強(qiáng)調(diào)，摩爾線程致力于攻克從硬件到軟件的核心技術(shù)挑戰(zhàn)，目的就是“共同構(gòu)建自立自強(qiáng)的國產(chǎn)計算產(chǎn)業(yè)生態(tài)”。

發(fā)布的MUSA 5.0軟件棧，采取了一條“兼容主流+原生創(chuàng)新”的雙軌策略。

兼容性方面，MUSA 5.0不僅原生支持MUSA C，還深度兼容TileLang、Triton等新興編程語言。這種廣泛的兼容性旨在降低開發(fā)者的遷移成本。

性能優(yōu)化方面，為了解決兼容帶來的性能折損，MUSA 5.0在底層計算庫上進(jìn)行了極致優(yōu)化。數(shù)據(jù)顯示，其核心計算庫muDNN在HGEMM和FlashAttention等關(guān)鍵算子上的效率超過98%，通信效率達(dá)到97%。

軟件棧的成熟度，最終要看它能否跑通真實的業(yè)務(wù)邏輯。在MDC 2025的展區(qū)，MUSA軟件棧支撐下的多元化圖景變得鮮活：

在大模型推理端，摩爾線程與硅基流動的合作就是一個典型樣本。通過深度適配MUSA軟件棧，雙方在DeepSeek R1 671B全量模型上實現(xiàn)了性能突破：S5000單卡Prefill吞吐突破4000 tokens/s，Decode吞吐突破1000 tokens/s。這一數(shù)據(jù)不僅樹立了國產(chǎn)推理性能的新標(biāo)桿，也驗證了MUSA軟件棧在處理復(fù)雜大模型時的從容。

在硬核工業(yè)端，雪浪云展示的盾構(gòu)機(jī)大腦，利用全功能GPU的算力打通了盾構(gòu)機(jī)七大控制系統(tǒng)；柳工的CLG922E挖掘機(jī)則通過板載的GPU模組實現(xiàn)了邊緣側(cè)的故障診斷與自動駕駛模型運行。

在精準(zhǔn)醫(yī)療端，微眸醫(yī)療的眼科手術(shù)機(jī)器人，依托端側(cè)算力實現(xiàn)了毫秒級的RGBD圖像處理與微米級的手術(shù)操作。

在科學(xué)計算端，摩爾線程聯(lián)合北京大學(xué)高毅勤課題組，基于國產(chǎn)SPONGE軟件，摩爾線程的全功能GPU正在加速分子動力學(xué)模擬，推動生命科學(xué)的底層突破。

這些橫跨千行百業(yè)的實體展示，證明了摩爾線程已經(jīng)把生態(tài)落實到一行行代碼和一臺臺設(shè)備上。

此外，針對特定領(lǐng)域的痛點，MUSA 5.0還推出了差異化的工具鏈，如聯(lián)合量子領(lǐng)域生態(tài)伙伴打造“QPU+GPU”智算融合平臺，以及攜手51SIM利用“圖形+計算”能力加速自動駕駛世界模型的生成。

而隨著AI計算的個人化，摩爾線程也在企業(yè)級市場之外完成了個人智算平臺的關(guān)鍵拼圖——MTT AIBOOK。與傳統(tǒng)筆記本電腦不同，MTT AIBOOK針對開發(fā)者群體，在50TOPS異構(gòu)算力基礎(chǔ)上提供了開源計算加速庫、通信庫等核心組件的底層支撐，預(yù)置了VS Code、PyTorch、vLLM等全套開發(fā)環(huán)境，支持Linux/Windows/Android多環(huán)境切換，實現(xiàn)了AI學(xué)習(xí)與開發(fā)的開箱即用。配合摩爾學(xué)院20萬開發(fā)者學(xué)習(xí)資源，AIBOOK或許可成為個人開發(fā)者接入國產(chǎn)AI生態(tài)的“入口級”載體。

談及未來規(guī)劃時，張建中表示，摩爾線程將在明年上半年開放中間語言MTX 1.0，并逐步開源計算加速庫（MATE）、通信庫（MT DeepEP）及系統(tǒng)管理框架。前者類似于CUDA的PTX，允許高階開發(fā)者繞過上層封裝，直接對GPU硬件資源進(jìn)行細(xì)粒度的調(diào)度和優(yōu)化，后者則有助于構(gòu)建一個更具活力的開發(fā)者社區(qū)，驅(qū)動生態(tài)體系從“可用”向“好用”進(jìn)化。

全功能GPU的“物理AI”拼圖

在AI計算之外，“花港”架構(gòu)并未放棄圖形能力，反而通過“廬山”芯片強(qiáng)化了“圖形+AI”的物理融合。

“廬山”芯片專注于高性能圖形渲染，AI性能提升64倍，光線追蹤性能提升50倍，并完整支持DirectX 12 Ultimate。這種設(shè)計思路試圖利用AI算力來加速圖形渲染流水線，從而實現(xiàn)從傳統(tǒng)的“計算渲染”向“生成式渲染”的范式轉(zhuǎn)變。這對于數(shù)字孿生、具身智能等“物理AI”場景至關(guān)重要。

正如張建中所預(yù)判的，未來的AI將從數(shù)字世界走向物理世界。無論是51SIM的自動駕駛仿真，還是光輪智能的具身智能數(shù)據(jù)合成，都需要一顆既懂AI又懂圖形的“全功能GPU”。

結(jié)語

回顧摩爾線程過去五年的發(fā)展歷程，從累計投入43億元研發(fā)費用，到獲批500多項授權(quán)專利，這家公司正在用實際行動構(gòu)建一條完整的國產(chǎn)技術(shù)棧。展區(qū)那些正在運行的實體設(shè)備則證明，這個技術(shù)棧已經(jīng)具備了解決實際問題的能力。

然而摩爾線程并不滿足于此，大會發(fā)布的架構(gòu)路線圖，固然是一份面向未來的“預(yù)告”，但它更多是向全體開發(fā)者發(fā)出的一份“協(xié)同邀請函”，一起為國產(chǎn)GPU“好用”添加柴火。

“中國科技的自立自強(qiáng)應(yīng)該會走得更快、走得更好，我們也希望摩爾線程持續(xù)為美好世界加速。”

張建中結(jié)束演講的話語，既是對摩爾線程未來的期許，也是對中國計算產(chǎn)業(yè)的信心。MDC 2025展示的不僅僅是“花港”架構(gòu)或MUSA 5.0軟件棧的技術(shù)細(xì)節(jié)，更是一種構(gòu)建自主計算生態(tài)的決心。在全功能GPU這條擁擠且艱難的賽道上，摩爾線程正試圖通過架構(gòu)的底層創(chuàng)新和軟件生態(tài)的開放共建，為中國計算產(chǎn)業(yè)提供一個可行的、具備技術(shù)深度與演進(jìn)潛力的替代方案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.