網易首頁 > 網易號 > 正文申請入駐

AI工廠：國產GPU的算力進化

2025-08-13 11:38:25　來源: 鮮棗課堂

江蘇舉報

分享至

訓練大模型，有點像煉丹。而算力，就是煉丹爐里的柴。只有爐火純青，才能真正煉出好丹。

過去這幾年，AI浪潮蓬勃發展，大模型的參數規模越來越大。煉丹難度不斷增加，往里面投的柴（算力），也越來越多。

如今，AI的發展已經進入了新的階段。大模型參數規模從千億走向萬億，對算力的需求，也達到空前的規模。AI的應用也在加速。Agentic AI的爆發，也對算力提出了更高的要求。

面對這些新的挑戰，業界逐漸意識到，當煉丹難度（參數規模）達到一定程度，僅僅靠“堆料（算力）”，已經無法進行有效的應對。

那么，到底該怎么做，才能真正滿足AI下一步發展的需求呢？算力的供給模式，是否需要進行徹底的變革？又該如何進行變革？

前不久，在WAIC 2025期間，我聆聽了摩爾線程創始人兼CEO張建中的一場演講。在演講中，他對上面提到的問題進行了全面且系統的解答。

張建中提出了一個創新的概念——AI工廠（AI Foundry）。

他認為，算力的供給模式正在發生巨變。構建萬卡集群，并非一萬張GPU卡的簡單堆疊，而是一項高度復雜的超級系統工程。它涉及到超大規模的組網互聯、高效率的集群計算、長期穩定性和高可用性等諸多技術難題。想要真正實現有效的算力供給，就必須通過構建新一代AI訓練基礎設施，即AI工廠（AI Foundry）。

這場演講的信息量很大，給我帶來了很大的啟發。張建中真正從宏觀到微觀，講明白了該如何應對AI所帶來的算力需求爆炸式增長，打造真正好用的算力基礎設施。

接下來，我就基于演講的內容，結合個人的理解，給大家做一個深入解讀。

█ AI Foundry：生產先進模型的超級工廠

Foundry這個概念源自芯片半導體產業，指的是芯片代工廠，專門生產芯片的地方。

摩爾線程提出的AI Foundry，則是專門生產“智能”的地方。

之所以提出AI工廠，本質在于AI算力的供給模式正在發生變化。傳統的供給模式是前面說的“堆卡”——生產算力更強、數量更多的算卡，然后進行數量堆疊，以此滿足用戶需求。

如今，大模型參數規模不斷增長，更新迭代的速度不斷加快，對算力的要求也越來越高。大模型本身也在從大語言模型向多模態和世界模型轉變，這就使得整個AI計算基礎設施都必須進行自我變革，以運行和支持一切模型。

換言之，AI算力供給，需要從粗放的“作坊式”向精細的“工廠式”進行轉變。

芯片工廠，為了造出更強大的芯片，需要不斷研發和嘗試更先進的工藝制程，需要在軟件、硬件、流程、管理等各個維度進行提升，以此來不斷突破物理極限，提升生產力。

而AI工廠，為了提供更強大的算力，需要高效率、高能量、高產出的一套方式方法，在單卡算力的基礎上，綜合考慮網絡拓撲、片間互聯、卡間互聯、節點間互聯、集群管理、效率、算法、工具、算子庫、框架等一系列因素。這些，也就是AI工廠的能力。

當千卡集群向萬卡集群演進，AI工廠的必要性就愈加凸顯。在算力供給側，需要重新搭建物理拓撲結構，重新設計管理方式，重新優化集群系統上的任務調度，重新開發和提升及各種不同的算子和效率。

摩爾線程將所有的要素進行了完整梳理，提出了五大核心要素，也就是：加速計算通用性、單芯片有效算力、單節點效率、集群效率、集群穩定性。

把每個核心要素都做到極致，打造端到端的能力，才是真正優秀的AI工廠，才有核心競爭力，才能獲得最后的成功。

█ 五大核心要素，構筑AI 工廠性能底座

接下來，我們就分別解讀一下這五大核心要素。

●加速計算通用性

回望GPU的發展史，其核心角色始終是加速計算。摩爾線程進一步指出，全功能GPU是加速計算的核心驅動力。也就是說，全功能GPU不能只用于單個功能，而應該實現多場景的覆蓋，其核心體現為四大引擎的協同：AI計算加速、圖形渲染、物理仿真和科學計算、超高清視頻編解碼。這構成了摩爾線程全功能GPU的核心能力譜系。

支持AI全場景加速，就需要全功能GPU，它是一個功能完備的通用底座，也可以理解為是一個可以通吃所有領域行業的通用加速平臺。

除了功能完備之外，全功能GPU還要實現“精度完整”。這里，就要提到FP64、FP32、FP16、FP8、FP4和INT8等概念。

這些是IEEE定義的各種不同數據類型。詳細解釋這些概念稍微有點復雜。大家可以簡單理解——早期的時候，業界都是用FP32進行訓練，后來用FP16，并以此作為標配。如今，用FP8做大模型訓練，也被證明是一個不錯的選擇。

摩爾線程支持從FP64至INT8的完整精度譜系，能針對多種精度進行混合訓練。

●單芯片有效算力

芯片是算力的核心單元。提升單芯片的有效算力，是驅動AI工廠高效運轉的關鍵。

需要注意的是，芯片的有效算力并不僅僅是指芯片的理論峰值算力，更重要的是在實際應用場景中能夠穩定、高效地發揮出來的算力。

摩爾線程在芯片設計上下了很大的功夫，通過優化芯片架構、提升計算性能、優化內存和通信效率等多種手段，來確保單GPU的有效算力能夠進一步突破極限。

先看看架構。

摩爾線程采用了自研的MUSA架構（Meta-computing Unified System Architecture，元計算統一架構）。這個Meta-computing（元計算）的命名，體現出這個架構支持所有的計算場景。不僅滿足當前的計算需求，也要應對未來的計算需求。

統一架構，完整來說，是多引擎可配置統一系統架構。這意味著，架構從頂層角度考慮到了計算、通信、存儲、指令集之間的相互交接、相互協調、相互調度的功能。同樣也是“一個架構服務多個領域”。

MUSA架構的核心能力，是可以利用統一的編程指令集，驅動架構下的所有引擎，包括圖形處理引擎、通用計算引擎、多媒體引擎、通信引擎等。計算、通信、存儲、調度、加速等工作任務的協同融合，都被整合在統一的底層引擎之下，便于用戶和開發者去調用。

MUSA還有一個特點，是資源池化。

它通過硬件資源池化及動態資源調度技術，構建了全局共享的計算、內存與通信資源池。這一設計不僅突破了傳統GPU功能單一的限制，還在保障通用性的同時顯著提升了資源利用率。

MUSA架構的引擎中，有兩個專門用于AI計算加速系統的引擎，分別是張量計算引擎（TCE）和張量訪存引擎（TME）。

前者主要負責執行AI計算任務中的核心運算，如矩陣乘法等，是算力輸出的“主力軍”。而后者則專注于優化數據訪問模式，減少內存延遲，提高數據吞吐量，確保計算引擎能夠高效、穩定地獲取所需數據。

在池化的基礎上，通過引擎異步流水（ATB）技術，把底層各種不同的硬件加速流水線（例如圖形計算、超級計算、Tensor計算、編解碼等）變成了一根根管道，融合在一起隨意調度。

基于一個資源池，所有的結果都共享一個內存，所有的引擎在上面工作，所有的數據、存在一個地方。這就是最典型的數據驅動、引擎支持和引擎集散的統一系統架構，可以讓實現最高的工作效率。

在計算層面，前面我們已經提到，摩爾線程的GPU全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計算。

作為國內首批實現FP8算力量產的GPU廠商，摩爾線程的FP8技術通過快速格式轉換、動態范圍智能適配和高精度累加器等創新設計，在保證計算精度的同時，將Transformer計算性能提升約30%。

在內存系統方面，通過多精度近存規約引擎、低延遲Scale-Up、通算并行資源隔離等技術，實現了50%的帶寬節省和60%的延遲降低。

在通信和互聯方面，基于獨創的ACE異步通信引擎，減少了15%的計算資源損耗。

MTLink2.0互聯技術，提供了高出國內行業平均水平60%的帶寬，為大規模集群部署奠定了堅實基礎。

●單節點效率

剛才說的是單芯片，現在，我們再往上一級，看看單節點。一個節點包括了多個芯片，涉及到了芯片之間的互聯協同。

在這個環節，摩爾線程的核心創新包括：任務調度優化、極致性能算子庫、通信效能躍升、低精度計算效率革新、開發生態完善。

任務調度優化，是指GPU驅動任務調度優化。體現在兩個方面：首先，核函數（計算任務從CPU主機傳輸到GPU設備并執行的過程）啟動時間相比業界平均時間縮短了50%。其次，支持千次計算指令單次并行下發。摩爾線程的任務之間延遲遠遠小于國際主流芯片公司，實現了："個子比別人小、但跳得比別人高"。

在算子庫方面，摩爾線程的muDDN算子進行了極致性能優化，相比cuDDN有10-20%的領先。而且，摩爾線程的GEMM算子算力利用率達98%，Flash Attention算子算力利用率突破95%。這也是非常出色的成績。

在通信方面，摩爾線程在兼顧傳輸速率的基礎上，重點優化了穩定性、可靠性和帶寬利用率。

他們的MCCL通信庫，可以實現97%的RDMA網絡帶寬利用率。基于異步通信引擎優化計算通信并行，大模型訓練集群整體性能可以提升10%。

在低精度計算效率方面，除了對FP8 Transformer的支持，摩爾線程還有一個行業首創的技術創新——細粒度重計算（Recompute），計算開銷可以減少4倍。

最后是開發生態方面。

摩爾線程推出了Triton-MUSA編譯器 + MUSA Graph，可以實現DeepSeek R1推理加速1.5倍，全面兼容Triton等主流框架。

為了幫助開發者降低開發門檻，提升效率，摩爾線程還打造了完整的軟件開發套件。

●集群效率

節點再往上，就是集群。我們可以看看在集群效率提升上，摩爾線程做了些什么。

摩爾線程將自家研發的集群系統方案命名為KUAE（夸娥）。

這個集群通過5D大規模分布式并行計算技術，可以實現上千節點的高效協作，推動AI基礎設施從單點優化邁向系統工程級突破。

所謂的“5D”，是指DP數據并行、TP張量并行、SP序列并行、EP專家并行、PP流水線并行的5大類型任務可以大規模、分布式的并行訓練。

KUAE能夠做到端到端的模型訓練支持，包括數據處理、預訓練、后訓練等。而且，KUAE還可以支持所有的模型種類，包括LLM/VLM、混合專家模型、世界模型、具身智能模型等。

為了提升集群的訓練效率，實現訓練性能的最優化，KUAE提供了一套性能仿真工具——SIMUMAX。

它可以自動找出一個最佳的并行策略，滿足用戶的模型訓練需求，協助進行性能優化。SIMUMAX還可以精準模擬FP8混合精度訓練與算子融合，為DeepSeek等模型縮短訓練周期提供科學依據。

●集群穩定性

集群訓練，穩定性是一個大問題。對于訓練過程中可能發生的中斷，業界普遍采用CheckPoint進行應對。也就是定期進行備份，中斷后再進行恢復。

在此基礎上，摩爾線程創新提出了CheckPoint加速方案，利用RDMA技術，將百GB級備份恢復時間從數分鐘壓縮至1秒，大幅縮短了中斷時間，提升了訓練效率。

摩爾線程還專門發明了一個創新的集群穩定性管理方案——零中斷容錯技術。

傳統模式下，如果發生硬件故障導致訓練中斷，需要先替換硬件，然后寫讀Checkpoint，耽誤大量時間，增加了訓練成本。

采用摩爾線程的零中斷容錯技術，故障發生時，僅隔離受影響節點組，其余節點繼續訓練，備機無縫接入，全程無中斷。這一方案使KUAE集群的有效訓練時間占比超過99%，大幅降低中斷恢復開銷。

摩爾線程還獨創了多維度訓練洞察體系，實現對訓練過程的動態監測與智能診斷。如果發現滿節點，就可以及時進行處理維護。這使得集群的異常處理效率提升了50%。結合集群巡檢與起飛檢查，訓練成功率提高10%，為大規模AI訓練提供穩定保障。

█ 最后的話

前面介紹了摩爾線程AI工廠的很多技術細節。我們可以看出，他們對算力的理解是相當全面而且深刻的。作為一家半導體創新創業的公司，能擁有這么深厚的技術積累，確實非常不容易。

AI工廠作為一個支撐全場景算力需求的超級工廠，其背后的技術挑戰超乎想象。從底層硬件設計到上層軟件生態，摩爾線程都要進行深入的創新和優化，以確保AI工廠的高效運轉。他們的努力不僅體現在單個組件的性能提升上，更在于整個系統的協同優化，實現了從單點創新到系統級效能的飛躍。

總而言之，摩爾線程的AI工廠不僅是其算力戰略的體現，或許也將為整個行業帶來新的范式。

以摩爾線程為代表的國產算力企業正在加速崛起，他們的每一步都走得非常扎實。我們有理由相信，在這些企業的共同努力下，我們國家的算力產業一定會加速縮小和國際巨頭的差距，并最終實現超越。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.