訓練大模型,有點像煉丹。而算力,就是煉丹爐里的柴。只有爐火純青,才能真正煉出好丹。
![]()
過去這幾年,AI浪潮蓬勃發展,大模型的參數規模越來越大。煉丹難度不斷增加,往里面投的柴(算力),也越來越多。
如今,AI的發展已經進入了新的階段。大模型參數規模從千億走向萬億,對算力的需求,也達到空前的規模。AI的應用也在加速。Agentic AI的爆發,也對算力提出了更高的要求。
面對這些新的挑戰,業界逐漸意識到,當煉丹難度(參數規模)達到一定程度,僅僅靠“堆料(算力)”,已經無法進行有效的應對。
那么,到底該怎么做,才能真正滿足AI下一步發展的需求呢?算力的供給模式,是否需要進行徹底的變革?又該如何進行變革?
前不久,在WAIC 2025期間,我聆聽了摩爾線程創始人兼CEO張建中的一場演講。在演講中,他對上面提到的問題進行了全面且系統的解答。
張建中提出了一個創新的概念——AI工廠(AI Foundry)。
![]()
他認為,算力的供給模式正在發生巨變。構建萬卡集群,并非一萬張GPU卡的簡單堆疊,而是一項高度復雜的超級系統工程。它涉及到超大規模的組網互聯、高效率的集群計算、長期穩定性和高可用性等諸多技術難題。想要真正實現有效的算力供給,就必須通過構建新一代AI訓練基礎設施,即AI工廠(AI Foundry)。
這場演講的信息量很大,給我帶來了很大的啟發。張建中真正從宏觀到微觀,講明白了該如何應對AI所帶來的算力需求爆炸式增長,打造真正好用的算力基礎設施。
接下來,我就基于演講的內容,結合個人的理解,給大家做一個深入解讀。
█ AI Foundry:生產先進模型的超級工廠
Foundry這個概念源自芯片半導體產業,指的是芯片代工廠,專門生產芯片的地方。
摩爾線程提出的AI Foundry,則是專門生產“智能”的地方。
之所以提出AI工廠,本質在于AI算力的供給模式正在發生變化。傳統的供給模式是前面說的“堆卡”——生產算力更強、數量更多的算卡,然后進行數量堆疊,以此滿足用戶需求。
如今,大模型參數規模不斷增長,更新迭代的速度不斷加快,對算力的要求也越來越高。大模型本身也在從大語言模型向多模態和世界模型轉變,這就使得整個AI計算基礎設施都必須進行自我變革,以運行和支持一切模型。
換言之,AI算力供給,需要從粗放的“作坊式”向精細的“工廠式”進行轉變。
芯片工廠,為了造出更強大的芯片,需要不斷研發和嘗試更先進的工藝制程,需要在軟件、硬件、流程、管理等各個維度進行提升,以此來不斷突破物理極限,提升生產力。
而AI工廠,為了提供更強大的算力,需要高效率、高能量、高產出的一套方式方法,在單卡算力的基礎上,綜合考慮網絡拓撲、片間互聯、卡間互聯、節點間互聯、集群管理、效率、算法、工具、算子庫、框架等一系列因素。這些,也就是AI工廠的能力。
當千卡集群向萬卡集群演進,AI工廠的必要性就愈加凸顯。在算力供給側,需要重新搭建物理拓撲結構,重新設計管理方式,重新優化集群系統上的任務調度,重新開發和提升及各種不同的算子和效率。
摩爾線程將所有的要素進行了完整梳理,提出了五大核心要素,也就是:加速計算通用性、單芯片有效算力、單節點效率、集群效率、集群穩定性。
![]()
把每個核心要素都做到極致,打造端到端的能力,才是真正優秀的AI工廠,才有核心競爭力,才能獲得最后的成功。
█ 五大核心要素,構筑AI 工廠性能底座
接下來,我們就分別解讀一下這五大核心要素。
●加速計算通用性
回望GPU的發展史,其核心角色始終是加速計算。摩爾線程進一步指出,全功能GPU是加速計算的核心驅動力。也就是說,全功能GPU不能只用于單個功能,而應該實現多場景的覆蓋,其核心體現為四大引擎的協同:AI計算加速、圖形渲染、物理仿真和科學計算、超高清視頻編解碼。這構成了摩爾線程全功能GPU的核心能力譜系。
支持AI全場景加速,就需要全功能GPU,它是一個功能完備的通用底座,也可以理解為是一個可以通吃所有領域行業的通用加速平臺。
![]()
除了功能完備之外,全功能GPU還要實現“精度完整”。這里,就要提到FP64、FP32、FP16、FP8、FP4和INT8等概念。
這些是IEEE定義的各種不同數據類型。詳細解釋這些概念稍微有點復雜。大家可以簡單理解——早期的時候,業界都是用FP32進行訓練,后來用FP16,并以此作為標配。如今,用FP8做大模型訓練,也被證明是一個不錯的選擇。
摩爾線程支持從FP64至INT8的完整精度譜系,能針對多種精度進行混合訓練。
●單芯片有效算力
芯片是算力的核心單元。提升單芯片的有效算力,是驅動AI工廠高效運轉的關鍵。
需要注意的是,芯片的有效算力并不僅僅是指芯片的理論峰值算力,更重要的是在實際應用場景中能夠穩定、高效地發揮出來的算力。
摩爾線程在芯片設計上下了很大的功夫,通過優化芯片架構、提升計算性能、優化內存和通信效率等多種手段,來確保單GPU的有效算力能夠進一步突破極限。
先看看架構。
摩爾線程采用了自研的MUSA架構(Meta-computing Unified System Architecture,元計算統一架構)。這個Meta-computing(元計算)的命名,體現出這個架構支持所有的計算場景。不僅滿足當前的計算需求,也要應對未來的計算需求。
![]()
統一架構,完整來說,是多引擎可配置統一系統架構。這意味著,架構從頂層角度考慮到了計算、通信、存儲、指令集之間的相互交接、相互協調、相互調度的功能。同樣也是“一個架構服務多個領域”。
MUSA架構的核心能力,是可以利用統一的編程指令集,驅動架構下的所有引擎,包括圖形處理引擎、通用計算引擎、多媒體引擎、通信引擎等。計算、通信、存儲、調度、加速等工作任務的協同融合,都被整合在統一的底層引擎之下,便于用戶和開發者去調用。
MUSA還有一個特點,是資源池化。
它通過硬件資源池化及動態資源調度技術,構建了全局共享的計算、內存與通信資源池。這一設計不僅突破了傳統GPU功能單一的限制,還在保障通用性的同時顯著提升了資源利用率。
MUSA架構的引擎中,有兩個專門用于AI計算加速系統的引擎,分別是張量計算引擎(TCE)和張量訪存引擎(TME)。
前者主要負責執行AI計算任務中的核心運算,如矩陣乘法等,是算力輸出的“主力軍”。而后者則專注于優化數據訪問模式,減少內存延遲,提高數據吞吐量,確保計算引擎能夠高效、穩定地獲取所需數據。
![]()
在池化的基礎上,通過引擎異步流水(ATB)技術,把底層各種不同的硬件加速流水線(例如圖形計算、超級計算、Tensor計算、編解碼等)變成了一根根管道,融合在一起隨意調度。
![]()
基于一個資源池,所有的結果都共享一個內存,所有的引擎在上面工作,所有的數據、存在一個地方。這就是最典型的數據驅動、引擎支持和引擎集散的統一系統架構,可以讓實現最高的工作效率。
在計算層面,前面我們已經提到,摩爾線程的GPU全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計算。
作為國內首批實現FP8算力量產的GPU廠商,摩爾線程的FP8技術通過快速格式轉換、動態范圍智能適配和高精度累加器等創新設計,在保證計算精度的同時,將Transformer計算性能提升約30%。
![]()
在內存系統方面,通過多精度近存規約引擎、低延遲Scale-Up、通算并行資源隔離等技術,實現了50%的帶寬節省和60%的延遲降低。
在通信和互聯方面,基于獨創的ACE異步通信引擎,減少了15%的計算資源損耗。
![]()
MTLink2.0互聯技術,提供了高出國內行業平均水平60%的帶寬,為大規模集群部署奠定了堅實基礎。
●單節點效率
剛才說的是單芯片,現在,我們再往上一級,看看單節點。一個節點包括了多個芯片,涉及到了芯片之間的互聯協同。
在這個環節,摩爾線程的核心創新包括:任務調度優化、極致性能算子庫、通信效能躍升、低精度計算效率革新、開發生態完善。
任務調度優化,是指GPU驅動任務調度優化。體現在兩個方面:首先,核函數(計算任務從CPU主機傳輸到GPU設備并執行的過程)啟動時間相比業界平均時間縮短了50%。其次,支持千次計算指令單次并行下發。摩爾線程的任務之間延遲遠遠小于國際主流芯片公司,實現了:"個子比別人小、但跳得比別人高"。
![]()
在算子庫方面,摩爾線程的muDDN算子進行了極致性能優化,相比cuDDN有10-20%的領先。而且,摩爾線程的GEMM算子算力利用率達98%,Flash Attention算子算力利用率突破95%。這也是非常出色的成績。
![]()
在通信方面,摩爾線程在兼顧傳輸速率的基礎上,重點優化了穩定性、可靠性和帶寬利用率。
他們的MCCL通信庫,可以實現97%的RDMA網絡帶寬利用率。基于異步通信引擎優化計算通信并行,大模型訓練集群整體性能可以提升10%。
![]()
在低精度計算效率方面,除了對FP8 Transformer的支持,摩爾線程還有一個行業首創的技術創新——細粒度重計算(Recompute),計算開銷可以減少4倍。
最后是開發生態方面。
摩爾線程推出了Triton-MUSA編譯器 + MUSA Graph,可以實現DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。
為了幫助開發者降低開發門檻,提升效率,摩爾線程還打造了完整的軟件開發套件。
●集群效率
節點再往上,就是集群。我們可以看看在集群效率提升上,摩爾線程做了些什么。
摩爾線程將自家研發的集群系統方案命名為KUAE(夸娥)。
![]()
這個集群通過5D大規模分布式并行計算技術,可以實現上千節點的高效協作,推動AI基礎設施從單點優化邁向系統工程級突破。
所謂的“5D”,是指DP數據并行、TP張量并行、SP序列并行、EP專家并行、PP流水線并行的5大類型任務可以大規模、分布式的并行訓練。
KUAE能夠做到端到端的模型訓練支持,包括數據處理、預訓練、后訓練等。而且,KUAE還可以支持所有的模型種類,包括LLM/VLM、混合專家模型、世界模型、具身智能模型等。
為了提升集群的訓練效率,實現訓練性能的最優化,KUAE提供了一套性能仿真工具——SIMUMAX。
![]()
它可以自動找出一個最佳的并行策略,滿足用戶的模型訓練需求,協助進行性能優化。SIMUMAX還可以精準模擬FP8混合精度訓練與算子融合,為DeepSeek等模型縮短訓練周期提供科學依據。
●集群穩定性
集群訓練,穩定性是一個大問題。對于訓練過程中可能發生的中斷,業界普遍采用CheckPoint進行應對。也就是定期進行備份,中斷后再進行恢復。
在此基礎上,摩爾線程創新提出了CheckPoint加速方案,利用RDMA技術,將百GB級備份恢復時間從數分鐘壓縮至1秒,大幅縮短了中斷時間,提升了訓練效率。
![]()
摩爾線程還專門發明了一個創新的集群穩定性管理方案——零中斷容錯技術。
傳統模式下,如果發生硬件故障導致訓練中斷,需要先替換硬件,然后寫讀Checkpoint,耽誤大量時間,增加了訓練成本。
![]()
采用摩爾線程的零中斷容錯技術,故障發生時,僅隔離受影響節點組,其余節點繼續訓練,備機無縫接入,全程無中斷。這一方案使KUAE集群的有效訓練時間占比超過99%,大幅降低中斷恢復開銷。
摩爾線程還獨創了多維度訓練洞察體系,實現對訓練過程的動態監測與智能診斷。如果發現滿節點,就可以及時進行處理維護。這使得集群的異常處理效率提升了50%。結合集群巡檢與起飛檢查,訓練成功率提高10%,為大規模AI訓練提供穩定保障。
█ 最后的話
前面介紹了摩爾線程AI工廠的很多技術細節。我們可以看出,他們對算力的理解是相當全面而且深刻的。作為一家半導體創新創業的公司,能擁有這么深厚的技術積累,確實非常不容易。
AI工廠作為一個支撐全場景算力需求的超級工廠,其背后的技術挑戰超乎想象。從底層硬件設計到上層軟件生態,摩爾線程都要進行深入的創新和優化,以確保AI工廠的高效運轉。他們的努力不僅體現在單個組件的性能提升上,更在于整個系統的協同優化,實現了從單點創新到系統級效能的飛躍。
總而言之,摩爾線程的AI工廠不僅是其算力戰略的體現,或許也將為整個行業帶來新的范式。
以摩爾線程為代表的國產算力企業正在加速崛起,他們的每一步都走得非常扎實。我們有理由相信,在這些企業的共同努力下,我們國家的算力產業一定會加速縮小和國際巨頭的差距,并最終實現超越。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.