<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI工廠:國產GPU的算力進化

      0
      分享至

      訓練大模型,有點像煉丹。而算力,就是煉丹爐里的柴。只有爐火純青,才能真正煉出好丹。


      過去這幾年,AI浪潮蓬勃發展,大模型的參數規模越來越大。煉丹難度不斷增加,往里面投的柴(算力),也越來越多。

      如今,AI的發展已經進入了新的階段。大模型參數規模從千億走向萬億,對算力的需求,也達到空前的規模。AI的應用也在加速。Agentic AI的爆發,也對算力提出了更高的要求。

      面對這些新的挑戰,業界逐漸意識到,當煉丹難度(參數規模)達到一定程度,僅僅靠“堆料(算力)”,已經無法進行有效的應對。

      那么,到底該怎么做,才能真正滿足AI下一步發展的需求呢?算力的供給模式,是否需要進行徹底的變革?又該如何進行變革?

      前不久,在WAIC 2025期間,我聆聽了摩爾線程創始人兼CEO張建中的一場演講。在演講中,他對上面提到的問題進行了全面且系統的解答。

      張建中提出了一個創新的概念——AI工廠(AI Foundry)


      他認為,算力的供給模式正在發生巨變。構建萬卡集群,并非一萬張GPU卡的簡單堆疊,而是一項高度復雜的超級系統工程。它涉及到超大規模的組網互聯、高效率的集群計算、長期穩定性和高可用性等諸多技術難題。想要真正實現有效的算力供給,就必須通過構建新一代AI訓練基礎設施,即AI工廠(AI Foundry)。

      這場演講的信息量很大,給我帶來了很大的啟發。張建中真正從宏觀到微觀,講明白了該如何應對AI所帶來的算力需求爆炸式增長,打造真正好用的算力基礎設施。

      接下來,我就基于演講的內容,結合個人的理解,給大家做一個深入解讀。

      █ AI Foundry:生產先進模型的超級工廠

      Foundry這個概念源自芯片半導體產業,指的是芯片代工廠,專門生產芯片的地方。

      摩爾線程提出的AI Foundry,則是專門生產“智能”的地方。

      之所以提出AI工廠,本質在于AI算力的供給模式正在發生變化。傳統的供給模式是前面說的“堆卡”——生產算力更強、數量更多的算卡,然后進行數量堆疊,以此滿足用戶需求。

      如今,大模型參數規模不斷增長,更新迭代的速度不斷加快,對算力的要求也越來越高。大模型本身也在從大語言模型向多模態和世界模型轉變,這就使得整個AI計算基礎設施都必須進行自我變革,以運行和支持一切模型。

      換言之,AI算力供給,需要從粗放的“作坊式”向精細的“工廠式”進行轉變

      芯片工廠,為了造出更強大的芯片,需要不斷研發和嘗試更先進的工藝制程,需要在軟件、硬件、流程、管理等各個維度進行提升,以此來不斷突破物理極限,提升生產力。

      而AI工廠,為了提供更強大的算力,需要高效率、高能量、高產出的一套方式方法,在單卡算力的基礎上,綜合考慮網絡拓撲、片間互聯、卡間互聯、節點間互聯、集群管理、效率、算法、工具、算子庫、框架等一系列因素。這些,也就是AI工廠的能力。

      當千卡集群向萬卡集群演進,AI工廠的必要性就愈加凸顯。在算力供給側,需要重新搭建物理拓撲結構,重新設計管理方式,重新優化集群系統上的任務調度,重新開發和提升及各種不同的算子和效率。

      摩爾線程將所有的要素進行了完整梳理,提出了五大核心要素,也就是:加速計算通用性、單芯片有效算力、單節點效率、集群效率、集群穩定性。


      把每個核心要素都做到極致,打造端到端的能力,才是真正優秀的AI工廠,才有核心競爭力,才能獲得最后的成功。

      █ 五大核心要素,構筑AI 工廠性能底座

      接下來,我們就分別解讀一下這五大核心要素。

      加速計算通用性

      回望GPU的發展史,其核心角色始終是加速計算。摩爾線程進一步指出,全功能GPU是加速計算的核心驅動力。也就是說,全功能GPU不能只用于單個功能,而應該實現多場景的覆蓋,其核心體現為四大引擎的協同:AI計算加速、圖形渲染、物理仿真和科學計算、超高清視頻編解碼。這構成了摩爾線程全功能GPU的核心能力譜系。

      支持AI全場景加速,就需要全功能GPU,它是一個功能完備的通用底座,也可以理解為是一個可以通吃所有領域行業的通用加速平臺。


      除了功能完備之外,全功能GPU還要實現“精度完整”。這里,就要提到FP64、FP32、FP16、FP8、FP4和INT8等概念。

      這些是IEEE定義的各種不同數據類型。詳細解釋這些概念稍微有點復雜。大家可以簡單理解——早期的時候,業界都是用FP32進行訓練,后來用FP16,并以此作為標配。如今,用FP8做大模型訓練,也被證明是一個不錯的選擇。

      摩爾線程支持從FP64至INT8的完整精度譜系,能針對多種精度進行混合訓練。

      單芯片有效算力

      芯片是算力的核心單元。提升單芯片的有效算力,是驅動AI工廠高效運轉的關鍵。

      需要注意的是,芯片的有效算力并不僅僅是指芯片的理論峰值算力,更重要的是在實際應用場景中能夠穩定、高效地發揮出來的算力。

      摩爾線程在芯片設計上下了很大的功夫,通過優化芯片架構、提升計算性能、優化內存和通信效率等多種手段,來確保單GPU的有效算力能夠進一步突破極限。

      先看看架構。

      摩爾線程采用了自研的MUSA架構(Meta-computing Unified System Architecture,元計算統一架構)。這個Meta-computing(元計算)的命名,體現出這個架構支持所有的計算場景。不僅滿足當前的計算需求,也要應對未來的計算需求。


      統一架構,完整來說,是多引擎可配置統一系統架構。這意味著,架構從頂層角度考慮到了計算、通信、存儲、指令集之間的相互交接、相互協調、相互調度的功能。同樣也是“一個架構服務多個領域”。

      MUSA架構的核心能力,是可以利用統一的編程指令集,驅動架構下的所有引擎,包括圖形處理引擎、通用計算引擎、多媒體引擎、通信引擎等。計算、通信、存儲、調度、加速等工作任務的協同融合,都被整合在統一的底層引擎之下,便于用戶和開發者去調用。

      MUSA還有一個特點,是資源池化

      它通過硬件資源池化及動態資源調度技術,構建了全局共享的計算、內存與通信資源池。這一設計不僅突破了傳統GPU功能單一的限制,還在保障通用性的同時顯著提升了資源利用率。

      MUSA架構的引擎中,有兩個專門用于AI計算加速系統的引擎,分別是張量計算引擎(TCE)張量訪存引擎(TME)

      前者主要負責執行AI計算任務中的核心運算,如矩陣乘法等,是算力輸出的“主力軍”。而后者則專注于優化數據訪問模式,減少內存延遲,提高數據吞吐量,確保計算引擎能夠高效、穩定地獲取所需數據。


      在池化的基礎上,通過引擎異步流水(ATB)技術,把底層各種不同的硬件加速流水線(例如圖形計算、超級計算、Tensor計算、編解碼等)變成了一根根管道,融合在一起隨意調度。


      基于一個資源池,所有的結果都共享一個內存,所有的引擎在上面工作,所有的數據、存在一個地方。這就是最典型的數據驅動、引擎支持和引擎集散的統一系統架構,可以讓實現最高的工作效率。

      在計算層面,前面我們已經提到,摩爾線程的GPU全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計算。

      作為國內首批實現FP8算力量產的GPU廠商,摩爾線程的FP8技術通過快速格式轉換、動態范圍智能適配和高精度累加器等創新設計,在保證計算精度的同時,將Transformer計算性能提升約30%。


      在內存系統方面,通過多精度近存規約引擎、低延遲Scale-Up、通算并行資源隔離等技術,實現了50%的帶寬節省和60%的延遲降低。

      在通信和互聯方面,基于獨創的ACE異步通信引擎,減少了15%的計算資源損耗。


      MTLink2.0互聯技術,提供了高出國內行業平均水平60%的帶寬,為大規模集群部署奠定了堅實基礎。

      單節點效率

      剛才說的是單芯片,現在,我們再往上一級,看看單節點。一個節點包括了多個芯片,涉及到了芯片之間的互聯協同。

      在這個環節,摩爾線程的核心創新包括:任務調度優化、極致性能算子庫、通信效能躍升、低精度計算效率革新、開發生態完善。

      任務調度優化,是指GPU驅動任務調度優化。體現在兩個方面:首先,核函數(計算任務從CPU主機傳輸到GPU設備并執行的過程)啟動時間相比業界平均時間縮短了50%。其次,支持千次計算指令單次并行下發。摩爾線程的任務之間延遲遠遠小于國際主流芯片公司,實現了:"個子比別人小、但跳得比別人高"。


      在算子庫方面,摩爾線程的muDDN算子進行了極致性能優化,相比cuDDN有10-20%的領先。而且,摩爾線程的GEMM算子算力利用率達98%,Flash Attention算子算力利用率突破95%。這也是非常出色的成績。


      在通信方面,摩爾線程在兼顧傳輸速率的基礎上,重點優化了穩定性、可靠性和帶寬利用率。

      他們的MCCL通信庫,可以實現97%的RDMA網絡帶寬利用率。基于異步通信引擎優化計算通信并行,大模型訓練集群整體性能可以提升10%。


      在低精度計算效率方面,除了對FP8 Transformer的支持,摩爾線程還有一個行業首創的技術創新——細粒度重計算(Recompute),計算開銷可以減少4倍。

      最后是開發生態方面。

      摩爾線程推出了Triton-MUSA編譯器 + MUSA Graph,可以實現DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。

      為了幫助開發者降低開發門檻,提升效率,摩爾線程還打造了完整的軟件開發套件。

      集群效率

      節點再往上,就是集群。我們可以看看在集群效率提升上,摩爾線程做了些什么。

      摩爾線程將自家研發的集群系統方案命名為KUAE(夸娥)


      這個集群通過5D大規模分布式并行計算技術,可以實現上千節點的高效協作,推動AI基礎設施從單點優化邁向系統工程級突破。

      所謂的“5D”,是指DP數據并行、TP張量并行、SP序列并行、EP專家并行、PP流水線并行的5大類型任務可以大規模、分布式的并行訓練。

      KUAE能夠做到端到端的模型訓練支持,包括數據處理、預訓練、后訓練等。而且,KUAE還可以支持所有的模型種類,包括LLM/VLM、混合專家模型、世界模型、具身智能模型等。

      為了提升集群的訓練效率,實現訓練性能的最優化,KUAE提供了一套性能仿真工具——SIMUMAX


      它可以自動找出一個最佳的并行策略,滿足用戶的模型訓練需求,協助進行性能優化。SIMUMAX還可以精準模擬FP8混合精度訓練與算子融合,為DeepSeek等模型縮短訓練周期提供科學依據。

      集群穩定性

      集群訓練,穩定性是一個大問題。對于訓練過程中可能發生的中斷,業界普遍采用CheckPoint進行應對。也就是定期進行備份,中斷后再進行恢復。

      在此基礎上,摩爾線程創新提出了CheckPoint加速方案,利用RDMA技術,將百GB級備份恢復時間從數分鐘壓縮至1秒,大幅縮短了中斷時間,提升了訓練效率。


      摩爾線程還專門發明了一個創新的集群穩定性管理方案——零中斷容錯技術。

      傳統模式下,如果發生硬件故障導致訓練中斷,需要先替換硬件,然后寫讀Checkpoint,耽誤大量時間,增加了訓練成本。


      采用摩爾線程的零中斷容錯技術,故障發生時,僅隔離受影響節點組,其余節點繼續訓練,備機無縫接入,全程無中斷。這一方案使KUAE集群的有效訓練時間占比超過99%,大幅降低中斷恢復開銷。

      摩爾線程還獨創了多維度訓練洞察體系,實現對訓練過程的動態監測與智能診斷。如果發現滿節點,就可以及時進行處理維護。這使得集群的異常處理效率提升了50%。結合集群巡檢與起飛檢查,訓練成功率提高10%,為大規模AI訓練提供穩定保障。

      █ 最后的話

      前面介紹了摩爾線程AI工廠的很多技術細節。我們可以看出,他們對算力的理解是相當全面而且深刻的。作為一家半導體創新創業的公司,能擁有這么深厚的技術積累,確實非常不容易。

      AI工廠作為一個支撐全場景算力需求的超級工廠,其背后的技術挑戰超乎想象。從底層硬件設計到上層軟件生態,摩爾線程都要進行深入的創新和優化,以確保AI工廠的高效運轉。他們的努力不僅體現在單個組件的性能提升上,更在于整個系統的協同優化,實現了從單點創新到系統級效能的飛躍。

      總而言之,摩爾線程的AI工廠不僅是其算力戰略的體現,或許也將為整個行業帶來新的范式。

      以摩爾線程為代表的國產算力企業正在加速崛起,他們的每一步都走得非常扎實。我們有理由相信,在這些企業的共同努力下,我們國家的算力產業一定會加速縮小和國際巨頭的差距,并最終實現超越。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      島國作業數量最多的10位女老師,榜首竟超 3000 部!

      島國作業數量最多的10位女老師,榜首竟超 3000 部!

      碧波萬覽
      2026-03-21 18:01:06
      昨晚2家公司被立案調查,2家公司的股票被st,9萬集體股東踩雷

      昨晚2家公司被立案調查,2家公司的股票被st,9萬集體股東踩雷

      財經智多星
      2026-03-21 08:16:47
      驚心動魄!這一幕讓我們更明白中國為什么必須強大

      驚心動魄!這一幕讓我們更明白中國為什么必須強大

      補壹刀
      2026-03-21 22:27:48
      為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

      為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

      混沌錄
      2026-03-21 15:31:24
      “梅姨”現身并落網!對販賣兒童事實供認不諱,已被依法逮捕

      “梅姨”現身并落網!對販賣兒童事實供認不諱,已被依法逮捕

      南方都市報
      2026-03-21 11:35:00
      伊朗摔跤冠軍被絞刑,罪名是“真主的敵人”

      伊朗摔跤冠軍被絞刑,罪名是“真主的敵人”

      濤哥銳評
      2026-03-21 17:54:05
      火燒靖國神社的劉強,回國后被單位開除,妻子離婚,后來怎樣了?

      火燒靖國神社的劉強,回國后被單位開除,妻子離婚,后來怎樣了?

      大魚簡科
      2026-03-21 09:46:38
      美日達成一致,不許改變臺海現狀,還要踢開中國,中方反擊不過夜

      美日達成一致,不許改變臺海現狀,還要踢開中國,中方反擊不過夜

      策略述
      2026-03-21 18:25:32
      沙特、阿聯酋、卡塔爾、土耳其、巴基斯坦、阿塞拜疆、巴林、埃及、約旦、科威特、黎巴嫩、敘利亞聯合聲明

      沙特、阿聯酋、卡塔爾、土耳其、巴基斯坦、阿塞拜疆、巴林、埃及、約旦、科威特、黎巴嫩、敘利亞聯合聲明

      澎湃新聞
      2026-03-19 16:00:32
      美以襲擊伊核設施,伊朗宣布:正在霍爾木茲海峽采取重大行動,敦促阿聯酋關鍵地點居民撤離!達利歐:霍爾木茲對抗將決定美國霸權能否存續

      美以襲擊伊核設施,伊朗宣布:正在霍爾木茲海峽采取重大行動,敦促阿聯酋關鍵地點居民撤離!達利歐:霍爾木茲對抗將決定美國霸權能否存續

      每日經濟新聞
      2026-03-21 18:15:43
      笑掉大牙!伊朗空天司令登上國家電視臺,怕美以斬首不敢露真容

      笑掉大牙!伊朗空天司令登上國家電視臺,怕美以斬首不敢露真容

      老馬拉車莫少裝
      2026-03-21 17:30:29
      日本沒想到,美國也沒想到,現在的中國安徽省,已變成全球焦點

      日本沒想到,美國也沒想到,現在的中國安徽省,已變成全球焦點

      蜉蝣說
      2026-03-21 19:32:36
      看了新加坡媒體的披露,我才知道,中國已經沒必要向世界證明什么

      看了新加坡媒體的披露,我才知道,中國已經沒必要向世界證明什么

      觸摸史跡
      2026-03-21 02:58:06
      黃曉明帶兒子和媽媽包餃子!摘了假發套發量堪憂,兒子長得太像baby

      黃曉明帶兒子和媽媽包餃子!摘了假發套發量堪憂,兒子長得太像baby

      八卦王者
      2026-03-21 22:03:13
      價格飆漲6000%!原研藥集體撤離中國的影響,開始出現了...

      價格飆漲6000%!原研藥集體撤離中國的影響,開始出現了...

      牛鍋巴小釩
      2026-03-21 19:20:35
      一票否決!歐盟內部集體暴怒,德國總理當場發話:這事沒完

      一票否決!歐盟內部集體暴怒,德國總理當場發話:這事沒完

      策略述
      2026-03-21 14:58:28
      大震動!黃金創43年最大暴跌,股油齊亂,中東戰火下全球市場慌了

      大震動!黃金創43年最大暴跌,股油齊亂,中東戰火下全球市場慌了

      魏家東
      2026-03-21 12:55:03
      日本女足主帥:澳大利亞唯一讓人惱火的是晚上11點就買不到啤酒了

      日本女足主帥:澳大利亞唯一讓人惱火的是晚上11點就買不到啤酒了

      懂球帝
      2026-03-21 21:14:25
      伊朗確認向美英印度洋基地發射彈道導彈!射程超4000公里,或可覆蓋歐洲大部,伊方:彰顯威懾能力!美方:都沒打中

      伊朗確認向美英印度洋基地發射彈道導彈!射程超4000公里,或可覆蓋歐洲大部,伊方:彰顯威懾能力!美方:都沒打中

      每日經濟新聞
      2026-03-21 19:09:38
      杜淳把4個億砸進《逐玉》,2.6億沒給明星,全燒在你看不見的地方

      杜淳把4個億砸進《逐玉》,2.6億沒給明星,全燒在你看不見的地方

      西樓知趣雜談
      2026-03-21 21:33:29
      2026-03-22 01:56:49
      鮮棗課堂 incentive-icons
      鮮棗課堂
      ICT知識科普。
      1008文章數 1257關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩寧終于涼了?出軌風波影響惡劣

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      健康
      家居
      游戲
      數碼
      藝術

      轉頭就暈的耳石癥,能開車上班嗎?

      家居要聞

      時空交織 空間綺夢

      魔獸世界:時光服P3階段將至,新手該練什么職業,這個很重要!

      數碼要聞

      炸鍋!國產存儲芯片再突破!手機固態價格大跳水,內存自由要來了

      藝術要聞

      斯托揚畫作:她們的眼神能勾動你的心!

      無障礙瀏覽 進入關懷版