![]()
智東西
作者 ZeR0
編輯 漠影
屬實(shí)沒(méi)想到,卡著全世界移動(dòng)芯片脖子的Arm,突然發(fā)布了自研CPU!
智東西3月24日舊金山現(xiàn)場(chǎng)報(bào)道,剛剛,3500億顆芯片背后的半導(dǎo)體IP巨頭Arm,推出首款由Arm自主設(shè)計(jì)的數(shù)據(jù)中心CPU——Arm AGI CPU。
![]()
▲Arm CEO Rene Haas展示AGI CPU芯片
這是Arm發(fā)展35年來(lái),首次推出對(duì)外銷(xiāo)售的自研芯片,也是Arm全新數(shù)據(jù)中心芯片產(chǎn)品線(xiàn)的首款產(chǎn)品,標(biāo)志著Arm正式進(jìn)軍數(shù)據(jù)中心芯片領(lǐng)域,將其高能效架構(gòu)規(guī)模化引入AI基礎(chǔ)設(shè)施。
Arm AGI CPU專(zhuān)為AI智能體基礎(chǔ)設(shè)施打造,采用臺(tái)積電3nm制程工藝、雙Chiplet設(shè)計(jì),單顆CPU集成136個(gè)Arm Neoverse V3高性能核心,配備2MB L2緩存,支持3.7GHz主頻,提供每核心6GB/s內(nèi)存帶寬,內(nèi)存時(shí)延低于100ns,采用96通道PCIe Gen 6接口,支持CXL 3協(xié)議,TDP達(dá)300W。
![]()
Arm將其稱(chēng)作“全球最高能效的智能體CPU”,圍繞性能、規(guī)模、能效三個(gè)原則來(lái)設(shè)計(jì)。
![]()
英偉達(dá)創(chuàng)始人兼CEO黃仁勛的巨臉出現(xiàn)在大屏幕上,祝賀Arm發(fā)布第一款數(shù)據(jù)中心芯片。
![]()
Arm AGI CPU的單核、系統(tǒng)級(jí)芯片、刀片式服務(wù)器及機(jī)架各層級(jí)均實(shí)現(xiàn)行業(yè)領(lǐng)先的性能表現(xiàn)。
通過(guò)更多可用線(xiàn)程與更高單線(xiàn)程處理能力相互疊加,該芯片可實(shí)現(xiàn)單機(jī)架性能達(dá)到x86平臺(tái)的2倍以上,每1GW的AI數(shù)據(jù)中心算力資本支出節(jié)省高達(dá)100億美元。
![]()
它支持高密度1U服務(wù)器機(jī)箱的風(fēng)冷部署方案,單機(jī)架可支持多達(dá)8160個(gè)計(jì)算核心;也支持液冷系統(tǒng),單機(jī)架可實(shí)現(xiàn)超過(guò)45000個(gè)核心的部署規(guī)模。
![]()
Arm CEO Rene Haas分享說(shuō),按其估算,自人類(lèi)誕生以來(lái),大約共有1170億人生活在這個(gè)星球上。而Arm芯片累計(jì)出貨量已超過(guò)3500億顆,足足是有史以來(lái)人類(lèi)總數(shù)的3倍,是所有非Arm架構(gòu)CPU累計(jì)出貨量總和的7倍,平均每個(gè)全球家庭擁有160顆Arm芯片。
現(xiàn)在,Arm的核心業(yè)務(wù)包括三大塊:IP授權(quán)、CSS(計(jì)算子系統(tǒng))方案,以及自主設(shè)計(jì)的芯片產(chǎn)品。
![]()
Arm AGI CPU現(xiàn)已開(kāi)放訂購(gòu),已交到客戶(hù)手中,正在由客戶(hù)評(píng)估,計(jì)劃在年底前實(shí)現(xiàn)量產(chǎn)。
![]()
Arm與永擎電子、聯(lián)想、廣達(dá)電腦、Supermicro等頭部OEM廠(chǎng)商及ODM廠(chǎng)商展開(kāi)合作,早期系統(tǒng)現(xiàn)已推出,永擎電子、聯(lián)想及Supermicro已開(kāi)放商用系統(tǒng)訂購(gòu),更廣泛的商用部署預(yù)計(jì)將于今年下半年落地。
![]()
▲聯(lián)想HR650A V3 2U機(jī)架服務(wù)器,配備兩顆Arm AGI CPU
Arm還披露了后續(xù)產(chǎn)品規(guī)劃,AGI CPU與Arm Neoverse CSS產(chǎn)品路線(xiàn)圖將并行推進(jìn),計(jì)劃2027年發(fā)布Arm AGI CPU 2和CSS V4,未來(lái)發(fā)布Arm AGI CPU 3和CSS V5,確保所有Arm數(shù)據(jù)中心客戶(hù)在平臺(tái)架構(gòu)與軟件兼容性方面實(shí)現(xiàn)協(xié)同發(fā)展。
![]()
在會(huì)后媒體問(wèn)答環(huán)節(jié),Rene Haas談道,研發(fā)AGI CPU只是Arm商業(yè)模式的自然延伸,市場(chǎng)需求嚴(yán)重未被滿(mǎn)足,中國(guó)可能是非常好的市場(chǎng)。
另?yè)?jù)Arm云AI事業(yè)部執(zhí)行副總裁Mohamed Awad分享,Arm也在認(rèn)真研究NVLink等互連技術(shù),已宣布將在未來(lái)版本的CSS中支持NVLink。
一、采用簡(jiǎn)化架構(gòu),沒(méi)有多線(xiàn)程,擺脫x86 CPU的額外開(kāi)銷(xiāo)與復(fù)雜性
Rene Haas談道,智能體的爆炸式增長(zhǎng)催生更大的CPU需求。智能體本質(zhì)上是一個(gè)工作流,大量工作涉及調(diào)度,這正是CPU所擅長(zhǎng)的工作,是加速器做不了的。
打個(gè)比方,加速器負(fù)責(zé)生成token,就像推一輛翻斗車(chē),需要有人去搬運(yùn)那些土,CPU就是搬運(yùn)土的設(shè)備。
![]()
根據(jù)Arm的估算,數(shù)據(jù)中心對(duì)每GW功耗提供的CPU算力需求將增長(zhǎng)至當(dāng)前的4倍以上,在相同功耗范圍內(nèi),以前需要3000萬(wàn)CPU核心,現(xiàn)在需要塞入約4倍的1.2億個(gè)CPU核心。
功耗是寶貴的,所需資本也是寶貴的。試圖將如此多的額外CPU塞進(jìn)一個(gè)已經(jīng)被加速器和執(zhí)行核心工作的CPU塞得滿(mǎn)滿(mǎn)當(dāng)當(dāng)?shù)臄?shù)據(jù)中心,是一道難題。
![]()
對(duì)此,Arm打造了其首款對(duì)外銷(xiāo)售的自研芯片——Arm AGI CPU。
為什么要做這件事?Rene Haas談道,隨著智能體AI走向主流,所有支撐其運(yùn)轉(zhuǎn)的工作都依賴(lài)CPU,這顆CPU必須天生就具備在電池供電下運(yùn)行的基因。
x86架構(gòu)背負(fù)著執(zhí)行開(kāi)銷(xiāo)和對(duì)遺留功能的支持負(fù)擔(dān),選擇了聚焦于模塊化、支持大量不同市場(chǎng)和小眾用例。而Arm專(zhuān)注于提升能效、降低延遲。
![]()
Arm AGI CPU從零開(kāi)始設(shè)計(jì),圍繞三個(gè)原則:性能、規(guī)模、能效。
![]()
(1)性能
高IPC(每周期指令數(shù))一直是Arm的強(qiáng)項(xiàng)。傳統(tǒng)CPU有時(shí)會(huì)試圖通過(guò)提高主頻、進(jìn)入Boost模式來(lái)在這一維度上競(jìng)爭(zhēng),但提高主頻,功耗也隨之上升,這些Boost模式無(wú)法長(zhǎng)期持續(xù),也無(wú)法在整顆芯片上持續(xù)。而AGI CPU能提供全時(shí)間、可持續(xù)的滿(mǎn)血性能。
(2)規(guī)模
Arm在核心數(shù)量上實(shí)現(xiàn)線(xiàn)性擴(kuò)展,內(nèi)存和IO子系統(tǒng)經(jīng)過(guò)專(zhuān)門(mén)設(shè)計(jì),與核心高度匹配。
一些傳統(tǒng)架構(gòu)采用多線(xiàn)程。多線(xiàn)程的實(shí)質(zhì)是向同一個(gè)核心丟兩個(gè)任務(wù),但I(xiàn)O和帶寬并不會(huì)因此翻倍,只是把瓶頸轉(zhuǎn)移到了別處,而且CPU還必須承擔(dān)管理這種來(lái)回切換的負(fù)擔(dān),導(dǎo)致性能下降,最終導(dǎo)致進(jìn)程饑餓。
Arm反復(fù)觀察到,數(shù)據(jù)中心運(yùn)營(yíng)商不得不超額配置數(shù)據(jù)中心30%甚至更多,來(lái)應(yīng)對(duì)這種非線(xiàn)性擴(kuò)展的問(wèn)題。
Arm以無(wú)需這樣做為傲。
![]()
▲AGI CPU與x86 CPU運(yùn)行同一任務(wù)的表現(xiàn)對(duì)比
(3)能效
Arm對(duì)能效有著近乎偏執(zhí)的專(zhuān)注。AGI CPU是專(zhuān)為目標(biāo)場(chǎng)景打造的,沒(méi)有任何遺留架構(gòu)的包袱,不浪費(fèi)任何一個(gè)周期,不存在擱淺的算力,不浪費(fèi)任何一瓦的功耗。
在實(shí)測(cè)中,AGI CPU可提供持續(xù)性能,沒(méi)有因超出功耗預(yù)算而導(dǎo)致的性能降頻,沒(méi)有內(nèi)存或IO爭(zhēng)用。
![]()
上圖中,左邊的AGI CPU和中間的x86 CPU柱形均在SMT(同步多線(xiàn)程)禁用的情況下測(cè)得,僅對(duì)比了單線(xiàn)程核心表現(xiàn)。
一個(gè)常見(jiàn)說(shuō)法是,多線(xiàn)程能改善性能,帶來(lái)更好的可擴(kuò)展性。但如果開(kāi)啟多線(xiàn)程,結(jié)果如圖中第三個(gè)柱形所示,性能下降、現(xiàn)實(shí)中每機(jī)架大量線(xiàn)程閑置、能效略有提升但不足以改變整體的算法取舍。
Arm云AI事業(yè)部執(zhí)行副總裁Mohamed Awad解釋說(shuō),如果對(duì)內(nèi)存帶寬的需求很低,SMT是合理的,因?yàn)榭梢怨蚕韼挘?dāng)一個(gè)線(xiàn)程在等待時(shí),可將CPU資源讓給另一個(gè)線(xiàn)程。
但在智能體AI場(chǎng)景中,有大量線(xiàn)程需要同時(shí)支撐,有昂貴的加速器和昂貴的基礎(chǔ)設(shè)施在等待,最不希望發(fā)生的事情就是分割I(lǐng)/O帶寬或內(nèi)存帶寬,而是希望將那些I/O和內(nèi)存帶寬精確地專(zhuān)用給對(duì)應(yīng)的進(jìn)程。
“我們認(rèn)為,這個(gè)最優(yōu)值約為每秒4~6GB的帶寬分配給每個(gè)核心,這正是我們的設(shè)計(jì)目標(biāo)。在這類(lèi)場(chǎng)景下,不實(shí)現(xiàn)SMT是更合適的選擇,因此我們目前沒(méi)有采用SMT的計(jì)劃。”他談道。
二、詳解AGI CPU規(guī)格:3nm、136核、3.7GHz主頻
從運(yùn)行頻率到內(nèi)存及I/O架構(gòu),Arm AGI CPU每一處設(shè)計(jì)都經(jīng)過(guò)專(zhuān)門(mén)優(yōu)化,在高密度機(jī)架部署場(chǎng)景下,支持大規(guī)模并行、高性能的智能體AI工作負(fù)載。
AGI CPU采用臺(tái)積電3nm制程工藝,基于標(biāo)準(zhǔn)Arm Neoverse V3計(jì)算子系統(tǒng),單顆CPU集成136個(gè)Arm Neoverse V3高性能核心,配備2MB L2緩存,支持高達(dá)3.7GHz的主頻。
![]()
該芯片提供每核心6GB/s內(nèi)存帶寬。領(lǐng)先的內(nèi)存帶寬使每個(gè)機(jī)架能支持更多高效執(zhí)行的線(xiàn)程。相比之下,x86 CPU在持續(xù)高負(fù)載下會(huì)因核心爭(zhēng)搶資源而導(dǎo)致性能下降。
![]()
Arm將整個(gè)系統(tǒng)設(shè)計(jì)為低延遲架構(gòu),使內(nèi)存訪(fǎng)問(wèn)延遲低于100納秒。
為此,AGI CPU采用了雙Chiplet設(shè)計(jì),每個(gè)Chiplet將所有內(nèi)存和IO直接集成其上,無(wú)需擔(dān)憂(yōu)復(fù)雜的NUMA域和跨硅片的多次跳轉(zhuǎn)。
在互聯(lián)方面,Arm AGI CPU采用96通道PCIe Gen 6接口,支持CXL 3協(xié)議,可連接任意加速器,同時(shí)支持內(nèi)存擴(kuò)展等功能。
![]()
其TDP(熱設(shè)計(jì)功耗)為300W,每線(xiàn)程獨(dú)立核心,可在持續(xù)負(fù)載下提供確定性性能,避免降頻與線(xiàn)程閑置。
三、支持風(fēng)冷和液冷,單機(jī)架性能達(dá)x86系統(tǒng)的2倍以上
為加速產(chǎn)品采用,Arm推出Arm AGI CPU1OU雙節(jié)點(diǎn)參考服務(wù)器。該服務(wù)器采用符合OCP(開(kāi)放計(jì)算項(xiàng)目,Open Compute Project)的DC-MHS標(biāo)準(zhǔn)規(guī)格設(shè)計(jì)。
![]()
Arm的參考服務(wù)器采用1OU雙節(jié)點(diǎn)設(shè)計(jì),每臺(tái)刀片服務(wù)器中集成2顆CPU芯片,并配備獨(dú)立內(nèi)存與I/O,共計(jì)272個(gè)核心。
![]()
AGI CPU支持高密度1U服務(wù)器機(jī)箱的風(fēng)冷部署方案。下圖是一個(gè)標(biāo)準(zhǔn)OCP風(fēng)冷機(jī)架。這些刀片服務(wù)器可在標(biāo)準(zhǔn)風(fēng)冷36kW機(jī)架中滿(mǎn)配部署,30臺(tái)雙節(jié)點(diǎn)1OU刀片服務(wù)器可提供總計(jì)8160個(gè)核心。
![]()
在該配置下,Arm AGI CPU可實(shí)現(xiàn)單機(jī)架性能達(dá)到最新x86系統(tǒng)的2倍以上。
![]()
此外,Arm與Supermicro合作推出200kW液冷設(shè)計(jì)方案,可容納336顆Arm AGI CPU,提供超過(guò)45000個(gè)核心。
Arm計(jì)劃向OCP社區(qū)貢獻(xiàn)該參考服務(wù)器設(shè)計(jì)方案及配套固件,并進(jìn)一步提供包括系統(tǒng)架構(gòu)規(guī)范、調(diào)試框架及適用于所有Arm架構(gòu)系統(tǒng)的診斷與驗(yàn)證工具等資源。
這些貢獻(xiàn)將惠及整個(gè)生態(tài)系統(tǒng),對(duì)所有基于Arm的平臺(tái)均有裨益。
更多細(xì)節(jié)將在即將舉辦的OCP EMEA峰會(huì)上公布。
四、與Meta聯(lián)合開(kāi)發(fā),還有多家首發(fā)合作伙伴
Meta、OpenAI高管均來(lái)到Arm Everywhere大會(huì)現(xiàn)場(chǎng)并登臺(tái)分享。
Meta作為Arm AGI CPU的早期合作伙伴與客戶(hù),參與該CPU的聯(lián)合開(kāi)發(fā),旨在為Meta全系應(yīng)用優(yōu)化GW級(jí)規(guī)模基礎(chǔ)設(shè)施,并與Meta自研MTIA推理加速器協(xié)同運(yùn)行,從而在大規(guī)模AI系統(tǒng)中實(shí)現(xiàn)更高效的編排與調(diào)度。
![]()
“這場(chǎng)聯(lián)姻,我個(gè)人認(rèn)為是雙贏的,非常令人振奮,看到從單純的IP授權(quán)提供商,走向真正參與構(gòu)建生產(chǎn)級(jí)、生產(chǎn)就緒產(chǎn)品的行列,”Meta基礎(chǔ)設(shè)施負(fù)責(zé)人Santosh Janardhan談道,“我認(rèn)為最甜蜜的事情需要一些時(shí)間,而我們現(xiàn)在就要到了。”
他說(shuō)Meta和Arm談合作,核心理由是想在每瓦內(nèi)放入更多的核心,但不想在性能上有任何妥協(xié)。
現(xiàn)在每天有約35億人使用Meta的產(chǎn)品。每一次交互、每一篇帖子、每一個(gè)信息流、每一通電話(huà),都建立在Meta后端構(gòu)建的基礎(chǔ)設(shè)施之上,即定制數(shù)據(jù)中心、定制硬件和定制芯片。
大約兩年半前,Meta先做了市場(chǎng)調(diào)研,看看是否有哪款CPU能滿(mǎn)足規(guī)格要求,結(jié)果要么滿(mǎn)足了性能、功耗不滿(mǎn)足,要么滿(mǎn)足了功耗、性能不達(dá)標(biāo)。
而Arm提供的可擴(kuò)展性,讓Meta能夠注入更多算力,做到了優(yōu)化每瓦性能、每千兆瓦性能、優(yōu)化Meta全平臺(tái)性能。
雙方承諾將圍繞Arm AGI CPU的多代芯片產(chǎn)品展開(kāi)長(zhǎng)期深度合作。
其他首發(fā)合作伙伴包括Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP及SK電訊。
這些客戶(hù)將在智能體CPU核心應(yīng)用場(chǎng)景中部署Arm AGI CPU,覆蓋加速器管理、控制平面處理、云與企業(yè)級(jí)API、任務(wù)與應(yīng)用托管等領(lǐng)域。
在大會(huì)展區(qū),SK電信旗下Rebellions展示了使用Arm AGI CPU作為頭節(jié)點(diǎn),在同一臺(tái)服務(wù)器中有一批加速器的實(shí)例。
![]()
Arm展示了強(qiáng)大的“朋友圈”。超大規(guī)模計(jì)算服務(wù)商、云計(jì)算、芯片、內(nèi)存、網(wǎng)絡(luò)、軟件、系統(tǒng)設(shè)計(jì)與制造等領(lǐng)域的50余家行業(yè)龍頭企業(yè),均對(duì)Arm計(jì)算平臺(tái)向芯片領(lǐng)域拓展表示支持。
![]()
英偉達(dá)、谷歌、微軟、亞馬遜云科技、博通、Marvell、美光、微軟、三星、SK海力士、臺(tái)積電等企業(yè)的高管一通猛夸,認(rèn)為Arm AGI CPU是整個(gè)生態(tài)系統(tǒng)發(fā)展的重要里程碑,將帶來(lái)新一代定制化計(jì)算能力,進(jìn)一步釋放Arm生態(tài)系統(tǒng)的潛力,讓更多客戶(hù)能夠便捷地獲取Arm的計(jì)算能力,為所有基于Arm構(gòu)建智能未來(lái)的合作伙伴創(chuàng)造新的重大機(jī)遇。
“我們很自豪能與Arm共同構(gòu)建這個(gè)開(kāi)放、可擴(kuò)展、高能效的AI未來(lái)。加速計(jì)算并沒(méi)有讓CPU變得無(wú)關(guān)緊要,它讓CPU成為不可或缺的合作伙伴。Arm架構(gòu)已經(jīng)成為我們所有平臺(tái)的基礎(chǔ)。”黃仁勛說(shuō),“Arm的適應(yīng)性和可定制性,真正使我們能夠?qū)rm整合至所有平臺(tái)之中。”
結(jié)語(yǔ):云端AI業(yè)務(wù)有望成Arm最大支柱,未來(lái)劍指1萬(wàn)億美元市場(chǎng)
“全球沒(méi)有任何一家公司的生態(tài)系統(tǒng),能像我們這樣從邊緣端到云端貫通服務(wù)。”Rene Haas說(shuō)。
他預(yù)測(cè),云端AI業(yè)務(wù)可能在幾年內(nèi)成為Arm最大的業(yè)務(wù)。
如今數(shù)以萬(wàn)計(jì)的公司在云端運(yùn)行其軟件于Arm之上,依托已向全球數(shù)據(jù)中心交付的超過(guò)12.5億個(gè)Arm Neoverse核心。這一增長(zhǎng)仍在加速。
![]()
三十多年來(lái),產(chǎn)業(yè)界基于Arm計(jì)算平臺(tái)持續(xù)創(chuàng)新,在數(shù)千億臺(tái)設(shè)備上實(shí)現(xiàn)了可擴(kuò)展、高能效的計(jì)算能力。整個(gè)生態(tài)系統(tǒng)正尋求大規(guī)模部署Arm技術(shù)的方案。
![]()
“今天標(biāo)志著Arm計(jì)算平臺(tái)邁入全新發(fā)展階段,也成為公司發(fā)展的重要里程碑。”Rene Haas談道,AI從根本上重塑了計(jì)算的構(gòu)建與部署,智能體計(jì)算正加速這一變革,隨著Arm AGI CPU芯片推出,Arm將助力智能體AI基礎(chǔ)設(shè)施實(shí)現(xiàn)全球規(guī)模化部署。
在審視智能體AI發(fā)展、CPU需求增長(zhǎng)、高能效CPU為數(shù)據(jù)中心帶來(lái)的價(jià)值后,Arm預(yù)判這在未來(lái)將代表約1000億美元的TAM。
![]()
“將我們?cè)谒惺袌?chǎng)上積累的成果,從邊緣到云端,從毫瓦到千兆瓦,我們有機(jī)會(huì)在一個(gè)1萬(wàn)億美元量級(jí)的市場(chǎng)中大展身手。”Rene Haas說(shuō)。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.