在過去的幾十年時間里,Arm其實一直扮演著全球半導體行業的“軍火商”角色。它雖然給各個廠商提供底層指令集架構和IP授權,但是卻一直沒有下場參戰,而是坐看各個芯片廠打得熱火朝天。
穩坐釣魚臺的好處是不會被各個廠商視為競爭對手,無需在意競爭壓力。即使是主導x86架構的英特爾、AMD,其實也有不少Arm芯片研發計劃,因為他們眼中的競爭對手依然是彼此。
不過,這種局面從今天開始可能就要結束了。Arm正式宣布其計算平臺進入新的發展階段,首次將產品線從IP和CSS(計算子系統)擴展到量產芯片領域,并發布首款產品——Arm AGI CPU。
![]()
圖源:Arm
看名字就知道,這玩意是給AI服務器準備的,看來AI算力市場的巨大利潤實在是讓Arm也坐不住了。畢竟他們近年來一直飽受營收增長放緩的困擾,迫切需要一個破局點,而AI數據中心顯然是目前乃至未來最合適的選擇。
從幕后走到臺前,Arm丟出王炸
說實話,AGI CPU發布得挺突然的,雷科技也是早上剛收到Arm發送的郵件,才知道他們悄然間搞了個大玩意。
AGI CPU最高可集成136個Neoverse V3核心,不過也提供128核、64核兩個不同的核心規格可選,并且均支持單路和雙路架構,這就給了服務器廠商們很大的選擇與搭配空間。
而且,從官方文檔提供的數據來看,AGI CPU的核心性能也非常亮眼,其基頻為3.2GHz,加速主頻可達3.7GHz,最高支持DDR5-8800內存,而且還支持PCIe 6.0和CXL 3.0(是服務器CPU中首個支持PCIe 6.0的產品),而TDP僅為300W。
看到這里可能就有人要問了:“這玩意最高主頻才3.7GHz,牛在哪?”這就不得不給大家科普一下:服務器芯片的主頻隨著核心數的增加,往往都會大幅度下降,因為其與傳統CPU負責的任務是不同的。
傳統的高主頻CPU核心數一般都不會超過三位數,比如AMD的EPYC 9575F,雖然有著3.3GHz的基頻和5.0GHz的加速主頻,但是核心數僅64個,主要負責數據中心的高負載單線程任務計算,而數據中心日常最常見的低負載高并發任務,則是由多核心低主頻的CPU負責。
![]()
圖源:Arm
所以,單純從核心主頻來判斷服務器CPU的性能是完全錯誤的。作為對比,與AGI CPU類似的CPU如AMD EPYC 9965,其基頻僅2.25GHz,加速主頻同樣是3.7GHz,而這已經是目前業界的頂級服務器CPU。
可以說,Arm一出手就直接把自己的服務器CPU干到了業界的頂級水平,而且其TDP還比EPYC 9965低200W(僅300W),是目前同類型CPU中能效比最高的。根據官方的說法,在相同的供電規模下,AGI CPU可以提供兩倍于x86架構服務器的算力和性能。
簡單來說,AGI CPU可以讓AI數據中心以更低的建設和后期維護成本,維持更高的算力規模,這對于云服務商來說無異于“瞌睡遇到枕頭”。畢竟現在Token成本降不下去的核心原因就是電力成本實在太高了。
可能有人覺得電費不算什么,但是當能耗達到數據中心的級別時,每一瓦功率的差距都會對整體成本帶來顯著影響。
舉個例子,在OpenRouter統計的數據中,最近一個月的全球Token調用量中國以絕對優勢領先于美國。甚至中國數據中心燒掉的Token有相當一部分來自歐美等海外地區,而在模型活躍度排名中,前五的模型有四個是中國模型,美國僅Claude上榜。
![]()
圖源:Arm
為什么大家放著ChatGPT等性能更好的AI模型不用,而是用中國模型?原因無他,高性價比。有網友曾經統計過,在相似的AI模型性能下,中國的Token價格一般只有美國的十分之一到三十分之一,而支撐中國Token成本的則是中國的廉價電費。
而在前段時間,美國各州陸續通過決議,要求AI企業自負電費成本,意味著美國AI企業的用電成本進一步上升,然后你就會發現各個AI數據中心對高能效芯片的需求會越來越大。
所以說,AGI CPU的發布時機也非常巧妙,恰好卡在各大公司對高能效芯片的需求大漲的時候。
不再是配角,CPU將成為新的算力核心?
看到這里,估計有讀者納悶了:大家知道GPU是算力核心,為什么CPU也是?其實,準確來說CPU并非直接的算力核心。在整個AI數據中心的算力架構里,它更多作為調度中心和輔助計算核心來運行,負責承接低負載需求,以及給GPU拆解和分配任務,讓GPU可以更高效地運算。
事實上,隨著AI應用的重心逐漸轉向實際部署和持續運行的智能體,我們對AI數據中心的要求也在發生很大的改變。你可以理解為,以前是需要一堆尖子生博士(GPU)一起研究一個難題(訓練大模型),那么GPU算力自然是越高越好,因為求的就是速度,能效反而是其次。
但是,在大模型訓練好后,應用端的需求往往是零散且簡單的。比如A用戶問“如何做好煎蛋”,B用戶問“幫我把這堆數據變成表格”,這些零散的任務若是一股腦全部塞給GPU,那么就會造成嚴重的算力浪費。
所以,許多AI數據中心就盯上了CPU。雖然其算力與GPU完全無法比,但是卻可以承接前期推理、協同調度和數據搬運等任務,降低算力核心的負擔,同時也讓算力的使用變得更高效。
![]()
圖源:Arm
根據官方數據預測,隨著企業不斷擴大智能體驅動的應用規模,數據中心對每吉瓦(GW)功耗所能提供的CPU算力需求,將飆升至當前的四倍以上。這意味著,現有的計算架構必須在極其嚴格的功耗限制下,實現算力密度的大幅度提升。
面對這種需求,Arm在架構設計上進行了針對性的取舍與優化,讓AGI CPU擁有出色的大規模并行代理式AI負載能力。簡單來說,你可以將其看作一款特化版的CPU,專注于處理服務器的并行AI請求,而不是無腦堆砌通用算力。
而且,憑借更低的功耗,Arm在與超微合作推出的200kW液冷服務器方案中,直接部署了336顆AGI CPU,單個機柜就擁有超過45000個核心,而在標準的36kW機架中,也同樣支持最多60顆芯片的部署,單機核心可達8160個。
通過最大程度地兼容現有服務器硬件方案,同時推出基于AGI CPU定制的高密度服務器方案,Arm極大降低了傳統數據中心升級AI算力時的散熱改造成本,對于亞馬遜等傳統云服務巨頭來說有著不小的吸引力。
![]()
圖源:Arm
有意思的是,在官方文檔中,Arm表示經過他們的計算,使用AGI CPU部署的AI數據中心,可以在每GW(吉瓦)的AI數據中心算力建設中,節省高達100億美元的成本。考慮到微軟等巨頭的新建數據中心規模已經累積超過5GW,而計劃中的規模更是超過10GW,背后的預估可節省成本相當可觀。
所以,AGI CPU可能不是性能最強的,卻可能是最能省錢且高效的。說白了就是能為巨頭們實打實地省下錢來,并且在后續的運行中以更低成本提供同等規模的算力,這就夠了。
不做攪局者,而是成為“合作者”
那么Arm有機會在競爭激烈的市場中殺出一條血路嗎?雷科技認為是有可能的。事實上,Arm在官方文檔中就已經捎帶了不少行業巨頭的點評和合作動向,顯然Arm并不打算成為一個純粹的市場搶占者,而是選擇與行業巨頭合作,推動AGI CPU的快速落地。
比如Meta就已經官宣他們是Arm的最大合作伙伴,將在接下來的AI數據中心里大范圍部署AGI CPU,并與自研的MTIA加速器協同工作,通過這種方式降低Meta的AI算力部署成本和Token成本。
雖然Meta在頂級模型的競爭上已經落后于OpenAI、谷歌等公司,但是如果他們可以把Token成本降到其他美國企業的三分之一以下,那么在一些市場上將取得明顯優勢。
AGI CPU吸引來的合作方并不只有Meta,OpenAI也表示他們正密切關注這款芯片,并且正在與Arm合作推動AGI CPU在OpenAI數據中心的部署。同時,Arm列出的合作方還包括數十家遍布全球的數據中心運營企業、網絡企業和服務器供應商。
![]()
圖源:Arm
不得不說,憑借過去數十年里積累的生態基礎,Arm確實有不少的支持者。而且他們還做了一個出乎意料的選擇,那就是將服務器的設計方案、配套固件、系統架構規范及驗證工具完全開源。這意味著各個廠商只需要采購AGI CPU的核心,剩下的各種硬件都可以根據需求自研或搭配。
要知道,對于數據中心而言,芯片成本只是其中的一部分,包括各種硬件模塊和主板在內的全套服務器機架的售價同樣不低。比如英偉達的一個高速光模塊售價就高達上千美元,單個計算節點僅光模塊成本就超過上萬美元,而Arm的開源選擇,其實就相當于“我出個引擎”,剩下的車身、輪轂、輪胎等配件你們豐儉由人。
這種“授人以漁”的打法,對于那些被封閉生態(比如極端昂貴的專有網絡互連和封閉式液冷基建)深度綁定的云服務商來說就太爽了。所以,如聯想、廣達、超微等頭部服務器廠商都已經推出早期方案,并表示商用方案將在今年內落地。
對于一款新發布的服務器CPU來說,這個落地速度已經十分驚人,這也意味著其有望趕上2026年的算力擴張浪潮。
在雷科技看來,AGI CPU確實精準踩中了目前AI行業最大的痛點,可以說早一點、晚一點發布都不會引起如此大范圍的關注,或是能拉出50+的合作伙伴搭臺。作為Arm的首個跨界之作,或許也將成為Arm轉型為芯片企業的一個里程碑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.