![]()
本文由半導(dǎo)體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自theregister
Arm和RISC-V想說幾句。
還記得高性能計(jì)算似乎總是x86架構(gòu)的天下嗎?十年前,TOP500超級(jí)計(jì)算機(jī)(學(xué)術(shù)界每年兩次評(píng)選出的最強(qiáng)超級(jí)計(jì)算機(jī)榜單)中,近九成都是基于英特爾處理器的。而如今,這一比例已降至57%。
英特爾曾經(jīng)在高性能計(jì)算領(lǐng)域占據(jù)主導(dǎo)地位,但其影響力正在減弱。如今,其他處理器正在迅速崛起。
自20 世紀(jì) 70 年代中期 Cray 公司率先推出向量處理器(非常擅長(zhǎng)對(duì)大型數(shù)據(jù)集執(zhí)行單個(gè)操作)以來,超級(jí)計(jì)算的發(fā)展經(jīng)歷了一波又一波的演變。
后來出現(xiàn)了精簡(jiǎn)指令集芯片(RISC)架構(gòu),例如64位DEC Alpha、IBM POWER、Sun/Fujitsu SPARC、SGI MIPS和HP PA-RISC等芯片。每種架構(gòu)都具有獨(dú)特的性能特點(diǎn)。它們更簡(jiǎn)單的指令集實(shí)現(xiàn)了快速的指令解碼和流水線處理,并且比基于向量的系統(tǒng)更適用于通用應(yīng)用場(chǎng)景。
商品集群的到來
RISC面臨的問題是經(jīng)濟(jì)性的。小批量生產(chǎn)的芯片成本遠(yuǎn)高于x86等通用芯片。NASA意識(shí)到了這一點(diǎn),早在1994年就開始在其Beowulf超級(jí)計(jì)算機(jī)集群中使用英特爾芯片。事實(shí)證明,并行運(yùn)行廉價(jià)芯片可以在性能上接近甚至媲美專用硬件,同時(shí)大幅降低成本。
英特爾的ASCII Red 在 1997 年延續(xù)了這項(xiàng)工作,成為第一臺(tái)使用 9,152 個(gè)奔騰 Pro 處理器的 teraFLOPS 工作站專用機(jī)器。
英特爾雖然獲得了市場(chǎng)份額,但GPU的重要性日益凸顯。英偉達(dá)在2006年推出的CUDA技術(shù),將圖形處理器轉(zhuǎn)變?yōu)橥ㄓ糜?jì)算機(jī),顯著提升了并行數(shù)據(jù)工作負(fù)載的處理速度。
市場(chǎng)分析公司Intersect360 Research的首席執(zhí)行官Addison Snell表示:“人工智能趨勢(shì)和超大規(guī)模計(jì)算的發(fā)展,真正為x86架構(gòu)之外的CPU架構(gòu)開辟了機(jī)遇。市場(chǎng)上很大一部分高增長(zhǎng)用戶都在追逐加速器,尤其是英偉達(dá)的GPU,這確實(shí)推動(dòng)了許多架構(gòu)的發(fā)展。”
然而,這些GPU仍然需要CPU來處理部分工作負(fù)載。
這種CPU密集型負(fù)載包括作業(yè)調(diào)度、工作流管理、I/O以及難以并行化的標(biāo)量運(yùn)算。“例如,求平均值,對(duì)吧?GPU在這方面的速度不會(huì)比Arm芯片或x86芯片更快,”Cambria-AI Research的創(chuàng)始人兼首席分析師Karl Freund解釋道。“所以,當(dāng)你完成一層運(yùn)算后,想要計(jì)算各個(gè)節(jié)點(diǎn)的平均值時(shí),那就讓Arm來做吧。”
無論是英特爾還是AMD的x86芯片,都迅速發(fā)展,在市場(chǎng)上超越了RISC芯片,并越來越多地與GPU協(xié)同工作,承擔(dān)繁重的并行計(jì)算任務(wù)。例如,2012年,橡樹嶺國(guó)家實(shí)驗(yàn)室的Titan超級(jí)計(jì)算機(jī)憑借18,688個(gè)節(jié)點(diǎn),將AMD Opteron處理器與Nvidia K20 GPU相結(jié)合,實(shí)現(xiàn)了17.6 petaflops的運(yùn)算能力,榮登TOP500榜首。
英偉達(dá)在高性能計(jì)算(HPC) GPU 領(lǐng)域的統(tǒng)治地位源于其完整且緊密集成的硬件和軟件解決方案。
“英偉達(dá)更大的優(yōu)勢(shì)在于軟件方面,”斯內(nèi)爾的同事、Intersect360 Research 的高級(jí)分析師史蒂夫·康威說道。“他們很早就對(duì)管理 CUDA 這個(gè)龐然大物的軟件進(jìn)行了投資。”
他表示,這套技術(shù)棧才是公司真正的護(hù)城河。公司投入巨資,不僅讓現(xiàn)有商業(yè)開發(fā)者能夠使用,也讓大學(xué)里的未來一代開發(fā)者能夠使用,從而構(gòu)筑了這道護(hù)城河。
AMD的高性能計(jì)算策略
AMD在CPU和GPU領(lǐng)域都展現(xiàn)出了巨大的潛力。其面向服務(wù)器和嵌入式系統(tǒng)的EPYC架構(gòu),助力橡樹嶺國(guó)家實(shí)驗(yàn)室在2023年再次榮登榜首,其Frontier服務(wù)器搭載了9472顆AMD CPU和37888顆AMD Instinct GPU(AMD的數(shù)據(jù)中心GPU品牌)。
AMD的米蘭、熱那亞和都靈EPYC處理器系列不斷提升芯片密度,助力其取得更多重大勝利。11月,勞倫斯·利弗莫爾國(guó)家實(shí)驗(yàn)室(LANL)的El Capitan超級(jí)計(jì)算機(jī)憑借AMD EPYC和Instinct處理器的組合,蟬聯(lián)了超級(jí)計(jì)算機(jī)領(lǐng)域的霸主地位。
布里斯托爾超級(jí)計(jì)算中心主任西蒙·麥金托什-史密斯非常看好AMD。“AMD的競(jìng)爭(zhēng)力日益增強(qiáng)。他們的硬件非常出色,與英偉達(dá)不相上下。他們傳統(tǒng)上較弱的領(lǐng)域是軟件,”他說道,并呼吁加大對(duì)軟件方面的投資。
Arm從移動(dòng)端到百億億次級(jí)計(jì)算的循序漸進(jìn)之路
盡管AMD在競(jìng)爭(zhēng)激烈的x86高性能計(jì)算(HPC)市場(chǎng)中已取得顯著進(jìn)展,超越英特爾,但Arm也是該領(lǐng)域的有力競(jìng)爭(zhēng)者。由巴塞羅那超級(jí)計(jì)算中心于2011年啟動(dòng)的Mont-Blanc項(xiàng)目,利用嵌入式Arm芯片在實(shí)驗(yàn)集群中驗(yàn)證了Arm架構(gòu)在歐洲的有效性。這是最早將Arm架構(gòu)應(yīng)用于高性能計(jì)算機(jī)器的實(shí)驗(yàn)之一。
近十年后,Arm于2020年在日本理研計(jì)算科學(xué)中心部署了富岳超級(jí)計(jì)算機(jī),這可以說是Arm迄今為止最偉大的成就。這款性能高達(dá)442 petaFLOPS的超級(jí)計(jì)算機(jī)采用48核A64FX處理器,一舉登上TOP500榜首。
一年后,在2021 年,Arm 將矢量處理引入到其 Neoverse 數(shù)據(jù)中心處理器設(shè)計(jì)中,推出了 Neoverse V1 CPU,該 CPU 具有可擴(kuò)展矢量擴(kuò)展功能。
Arm 與英偉達(dá)的合作使其在高性能計(jì)算 (HPC) 領(lǐng)域獲得了重要的戰(zhàn)略立足點(diǎn)。這項(xiàng)于 2021 年宣布的合作促成了 Grace 芯片的誕生,這是一款基于 Arm 架構(gòu)的英偉達(dá)芯片,隨后英偉達(dá)又將其與 Hopper GPU 相結(jié)合,打造了 Grace Hopper 超級(jí)芯片。
超過40 個(gè)超級(jí)計(jì)算機(jī)項(xiàng)目宣布支持 Grace Hopper,其中包括德國(guó)的 Jupiter 系統(tǒng),該系統(tǒng)剛剛成為歐洲第一個(gè)百億億次級(jí)系統(tǒng),運(yùn)算速度達(dá)到1 exaFLOPS。
研究還表明,Arm芯片具有很高的能效。例如,2023年的一項(xiàng)人工智能系統(tǒng)基準(zhǔn)測(cè)試發(fā)現(xiàn),與同類x86芯片相比,Arm芯片可節(jié)省約25%至30%的能耗。
布里斯托爾超級(jí)計(jì)算中心也選擇了Arm架構(gòu),其首臺(tái)Isambard超級(jí)計(jì)算機(jī)于2018年問世。如今,其Isambard-AI超級(jí)計(jì)算機(jī)基于Nvidia Grace Hopper節(jié)點(diǎn)構(gòu)建,是英國(guó)最大的超級(jí)計(jì)算機(jī),擁有超過5500個(gè)Grace Hopper節(jié)點(diǎn)。
英偉達(dá)似乎準(zhǔn)備開發(fā)自己的CPU架構(gòu)。該公司與Arm簽訂了為期20年的IP授權(quán)協(xié)議,并已表示將利用該IP構(gòu)建自己的內(nèi)核,這可能意味著它將不再使用現(xiàn)成的Neoverse內(nèi)核。
開放式架構(gòu)提案
盡管Arm目前發(fā)展勢(shì)頭強(qiáng)勁,但其他競(jìng)爭(zhēng)者也正在崛起。其中之一便是RISC-V,它在授權(quán)策略上與Arm截然不同,Arm采用的是完全免費(fèi)的方式。RISC-V由加州大學(xué)伯克利分校開發(fā),是一種完全開放的指令集架構(gòu),無需任何授權(quán)費(fèi)用。
“這是一項(xiàng)巨大的優(yōu)勢(shì),”戰(zhàn)術(shù)計(jì)算實(shí)驗(yàn)室(TCL)首席科學(xué)家兼創(chuàng)始人約翰·萊德爾說道。這位曾在克雷和硅谷圖形公司工作多年的資深人士,在軟件開發(fā)和硬件設(shè)計(jì)方面擁有豐富的經(jīng)驗(yàn)。他現(xiàn)在經(jīng)營(yíng)著一家小型研發(fā)公司,專門從事高性能計(jì)算和高性能數(shù)據(jù)分析領(lǐng)域的新型硬件和軟件研發(fā)。
他說:“如果你想定制一款適用于特定科學(xué)應(yīng)用的x86處理器,你需要從英特爾獲得授權(quán)。然后還要經(jīng)歷一個(gè)非常繁瑣的過程,耗資數(shù)十億美元。”
當(dāng)然,Arm處理器也是如此。但他表示,這并非RISC-V相對(duì)于x86的唯一優(yōu)勢(shì)。這種歷史悠久的架構(gòu)也存在諸多問題。
“x86 是一種傳統(tǒng)架構(gòu),顧名思義,它必須支持 x86 處理器曾經(jīng)擁有的所有傳統(tǒng)指令,”萊德爾指出。1989 年編寫的用于運(yùn)行某人桌面會(huì)計(jì)系統(tǒng)的應(yīng)用程序,仍然需要在 TOP500 機(jī)器內(nèi)部的現(xiàn)代 x86 芯片上運(yùn)行。
“RISC-V 放棄了那個(gè)標(biāo)準(zhǔn)。他們說這簡(jiǎn)直太瘋狂了,”他解釋說。“為什么我們不從頭開始重新設(shè)計(jì),清空一切,把白板上的內(nèi)容都清空,從一開始就把事情做好呢?”
他說,RISC-V 的設(shè)計(jì)理念是提供一個(gè)基礎(chǔ)指令集,然后允許人們?cè)诖嘶A(chǔ)上構(gòu)建自己的可選擴(kuò)展。這樣,他們就可以構(gòu)建針對(duì)自身獨(dú)特應(yīng)用需求的定制芯片。
麥金托什-史密斯對(duì)此并不認(rèn)同。他指出,購(gòu)買Arm許可證是有原因的,其中很大一部分原因與更先進(jìn)的工具有關(guān)。
他解釋說:“免費(fèi)實(shí)現(xiàn)的質(zhì)量和性能無法與蘋果設(shè)備或任何云平臺(tái)上的頂級(jí)Arm內(nèi)核相提并論。開源軟件無法達(dá)到最先進(jìn)的水平,它們只能達(dá)到教科書級(jí)別的優(yōu)秀程度,但并不具備真正的競(jìng)爭(zhēng)力。”
他還指出,測(cè)試和驗(yàn)證套件需要數(shù)十年的投入。“RISC-V 并不提供免費(fèi)的這些,”他說。等你把所有這些都開發(fā)出來之后,免費(fèi)開放系統(tǒng)的優(yōu)勢(shì)可能就蕩然無存了。
歐洲倡議與主權(quán)
但埃蒂安·沃爾特(Etienne Walter)非常樂意談?wù)凴ISC-V的另一個(gè)優(yōu)勢(shì)。他是歐洲處理器計(jì)劃(EPI)的負(fù)責(zé)人,該計(jì)劃于2018年啟動(dòng),旨在利用RISC-V開發(fā)高性能計(jì)算(HPC)加速器技術(shù)。該計(jì)劃在10個(gè)國(guó)家擁有27個(gè)合作伙伴。
它采用了雙架構(gòu)策略:通用處理器采用Arm 架構(gòu),專用加速器采用 RISC-V 架構(gòu)。后者包括一款基于 RISC-V 指令集架構(gòu)中向量擴(kuò)展的 CPU。EPI 于 2021 年完成了 RISC-V 加速器測(cè)試芯片的流片。
除了源自巴塞羅那超級(jí)計(jì)算中心研究的矢量加速器之外,EPI 還致力于可變精度加速和張量加速器的研究。
歐洲政策倡議(EPI)現(xiàn)已結(jié)束,并將接力棒交給了今年3月啟動(dòng)的“歐洲基于RISC-V的數(shù)字自主性”(DARE)項(xiàng)目。該項(xiàng)目擁有2.4億歐元的預(yù)算,由來自13個(gè)國(guó)家的38個(gè)合作伙伴組成。
該計(jì)劃由巴塞羅那超級(jí)計(jì)算中心協(xié)調(diào),目前計(jì)劃持續(xù)到2030 年。它將開發(fā)通用處理器、矢量加速器和人工智能處理單元。
何必費(fèi)心思做這些呢?或許只需快速瀏覽一下美國(guó)的對(duì)外政策就足以說明問題。隨著政治和經(jīng)濟(jì)聯(lián)系的瓦解,主權(quán)的重要性日益凸顯。
“這就是我們關(guān)注的重點(diǎn)。我們必須牢記這種擔(dān)憂,并準(zhǔn)備一些可能的解決方案以防萬一,”沃爾特說,“即使我們知道歐洲的水平不如美國(guó),我們?cè)趯I(yè)知識(shí)和解決方案方面也無法達(dá)到同樣的水平。”
康威理解那些認(rèn)識(shí)到高性能計(jì)算對(duì)經(jīng)濟(jì)發(fā)展日益重要的地區(qū)政府,因此他們不希望受制于外國(guó)勢(shì)力。但其中也存在一些細(xì)微差別。他很難想象高性能計(jì)算能夠完全自主。
“你們依賴來自中國(guó)或其他地方的鋰,依賴來自荷蘭的先進(jìn)光刻技術(shù),”他說。“從這個(gè)意義上講,即使是美國(guó),在處理器層面也無法完全自主。每個(gè)國(guó)家都在談?wù)撨@個(gè)問題,好像這是一個(gè)合理的目標(biāo),但短期內(nèi)可能并非如此。”
Arm 花了大約十年時(shí)間才憑借其芯片設(shè)計(jì)打造出一個(gè)強(qiáng)大的超級(jí)計(jì)算平臺(tái)。2011 年推出 64 位處理器還不夠;它還需要合適的軟件棧和驗(yàn)證生態(tài)系統(tǒng)。
現(xiàn)在,RISC-V 也必須做到這一點(diǎn)。“生態(tài)系統(tǒng)尚未成熟,或者說還不夠完善,這是肯定的,”沃爾特說。“要建立一個(gè)穩(wěn)定成熟的環(huán)境,還有很多工作要做,但我毫不懷疑最終會(huì)實(shí)現(xiàn)。這只是時(shí)間問題。”
需要多少時(shí)間?DARE的第一階段,SGA-1,目標(biāo)是在三年內(nèi)打造“一套完全由歐洲自主研發(fā)的高性能計(jì)算和人工智能超級(jí)計(jì)算硬件/軟件體系”。接下來,它還得說服人們使用它。
斯內(nèi)爾持謹(jǐn)慎樂觀態(tài)度。“我認(rèn)為RISC-V在未來五年內(nèi)確實(shí)有很大的潛力,”他說。“我們認(rèn)為它目前只比Arm落后一點(diǎn)點(diǎn),它真的需要一位能夠帶領(lǐng)它前進(jìn)的領(lǐng)軍人物。”
RISC-V 的發(fā)展取得了一些進(jìn)展。10 月,Meta 收購(gòu)了 RISC-V 初創(chuàng)公司 Rivos。這將使 Meta 擁有自主研發(fā)的、兼容 CUDA 的混合 CPU-GPU RISC-V 架構(gòu),而 Meta 目前依賴第三方芯片供應(yīng)商。據(jù)報(bào)道,Meta 也一直在內(nèi)部研發(fā)自己的 RISC-V 芯片。
高性能計(jì)算(HPC)處理器經(jīng)歷了一個(gè)發(fā)展周期,最初是各種專有芯片并存的時(shí)代,后來隨著通用芯片的普及而逐漸減少。如今,情況似乎又開始逆轉(zhuǎn)。目前有幾家關(guān)鍵廠商,還有一些廠商正在蓄勢(shì)待發(fā)。一些超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商本身就是獨(dú)立的市場(chǎng),并且正在開展一些有趣的項(xiàng)目。微軟有Maia,AWS有Inferentia和Trainium,谷歌有TPU,它們都是定制的ASIC芯片。
再深入探究,你會(huì)發(fā)現(xiàn)更多奇妙之處。Cerebras 擁有晶圓級(jí)引擎,它通過將所有功能集成到單個(gè)芯片上,繞過了互連瓶頸。此外,還有一些硅光子學(xué)項(xiàng)目,旨在通過在芯片上直接實(shí)現(xiàn)光計(jì)算互連來降低功耗。
由于牽涉到巨額資金,高性能計(jì)算領(lǐng)域的變革步伐緩慢。但如今涌現(xiàn)出如此多的有趣選擇,而且還有更多方案正在醞釀之中,x86 的世界不太可能永遠(yuǎn)是它的天下。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請(qǐng)聯(lián)系后臺(tái)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.