![]()
文|白 鴿
編|王一粟
AI大模型帶動(dòng)的熱潮,也在持續(xù)地席卷算力行業(yè)。
從CPU到GPU,再到NPU,各種AI芯片逐漸成為了市場中的香餑餑。
中國AI芯片也趁此機(jī)會(huì)開始崛起。從華為、阿里、百度等大廠,到寒武紀(jì)、云天勵(lì)飛、?壁仞科技?、摩爾線程等新興企業(yè),中國AI芯片的單顆能力在不斷提升。
但是,哪怕單顆芯片能力再強(qiáng),算力也不能夠滿足大模型的需求。
尤其是隨著大模型參數(shù)的不斷翻倍,很多企業(yè)可能都會(huì)遇見的問題,就是8張卡的服務(wù)器根本跑不動(dòng),勉強(qiáng)用多臺(tái)機(jī)器拆分任務(wù),結(jié)果CPU、AI芯片、存儲(chǔ)之間“各說各話”,數(shù)據(jù)傳著傳著就“堵車”,算力損耗快到一半。
![]()
更要命的在于,不同廠商的設(shè)備像說不同方言的人:
A廠的CPU用一套協(xié)議,B廠的GPU用另一套,數(shù)據(jù)從CPU傳到GPU,得先“翻譯”,一來一回就浪費(fèi)時(shí)間;甚至同一廠商的不同設(shè)備,規(guī)模擴(kuò)大后性能也會(huì)“打折”,比如10個(gè)節(jié)點(diǎn)本應(yīng)發(fā)揮10倍算力,實(shí)際可能只到1倍,這就是行業(yè)常說的“線性度”問題。
單個(gè)芯片算力不夠用、不同設(shè)備溝通有障礙,成了整個(gè)行業(yè)的“卡脖子”難題。那么,要怎么解決這些問題,才能夠支撐大模型的需求?
眾所周知,當(dāng)單獨(dú)作戰(zhàn)打不過之時(shí),團(tuán)隊(duì)配合戰(zhàn)斗則成為了贏取戰(zhàn)爭勝利的關(guān)鍵,而中國AI算力突破算力瓶頸的一個(gè)關(guān)鍵,就是開始走團(tuán)隊(duì)?wèi)?zhàn)斗路線。
此前,華為發(fā)布了“超節(jié)點(diǎn)”架構(gòu),配套的技術(shù)則是“靈衢”(UnifiedBus)。
簡單理解兩者的關(guān)系,當(dāng)單顆芯片算力不夠用,就需要將多種算力如CPU、GPU、NPU、存力等統(tǒng)一起來干活,超節(jié)點(diǎn)架構(gòu)就是將多種算力部件整合為一個(gè)大節(jié)點(diǎn),而互聯(lián)協(xié)議則是讓這些部件能順暢溝通的規(guī)則,只有雙方相互配合,才能夠把整個(gè)算力系統(tǒng)的能力提升上去。
其中最核心的就是靈衢技術(shù),其搞出了“算力普通話”,即一套能覆蓋所有場景的統(tǒng)一協(xié)議,不管是超節(jié)點(diǎn)內(nèi)部的CPU和GPU的溝通,還是超節(jié)點(diǎn)之間的集群互聯(lián),都不用換“語言”,這就像全國都講普通話,不用到一個(gè)地方學(xué)一種方言,溝通效率自然高。
這套“普通話”還打破了兩個(gè)關(guān)鍵界限:計(jì)算機(jī)網(wǎng)絡(luò),如平時(shí)上網(wǎng)的物理層、鏈路層,以及計(jì)算機(jī)內(nèi)部架構(gòu),如內(nèi)存管理、節(jié)點(diǎn)控制等。
過去,這倆像兩個(gè)獨(dú)立的房間,數(shù)據(jù)得“開門、進(jìn)門、再開門”,而靈衢直接拆了兩者之間的“墻”,底層用網(wǎng)絡(luò)邏輯連設(shè)備,上層用架構(gòu)邏輯管資源,數(shù)據(jù)傳輸?shù)摹奥贰币幌伦幼兺〞沉恕?/p>
同時(shí),靈衢的超節(jié)點(diǎn)也不是“把部件堆一起就行”。華為專家強(qiáng)調(diào),靈衢超節(jié)點(diǎn)是“超級(jí)單一節(jié)點(diǎn)”,不是“松散的部件集合”,就像把多間小房子改成一套大平層,所有家具(CPU、GPU、NPU、內(nèi)存)都連在一條“統(tǒng)一的高速總線”上,不用再繞路,如交換機(jī),過去只是“數(shù)據(jù)中轉(zhuǎn)站”,現(xiàn)在在靈衢里成了“處理單元”,能直接參與算力協(xié)作。
基于這些突破,靈衢要實(shí)現(xiàn)四個(gè)目標(biāo),即讓不同算力“組隊(duì)干活”(提升計(jì)算性能)、系統(tǒng)出問題能快速恢復(fù)(高可用)、內(nèi)存帶寬等資源“集中共用不浪費(fèi)”(資源池化)、不同廠商部件“插進(jìn)去就能用”(組件貨架化)。
這些目標(biāo)的最終目的,都是為了讓整個(gè)算力系統(tǒng)“更高效、更靈活、更省錢”。
而華為靈衢之所以能夠?qū)崿F(xiàn)“一套通吃”,原因在于,華為從一開始就盯著“整個(gè)算力系統(tǒng)”,不是只做單個(gè)產(chǎn)品,沒有受制于老產(chǎn)品的束縛。
同時(shí),華為靈衢于2019年正式立項(xiàng),并把華為過去自研IT設(shè)備的經(jīng)驗(yàn)、技術(shù)成果,還有搞集群的工程經(jīng)驗(yàn)全部融入其中,同時(shí)還和鯤鵬、昇騰這些華為芯片一起反復(fù)測試。
基于這些實(shí)踐經(jīng)驗(yàn),“現(xiàn)在靈衢1.0已經(jīng)完成產(chǎn)品化,經(jīng)過了芯片驗(yàn)證、集群交付驗(yàn)證,是工業(yè)化級(jí)別的可靠系統(tǒng)。”華為集群計(jì)算總經(jīng)理朱照生說。
![]()
華為集群計(jì)算總經(jīng)理朱照生
同時(shí),在具體落地客戶實(shí)踐場景中,也會(huì)考慮客戶原有設(shè)備,比如客戶已有以太網(wǎng),靈衢也能直接在上面跑,不用大改基礎(chǔ)設(shè)施,還能和現(xiàn)有的應(yīng)用互通。
而為了讓更多的廠商參與進(jìn)來,華為還開放了靈衢的“全套說明書”,即從物理層到事務(wù)層的協(xié)議規(guī)范全公開,甚至找了第三方做“協(xié)議驗(yàn)證儀”。
“不管是做CPU的、做GPU的,只要按規(guī)范做,就能用靈衢,未來還能通過第三方驗(yàn)證是不是符合標(biāo)準(zhǔn)。”朱照生說到,“說實(shí)話,靈衢發(fā)布后,已經(jīng)有很多廠商找過來跟我們交流,這已經(jīng)超出了我們最初的預(yù)期。”畢竟,在其預(yù)期中,可能只有2-3家頭部廠商會(huì)找過來。
業(yè)內(nèi)皆知,過去,不同廠商的協(xié)議不互通,客戶只能“綁定一家”,選擇少還貴。但現(xiàn)在靈衢開放了協(xié)議,不管是華為的競爭對(duì)手,還是中小廠商,都能基于靈衢做產(chǎn)品。
朱照生說:“我們希望先做企標(biāo),再慢慢形成團(tuán)標(biāo)、甚至國標(biāo),讓大家一起把算力基礎(chǔ)設(shè)施做好。”比如某廠商想做GPU,不用自己再搞一套協(xié)議,直接用靈衢,就能和華為的CPU、其他廠商的存儲(chǔ)兼容,大大降低了研發(fā)成本。
據(jù)靈衢系統(tǒng)架構(gòu)師介紹,在AI大模型訓(xùn)練場景,通過超節(jié)點(diǎn)互聯(lián)降低通信占比,端到端性能收益達(dá)到20%+;通算數(shù)據(jù)庫場景,通過三層池化支撐多寫多讀,TPCC提升20%。結(jié)論表明,靈衢技術(shù)特別適合高并行、高同步的負(fù)載特征場景,能為業(yè)務(wù)帶來顯著提升。
另外,當(dāng)前行業(yè)關(guān)于超節(jié)點(diǎn)是否越大越好也存在著諸多爭議。對(duì)此,朱照生的回答很坦誠:“現(xiàn)在沒人能說清‘甜點(diǎn)區(qū)’在哪,因?yàn)锳I的發(fā)展總是超出預(yù)期。我們能做的,就是把超節(jié)點(diǎn)的規(guī)模做大,給行業(yè)留足空間。”
因此,靈衢2.0作為核心技術(shù)底座,支撐華為發(fā)布兩款超大規(guī)模算力產(chǎn)品,覆蓋不同階段需求:
Atlas 950 SuperCluster(2026年Q4上市):由64個(gè)Atlas 950超節(jié)點(diǎn)組成,F(xiàn)P8算力達(dá)524 EFLOPS,規(guī)模與算力超過當(dāng)前全球最大集群xAI Colossus;
Atlas 960 SuperCluster(2027年Q4上市):百萬卡級(jí)集群,F(xiàn)P8算力2 ZFLOPS、FP4算力4 ZFLOPS,支持UBoE(靈衢推薦模式)與RoCE協(xié)議,適配未來更大規(guī)模AI訓(xùn)練、推理需求;
越大的超節(jié)點(diǎn)集群,整體算力性能越突出,以Atlas 950 SuperPoD為例,其支持8192張昇騰卡,訓(xùn)練吞吐達(dá)4.91M TPS,推理吞吐達(dá)19.6MTPS,遠(yuǎn)超前代產(chǎn)品。
“如果我們不能夠準(zhǔn)確預(yù)判未來負(fù)載模型一旦收斂于某一類模型某一個(gè)大小,我們就沒法在算力基礎(chǔ)設(shè)施層面給它設(shè)個(gè)框,如果設(shè)定那個(gè)框,那個(gè)框一定會(huì)反過來制約模型發(fā)展。”朱照生說。
當(dāng)前,我們不難發(fā)現(xiàn):算力的競爭,早已不是“單芯片誰更強(qiáng)”,而是“系統(tǒng)誰更高效”。
靈衢的價(jià)值,就在于用一套“通用語言”,把分散的算力聚合成一股力量,它或許不會(huì)馬上改變所有,但至少給行業(yè)指了一個(gè)方向:未來的計(jì)算,不該有“語言壁壘”,不該有“設(shè)備孤島”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.