在通向AGI時(shí)代的宏大敘事中,算力是最具戰(zhàn)略意義的基礎(chǔ)設(shè)施。新華三集團(tuán)高級(jí)副總裁、云與計(jì)算存儲(chǔ)產(chǎn)品線總裁徐潤安說,“今天所有對(duì)算力的創(chuàng)新與嘗試都是值得的。”
![]()
的確,每一次算力架構(gòu)的突破,每一份工程化實(shí)踐的積累,都在為未來AGI的繁榮奠定基石。而超節(jié)點(diǎn),其實(shí)可以看做當(dāng)前算力創(chuàng)新的一個(gè)重要標(biāo)志,它代表了算力工程化創(chuàng)新的極致水平。
我們知道,智算中心正從 “簡單粗放的堆算力” 轉(zhuǎn)向 “精打細(xì)算的擠效率”,這要求多元算力從分散部署走向泛在協(xié)同,超節(jié)點(diǎn)的出現(xiàn)則以極致的密度、效率與協(xié)同能力,成為當(dāng)下算力工程化創(chuàng)新的標(biāo)尺。
但同樣叫做超節(jié)點(diǎn),其內(nèi)在的架構(gòu)和技術(shù)方向可能完全不同,在開放和封閉的不同選項(xiàng)中,超節(jié)點(diǎn)要如何走出一條創(chuàng)新之路?
01
超節(jié)點(diǎn)的路徑分歧:開放VS封閉
眾所周知,傳統(tǒng)數(shù)據(jù)中心的算力增長往往依賴算力設(shè)備的堆砌來實(shí)現(xiàn),這種方式雖然簡單直接,但隨著數(shù)據(jù)中心的規(guī)模越來越大,開始面臨著效率遞減、能耗攀升、管理復(fù)雜度倍增等挑戰(zhàn)。
![]()
客觀的說,超節(jié)點(diǎn)的誕生就源于對(duì)算力效率的極致追求。簡單的說,超節(jié)點(diǎn)是將服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、散熱等要素進(jìn)行系統(tǒng)性重構(gòu),通過硬件集成優(yōu)化與軟件協(xié)同調(diào)優(yōu),實(shí)現(xiàn)算力密度與能耗比的全面突破。這對(duì)于與日俱增的人工智能訓(xùn)練和推理算力需求,無疑是一個(gè)破局的關(guān)鍵。
徐潤安指出,超節(jié)點(diǎn)創(chuàng)新主要體現(xiàn)在三個(gè)維度:“首先是算力密度的突破,通過創(chuàng)新的整機(jī)柜設(shè)計(jì)、先進(jìn)的液冷技術(shù)和精密的電源管理,在有限空間內(nèi)實(shí)現(xiàn)算力的指數(shù)級(jí)增長;其次是通信效率的革命,通過低延時(shí)、高帶寬的互聯(lián)技術(shù),打破傳統(tǒng)服務(wù)器間的數(shù)據(jù)交換瓶頸;最后是系統(tǒng)調(diào)優(yōu)的深化,通過軟硬件協(xié)同設(shè)計(jì),使多元算力能夠高效協(xié)同工作,這三個(gè)維度的創(chuàng)新共同構(gòu)成了超節(jié)點(diǎn)技術(shù)的核心競(jìng)爭(zhēng)力。”
當(dāng)然,既然是“工程化創(chuàng)新”,就意味著超節(jié)點(diǎn)不存在既定的標(biāo)準(zhǔn),因此一個(gè)超節(jié)點(diǎn)的發(fā)展呈現(xiàn)出兩種截然不同的技術(shù)路線:封閉式生態(tài)與開放式生態(tài)。
顧名思義,“封閉式”超節(jié)點(diǎn),是以單一廠商的芯片與軟件棧為核心,通過垂直整合實(shí)現(xiàn)極致性能。其優(yōu)勢(shì)在于軟硬件協(xié)同度高,開發(fā)周期短,能快速投向市場(chǎng),并滿足特定場(chǎng)景需求。
但由于生態(tài)的封閉性,會(huì)讓一些客戶擔(dān)心被技術(shù)鎖定,且難以適應(yīng)當(dāng)下國產(chǎn)算力多元化的發(fā)展趨勢(shì)。對(duì)此,新華三集團(tuán)云與計(jì)算存儲(chǔ)產(chǎn)品線副總裁、產(chǎn)品支持與解決方案部總經(jīng)理武家春說,“新華三更強(qiáng)調(diào)開放式的合作,我們認(rèn)為,要選擇什么樣的GPU這份選擇權(quán)要交給客戶,然后我們會(huì)根據(jù)客戶的需求,來搭適合客戶需求的超節(jié)點(diǎn)。”
很顯然,開放生態(tài)的超節(jié)點(diǎn),會(huì)適配多品牌 GPU,乃至多類型存儲(chǔ)協(xié)議與多元網(wǎng)絡(luò)架構(gòu),并通過標(biāo)準(zhǔn)化接口實(shí)現(xiàn)跨廠商協(xié)同。這種模式更好地滿足了算力多元化的需求,我們也不能忽視技術(shù)對(duì)齊困難、研發(fā)周期長等挑戰(zhàn)。
![]()
當(dāng)然,無論是封閉還是開放,超節(jié)點(diǎn)的核心價(jià)值始終指向“好用的算力”。
正如徐潤安所指出的,今天的智算發(fā)展正處于“螺旋上升的過程”,而超節(jié)點(diǎn)正是推動(dòng)這一螺旋向上的關(guān)鍵動(dòng)力。它不僅解決了當(dāng)前算力供給與需求之間的效率錯(cuò)配,更在為未來多元算力融合奠定基礎(chǔ)。我們相信,在國產(chǎn)算力崛起的大背景下,開放式超節(jié)點(diǎn)有機(jī)會(huì)成為推動(dòng)智算產(chǎn)業(yè)整體進(jìn)步的關(guān)鍵路徑。
02
布滿荊棘的開放之路
技術(shù)對(duì)齊與生態(tài)協(xié)同成最大考驗(yàn)
新華三集團(tuán)云與計(jì)算存儲(chǔ)產(chǎn)品線 智慧計(jì)算產(chǎn)品市場(chǎng)部總監(jiān)湯濤表示,“從產(chǎn)業(yè)的角度,封閉生態(tài)一定不利于發(fā)展,所以新華三會(huì)選擇堅(jiān)持走開放式生態(tài)的路線。”
而這條路的前方,實(shí)則也布滿了不確定性的荊棘。因?yàn)殚_放式超節(jié)點(diǎn)的構(gòu)建遠(yuǎn)比封閉式系統(tǒng)更復(fù)雜,這是一項(xiàng)需要協(xié)調(diào)芯片廠商、整機(jī)廠商、軟件開發(fā)商等多方力量的系統(tǒng)工程。
![]()
首要挑戰(zhàn)在于技術(shù)對(duì)齊。在開放生態(tài)中,各GPU廠商的技術(shù)路線、接口標(biāo)準(zhǔn)、研發(fā)節(jié)奏各不相同,如何實(shí)現(xiàn)硬件層面的互聯(lián)互通成為巨大難題。
徐潤安坦言,“比如芯片設(shè)計(jì)需要12-18個(gè)月周期,整機(jī)開發(fā)又需要9-18個(gè)月,而AI技術(shù)每12-18個(gè)月就會(huì)發(fā)生代際演進(jìn),所以在最后形成交付的時(shí)候,我們會(huì)面臨從設(shè)計(jì)理念、生產(chǎn)制造再到最后交付環(huán)節(jié)的重重挑戰(zhàn)。”
其次,異構(gòu)算力的高效協(xié)同是另一座待攻克的高峰。當(dāng)前國產(chǎn)GPU呈現(xiàn)百花齊放的態(tài)勢(shì),各家在架構(gòu)設(shè)計(jì)、互聯(lián)協(xié)議、性能特點(diǎn)上各有所長。有的擅長高并發(fā)推理,有的專精大規(guī)模訓(xùn)練,有的則在能效比上表現(xiàn)突出。這意味著,超節(jié)點(diǎn)要整合這些差異化算力,不僅需要硬件接口的標(biāo)準(zhǔn)化,更需要軟件棧的深度適配。
而在此過程中,存儲(chǔ)和網(wǎng)絡(luò)性能也是常被忽視的“隱形瓶頸”,英偉達(dá)創(chuàng)始人黃仁勛曾提出,“現(xiàn)在很多人都已經(jīng)知道AI該怎么用GPU,但AI怎么用網(wǎng)絡(luò),AI怎么用存儲(chǔ),現(xiàn)在是還缺少人研究。” 確如其言,當(dāng)算力達(dá)到一定規(guī)模后,存儲(chǔ)I/O和網(wǎng)絡(luò)延遲往往成為制約整體效率的關(guān)鍵因素。而新華三的長處就在于除了算力之外,同樣擁有在網(wǎng)絡(luò)和存儲(chǔ)領(lǐng)域的技術(shù)積累,這是業(yè)界大部分廠商都不具備的優(yōu)勢(shì)。
最后,則是最復(fù)雜的生態(tài)協(xié)同的挑戰(zhàn)。開放生態(tài)意味著需要建立全新的產(chǎn)業(yè)協(xié)作機(jī)制,從芯片設(shè)計(jì)階段就要開始協(xié)同規(guī)劃,貫穿產(chǎn)品全生命周期,這需要有綜合技術(shù)實(shí)力的廠商能夠牽頭推動(dòng)協(xié)同機(jī)制的運(yùn)行,“而新華三愿意站出來,承擔(dān)這樣的工作”。徐潤安說。
03
以“算力×聯(lián)接”戰(zhàn)略
對(duì)應(yīng)國產(chǎn)算力崛起的歷史機(jī)遇
面對(duì)如此復(fù)雜的挑戰(zhàn),為什么一定要堅(jiān)持開放路線?答案在于:國產(chǎn)算力的歷史性機(jī)遇。
歷史已一次次向我們證明過:唯有多元競(jìng)爭(zhēng)才是技術(shù)進(jìn)步的源泉,開放生態(tài)的建立,雖然前路艱難,但卻是實(shí)現(xiàn)AI普惠、打破技術(shù)壁壘的必由之路。
正因如此,新華三選擇承擔(dān)起這一責(zé)任,通過“算力×聯(lián)接”戰(zhàn)略,為國產(chǎn)算力提供協(xié)同創(chuàng)新的平臺(tái)。
“算力×聯(lián)接”的本質(zhì),是通過算力方案與聯(lián)接方案做最佳的調(diào)優(yōu)和配合,通過端網(wǎng)協(xié)同、網(wǎng)算一體等技術(shù)帶來智算效率的大幅提升,兩者的深度融合帶來的不是簡單的疊加效果,而是倍增的效益,讓智算的價(jià)值最大化。
![]()
而在算力層面,新華三以“開放多元”為核心,構(gòu)建起覆蓋全場(chǎng)景的算力支撐體系。在超節(jié)點(diǎn)方面,全新發(fā)布的H3C UniPoD超節(jié)點(diǎn)產(chǎn)品以算力芯片多元化、互聯(lián)協(xié)議標(biāo)準(zhǔn)化、基礎(chǔ)設(shè)施集成化為核心設(shè)計(jì)理念,主要涵蓋H3C UniPoD S80000和H3C UniPoD F80000兩個(gè)子產(chǎn)品系列。
其中,H3C UniPoD S80000單柜支持最多部署64卡,采用液冷方式散熱整柜功率可支持到120KW,同時(shí)兼容下一代高性能AI加速卡。面對(duì)客戶追求極致性能的需求,其柜內(nèi)卡間全互聯(lián)通信,互聯(lián)帶寬提升8倍,單機(jī)柜訓(xùn)練性能相較于單節(jié)點(diǎn)最高可提升10倍,單卡推理效率提升13倍。
H3C UniPoD F80000則依托全國產(chǎn)算力平臺(tái),采用創(chuàng)新的PCIe光互聯(lián)技術(shù),突破單機(jī)板內(nèi)走線限制,實(shí)現(xiàn)了64張AI加速卡的高速互聯(lián),將卡間帶寬大幅提升至576GB/s,實(shí)現(xiàn)模型訓(xùn)練性能提升35%以上,并支持按需定義產(chǎn)品拓?fù)?6/32/64卡,實(shí)現(xiàn)靈活按需交付。
隨著AGI時(shí)代的臨近,“百花齊放”的算力生態(tài)將是實(shí)現(xiàn)算力平權(quán)和AI普惠的關(guān)鍵。在這條道路上,既需要技術(shù)上的銳意創(chuàng)新,也需要生態(tài)上的開放包容,更需要產(chǎn)業(yè)擔(dān)當(dāng),而這正是新華三的責(zé)任與使命。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.