國(guó)產(chǎn)AI前沿陣地正迎來(lái)突破性進(jìn)展。
近日,繼scaleX萬(wàn)卡超集群在國(guó)家超算互聯(lián)網(wǎng)核心節(jié)點(diǎn)規(guī)模化落地,光合組織緊鑼密鼓的在當(dāng)?shù)卣匍_(kāi)“國(guó)產(chǎn)萬(wàn)卡算力賦能大模型發(fā)展研討會(huì)暨聯(lián)合攻關(guān)啟動(dòng)儀式”。
沒(méi)錯(cuò),國(guó)產(chǎn)萬(wàn)卡超集群真正要大規(guī)模“用”起來(lái)了。而且據(jù)說(shuō)落地目標(biāo)直指AI頭部領(lǐng)域——萬(wàn)億參數(shù)大模型。
![]()
這兩年,隨著AI大模型參數(shù)規(guī)模大幅躍升,算力基礎(chǔ)設(shè)施建設(shè)也在同步跟注加碼。
盡管集群式算力體系相對(duì)復(fù)雜,而且AI用戶對(duì)多元化算力需求迫切,供給側(cè)廠商仍是通過(guò)開(kāi)放的架構(gòu)、統(tǒng)一的標(biāo)準(zhǔn),走出了一條高效通用的“大算力普惠”之路。前兩天爆火的scaleX萬(wàn)卡超集群就是一個(gè)樣板。
當(dāng)然,光說(shuō)不練不行,萬(wàn)億參數(shù)大模型是萬(wàn)超計(jì)算集群最好的試金石。
從技術(shù)應(yīng)用層面來(lái)看,當(dāng)數(shù)據(jù)量足夠大時(shí),AI大模型的參數(shù)越多,模型精度也越好。同時(shí),參數(shù)量增加也必然造成計(jì)算量增加。
當(dāng)AI大模型達(dá)到千億、萬(wàn)億級(jí)參數(shù),訓(xùn)練和推理過(guò)程中就需要大量矩陣運(yùn)算和浮點(diǎn)計(jì)算。對(duì)于高內(nèi)存帶寬與容量、低延遲與高并發(fā)處理能力等技術(shù)挑戰(zhàn)非常大。
尤為關(guān)鍵的一點(diǎn)是,很多大模型玩家在算力選型中非常慎重。因?yàn)楹芏嘀撬阒行闹g存在技術(shù)路線差異,甚至部分技術(shù)架構(gòu)難以兼容主流生態(tài),異構(gòu)遷移過(guò)程中往往步步雷區(qū)。
某國(guó)產(chǎn)大模型技術(shù)負(fù)責(zé)人指出,由于芯片硬件結(jié)構(gòu)差異和浮點(diǎn)計(jì)算的不確定性,疊加大模型參數(shù)量大導(dǎo)致精度誤差被隱藏的現(xiàn)象,因此技術(shù)人員往往需要較長(zhǎng)的時(shí)間來(lái)驗(yàn)證算子正確性和模型的收斂性。
另外,解決效果問(wèn)題后,還會(huì)遇到性能損失的問(wèn)題。
“因?yàn)椴煌?jì)算精度和shape場(chǎng)景下的算子最優(yōu)實(shí)現(xiàn)并不一致,一些國(guó)產(chǎn)算力的泛化能力還不夠強(qiáng),所以導(dǎo)致模型移植后的開(kāi)箱性能往往無(wú)法達(dá)到理論算力上限,需要進(jìn)一步開(kāi)展深入的性能優(yōu)化工作等。”上述人士表示。
毋庸置疑,“國(guó)產(chǎn)萬(wàn)卡超集群”擁抱“萬(wàn)億參數(shù)大模型”是一個(gè)歷史性機(jī)遇,但在如何賦能大模型實(shí)際應(yīng)用場(chǎng)景上,依然需要在供需兩端形成共識(shí)。
光合組織召開(kāi)此次會(huì)議,顯然是要錨定大算力和大模型應(yīng)用需求協(xié)同發(fā)力。據(jù)悉,包含算力基礎(chǔ)設(shè)施提供商和國(guó)產(chǎn)大模型廠商在內(nèi),產(chǎn)業(yè)上下游在會(huì)上達(dá)成了聯(lián)合攻關(guān)方案。
一方面是基于開(kāi)放的架構(gòu)和統(tǒng)一的標(biāo)準(zhǔn),參考scaleX萬(wàn)卡超集群系統(tǒng)樣板,進(jìn)一步打破算力應(yīng)用難點(diǎn)堵點(diǎn),將國(guó)產(chǎn)大算力資源真正作用到大參數(shù)模式場(chǎng)景實(shí)戰(zhàn)中。
另一方面是通過(guò)生態(tài)協(xié)同,在大模型應(yīng)用中形成供需驗(yàn)證、反饋、優(yōu)化的循環(huán)機(jī)制,實(shí)現(xiàn)軟硬件一體化協(xié)同攻關(guān),深度賦能大模型訓(xùn)推方面的實(shí)踐指引與前沿探索。
這就是要在成功經(jīng)驗(yàn)的基礎(chǔ)上,大力推動(dòng)規(guī)模化落地復(fù)制了。scaleX作為AI計(jì)算開(kāi)放路線下的首個(gè)萬(wàn)卡集群成果,此前就驗(yàn)證了產(chǎn)業(yè)鏈開(kāi)放協(xié)同的戰(zhàn)略價(jià)值。現(xiàn)在開(kāi)放計(jì)算路線進(jìn)一步向大模型需求側(cè)延伸,無(wú)疑將進(jìn)一步形成供需兩端協(xié)同共振的開(kāi)放式創(chuàng)新格局。
大膽預(yù)測(cè)一下,在全球化AI竟備中,萬(wàn)卡計(jì)算集群與萬(wàn)億參數(shù)模型是絕對(duì)的前沿陣地。
隨著國(guó)產(chǎn)AI計(jì)算突破能力邊界,并在大模型應(yīng)用場(chǎng)景中發(fā)揮出更強(qiáng)的生態(tài)協(xié)同效能,中國(guó)AI產(chǎn)業(yè)正在打開(kāi)格局,走上一條真正的“彎道超車”突圍路徑。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.