![]()
對(duì)抗英偉達(dá)?成為英偉達(dá)。
日前,華為正式宣布開(kāi)源其AI計(jì)算架構(gòu)CANN,并提出要打造“中國(guó)自己的CUDA”。結(jié)合此前“昇騰NPU改道GPGPU”的傳聞,此舉不僅進(jìn)一步釋放出昇騰戰(zhàn)略轉(zhuǎn)向信號(hào),同時(shí)也描摹出一幅“全面對(duì)標(biāo)英偉達(dá)”的嶄新圖景。
從底層架構(gòu)變遷到上層生態(tài)重建,一夕之間換了新天。今天的昇騰,前路格外引人注目。
官宣:CANN開(kāi)源號(hào)召共建昇騰生態(tài)
8月5日,華為輪值董事長(zhǎng)徐直軍在昇騰計(jì)算產(chǎn)業(yè)發(fā)展峰會(huì)上宣布,華為昇騰硬件使能CANN全面開(kāi)源開(kāi)放,Mind系列應(yīng)用使能套件及工具鏈全面開(kāi)源。
官宣消息顯示,這一舉措主要為了支持用戶自主的深度挖潛和自定義開(kāi)發(fā),加速?gòu)V大開(kāi)發(fā)者的創(chuàng)新步伐,讓昇騰更好用、更易用。“華為AI戰(zhàn)略的核心是算力,并堅(jiān)持昇騰硬件變現(xiàn)。”
據(jù)悉,CANN全稱為“神經(jīng)網(wǎng)絡(luò)異構(gòu)計(jì)算架構(gòu)”,其直接對(duì)標(biāo)對(duì)象正是英偉達(dá)的CUDA。對(duì)開(kāi)發(fā)者來(lái)說(shuō),CANN是把上層AI訓(xùn)練框架(如PyTorch、TensorFlow、MindSpore)和底層昇騰芯片連接起來(lái)的橋梁,讓開(kāi)發(fā)者不用關(guān)心芯片細(xì)節(jié)就能調(diào)用底層算力。
當(dāng)然,相較于CUDA,CANN在開(kāi)發(fā)者規(guī)模、架構(gòu)成熟度和生態(tài)完善度方面,均存在差距。這在很大程度上影響到昇騰芯片的易用性,用戶在生態(tài)路線選擇上更傾向于前者。
華為方面表示,公司與各界伙伴探討了如何更好地構(gòu)建昇騰生態(tài),并發(fā)起《CANN開(kāi)源開(kāi)放生態(tài)共建倡議》,以凝聚產(chǎn)業(yè)力量,共探AI邊界,共建昇騰生態(tài)。
顯然,華為希望通過(guò)開(kāi)源CANN,吸引更多開(kāi)發(fā)者擴(kuò)大其生態(tài)圈,拉近與CUDA的差距,并以此彌補(bǔ)昇騰產(chǎn)品早期易用性不足的問(wèn)題。
值得一提的是,業(yè)內(nèi)此前就傳出“昇騰NPU轉(zhuǎn)向GPGPU”的消息,并被視為國(guó)產(chǎn)ASIC芯片向主流技術(shù)路線靠攏的信號(hào)。此次CANN開(kāi)源融入主流生態(tài),無(wú)疑再次驗(yàn)證了這一點(diǎn)。
![]()
熱議:NPU留下的坑沒(méi)那么好填?
面對(duì)開(kāi)源CANN發(fā)出的生態(tài)召集令,業(yè)界給出的反應(yīng)值得玩味。部分觀點(diǎn)頗為尖銳,認(rèn)為昇騰NPU變道后會(huì)導(dǎo)致原有軟件棧無(wú)法維系更新,這時(shí)候開(kāi)源CANN吸納開(kāi)發(fā)者“惠而不費(fèi)”。
有人將“昇騰轉(zhuǎn)型GPGPU”和“CANN開(kāi)源”合并探討。“NPU走不下去了,原本基于NPU搞編譯器的組就要轉(zhuǎn)到基于GPGPU搞編譯器,那原來(lái)的CANN內(nèi)部沒(méi)精力優(yōu)先級(jí)維護(hù)了,正好放出來(lái)給‘冤大頭’們用。”
另外,也有觀點(diǎn)指出,開(kāi)源是好事,問(wèn)題在于NPU本來(lái)就沒(méi)有GPU好編程。“全國(guó)不知道能不能找得出來(lái)一百個(gè)寫(xiě)昇騰算子寫(xiě)得很六的,因此開(kāi)源社區(qū)能對(duì)昇騰的生態(tài)做出多少貢獻(xiàn)我還是存疑。搞不好全是‘華子’自己的員工在上面commit。”
業(yè)內(nèi)對(duì)CANN的“戒心”,源于昇騰NPU一貫以來(lái)的封閉特點(diǎn)。
根據(jù)公開(kāi)資料,NPU與GPGPU架構(gòu)存在根本技術(shù)差異,在場(chǎng)景應(yīng)用上的定位也完全不同。NPU若從此前的全定制化路線轉(zhuǎn)向通用GPGPU,新架構(gòu)體系幾乎無(wú)法復(fù)用之前的軟件棧(包括基礎(chǔ)環(huán)境、優(yōu)化的核心算子、編譯器等)。
“如果大量人員投入新架構(gòu)研發(fā),原有的NPU軟件棧更新可能會(huì)陷入停滯。”某業(yè)內(nèi)人士表示,這會(huì)導(dǎo)致后續(xù)的新模型或算法無(wú)法有效支持,不能充分發(fā)揮已采購(gòu)芯片的價(jià)值,造成客戶投資虧損。“這時(shí)候引導(dǎo)開(kāi)發(fā)者進(jìn)駐CANN,相當(dāng)于靠大家一起去‘填坑’。”
正值昇騰架構(gòu)更迭之際,內(nèi)有NPU架構(gòu)生態(tài)問(wèn)題懸而未決,外有英偉達(dá)和國(guó)產(chǎn)GPGPU“珠玉在前”。也有部分開(kāi)發(fā)者對(duì)此時(shí)開(kāi)源的CANN態(tài)度十分保守。
前瞻:昇騰轉(zhuǎn)向GPGPU或成定局
盡管CANN生態(tài)前景存在不確定性,但昇騰轉(zhuǎn)向GPGPU幾乎已成定局。種種跡象表明,ASIC芯片并不適用于主流場(chǎng)景需求,NPU架構(gòu)路線甚至被一些媒體定義為“戰(zhàn)略方向性失誤”。
有專業(yè)人士分析,NPU和GPGPU相比,最大的問(wèn)題在于軟件適配成本。“由于整個(gè)深度學(xué)習(xí)生態(tài)都建立在CUDA之上,最新的算法和嘗試也都基于英偉達(dá)的卡實(shí)現(xiàn)。將這些代碼遷移到NPU上,需要大量的時(shí)間和開(kāi)發(fā)成本。”
據(jù)介紹,NPU和GPU本身的差異,導(dǎo)致需要特定的范式才能發(fā)揮出NPU全部的功能。比如gpu kernel需要用ascend-c定制,cpu launch kernel怕打斷、小內(nèi)存訪問(wèn)低效等。
華為基于歷史慣性,一直力推自己的軟件棧(如Mindspeed-LLM、Mindspeed-RL、MindIE)。可惜具體到項(xiàng)目落地中效果并不理想,比如今年爆火的DeepSeek-GRPO,想要在NPU上進(jìn)行GRPO訓(xùn)練,需要等待華為投入人力適配優(yōu)化,根本跟不上市場(chǎng)節(jié)奏。
上述人士指出,從1月底GRPO爆火,2月初英偉達(dá)就已經(jīng)有了社區(qū)的復(fù)現(xiàn)方案,到3月份verl都已經(jīng)基本成熟。而昇騰卡直到6月份,grpo還處于“湊合能用”的狀態(tài)。如果要跑其他強(qiáng)化學(xué)習(xí)算法(如DAPO、PPO等),在昇騰卡上還需要繼續(xù)等待。
相對(duì)來(lái)說(shuō),GPGPU提供了另一種完全不同的思路——根據(jù)NVIDIA GPU公開(kāi)(解密)的接口制造兼容CUDA (PTX)的硬件,然后做好編譯器,提供cublus、cudnn等未開(kāi)源的廠商定制庫(kù)。上層的軟件完全復(fù)用cuda的生態(tài)(Megatron-LM、vllm、verl、pytorch、flash-attention等)。
依托這種方案,用戶進(jìn)行精度對(duì)齊和性能對(duì)齊變得非常簡(jiǎn)便。由于接口完全一致,還可以使用自動(dòng)化的程序找到精度和性能異常的bug,并進(jìn)行修復(fù),極大地降低了開(kāi)發(fā)成本。
“昇騰戰(zhàn)略轉(zhuǎn)向的目的正在于此”,業(yè)內(nèi)分析,華為需要借助GPGPU重新適應(yīng)AI時(shí)代需求趨勢(shì)。而CANN向開(kāi)放者敞開(kāi)懷抱,更大的可能是為其“換道超車(chē)”提供更多燃料。“問(wèn)題在于,接下來(lái)會(huì)有多少用戶登上這駕戰(zhàn)車(chē),更換架構(gòu)引擎后的昇騰又需要陪跑多少里程?”
作者:蒜力一姐
聲明:本文來(lái)源于網(wǎng)絡(luò),僅代表作者個(gè)人觀點(diǎn),不代表“技術(shù)領(lǐng)導(dǎo)力”立場(chǎng)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.