![]()
一位從事算法開(kāi)發(fā)的朋友,向我們講述了他親身經(jīng)歷的故事:
他所在的團(tuán)隊(duì),被領(lǐng)導(dǎo)安排了一個(gè)任務(wù)——將已有的圖像識(shí)別模型從CUDA遷移到昇騰平臺(tái)上。
最開(kāi)始,他以為會(huì)是個(gè)“大工程”,時(shí)常在論壇里看到缺少算子、工具鏈不夠完善的討論,想要在昇騰平臺(tái)上開(kāi)發(fā)AI應(yīng)用,等于是在啃一塊硬骨頭,連基礎(chǔ)的算子都要自己寫(xiě)。
結(jié)果竟然比想象中順利許多。
大部分主流算子已能在CANN的算子庫(kù)中找到,只有少數(shù)需要通過(guò)算子開(kāi)發(fā)套件自定義實(shí)現(xiàn)。官方提供的工具鏈談不上成熟,整體來(lái)看已經(jīng)比較完善。最終只做少量修改,就跑通了模型。
一位開(kāi)發(fā)者的際遇,其實(shí)是整個(gè)生態(tài)的縮影。
很長(zhǎng)一段時(shí)間里,國(guó)內(nèi)計(jì)算生態(tài)的“貧瘠”可謂深入人心,“缺算子、缺文檔、缺工具”等問(wèn)題被頻頻詬病。
現(xiàn)在,情況正在悄然改變。昇騰CANN的算子庫(kù)、工具鏈的不斷豐富,讓開(kāi)發(fā)者的遷移體驗(yàn)越來(lái)越順暢,論壇里的因?yàn)椤芭懿煌ā碑a(chǎn)生的“吐槽帖”,漸漸變成了“怎么跑得更快”的“經(jīng)驗(yàn)貼”。
中國(guó)的計(jì)算產(chǎn)業(yè),終于走出了至暗時(shí)刻。
01 計(jì)算的終局是生態(tài)
回顧計(jì)算產(chǎn)業(yè)的發(fā)展史,從不缺少“性能耀眼”的產(chǎn)品,有的被寫(xiě)進(jìn)了“技術(shù)史”,卻沒(méi)能在產(chǎn)業(yè)中占據(jù)一席之地。
典型的例子就是Intel的Itanium。
時(shí)間回到上世紀(jì)90年代末,在x86上一家獨(dú)大的Intel清楚地意識(shí)到:x86架構(gòu)的指令集復(fù)雜度高,遺留兼容性拖累了架構(gòu)演進(jìn)。
于是Intel選擇和HP聯(lián)手押注EPIC架構(gòu),把并行性、指令調(diào)度等由“硬件猜”的事交給編譯器靜態(tài)完成,CPU本身可以更簡(jiǎn)單、更高效地執(zhí)行,相當(dāng)于“把硬件未來(lái)幾十年的負(fù)擔(dān)一次性解決”。
遺憾的是,Intel和HP都低估了構(gòu)建軟件生態(tài)的成本。
當(dāng)時(shí)Linux和Windows均已綁定了x86,企業(yè)沒(méi)有動(dòng)力投入到新架構(gòu),開(kāi)發(fā)者想要在Itanium上運(yùn)行應(yīng)用,必須重寫(xiě)或移植,導(dǎo)致積極性嚴(yán)重不足。被寄予厚望的Itanium,無(wú)奈淪為了“昂貴的試驗(yàn)品”。
和Intel形成鮮明對(duì)比的,是英偉達(dá)CUDA的崛起。
![]()
2006年的GPU市場(chǎng),還是英偉達(dá)和ATI分庭抗禮的局面,就在AMD斥巨資并購(gòu)ATI時(shí),英偉達(dá)默默做了別人不愿做的事:提供類(lèi)似C語(yǔ)言的編程接口,允許開(kāi)發(fā)者直接把GPU當(dāng)并行處理器使用,即使在市場(chǎng)不看好的情況下,仍然十幾年如一日地投資開(kāi)發(fā)者生態(tài),完善工具鏈、文檔和社區(qū)。
當(dāng)深度學(xué)習(xí)浪潮到來(lái)時(shí),CUDA已然成為事實(shí)上的標(biāo)準(zhǔn),成了任何想做AI的團(tuán)隊(duì)都難以跳過(guò)的選項(xiàng)。
這些成功或失敗的案例背后,藏著計(jì)算產(chǎn)業(yè)的現(xiàn)實(shí):一些產(chǎn)品之所以輸?shù)袅宋磥?lái),不是因?yàn)樾阅懿粔驈?qiáng),而是沒(méi)能跨過(guò)生態(tài)這道坎,沒(méi)能打動(dòng)千萬(wàn)計(jì)的開(kāi)發(fā)者。技術(shù)決定起點(diǎn),而生態(tài)決定了終局。
02 一道殘酷的生死題
既然生態(tài)這么難,連Intel這樣的巨頭,當(dāng)年也沒(méi)能另起爐灶,為什么還要“冒險(xiǎn)”孵化自己的計(jì)算生態(tài)呢?
答案很殘酷,這不是選擇題,而是生死題。
以AI應(yīng)用為例,國(guó)內(nèi)外有不少計(jì)算企業(yè)想要在生態(tài)上走捷徑,即兼容CUDA。簡(jiǎn)單來(lái)說(shuō)就是在CUDA的API和芯片的底層驅(qū)動(dòng)間加一個(gè)“翻譯器”,幫助開(kāi)發(fā)者快速跑通已有的CUDA應(yīng)用,最大程度降低開(kāi)發(fā)者的門(mén)檻。
諸如此類(lèi)的做法無(wú)可厚非。
早期靠“兼容”解決“能用”的問(wèn)題,接下來(lái)圍繞卷積、矩陣乘法、KV Cache等重點(diǎn)算子做深度優(yōu)化,一步步實(shí)現(xiàn)“好用”,長(zhǎng)期則試圖培育基于自身軟硬件的原生生態(tài),逐漸擺脫對(duì)CUDA的綁定。
只是CUDA并非開(kāi)源,而且更新非常頻繁,第三方產(chǎn)品很難通過(guò)指令翻譯的方式實(shí)現(xiàn)完美兼容。在大多數(shù)通用AI訓(xùn)練和推理場(chǎng)景下,兼容路徑難以匹敵英偉達(dá)的性能和能效。
況且英偉達(dá)一旦感受到了競(jìng)爭(zhēng)壓力,還可以通過(guò)“扎緊生態(tài)藩籬”的形式,倒逼開(kāi)發(fā)者“用腳投票”。就像2024年初的一幕,英偉達(dá)宣布禁止在其他GPU上通過(guò)轉(zhuǎn)譯層運(yùn)行CUDA軟件,給不少?gòu)S商敲響了警鐘。
![]()
計(jì)算生態(tài)的“有”與“無(wú)”,決定著一整個(gè)產(chǎn)業(yè)鏈的生死存亡。
如果是“無(wú)”,始終存在被卡脖子的風(fēng)險(xiǎn),意味著關(guān)鍵軟件無(wú)法運(yùn)行、關(guān)鍵應(yīng)用無(wú)法落地,被鎖死在別人搭好的舞臺(tái)上。
哪怕只是“有”,即使暫時(shí)不夠好用、工具鏈不夠完善,也意味著可以逐步打磨、可以不斷迭代,避免徹底出局的風(fēng)險(xiǎn)。
業(yè)界不少芯片廠(chǎng)商選擇兼容CUDA生態(tài)時(shí),華為副董事長(zhǎng)、輪值董事長(zhǎng)徐直軍卻坦言:“如果我們投如此多的錢(qián)兼容CUDA生態(tài),而且還是CUDA過(guò)去的版本,哪天CUDA生態(tài)兼容不了了怎么辦?”
所以在計(jì)算生態(tài)的抉擇上,華為做了一個(gè)很多人不理解的決定——做屬于自己的CANN生態(tài)。
03 CANN開(kāi)源開(kāi)放的“陽(yáng)謀”
2025年8月初的昇騰計(jì)算產(chǎn)業(yè)發(fā)展峰會(huì)上,華為宣布“CANN全面開(kāi)源開(kāi)放,Mind系列應(yīng)用使能套件及工具鏈全面開(kāi)源,支持用戶(hù)自主的深度挖潛和自定義開(kāi)發(fā),加速?gòu)V大開(kāi)發(fā)者的創(chuàng)新步伐,讓昇騰更好用、更易用。”
在英偉達(dá)的封閉生態(tài)遭遇“信任危機(jī)”時(shí),華為站在了歷史正確的一邊——加速開(kāi)源開(kāi)放。
CANN的全面開(kāi)源開(kāi)放,意味著開(kāi)發(fā)者可以深入到圖優(yōu)化、算子融合、內(nèi)存調(diào)度等底層機(jī)制,不僅可以調(diào)用,還能看到底層實(shí)現(xiàn)邏輯,甚至在必要時(shí)改造、優(yōu)化,進(jìn)行二次創(chuàng)新。
Mind系列工具鏈的開(kāi)源,讓模型移植、調(diào)試、Profiling的全過(guò)程“白盒化”,開(kāi)發(fā)者不再局限于現(xiàn)成的工具和框架,可以根據(jù)自身需求進(jìn)行深度定制和優(yōu)化,實(shí)現(xiàn)更高的性能和效率。
CANN還進(jìn)一步兼容了vLLM、SGLang、PyTorch、Tensorflow等主流框架,開(kāi)發(fā)者將應(yīng)用遷移到昇騰平臺(tái)時(shí),無(wú)需對(duì)原有代碼進(jìn)行大規(guī)模修改,只需做少量適配乃至“零改動(dòng)”。
故事并未就此結(jié)束。
9月18日的華為HC 2025上,華為的硬件和超節(jié)點(diǎn)架構(gòu)占據(jù)了多家媒體的頭條,其實(shí)還有另一個(gè)影響可能更深遠(yuǎn)的動(dòng)作——華為宣布將開(kāi)放靈衢2.0技術(shù)規(guī)范,全面開(kāi)放超節(jié)點(diǎn)技術(shù),包括開(kāi)放超節(jié)點(diǎn)參考架構(gòu)、開(kāi)放超節(jié)點(diǎn)基礎(chǔ)硬件、開(kāi)源操作系統(tǒng)靈衢組件等等。
![]()
無(wú)論是昇騰384超節(jié)點(diǎn),還是支持8192張卡的Atlas 950超節(jié)點(diǎn),都是基于靈衢互聯(lián)協(xié)議開(kāi)創(chuàng)的。底層技術(shù)協(xié)議和整套超節(jié)點(diǎn)技術(shù)的開(kāi)放,意味著產(chǎn)業(yè)界可以基于技術(shù)規(guī)范自研相關(guān)產(chǎn)品或部件,自主設(shè)計(jì)基于靈衢的各種產(chǎn)品,實(shí)現(xiàn)真正意義上的AI算力自由。
個(gè)中邏輯并不難解釋。
只有走開(kāi)源路線(xiàn),降低產(chǎn)業(yè)參與門(mén)檻,才有更多的企業(yè)從中受益,才會(huì)讓更多的開(kāi)發(fā)者敢于All in。華為通過(guò)硬件開(kāi)放、軟件開(kāi)源主動(dòng)拆掉了最核心的“護(hù)城河“,用“技術(shù)讓利”換取“生態(tài)復(fù)利”,吸引全球的開(kāi)發(fā)者參與進(jìn)來(lái),促進(jìn)產(chǎn)業(yè)鏈上下游協(xié)同,形成良性的正反饋循環(huán)。
一組不應(yīng)該被忽略的數(shù)據(jù)是:CANN全面開(kāi)源開(kāi)放48小時(shí)內(nèi),昇騰開(kāi)發(fā)者社區(qū)新增注冊(cè)用戶(hù)就超過(guò)了10萬(wàn),Gitee平臺(tái)上的CANN代碼庫(kù)收獲了5.7萬(wàn)星標(biāo),向外界宣示了中國(guó)計(jì)算生態(tài)的號(hào)召力和凝聚力。
04 前路漫漫亦燦燦
客觀(guān)評(píng)價(jià)CANN代表的國(guó)產(chǎn)計(jì)算生態(tài),必須承認(rèn)仍處于“追趕”階段,在成熟度、應(yīng)用廣度、生態(tài)完善度上和CUDA仍有差距。畢竟CUDA已經(jīng)打磨了近20年,CANN在2018年才推出。
有差距不代表沒(méi)機(jī)會(huì),大模型技術(shù)正在重構(gòu)千行萬(wàn)業(yè),也在加劇底層計(jì)算生態(tài)的重新洗牌。
比如華為一直積極與高校合作,通過(guò)編寫(xiě)教材、開(kāi)設(shè)實(shí)驗(yàn)課、聯(lián)合研發(fā)等方式,將昇騰、鯤鵬生態(tài)納入到了人才培養(yǎng)體系,同時(shí)幫助高校和科研機(jī)構(gòu)在國(guó)產(chǎn)平臺(tái)上進(jìn)行前沿研究。
典型例子就是北京大學(xué)的楊智老師,基于Ascend C自主開(kāi)發(fā)了AI編程語(yǔ)言TileLang,提供Tile-level的類(lèi)Python編程方式,大幅降低了AI編程門(mén)檻。目前昇騰CANN與TileLang已對(duì)接,并完成了FlashAttention算子的開(kāi)發(fā)實(shí)現(xiàn),性能持平官方版本,核心代碼從500+行減少到了80行。
某種程度上,昇騰已經(jīng)初步形成了“教育—應(yīng)用—生態(tài)”的閉環(huán):學(xué)生們?cè)谇髮W(xué)階段就能接觸到國(guó)產(chǎn)計(jì)算生態(tài),在實(shí)驗(yàn)室里嘗試開(kāi)發(fā)應(yīng)用,畢業(yè)后應(yīng)用到廣闊的產(chǎn)業(yè)場(chǎng)景中,為生態(tài)的繁榮持續(xù)注入 “新鮮血液”。
![]()
再比如在大模型領(lǐng)域,MoE架構(gòu)逐漸成為提升參數(shù)規(guī)模和推理效率的主流路徑,卻也遇到了跨卡通信的高帶寬壓力、專(zhuān)家路由的動(dòng)態(tài)調(diào)度等新挑戰(zhàn)。除了超節(jié)點(diǎn)的架構(gòu)創(chuàng)新,CANN也進(jìn)行了針對(duì)性?xún)?yōu)化。
在算子開(kāi)發(fā)方面,CANN將在下個(gè)版本中同時(shí)支持SIMD+SIMT的編程方式,滿(mǎn)足不同場(chǎng)景的開(kāi)發(fā)需求:其中SIMD新增支持的Cube和Vector融合編程,無(wú)需寫(xiě)數(shù)據(jù)搬運(yùn)指令,實(shí)現(xiàn)融合算子開(kāi)發(fā)效率提升30%。
在通信效率方面,昇騰將開(kāi)源共享內(nèi)存能力Share Memory,在超節(jié)點(diǎn)范圍內(nèi)的所有片上內(nèi)存可實(shí)現(xiàn)資源池化共享,并通過(guò)Load and Store方式通信,較傳統(tǒng)通信時(shí)間大幅降低。
截止到目前,越來(lái)越多的第三方企業(yè)和開(kāi)發(fā)者與華為站在一起,加入到了開(kāi)源共建的陣營(yíng)中。
比如無(wú)問(wèn)芯穹基于CATLASS模板庫(kù)開(kāi)發(fā)的Group GEMM算子,相比aclNN算子,性能再提升50%;科大訊飛、華南理工等企業(yè)和高校,在不斷豐富算子開(kāi)發(fā)的專(zhuān)家知識(shí)庫(kù),幾分鐘內(nèi)便可輸出最優(yōu)Tiling策略......
一邊在人才培養(yǎng)上“補(bǔ)短板”,一邊在工程創(chuàng)新上“立長(zhǎng)板”,只要沿著正確的道路走下去,一個(gè)繁榮的計(jì)算生態(tài)只是時(shí)間問(wèn)題。
05 寫(xiě)在最后
計(jì)算生態(tài)的范疇不只是AI算力,CPU、操作系統(tǒng)等都需要從0到1構(gòu)建自主生態(tài),每一個(gè)都深刻影響著整個(gè)產(chǎn)業(yè)格局。
樂(lè)觀(guān)的是,CANN的崛起已經(jīng)論證了自主生態(tài)的可行性,跑出了開(kāi)源開(kāi)放的生態(tài)新范式:有人在計(jì)算架構(gòu)上不斷試探極限,有人在工具鏈和框架中默默補(bǔ)齊短板,有人在高校課堂和開(kāi)源社區(qū)里播下種子……這不是一家企業(yè)的獨(dú)角戲,而是中國(guó)計(jì)算產(chǎn)業(yè)的集體答卷。
生態(tài)不是三年五載就能完成的工程,需要千千萬(wàn)萬(wàn)的開(kāi)發(fā)者參與進(jìn)來(lái),考驗(yàn)的不是速度,而是中國(guó)計(jì)算產(chǎn)業(yè)的集體耐力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.