提AI就不能不提DeepSeek,DeepSeek絕對(duì)是今年最火的話題之一,不管國(guó)內(nèi)外都引起了廣泛討論。OpenAI前政策主管Jack Clark曾提到,DeepSeek吸引了一批“難以捉摸的天才”
“其實(shí)沒(méi)有什么‘難以捉摸的天才’,只是來(lái)自頂尖高校的應(yīng)屆生、博士生(甚至是四五年級(jí)的實(shí)習(xí)生),以及一些有幾年經(jīng)驗(yàn)的年輕人。”“DeepSeek V2.0完全是由本土人才打造的。目前,全球前50的AI人才可能確實(shí)不在中國(guó),但我們希望自己培養(yǎng)出這樣的團(tuán)隊(duì)。”這是DeepSeek創(chuàng)始人梁文鋒的回答。
由衷的佩服梁文鋒這樣的企業(yè)家,好像有點(diǎn)扯遠(yuǎn)了,回到AI本身,DeepSeek非常優(yōu)秀,但是放到整個(gè)AI體系來(lái)看它只是一個(gè)上層的應(yīng)用,如下圖所示。
![]()
可以說(shuō)DeepSeek成功的背后離不開(kāi)AI技術(shù)底座的創(chuàng)新,這包括數(shù)據(jù)、算法、算力所涉及到的訓(xùn)推框架、編譯與計(jì)算框架、硬件等更底層的技術(shù)。
DeepSeek很好,但是只有DeepSeek顯然是不夠的,慶幸的是我們還是有企業(yè)去推動(dòng)這些更底層的創(chuàng)新。推動(dòng)基礎(chǔ)的創(chuàng)新并不容易,也不是一個(gè)企業(yè)就能做成的,美國(guó)的創(chuàng)新建立在美國(guó)發(fā)達(dá)的科技教育土壤之上的,我們也應(yīng)該如此。
AI大模型的成敗在于人才、數(shù)據(jù)、算力與算法
AI大模型的成功構(gòu)建依賴于幾個(gè)關(guān)鍵要素:人才(研發(fā)與應(yīng)用者)、高質(zhì)量數(shù)據(jù)(訓(xùn)練基礎(chǔ))、強(qiáng)大算力(計(jì)算支撐)以及先進(jìn)算法(核心技術(shù))。眾所周知,算力、算法、數(shù)據(jù)也是俗稱的AI三要素,目前需要的提升主要體現(xiàn)在:
![]()
- 算力:需要更多的算力,尤其是可以自主的算力;
- 算法:提升算法的效率,例如混合精度訓(xùn)練、模型壓縮、量化等,與訓(xùn)推框架等合作創(chuàng)新
- 數(shù)據(jù):采集以及生成高質(zhì)量訓(xùn)練數(shù)據(jù)
我們想要AI大模型給我們提供更多的便利就需要在基礎(chǔ)的算力、算法和數(shù)據(jù)上有更多的創(chuàng)新和突破。而這些年AI大模型領(lǐng)域的一大變化,就是業(yè)界紛紛把目光投向了知名高校,這個(gè)天生攜帶創(chuàng)新基因之地,并因此在AI領(lǐng)域獲益匪淺。
高校是AI創(chuàng)新的發(fā)源地和人才的搖籃
當(dāng)AI發(fā)展裹足不前時(shí),人們赫然發(fā)現(xiàn)高校才是創(chuàng)新的源地,AI的爆發(fā)源自高校的創(chuàng)新,而DeepSeek的出現(xiàn)讓更多人認(rèn)識(shí)到中國(guó)的高校同樣人才濟(jì)濟(jì)。DeepSeek創(chuàng)始人梁文鋒表示“DeepSeek V2.0完全是由本土人才打造的”“只是來(lái)自頂尖高校的應(yīng)屆生、博士生(甚至是四五年級(jí)的實(shí)習(xí)生),以及一些有幾年經(jīng)驗(yàn)的年輕人。”
根據(jù)全球知名學(xué)術(shù)期刊《Nature》發(fā)布的“Nature Index Supplements 2024 AI”,可以看到在AI學(xué)術(shù)研究領(lǐng)域中國(guó)有19所高校進(jìn)入了全球TOP100,僅次于美國(guó),清華大學(xué)甚至進(jìn)入了全球前10。
![]()
無(wú)獨(dú)有偶,據(jù)研究機(jī)構(gòu)的數(shù)據(jù)(數(shù)據(jù)來(lái)源于AI頂會(huì)NeurIPS收錄的論文),2022年頂級(jí)人工智能研究機(jī)構(gòu)前25名中有6家來(lái)自中國(guó),分別是清華大學(xué)、北京大學(xué)、中科院、上海交通大學(xué)、浙江大學(xué)以及華為公司
![]()
這一項(xiàng)項(xiàng)的數(shù)據(jù)都在證明,高校是AI創(chuàng)新的發(fā)源地。相比企業(yè)的短期目標(biāo)導(dǎo)向,高校鼓勵(lì)長(zhǎng)期基礎(chǔ)研究(如數(shù)學(xué)、理論物理),允許“失敗”和“非功利性探索”,為顛覆性創(chuàng)新提供土壤。同時(shí)高校是頂尖人才聚集高地,大量教授、科研人員及全球優(yōu)秀學(xué)生匯聚形成高濃度“智力池”,最典型的現(xiàn)象就是MIT的教授和校友中誕生了100位諾貝爾獎(jiǎng)得主。如此高知識(shí)的密度和學(xué)術(shù)自由的氛圍,促成了一個(gè)個(gè)世界級(jí)創(chuàng)新成果的產(chǎn)生。
雖然高校的AI創(chuàng)新有著很多的優(yōu)勢(shì),但是也面臨很多的問(wèn)題
孵化中心是解決高校AI大模型困局的良方
一棟樓能蓋多高取決于地基的堅(jiān)固程度,AI發(fā)展的高度取決于AI基礎(chǔ)創(chuàng)新的能力和人才的厚度。
高校是創(chuàng)新的重要基地也是人才培養(yǎng)的基地,但是AI行業(yè)的巨大成本和投入?yún)s成了一堵隱形的高墻。《Nature》通過(guò)對(duì)35家機(jī)構(gòu)的50名科學(xué)家調(diào)查后得出結(jié)論——學(xué)術(shù)界在GPU獲取上面臨的嚴(yán)峻挑戰(zhàn),甚至需要排隊(duì)申請(qǐng)等待數(shù)天的學(xué)校GPU集群。
“學(xué)術(shù)界與行業(yè)界的模型差距巨大,但本可以小得多。”美國(guó)華盛頓特區(qū)非營(yíng)利AI研究機(jī)構(gòu)EleutherAI的執(zhí)行董事Stella Biderman說(shuō)
![]()
算力的限制使得高校發(fā)展大模型變得異常困難,而且隨著模型規(guī)模的不斷增大,高校的創(chuàng)新和人才聚集優(yōu)勢(shì)越來(lái)越難以得到發(fā)揮,語(yǔ)言大模型尚且如此,視頻大模型等更是難上加難,這對(duì)AI底層技術(shù)的優(yōu)化提出了更高的要求,這是全球高校AI研究普遍遇到的問(wèn)題,中國(guó)高校也不例外。
企業(yè)對(duì)于創(chuàng)新與AI人才的渴望,高校對(duì)于算力資源的渴望,讓校企合作成為了最佳的選擇,目前國(guó)內(nèi)做得比較好的當(dāng)屬華為與高校聯(lián)合創(chuàng)辦的鯤鵬昇騰科教創(chuàng)新卓越中心/孵化中心(簡(jiǎn)稱卓越中心/孵化中心)——不僅支援了緊缺的算力資源,還提供了昇騰全流程AI基礎(chǔ)軟硬件技術(shù)支持及技能培訓(xùn),通過(guò)不斷與高校共同推動(dòng)AI底層技術(shù)的完善和創(chuàng)新,賦能科研項(xiàng)目高效推進(jìn):
- 算力:鯤鵬昇騰科教創(chuàng)新卓越中心/孵化中心項(xiàng)目會(huì)向那些有創(chuàng)新有技術(shù)的高校科研團(tuán)隊(duì)提供足夠的自主算力。尤其對(duì)于被列入了美國(guó)制裁名單的頂尖高校自主算力的補(bǔ)給可謂“雪中送炭”。
- 算法:昇騰CANN提供了開(kāi)放的生態(tài),并且在算子開(kāi)發(fā)、調(diào)優(yōu)方面聯(lián)合創(chuàng)新,部分算法如MoH、MoE與硬件規(guī)劃方案結(jié)合,可以實(shí)現(xiàn)更高效的計(jì)算性能和資源利用率。DeepSeek的案例也充分證明了高效利用底層能力是創(chuàng)新的重要途徑。
但是鯤鵬昇騰科教創(chuàng)新孵化中心的合作不止于此,這是一個(gè)多層次,多形式的合作,不僅可以扶持好的科研項(xiàng)目,還以特訓(xùn)營(yíng)、研討會(huì)、專業(yè)競(jìng)賽(算子挑戰(zhàn)賽)等形式挖掘及培養(yǎng)人才。概括來(lái)說(shuō)鯤鵬昇騰科教創(chuàng)新孵化中心的實(shí)踐主要體現(xiàn)在下面三方面:
- 改革課程體系,以科研課題、 產(chǎn)業(yè)課題、競(jìng)賽課題驅(qū)動(dòng),培養(yǎng)計(jì)算產(chǎn)業(yè)頂尖人才
- 攻堅(jiān)體系架構(gòu)、計(jì)算加速能力、 算法能力、系統(tǒng)能力,孕育世界級(jí)的創(chuàng)新成果
- 創(chuàng)新AI+X,聯(lián)合華為+高校計(jì)算專家,共同賦能交叉學(xué)科, 引領(lǐng)智能化生態(tài)發(fā)展
鯤鵬昇騰科教創(chuàng)新孵化中心項(xiàng)目目前有序進(jìn)展中,簽約的高校包含:
鯤鵬昇騰科教創(chuàng)新卓越中心:清華大學(xué)、北京大學(xué)、上海交通大學(xué)、浙江大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué);
鯤鵬昇騰科教創(chuàng)新孵化中心:復(fù)旦大學(xué)、哈爾濱工業(yè)大學(xué)、華中科技大學(xué)、西安交通大學(xué)、南京大學(xué)、北京航空航天大學(xué)、北京理工大學(xué)、電子科技大學(xué)、東南大學(xué)、北京郵電大學(xué)等
![]()
讓人驚訝的是鯤鵬昇騰科教創(chuàng)新卓越中心/孵化中心項(xiàng)目實(shí)施一年左右已經(jīng)有行業(yè)重大影響力的項(xiàng)目產(chǎn)生了,例如清華大學(xué)KTransformers項(xiàng)目。
有影響力的AI成果在不斷孵化
在卓越中心提供的昇騰技術(shù)支持下,清華大學(xué)系初創(chuàng)團(tuán)隊(duì)趨境科技研發(fā)的KTransformers異構(gòu)推理框架橫空出世。此框架的驚人之處在于實(shí)現(xiàn)了單卡運(yùn)行千億參數(shù)模型的技術(shù)突破,通過(guò)高級(jí)內(nèi)核優(yōu)化和布局/并行策略來(lái)增強(qiáng)Transformers體驗(yàn),進(jìn)一步說(shuō)便是通過(guò)異構(gòu)計(jì)算優(yōu)化和內(nèi)核級(jí)加速技術(shù)來(lái)提升表現(xiàn),最終大幅降低了大模型的運(yùn)行成本。在如今大模型規(guī)模指數(shù)級(jí)增長(zhǎng)的產(chǎn)業(yè)現(xiàn)狀下具備重大價(jià)值,也是底層技術(shù)架構(gòu)創(chuàng)新的典范。
![]()
據(jù)了解,KTransformers異構(gòu)協(xié)同推理技術(shù)為趨境科技業(yè)界首創(chuàng),這項(xiàng)技術(shù)基于鯤鵬CPU與昇騰NPU的異構(gòu)協(xié)同優(yōu)勢(shì),通過(guò)基于計(jì)算強(qiáng)度的offload策略,將計(jì)算強(qiáng)度較低的MoE 層參數(shù)offload 到鯤鵬CPU,將計(jì)算強(qiáng)度高的MLA 保持在昇騰NPU,顯存占用降低90%以上。不僅如此,還針對(duì)鯤鵬平臺(tái)做了很多深度的優(yōu)化:
- NUMA親和優(yōu)化,對(duì)算子進(jìn)行 NUMA 親和改造,以減少跨 NUMA 的訪問(wèn)和同步,以此降低訪問(wèn)延遲,提升推理吞吐。
- 鯤鵬計(jì)算加速,使用了 KML 鯤鵬數(shù)學(xué)庫(kù)進(jìn)行加速,算子性能提升100%;通過(guò)鯤鵬工具鏈中的畢昇編譯器編譯,性能提升50%。
- 并行計(jì)算加速,開(kāi)啟 MTP(多 tokens/s 預(yù)測(cè)),大約提升 40% 的性能;采用新技術(shù)“Expert 延遲計(jì)算”,完全隱藏 NPU CPU 運(yùn)行空泡,性能最高提升2倍
同時(shí)趨境科技與華為在今年5月的KADC大會(huì)上聯(lián)合發(fā)布了“鯤鵬+xPU解決方案”,并完成了兩種方案的性能調(diào)試,均實(shí)現(xiàn)了顯著的性能提升:
- 昇騰+鯤鵬 KTransformers 方案(AK+K),在單機(jī)單卡的環(huán)境中,能夠運(yùn)行 DeepSeek R1 671B 8bit 滿血版,prefill 和 decode 速度是 llama.cpp 的 4-6 倍。
- 鯤鵬 CPU+ KTransformers 方案(K+K),在單機(jī)零卡的環(huán)境中,CPU MoE 算子帶寬利用率達(dá)到 70 %,運(yùn)行 DeepSeek R1 671B 8bit 滿血版,prefill 和 decode 速度是 llama.cpp 的 4-6 倍。
KTransformers解決了大模型部署中高昂的硬件成本與顯存瓶頸問(wèn)題,降低了中小團(tuán)隊(duì)和開(kāi)發(fā)者參與大模型研發(fā)的資金門檻,將大模型拓展到端側(cè),極大推動(dòng)了AI 智能普惠。
事實(shí)上,卓越中心/孵化中心提供的不僅僅是硬件資源,還有以鯤鵬、昇騰技術(shù)為底座的全流程AI技術(shù),這也意味著許多高校科研項(xiàng)目可以全面擁抱自主算力和生態(tài)。
![]()
以昇騰為例,其開(kāi)放性和易用性讓各大高校的科研項(xiàng)目在其平臺(tái)上的開(kāi)展并不困難。昇騰CANN8.0支持主流的Pytorch、TensorFlow、ONNX等第三方深度學(xué)習(xí)框架,這種無(wú)縫的銜接使得各主流項(xiàng)目都可以很快的移植到了昇騰體系內(nèi),還可以使用torch_npu進(jìn)行開(kāi)發(fā),整體代碼都可以無(wú)縫在昇騰NPU上訓(xùn)練和推理。
對(duì)于一個(gè)模型來(lái)說(shuō),算子是其靈魂,決定了這個(gè)模型的性能,CANN對(duì)自定義算子的支持是模型做出差異化的關(guān)鍵。Ascend C是CANN針對(duì)算子開(kāi)發(fā)場(chǎng)景推出的編程語(yǔ)言,支持C和C++標(biāo)準(zhǔn)規(guī)范,兼具開(kāi)發(fā)效率和運(yùn)行性能。基于Ascend C編寫的算子程序,通過(guò)編譯器編譯和運(yùn)行時(shí)調(diào)度,運(yùn)行在昇騰AI處理器上。此外算子加速庫(kù)提供了一系列豐富的深度優(yōu)化、硬件親和的高性能算子,如Neural Network、Digital Vision Pre-Processing算子等,方便開(kāi)發(fā)者調(diào)用進(jìn)一步優(yōu)化算法運(yùn)行性能、構(gòu)筑差異化,目前基于CANN開(kāi)發(fā)的融合算子數(shù)量新增80 多個(gè)。
![]()
除了CANN,昇騰應(yīng)用使能套件也很好地賦能AI應(yīng)用的開(kāi)發(fā)。例如MindSpeed在大模型需求量激增的時(shí)代背景下,起到了非常關(guān)鍵的作用。當(dāng)規(guī)模達(dá)達(dá)到百億甚至更大時(shí),就需要進(jìn)行模型切分,并在多個(gè)節(jié)點(diǎn)上進(jìn)行模型并行。在這方面可以充分利用昇騰MindSpeed分布式加速套件,讓大模型分布式并行運(yùn)算。更有甚者,針對(duì)大模型的深度思考能力,昇騰推出了MindSpeed RL強(qiáng)化學(xué)習(xí)套件。面對(duì)訓(xùn)推環(huán)節(jié)反復(fù)迭代和轉(zhuǎn)換遇到的計(jì)算資源利用率低,通信時(shí)延高和內(nèi)存溢出風(fēng)險(xiǎn),MindSpeed RL具備訓(xùn)推共卡和推理異步生成技術(shù),顯著減少內(nèi)存占用并加速收斂,大幅提升后訓(xùn)練資源利用率。
從硬件、底層技術(shù)架構(gòu)到應(yīng)用使能層,卓越中心/孵化中心提供了以鯤鵬、昇騰為主的全面的技術(shù)支持,同時(shí)使能高校反哺系統(tǒng)平臺(tái)的創(chuàng)新。這樣一來(lái),雙方合力做厚算力黑土地,在未來(lái)可以更好地、更廣泛地支撐應(yīng)用開(kāi)發(fā)者的創(chuàng)新。
孵化中心是校企的雙贏選擇,是AI基礎(chǔ)技術(shù)躍升的“溫床”
回顧AI的發(fā)展,高質(zhì)量數(shù)據(jù)集的建立,神經(jīng)卷積網(wǎng)絡(luò)的出現(xiàn)都是從高校開(kāi)始的,甚至CUDA也是通過(guò)在高校建立卓越中心發(fā)展起來(lái)的。高校,尤其是頂尖高校是AI人才的搖籃,這是毋庸置疑的,同時(shí)各種報(bào)告和數(shù)據(jù)也顯示出高校在AI人才的培養(yǎng)也面臨諸多問(wèn)題,比如高校的算力不足,再比如無(wú)法深入硬件層優(yōu)化算法等。
鯤鵬昇騰科教創(chuàng)新卓越中心/孵化中心的建立是高校和企業(yè)雙贏的選擇,高校在算力、技術(shù)支持及學(xué)生技能提升上獲益的同時(shí),通過(guò)與昇騰團(tuán)隊(duì)的交流合作,在算子開(kāi)發(fā)領(lǐng)域也攻克了很多難題,共同推動(dòng)了AI基礎(chǔ)技術(shù)的發(fā)展。
“萬(wàn)丈高樓平地起”,做好基礎(chǔ)技術(shù)的創(chuàng)新是一個(gè)“打地基”的過(guò)程,越成熟、越穩(wěn)固的底座,便能承載和支持更加豐富且性能強(qiáng)大的產(chǎn)品創(chuàng)新。立足長(zhǎng)遠(yuǎn),夯實(shí)基礎(chǔ)就是鯤鵬昇騰科教創(chuàng)新卓越中心和孵化中心正在做的。
參考資料:
領(lǐng)先的 100 所學(xué)術(shù)機(jī)構(gòu) | |補(bǔ)充劑 |自然指數(shù)
github.com/PKU-YuanGroup/Open-Sora-Plan
AI’s computing gap: academics lack access to powerful chips needed for research
鯤鵬昇騰科教創(chuàng)新卓越中心/孵化中心-高校人才發(fā)展社區(qū)
昇思MindSpore | 全場(chǎng)景AI框架 | 昇思MindSpore社區(qū)官網(wǎng)
Open-Sora 計(jì)劃:開(kāi)源大型視頻生成模型
憑借昇騰澎湃算力,Open-Sora Plan實(shí)現(xiàn)電影級(jí)視頻生成
GitHub - kvcache-ai/ktransformers:用于體驗(yàn)尖端 LLM 推理優(yōu)化的靈活框架
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.