“矩陣乘法是英偉達(dá) CUDA 生態(tài)最核心的護(hù)城河之一。而我們打造的 CUDA-L2 在大規(guī)模、系統(tǒng)性的評(píng)測(cè)中,超越英偉達(dá)針對(duì)該核心算子的閉源優(yōu)化方案。我們不僅實(shí)現(xiàn)了超越,而且將方法開源,這對(duì)于打破技術(shù)壁壘具有標(biāo)志性意義。”DeepReinforce 公司工程師蘇松喬告訴 DeepTech。
近日,蘇松喬和合作者打造出一款名為 CUDA-L2 的智能系統(tǒng),通過結(jié)合 AI 模型和強(qiáng)化學(xué)習(xí),成功造出能以極高速度在 GPU 上運(yùn)行的矩陣乘法核心程序。CUDA-L2 能夠自動(dòng)搜索成千上萬種可能的程序編寫方式,以實(shí)際運(yùn)行速度作為獎(jiǎng)勵(lì),引導(dǎo) AI 找到最優(yōu)解。
在 A100 這款高性能 GPU 上,它生成的程序比當(dāng)今業(yè)界最優(yōu)秀的官方庫比如英偉達(dá)的 cuBLAS 還要快上 19%,在模擬真實(shí)服務(wù)器環(huán)境的測(cè)試中,速度優(yōu)勢(shì)更是擴(kuò)大到 26%。這意味著未來的 AI 應(yīng)用,從實(shí)時(shí)對(duì)話到復(fù)雜科學(xué)計(jì)算,都可能因此變得更快和更高效。
蘇松喬表示:“這項(xiàng)成果的應(yīng)用前景非常直接。大模型超過一半的 GPU 計(jì)算時(shí)間都花在矩陣乘法上。因此,矩陣乘法算子的性能提升,將直接、成比例地提升大模型的整體運(yùn)行效率。理論上,若矩陣乘法速度提升 10%,大模型的效率可提升約 5%。”
他和合作者曾用 ChatGPT 粗略估算,矩陣乘法 10% 的性能提升,可能為全球 GDP 帶來約 4,400 億美元的增長,相當(dāng)于全球 GDP 的 0.4%。雖然這只是估算,但足以說明其底層基礎(chǔ)性技術(shù)帶來的巨大經(jīng)濟(jì)影響力。實(shí)際應(yīng)用上,只需將現(xiàn)有大模型框架中的矩陣乘法計(jì)算替換為我們更快的實(shí)現(xiàn)即可。
![]()
(來源:https://arxiv.org/abs/2512.02551)
在 GPU 上高效執(zhí)行矩陣乘法到底有多難?
矩陣乘法是 AI 模型中最基礎(chǔ)、最耗時(shí)的計(jì)算操作之一。過去,優(yōu)化這類計(jì)算程序是頂級(jí)工程師的專屬領(lǐng)域,需要針對(duì)不同的問題規(guī)模和不同硬件進(jìn)行極其復(fù)雜且耗時(shí)的調(diào)整。
我們可以把矩陣乘法想象為一個(gè)排列整齊的 Excel 表格。矩陣乘法就是一種特殊的規(guī)則,用于將兩個(gè)這樣的表格合并從而生成一個(gè)全新的表格。這個(gè)操作在 AI 領(lǐng)域幾乎無處不在,幾乎是所有智能計(jì)算的基石。無論是讓 AI 生成一幅畫還是理解一句話,亦或是推薦一個(gè)視頻,背后都有海量的矩陣乘法在默默工作。
然而,在 GPU 上高效執(zhí)行這個(gè)矩陣乘法非常困難。GPU 就像一臺(tái)擁有成千上萬個(gè)小型計(jì)算核心的超級(jí)引擎,如何把計(jì)算任務(wù)合理分給這些核心,如何讓數(shù)據(jù)在高速但是容量有限的記憶單元之間流暢移動(dòng),都需要精秒的設(shè)計(jì),同時(shí)不同大小的表格需要完全不同的優(yōu)化策略。
![]()
(來源:https://arxiv.org/abs/2512.02551)
當(dāng) AI 遇見強(qiáng)化學(xué)習(xí)
傳統(tǒng)上,設(shè)計(jì)這些高速計(jì)算程序也就是內(nèi)核,是人類工程師所要面臨的艱巨任務(wù)之一。但是本次 CUDA-L2 系統(tǒng)引入了一個(gè)全新的設(shè)計(jì)師:即一個(gè)經(jīng)過海量代碼訓(xùn)練的大模型。這個(gè)模型從一開始就懂得很多編程知識(shí),可謂非常的博學(xué)。
但是,光有博學(xué)還不夠,關(guān)鍵是要學(xué)會(huì)優(yōu)化。CUDA-L2 采用了強(qiáng)化學(xué)習(xí)的方法來開展訓(xùn)練。強(qiáng)化學(xué)習(xí)不會(huì)告訴模型每一步具體怎么走,而是設(shè)置一個(gè)目標(biāo)讓模型去嘗試各種動(dòng)作。
當(dāng)它做出一個(gè)動(dòng)作導(dǎo)致分?jǐn)?shù)增加時(shí),它就得到了獎(jiǎng)勵(lì),從而知道這個(gè)動(dòng)作是好的;反之,分?jǐn)?shù)減少則是一種懲罰。通過多次的嘗試,模型就能自己摸索出來通關(guān)的最佳策略。
CUDA-L2 的訓(xùn)練過程也是如此。模型嘗試生成不同的計(jì)算程序,系統(tǒng)會(huì)實(shí)際地運(yùn)行它們,并使用運(yùn)行速度作為獎(jiǎng)勵(lì)分?jǐn)?shù)。同時(shí),程序如果出錯(cuò)或者寫得太冗長也會(huì)被扣分。就這樣,在數(shù)百萬次的嘗試和學(xué)習(xí)中國,模型逐漸掌握了編寫超高速矩陣乘法程序的秘籍。它甚至能夠參考詳細(xì)的硬件性能報(bào)告,從內(nèi)存吞吐量、計(jì)算單元利用率等數(shù)據(jù)中學(xué)習(xí)如何調(diào)整程序。
![]()
(來源:https://arxiv.org/abs/2512.02551)
談及這一成果的后續(xù)計(jì)劃,蘇松喬說道:“目前,這篇論文尚未正式投稿,我們更關(guān)注于在 GitHub 上持續(xù)開源和更新代碼,推動(dòng)工業(yè)界的實(shí)際應(yīng)用。我個(gè)人已工作多年,此前長期在 Meta(原 Facebook)從事與 AI 基礎(chǔ)設(shè)施、網(wǎng)絡(luò)、數(shù)據(jù)庫和推理優(yōu)化相關(guān)的系統(tǒng)研發(fā)工作,目前處于創(chuàng)業(yè)階段。”
參考資料:
相關(guān)論文 https://arxiv.org/abs/2512.02551
Github 鏈接:https://github.com/deepreinforce-ai/CUDA-L2
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.