網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

華人團(tuán)隊(duì)實(shí)現(xiàn)AI自動(dòng)尋優(yōu)，矩陣乘法核心首超CUDA閉源庫

2026-01-15 15:48:04　來源: DeepTech深科技

北京舉報(bào)

分享至

“矩陣乘法是英偉達(dá) CUDA 生態(tài)最核心的護(hù)城河之一。而我們打造的 CUDA-L2 在大規(guī)模、系統(tǒng)性的評(píng)測(cè)中，超越英偉達(dá)針對(duì)該核心算子的閉源優(yōu)化方案。我們不僅實(shí)現(xiàn)了超越，而且將方法開源，這對(duì)于打破技術(shù)壁壘具有標(biāo)志性意義。”DeepReinforce 公司工程師蘇松喬告訴 DeepTech。

近日，蘇松喬和合作者打造出一款名為 CUDA-L2 的智能系統(tǒng)，通過結(jié)合 AI 模型和強(qiáng)化學(xué)習(xí)，成功造出能以極高速度在 GPU 上運(yùn)行的矩陣乘法核心程序。CUDA-L2 能夠自動(dòng)搜索成千上萬種可能的程序編寫方式，以實(shí)際運(yùn)行速度作為獎(jiǎng)勵(lì)，引導(dǎo) AI 找到最優(yōu)解。

在 A100 這款高性能 GPU 上，它生成的程序比當(dāng)今業(yè)界最優(yōu)秀的官方庫比如英偉達(dá)的 cuBLAS 還要快上 19%，在模擬真實(shí)服務(wù)器環(huán)境的測(cè)試中，速度優(yōu)勢(shì)更是擴(kuò)大到 26%。這意味著未來的 AI 應(yīng)用，從實(shí)時(shí)對(duì)話到復(fù)雜科學(xué)計(jì)算，都可能因此變得更快和更高效。

蘇松喬表示：“這項(xiàng)成果的應(yīng)用前景非常直接。大模型超過一半的 GPU 計(jì)算時(shí)間都花在矩陣乘法上。因此，矩陣乘法算子的性能提升，將直接、成比例地提升大模型的整體運(yùn)行效率。理論上，若矩陣乘法速度提升 10%，大模型的效率可提升約 5%。”

他和合作者曾用 ChatGPT 粗略估算，矩陣乘法 10% 的性能提升，可能為全球 GDP 帶來約 4,400 億美元的增長，相當(dāng)于全球 GDP 的 0.4%。雖然這只是估算，但足以說明其底層基礎(chǔ)性技術(shù)帶來的巨大經(jīng)濟(jì)影響力。實(shí)際應(yīng)用上，只需將現(xiàn)有大模型框架中的矩陣乘法計(jì)算替換為我們更快的實(shí)現(xiàn)即可。

（來源：https://arxiv.org/abs/2512.02551）

在 GPU 上高效執(zhí)行矩陣乘法到底有多難？

矩陣乘法是 AI 模型中最基礎(chǔ)、最耗時(shí)的計(jì)算操作之一。過去，優(yōu)化這類計(jì)算程序是頂級(jí)工程師的專屬領(lǐng)域，需要針對(duì)不同的問題規(guī)模和不同硬件進(jìn)行極其復(fù)雜且耗時(shí)的調(diào)整。

我們可以把矩陣乘法想象為一個(gè)排列整齊的 Excel 表格。矩陣乘法就是一種特殊的規(guī)則，用于將兩個(gè)這樣的表格合并從而生成一個(gè)全新的表格。這個(gè)操作在 AI 領(lǐng)域幾乎無處不在，幾乎是所有智能計(jì)算的基石。無論是讓 AI 生成一幅畫還是理解一句話，亦或是推薦一個(gè)視頻，背后都有海量的矩陣乘法在默默工作。

然而，在 GPU 上高效執(zhí)行這個(gè)矩陣乘法非常困難。GPU 就像一臺(tái)擁有成千上萬個(gè)小型計(jì)算核心的超級(jí)引擎，如何把計(jì)算任務(wù)合理分給這些核心，如何讓數(shù)據(jù)在高速但是容量有限的記憶單元之間流暢移動(dòng)，都需要精秒的設(shè)計(jì)，同時(shí)不同大小的表格需要完全不同的優(yōu)化策略。

（來源：https://arxiv.org/abs/2512.02551）

當(dāng) AI 遇見強(qiáng)化學(xué)習(xí)

傳統(tǒng)上，設(shè)計(jì)這些高速計(jì)算程序也就是內(nèi)核，是人類工程師所要面臨的艱巨任務(wù)之一。但是本次 CUDA-L2 系統(tǒng)引入了一個(gè)全新的設(shè)計(jì)師：即一個(gè)經(jīng)過海量代碼訓(xùn)練的大模型。這個(gè)模型從一開始就懂得很多編程知識(shí)，可謂非常的博學(xué)。

但是，光有博學(xué)還不夠，關(guān)鍵是要學(xué)會(huì)優(yōu)化。CUDA-L2 采用了強(qiáng)化學(xué)習(xí)的方法來開展訓(xùn)練。強(qiáng)化學(xué)習(xí)不會(huì)告訴模型每一步具體怎么走，而是設(shè)置一個(gè)目標(biāo)讓模型去嘗試各種動(dòng)作。

當(dāng)它做出一個(gè)動(dòng)作導(dǎo)致分?jǐn)?shù)增加時(shí)，它就得到了獎(jiǎng)勵(lì)，從而知道這個(gè)動(dòng)作是好的；反之，分?jǐn)?shù)減少則是一種懲罰。通過多次的嘗試，模型就能自己摸索出來通關(guān)的最佳策略。

CUDA-L2 的訓(xùn)練過程也是如此。模型嘗試生成不同的計(jì)算程序，系統(tǒng)會(huì)實(shí)際地運(yùn)行它們，并使用運(yùn)行速度作為獎(jiǎng)勵(lì)分?jǐn)?shù)。同時(shí)，程序如果出錯(cuò)或者寫得太冗長也會(huì)被扣分。就這樣，在數(shù)百萬次的嘗試和學(xué)習(xí)中國，模型逐漸掌握了編寫超高速矩陣乘法程序的秘籍。它甚至能夠參考詳細(xì)的硬件性能報(bào)告，從內(nèi)存吞吐量、計(jì)算單元利用率等數(shù)據(jù)中學(xué)習(xí)如何調(diào)整程序。

（來源：https://arxiv.org/abs/2512.02551）

談及這一成果的后續(xù)計(jì)劃，蘇松喬說道：“目前，這篇論文尚未正式投稿，我們更關(guān)注于在 GitHub 上持續(xù)開源和更新代碼，推動(dòng)工業(yè)界的實(shí)際應(yīng)用。我個(gè)人已工作多年，此前長期在 Meta（原 Facebook）從事與 AI 基礎(chǔ)設(shè)施、網(wǎng)絡(luò)、數(shù)據(jù)庫和推理優(yōu)化相關(guān)的系統(tǒng)研發(fā)工作，目前處于創(chuàng)業(yè)階段。”

參考資料：

相關(guān)論文 https://arxiv.org/abs/2512.02551

Github 鏈接：https://github.com/deepreinforce-ai/CUDA-L2

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.