<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      成本0.3美元,耗時(shí)26分鐘!CudaForge:顛覆性低成本CUDA優(yōu)化框架

      0
      分享至




      本文作者包括明尼蘇達(dá)大學(xué)的張子健(共同第一作者),王嶸(共同第一作者),李世陽(yáng),羅越波,洪明毅,丁才文。

      CUDA 代碼的性能對(duì)于當(dāng)今的模型訓(xùn)練與推理至關(guān)重要,然而手動(dòng)編寫優(yōu)化 CUDA Kernel 需要很高的知識(shí)門檻和時(shí)間成本。與此同時(shí),近年來(lái) LLM 在 Code 領(lǐng)域獲得了諸多成功。這推動(dòng)人們?nèi)ヌ剿魅绾卫?LLM 來(lái)編寫優(yōu)化 CUDA kernel。然而,現(xiàn)有的方法面臨諸多問題,例如高昂的訓(xùn)練與推理成本,不良的 kernel 性能,以及缺乏硬件反饋導(dǎo)致的盲目探索。

      那么對(duì)于使用 LLM 進(jìn)行 CUDA 代碼生成,我們能不能設(shè)計(jì)一個(gè)簡(jiǎn)單而有效的方法,使其能夠低成本地生成可靠高效的 CUDA kernel?

      明尼蘇達(dá)大學(xué)的團(tuán)隊(duì)提出了一種新的方法——CudaForge。這是一種簡(jiǎn)單、高效且低成本的多智能體 CUDA Kernel 生成與優(yōu)化工作流。該工作流受人類專家的實(shí)際開發(fā)流程啟發(fā),包含初始 Kernel 的編寫、正確性測(cè)試、硬件反饋分析以及迭代改進(jìn)等關(guān)鍵階段。

      • 論文標(biāo)題:CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization
      • 論文鏈接:https://arxiv.org/pdf/2511.01884
      • 代碼地址: https://github.com/OptimAI-Lab/CudaForge

      實(shí)驗(yàn)結(jié)果表明,CudaForge 在 KernelBench Levels 1-3 上取得了 SOTA 的結(jié)果,超越了現(xiàn)有的所有方法。值得注意的是,通過 CudaForge 生成一個(gè)經(jīng)過優(yōu)化的 Kernel 在單張 RTX6000上僅需約26.5 分鐘,同時(shí)僅產(chǎn)生約0.3 美元的 API 調(diào)用成本!

      CudaForge Workflow 介紹

      正如人類專家所采用的開發(fā)方法,包括初始 Kernel 的編寫、正確性測(cè)試、硬件反饋分析以及迭代改進(jìn),我們將 CudaForge 設(shè)計(jì)為如上所示的迭代式優(yōu)化框架。

      該框架包含兩個(gè)相互獨(dú)立的智能體:CoderJudge

      Coder 根據(jù)任務(wù)描述以及來(lái)自 Judge 的反饋生成候選 CUDA kernel;而 Judge 則利用 kernel 本身、硬件反饋以及運(yùn)行時(shí)信息對(duì)每個(gè)候選進(jìn)行評(píng)估。

      具體而言,給定一個(gè) CUDA kernel 生成任務(wù),Coder 首先接收任務(wù)要求以及對(duì)應(yīng)的 PyTorch 參考實(shí)現(xiàn),然后生成一個(gè)初始的候選 kernel。該 kernel 將被編譯并在測(cè)試用例上執(zhí)行以驗(yàn)證其正確性。

      如果測(cè)試失敗,Judge 會(huì)檢查運(yùn)行時(shí)信息(例如編譯錯(cuò)誤、與 PyTorch 參考結(jié)果不一致的輸出),并分析該錯(cuò)誤 kernel 的問題所在。隨后,Judge 會(huì)返回相應(yīng)的糾錯(cuò)反饋(如缺少頭文件等),以指導(dǎo)下一輪生成。當(dāng)某個(gè)候選 kernel 通過了正確性測(cè)試后,Judge 會(huì)使用NCU工具對(duì)其進(jìn)行性能剖析,獲取NCU 性能指標(biāo)(如內(nèi)存帶寬、占用率、warp 效率等)。

      結(jié)合 GPU 硬件規(guī)格,這些指標(biāo)構(gòu)成了用于識(shí)別主要性能瓶頸(如算力受限或帶寬受限)的硬件反饋,Judge 會(huì)進(jìn)一步基于此返回一個(gè)明確的優(yōu)化建議(如使用 shared memory)給 Coder。

      在下一輪中,Coder 會(huì)同時(shí)接收上一輪的 kernel、Judge 的反饋以及原始任務(wù)需求,并生成新的、經(jīng)過修正或優(yōu)化的 kernel。該過程最多重復(fù)N輪,最終我們會(huì)從所有正確的候選結(jié)果中選擇效率最高的 kernel作為最終輸出。

      在此,我們給出一個(gè)使用 CudaForge 進(jìn)行 Kernel 優(yōu)化的案例,并將其與Kevin-32B方法進(jìn)行對(duì)比:

      這一對(duì)比進(jìn)一步凸顯出使用硬件反饋對(duì)于 Cuda 代碼優(yōu)化的重要意義。

      具體來(lái)說(shuō),CudaForge通過以下三項(xiàng)關(guān)鍵設(shè)計(jì)顯著提升了 CUDA kernel 的生成與優(yōu)化能力:

      雙智能體分工協(xié)作:CudaForge 采用Coder–Judge雙智能體架構(gòu),其中 Coder 專注于代碼生成,Judge 負(fù)責(zé)評(píng)估代碼并提供反饋,從而實(shí)現(xiàn)“認(rèn)知負(fù)載”的有效分離。

      迭代式優(yōu)化流程:CudaForge 通過多輪迭代逐步糾錯(cuò)與提速,使得 Kernel 能在每一輪中持續(xù)被改進(jìn),特別是在復(fù)雜任務(wù)中能夠獲得更加穩(wěn)定的優(yōu)化效果。

      顯式引入硬件反饋:CudaForge 將GPU 規(guī)格NCU 性能指標(biāo)(如帶寬、占用率、Warp 效率)納入反饋,使 Judge 能精確定位瓶頸并提供可執(zhí)行的優(yōu)化指導(dǎo)

      實(shí)驗(yàn)評(píng)估

      我們?cè)?KernelBench Levels 1-3 上評(píng)估了我們的模型,并與 Kevin-32B,OpenAI-o3 等模型進(jìn)行了比較。

      在 RTX 6000 上的 KernelBench Levels 1–3 主要結(jié)果:

      在我們的主要實(shí)驗(yàn)中,我們默認(rèn)將OpenAI-o3同時(shí)用作 Coder 與 Judge,并將最大迭代輪數(shù)設(shè)為N = 10,以在性能提升與推理成本之間取得平衡。

      在 KernelBench 上,CudaForge 達(dá)到了 97.6% 的正確率,平均加速比為 1.677×,F(xiàn)ast1 比例為 70.8%,并且實(shí)現(xiàn)了1.107× 的中位數(shù)加速比1.592× 的 75 分位加速比。這些結(jié)果顯著優(yōu)于基礎(chǔ)模型 OpenAI-o3 與一系列消融變體(包括o3-self-refine、o3-correction、o3-optimization)。

      與 Kevin-32B 在 H200 上的對(duì)比:

      考慮到 Kevin-32B 是基于 H200 訓(xùn)練的 RL 模型,我們?cè)?H200 上對(duì)比了 Kevin-32B 和 CudaForge。下圖展示了 CudaForge 與 Kevin-32B 在 KernelBench 上的正確性與性能表現(xiàn)對(duì)比。虛線表示 CudaForge 在 Level 1 和 Level 2 上的平均水平。

      盡管CudaForge 不需要訓(xùn)練(training-free),它在KernelBench Level 1–2上的表現(xiàn)依然優(yōu)于Kevin-32B,并且在Level 3上也取得了極為出色的性能。

      CudaForge 的 API 與計(jì)算時(shí)間成本分析

      我們進(jìn)一步分析了 CudaForge 的性能與其 API 調(diào)用成本和計(jì)算時(shí)間之間的關(guān)系,如圖所示。隨著 API 成本與計(jì)算時(shí)間的增加,CudaForge 的性能呈單調(diào)提升趨勢(shì)。值得注意的是,即使在每個(gè)任務(wù)耗費(fèi)不超過 0.15 美元和 10 分鐘的情況下,CudaForge 也已經(jīng)能夠超越 Agentic 基線方法,這充分展示了其出色的性能-成本平衡能力。



      基于 KernelBench,我們測(cè)評(píng)了 CudaForge 所需的時(shí)間和 API 成本,結(jié)果表明在 KernelBench Levels 1-3 所有任務(wù)上,CudaForge 每個(gè)任務(wù)僅需平均 0.3 美元的 API 成本,以及在單卡 RTX6000 上 26.5 分鐘的運(yùn)行時(shí)間!

      消融實(shí)驗(yàn)

      在不同 LLM 上實(shí)例化 CudaForge:

      為了驗(yàn)證 CudaForge 是否依賴某個(gè)特定基礎(chǔ)模型,我們?cè)趯?shí)驗(yàn)中固定一方(Coder 或 Judge)為 OpenAI-o3(記作 O3),并將另一方替換為多種先進(jìn)的大模型,包括 QwQ-32B、GPT-5、Claude-Sonnet-4、GPT-OSS-120B 等。

      如表所示,所有組合都能夠取得較高的正確率和良好的性能表現(xiàn),并且在某些情況下甚至超過原始的 O3/O3 配置。

      這一結(jié)果表明,CudaForge 并不依賴于某個(gè)特定的基礎(chǔ)模型:其有效性主要來(lái)源于 Coder–Judge 的工作流機(jī)制,并且隨著更強(qiáng)模型的出現(xiàn),它可以直接受益并進(jìn)一步提升性能。

      在不同 GPU 架構(gòu)上使用 CudaForge:

      我們進(jìn)一步在多種 GPU 架構(gòu)上評(píng)估 CudaForge,包括 RTX 6000、RTX 4090、RTX 3090 和 A100,以考察其在不同硬件條件下的適用性。

      實(shí)驗(yàn)結(jié)果(如表所示)顯示,CudaForge 在所有測(cè)試 GPU 上均保持了高正確率和強(qiáng)性能表現(xiàn),證明其具有良好的硬件通用性和穩(wěn)定性。

      總結(jié)

      我們提出了 CudaForge,一個(gè)無(wú)需訓(xùn)練的多智能體 CUDA kernel 生成與優(yōu)化框架。該框架模擬人類專家的迭代式工作流程,并顯式地引入硬件反饋,以實(shí)現(xiàn)有針對(duì)性的 Kernel 優(yōu)化,而非盲目搜索。 在 KernelBench 基準(zhǔn)上,CudaForge 相較于現(xiàn)有方法取得了最高的正確率和顯著的性能提升,同時(shí)在不同 GPU 架構(gòu)和多種基礎(chǔ)大模型上均表現(xiàn)出強(qiáng)魯棒性與泛化性。

      此外,CudaForge 的性能隨著迭代輪數(shù)的增加能夠進(jìn)一步提升。 最后,得益于其低 API 開銷與低時(shí)間成本,CudaForge 為自動(dòng)化 CUDA Kernel 開發(fā)提供了一種高效、實(shí)用且可投入實(shí)際使用的解決方案。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      為啥便宜的大豆油大多采用浸出工藝?浸出工藝,到底是啥工藝呢?

      為啥便宜的大豆油大多采用浸出工藝?浸出工藝,到底是啥工藝呢?

      向航說(shuō)
      2026-03-10 00:40:03
      王曼昱0比3輸給大藤,卻被惡意猜測(cè)故意輸球,想提前備戰(zhàn)世界杯

      王曼昱0比3輸給大藤,卻被惡意猜測(cè)故意輸球,想提前備戰(zhàn)世界杯

      鳳幻洋
      2026-03-10 15:27:17
      看起來(lái)似乎挺有培養(yǎng)價(jià)值的!勇士還不如給后場(chǎng)新秀多些表現(xiàn)機(jī)會(huì)?

      看起來(lái)似乎挺有培養(yǎng)價(jià)值的!勇士還不如給后場(chǎng)新秀多些表現(xiàn)機(jī)會(huì)?

      稻谷與小麥
      2026-03-11 00:32:34
      魯梅尼格:擁有孔帕尼是我們的幸運(yùn);希望瓜迪奧拉能晉級(jí)

      魯梅尼格:擁有孔帕尼是我們的幸運(yùn);希望瓜迪奧拉能晉級(jí)

      懂球帝
      2026-03-10 22:32:21
      新領(lǐng)袖上臺(tái)不到24小時(shí),伊朗突然提出停火,開出的條件讓美國(guó)沉默

      新領(lǐng)袖上臺(tái)不到24小時(shí),伊朗突然提出停火,開出的條件讓美國(guó)沉默

      咣當(dāng)?shù)厍?/span>
      2026-03-10 19:21:32
      央視首次曝光:全球最強(qiáng)光刻機(jī)亮相,中國(guó)再次反殺西方技術(shù)封鎖!

      央視首次曝光:全球最強(qiáng)光刻機(jī)亮相,中國(guó)再次反殺西方技術(shù)封鎖!

      粵語(yǔ)音樂噴泉
      2026-03-10 19:07:32
      我國(guó)極簡(jiǎn)渦噴發(fā)動(dòng)機(jī)即將量產(chǎn),萬(wàn)元巡飛彈讓美日破防

      我國(guó)極簡(jiǎn)渦噴發(fā)動(dòng)機(jī)即將量產(chǎn),萬(wàn)元巡飛彈讓美日破防

      世家寶
      2026-03-08 17:13:50
      科學(xué)家做了一個(gè)模擬:很可怕!科技文明或許只能持續(xù)5000年

      科學(xué)家做了一個(gè)模擬:很可怕!科技文明或許只能持續(xù)5000年

      窺探宇宙1
      2026-03-08 13:00:03
      12年前,那個(gè)美國(guó)抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

      12年前,那個(gè)美國(guó)抓捕未果,入籍俄羅斯的斯諾登,如今過得怎樣?

      就一點(diǎn)
      2026-03-08 23:09:47
      姐妹花的情誼海枯石爛

      姐妹花的情誼海枯石爛

      疾跑的小蝸牛
      2026-03-06 20:59:34
      一枚火箭一天內(nèi)發(fā)射兩次,送54顆衛(wèi)星上天,獵鷹九號(hào)越來(lái)越牛了

      一枚火箭一天內(nèi)發(fā)射兩次,送54顆衛(wèi)星上天,獵鷹九號(hào)越來(lái)越牛了

      科普大世界
      2026-03-10 09:44:55
      伊朗27輪反擊!從南到北炸遍以色列,伊朗提出目標(biāo),把美趕出中東

      伊朗27輪反擊!從南到北炸遍以色列,伊朗提出目標(biāo),把美趕出中東

      探史
      2026-03-09 21:30:19
      往人帽子里倒三勺螺螄粉湯,黑衣女現(xiàn)在全家抬不起頭

      往人帽子里倒三勺螺螄粉湯,黑衣女現(xiàn)在全家抬不起頭

      西莫的藝術(shù)宮殿
      2026-03-10 12:26:09
      歐盟各國(guó)抨擊馮德萊恩逾越職責(zé)。

      歐盟各國(guó)抨擊馮德萊恩逾越職責(zé)。

      世間閑事
      2026-03-10 13:46:31
      荷蘭總部遠(yuǎn)程操作,直接把中國(guó)幾千名員工的賬號(hào)全部禁用,沒通知

      荷蘭總部遠(yuǎn)程操作,直接把中國(guó)幾千名員工的賬號(hào)全部禁用,沒通知

      南權(quán)先生
      2026-03-09 15:55:08
      哈梅內(nèi)伊以身入局,帶走大批叛徒,為兒子鋪路?美以噩夢(mèng)才剛開始

      哈梅內(nèi)伊以身入局,帶走大批叛徒,為兒子鋪路?美以噩夢(mèng)才剛開始

      卷史
      2026-03-10 04:06:07
      毛骨悚然!網(wǎng)傳西安二婚大專女,找月薪2萬(wàn)985未婚男,全款車房…

      毛骨悚然!網(wǎng)傳西安二婚大專女,找月薪2萬(wàn)985未婚男,全款車房…

      火山詩(shī)話
      2026-03-08 06:10:43
      1978年譚震林受粟裕之托,去徐州紀(jì)念淮海戰(zhàn)役,結(jié)果氣得渾身發(fā)抖

      1978年譚震林受粟裕之托,去徐州紀(jì)念淮海戰(zhàn)役,結(jié)果氣得渾身發(fā)抖

      微野談寫作
      2026-03-03 07:30:06
      柳某、王某等4人被西安警方查獲

      柳某、王某等4人被西安警方查獲

      91.6陜西交通廣播
      2026-03-10 08:09:25
      炒股其實(shí)不復(fù)雜,當(dāng)你弄懂了“量比+換手率”,你離財(cái)富就不遠(yuǎn)了

      炒股其實(shí)不復(fù)雜,當(dāng)你弄懂了“量比+換手率”,你離財(cái)富就不遠(yuǎn)了

      一方聊市
      2025-10-02 21:14:58
      2026-03-11 01:04:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12467文章數(shù) 142581關(guān)注度
      往期回顧 全部

      科技要聞

      全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

      頭條要聞

      伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

      頭條要聞

      伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

      體育要聞

      加蘭沒那么差,但鱸魚會(huì)用嗎?

      娛樂要聞

      《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

      財(cái)經(jīng)要聞

      “龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      教育
      藝術(shù)
      時(shí)尚
      數(shù)碼
      家居

      教育要聞

      蘇州大學(xué)官宣:面向高中生開放!

      藝術(shù)要聞

      震撼!美國(guó)油畫家約書亞·拉洛克的作品讓人驚嘆不已!

      看來(lái)看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

      數(shù)碼要聞

      3月31日!RTX 50系玩家可體驗(yàn)英偉達(dá)DLSS 4.5新特性

      家居要聞

      自然肌理 溫度質(zhì)感婚房

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版