<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      成本0.3美元,耗時26分鐘!CudaForge:顛覆性低成本CUDA優(yōu)化框架

      0
      分享至




      本文作者包括明尼蘇達大學(xué)的張子健(共同第一作者),王嶸(共同第一作者),李世陽,羅越波,洪明毅,丁才文。

      CUDA 代碼的性能對于當(dāng)今的模型訓(xùn)練與推理至關(guān)重要,然而手動編寫優(yōu)化 CUDA Kernel 需要很高的知識門檻和時間成本。與此同時,近年來 LLM 在 Code 領(lǐng)域獲得了諸多成功。這推動人們?nèi)ヌ剿魅绾卫?LLM 來編寫優(yōu)化 CUDA kernel。然而,現(xiàn)有的方法面臨諸多問題,例如高昂的訓(xùn)練與推理成本,不良的 kernel 性能,以及缺乏硬件反饋導(dǎo)致的盲目探索。

      那么對于使用 LLM 進行 CUDA 代碼生成,我們能不能設(shè)計一個簡單而有效的方法,使其能夠低成本地生成可靠高效的 CUDA kernel?

      明尼蘇達大學(xué)的團隊提出了一種新的方法——CudaForge。這是一種簡單、高效且低成本的多智能體 CUDA Kernel 生成與優(yōu)化工作流。該工作流受人類專家的實際開發(fā)流程啟發(fā),包含初始 Kernel 的編寫、正確性測試、硬件反饋分析以及迭代改進等關(guān)鍵階段。

      • 論文標(biāo)題:CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization
      • 論文鏈接:https://arxiv.org/pdf/2511.01884
      • 代碼地址: https://github.com/OptimAI-Lab/CudaForge

      實驗結(jié)果表明,CudaForge 在 KernelBench Levels 1-3 上取得了 SOTA 的結(jié)果,超越了現(xiàn)有的所有方法。值得注意的是,通過 CudaForge 生成一個經(jīng)過優(yōu)化的 Kernel 在單張 RTX6000上僅需約26.5 分鐘,同時僅產(chǎn)生約0.3 美元的 API 調(diào)用成本!

      CudaForge Workflow 介紹

      正如人類專家所采用的開發(fā)方法,包括初始 Kernel 的編寫、正確性測試、硬件反饋分析以及迭代改進,我們將 CudaForge 設(shè)計為如上所示的迭代式優(yōu)化框架。

      該框架包含兩個相互獨立的智能體:CoderJudge

      Coder 根據(jù)任務(wù)描述以及來自 Judge 的反饋生成候選 CUDA kernel;而 Judge 則利用 kernel 本身、硬件反饋以及運行時信息對每個候選進行評估。

      具體而言,給定一個 CUDA kernel 生成任務(wù),Coder 首先接收任務(wù)要求以及對應(yīng)的 PyTorch 參考實現(xiàn),然后生成一個初始的候選 kernel。該 kernel 將被編譯并在測試用例上執(zhí)行以驗證其正確性。

      如果測試失敗,Judge 會檢查運行時信息(例如編譯錯誤、與 PyTorch 參考結(jié)果不一致的輸出),并分析該錯誤 kernel 的問題所在。隨后,Judge 會返回相應(yīng)的糾錯反饋(如缺少頭文件等),以指導(dǎo)下一輪生成。當(dāng)某個候選 kernel 通過了正確性測試后,Judge 會使用NCU工具對其進行性能剖析,獲取NCU 性能指標(biāo)(如內(nèi)存帶寬、占用率、warp 效率等)。

      結(jié)合 GPU 硬件規(guī)格,這些指標(biāo)構(gòu)成了用于識別主要性能瓶頸(如算力受限或帶寬受限)的硬件反饋,Judge 會進一步基于此返回一個明確的優(yōu)化建議(如使用 shared memory)給 Coder。

      在下一輪中,Coder 會同時接收上一輪的 kernel、Judge 的反饋以及原始任務(wù)需求,并生成新的、經(jīng)過修正或優(yōu)化的 kernel。該過程最多重復(fù)N輪,最終我們會從所有正確的候選結(jié)果中選擇效率最高的 kernel作為最終輸出。

      在此,我們給出一個使用 CudaForge 進行 Kernel 優(yōu)化的案例,并將其與Kevin-32B方法進行對比:

      這一對比進一步凸顯出使用硬件反饋對于 Cuda 代碼優(yōu)化的重要意義。

      具體來說,CudaForge通過以下三項關(guān)鍵設(shè)計顯著提升了 CUDA kernel 的生成與優(yōu)化能力:

      雙智能體分工協(xié)作:CudaForge 采用Coder–Judge雙智能體架構(gòu),其中 Coder 專注于代碼生成,Judge 負責(zé)評估代碼并提供反饋,從而實現(xiàn)“認知負載”的有效分離。

      迭代式優(yōu)化流程:CudaForge 通過多輪迭代逐步糾錯與提速,使得 Kernel 能在每一輪中持續(xù)被改進,特別是在復(fù)雜任務(wù)中能夠獲得更加穩(wěn)定的優(yōu)化效果。

      顯式引入硬件反饋:CudaForge 將GPU 規(guī)格NCU 性能指標(biāo)(如帶寬、占用率、Warp 效率)納入反饋,使 Judge 能精確定位瓶頸并提供可執(zhí)行的優(yōu)化指導(dǎo)

      實驗評估

      我們在 KernelBench Levels 1-3 上評估了我們的模型,并與 Kevin-32B,OpenAI-o3 等模型進行了比較。

      在 RTX 6000 上的 KernelBench Levels 1–3 主要結(jié)果:

      在我們的主要實驗中,我們默認將OpenAI-o3同時用作 Coder 與 Judge,并將最大迭代輪數(shù)設(shè)為N = 10,以在性能提升與推理成本之間取得平衡。

      在 KernelBench 上,CudaForge 達到了 97.6% 的正確率,平均加速比為 1.677×,F(xiàn)ast1 比例為 70.8%,并且實現(xiàn)了1.107× 的中位數(shù)加速比1.592× 的 75 分位加速比。這些結(jié)果顯著優(yōu)于基礎(chǔ)模型 OpenAI-o3 與一系列消融變體(包括o3-self-refine、o3-correction、o3-optimization)。

      與 Kevin-32B 在 H200 上的對比:

      考慮到 Kevin-32B 是基于 H200 訓(xùn)練的 RL 模型,我們在 H200 上對比了 Kevin-32B 和 CudaForge。下圖展示了 CudaForge 與 Kevin-32B 在 KernelBench 上的正確性與性能表現(xiàn)對比。虛線表示 CudaForge 在 Level 1 和 Level 2 上的平均水平。

      盡管CudaForge 不需要訓(xùn)練(training-free),它在KernelBench Level 1–2上的表現(xiàn)依然優(yōu)于Kevin-32B,并且在Level 3上也取得了極為出色的性能。

      CudaForge 的 API 與計算時間成本分析

      我們進一步分析了 CudaForge 的性能與其 API 調(diào)用成本和計算時間之間的關(guān)系,如圖所示。隨著 API 成本與計算時間的增加,CudaForge 的性能呈單調(diào)提升趨勢。值得注意的是,即使在每個任務(wù)耗費不超過 0.15 美元和 10 分鐘的情況下,CudaForge 也已經(jīng)能夠超越 Agentic 基線方法,這充分展示了其出色的性能-成本平衡能力。



      基于 KernelBench,我們測評了 CudaForge 所需的時間和 API 成本,結(jié)果表明在 KernelBench Levels 1-3 所有任務(wù)上,CudaForge 每個任務(wù)僅需平均 0.3 美元的 API 成本,以及在單卡 RTX6000 上 26.5 分鐘的運行時間!

      消融實驗

      在不同 LLM 上實例化 CudaForge:

      為了驗證 CudaForge 是否依賴某個特定基礎(chǔ)模型,我們在實驗中固定一方(Coder 或 Judge)為 OpenAI-o3(記作 O3),并將另一方替換為多種先進的大模型,包括 QwQ-32B、GPT-5、Claude-Sonnet-4、GPT-OSS-120B 等。

      如表所示,所有組合都能夠取得較高的正確率和良好的性能表現(xiàn),并且在某些情況下甚至超過原始的 O3/O3 配置。

      這一結(jié)果表明,CudaForge 并不依賴于某個特定的基礎(chǔ)模型:其有效性主要來源于 Coder–Judge 的工作流機制,并且隨著更強模型的出現(xiàn),它可以直接受益并進一步提升性能。

      在不同 GPU 架構(gòu)上使用 CudaForge:

      我們進一步在多種 GPU 架構(gòu)上評估 CudaForge,包括 RTX 6000、RTX 4090、RTX 3090 和 A100,以考察其在不同硬件條件下的適用性。

      實驗結(jié)果(如表所示)顯示,CudaForge 在所有測試 GPU 上均保持了高正確率和強性能表現(xiàn),證明其具有良好的硬件通用性和穩(wěn)定性。

      總結(jié)

      我們提出了 CudaForge,一個無需訓(xùn)練的多智能體 CUDA kernel 生成與優(yōu)化框架。該框架模擬人類專家的迭代式工作流程,并顯式地引入硬件反饋,以實現(xiàn)有針對性的 Kernel 優(yōu)化,而非盲目搜索。 在 KernelBench 基準(zhǔn)上,CudaForge 相較于現(xiàn)有方法取得了最高的正確率和顯著的性能提升,同時在不同 GPU 架構(gòu)和多種基礎(chǔ)大模型上均表現(xiàn)出強魯棒性與泛化性。

      此外,CudaForge 的性能隨著迭代輪數(shù)的增加能夠進一步提升。 最后,得益于其低 API 開銷與低時間成本,CudaForge 為自動化 CUDA Kernel 開發(fā)提供了一種高效、實用且可投入實際使用的解決方案。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      后浪來襲,阿夫迪亞超越卡斯比成為NBA以色列球員總得分王

      后浪來襲,阿夫迪亞超越卡斯比成為NBA以色列球員總得分王

      懂球帝
      2025-12-07 14:33:06
      已確認!寧波適齡男子都要登記

      已確認!寧波適齡男子都要登記

      極目新聞
      2025-12-07 14:23:22
      氣吞萬里如虎的劉裕,遇到了一生中最可怕的勁敵

      氣吞萬里如虎的劉裕,遇到了一生中最可怕的勁敵

      小豫講故事
      2025-12-07 06:00:07
      64歲周華健回廣東祭祖,現(xiàn)場拿出1萬現(xiàn)金,家族方臉基因好強大

      64歲周華健回廣東祭祖,現(xiàn)場拿出1萬現(xiàn)金,家族方臉基因好強大

      一娛三分地
      2025-12-06 19:35:36
      突然爆火!女性用戶猛增400萬,多地賣斷貨!醫(yī)生緊急叫停

      突然爆火!女性用戶猛增400萬,多地賣斷貨!醫(yī)生緊急叫停

      大象新聞
      2025-12-06 09:18:08
      蔡少芬一家五口“蝸居”80㎡火了!沒有奢華裝飾,卻煙火氣拉滿!

      蔡少芬一家五口“蝸居”80㎡火了!沒有奢華裝飾,卻煙火氣拉滿!

      爆侃君
      2025-12-07 13:13:13
      葉劍英請喝酒,秘書勸王洪文不要去,王無奈道:只有他認我

      葉劍英請喝酒,秘書勸王洪文不要去,王無奈道:只有他認我

      尋史者也
      2024-11-04 23:44:47
      蘋果加它是超強肝臟解毒水,連喝3天,清空多年肝臟毒素

      蘋果加它是超強肝臟解毒水,連喝3天,清空多年肝臟毒素

      江江食研社
      2025-12-07 16:30:09
      沉默48小時,林劍一錘定音,中方不買美國次級芯片,黃仁勛踩剎車

      沉默48小時,林劍一錘定音,中方不買美國次級芯片,黃仁勛踩剎車

      南宮一二
      2025-12-06 17:41:26
      一個人在體制內(nèi)呆久了會變成什么樣子?網(wǎng)友:我要笑死在評論區(qū)

      一個人在體制內(nèi)呆久了會變成什么樣子?網(wǎng)友:我要笑死在評論區(qū)

      夜深愛雜談
      2025-12-05 21:01:58
      29億債務(wù),3萬車主無家可歸:2025年第一家倒閉車企,誰在逼死“老頭樂之王”?

      29億債務(wù),3萬車主無家可歸:2025年第一家倒閉車企,誰在逼死“老頭樂之王”?

      新浪財經(jīng)
      2025-12-05 20:56:19
      大灣區(qū)大學(xué)創(chuàng)校校長發(fā)聲

      大灣區(qū)大學(xué)創(chuàng)校校長發(fā)聲

      新京報政事兒
      2025-12-07 20:22:23
      傳承譯制片黃金時代制作流程,上譯“天團”打磨《控方證人》

      傳承譯制片黃金時代制作流程,上譯“天團”打磨《控方證人》

      澎湃新聞
      2025-12-06 19:38:37
      大蒜塞耳朵里太厲害了,10個人9個都用得到,看完趕快叮囑家人

      大蒜塞耳朵里太厲害了,10個人9個都用得到,看完趕快叮囑家人

      妙招酷
      2025-12-02 00:06:08
      重磅新規(guī)!官方明確:基層醫(yī)院門診支付方式大改革,門診也要控費了!

      重磅新規(guī)!官方明確:基層醫(yī)院門診支付方式大改革,門診也要控費了!

      梅斯醫(yī)學(xué)
      2025-12-07 07:53:45
      昔日上港03青訓(xùn)五虎!為何如今一個都沒踢出來,兩人還淪落中甲

      昔日上港03青訓(xùn)五虎!為何如今一個都沒踢出來,兩人還淪落中甲

      振剛說足球
      2025-12-06 18:37:17
      東北野雞泛濫成災(zāi),為何很少有人吃?當(dāng)?shù)剞r(nóng)民直言

      東北野雞泛濫成災(zāi),為何很少有人吃?當(dāng)?shù)剞r(nóng)民直言

      忠于法紀(jì)
      2025-11-07 09:25:39
      波姐危?勇記:勇士本賽季會完成一筆重磅交易,大概率送走波杰姆斯基

      波姐危?勇記:勇士本賽季會完成一筆重磅交易,大概率送走波杰姆斯基

      懂球帝
      2025-12-07 13:31:50
      無效!國際刑事法院硬剛美俄:普京逮捕令不撤,和平協(xié)議也沒用

      無效!國際刑事法院硬剛美俄:普京逮捕令不撤,和平協(xié)議也沒用

      碧珠映紅香
      2025-12-06 17:09:13
      央視首播!于和偉、萬茜、王陽領(lǐng)銜歷史劇來襲!值得看

      央視首播!于和偉、萬茜、王陽領(lǐng)銜歷史劇來襲!值得看

      情感大頭說說
      2025-12-04 13:41:44
      2025-12-07 22:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11862文章數(shù) 142509關(guān)注度
      往期回顧 全部

      科技要聞

      漲幅最高20%!戴爾、聯(lián)想等PC廠計劃漲價

      頭條要聞

      馬克龍剛走德國外長向東出發(fā) 10月曾突然取消訪華行程

      頭條要聞

      馬克龍剛走德國外長向東出發(fā) 10月曾突然取消訪華行程

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經(jīng)要聞

      五糧液降價?回應(yīng)來了

      汽車要聞

      傳奇超跑電動形態(tài)重生 雷克薩斯LFA純電概念車

      態(tài)度原創(chuàng)

      健康
      藝術(shù)
      家居
      游戲
      軍事航空

      甲狀腺結(jié)節(jié)"排雷"指南

      藝術(shù)要聞

      他單身,偷拍了5萬個姑娘,但所有女人竟都愛他!

      家居要聞

      白味湯館 當(dāng)代宴飲儀式

      4612傷冠絕三界!夢幻西游蘇堤春曉冠軍九黎城華麗登場

      軍事要聞

      日本自衛(wèi)隊飛機多次滋擾遼寧艦航母編隊訓(xùn)練

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 性爱国产| 久久天天躁狠狠躁夜夜网站| 人妻少妇av无码一区二区| 无码国内精品人妻少妇| 亚洲AV一卡| 亚洲第一成人会所| 在线欧美精品一区二区三区| 日韩精品无码一区二区三区av| 91精品乱码一区二区三区| 国产精品18| 西华县| 国产男女猛烈无遮挡免费视频网站 | 国产,欧美1区2区| 久久九九久精品国产免费直播| 国产av剧情无码精品色午夜| 亚洲人妻系列| 国产乱人对白| 国产精品无码v在线观看| 香港日本三级亚洲三级| av女人的天堂| 日韩无码人妻中文高清| 白嫩少妇bbw撒尿视频| 九色精品国产亚洲av麻豆一| 婷婷伊人綜合中文字幕小说| 国产精品无码AV| 日韩肏屄| 亚洲中文字幕无码专区| 337人体做爰大胆视频| www.99热| 亚洲成人在线资源| 欧美视频网站www色| 亚洲无线码一区在线观看| 国产亚洲合集| 乱码午夜-极国产极内射| 国产精品无需播放器在线观看| 久久久久久久久久久久中文字幕 | 国产sm重味一区二区三区| 亚洲成精品动漫久久精久| 亚洲AV第二区国产精品| 人妻a?v| 亚洲国产区男人本色|