<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      中科院團隊提出SparseRL,深度強化學(xué)習(xí)可自動生成高性能CUDA代碼

      0
      分享至



      如何讓 AI 不僅寫出「能跑」的代碼,還能寫出「跑得快」的代碼?這個問題困擾了 AI 系統(tǒng)研究者很久。

      近日,中科院計算所團隊提出了一種名為 SparseRL 的新框架,首次將深度強化學(xué)習(xí)引入稀疏 CUDA 代碼生成任務(wù)。簡單來說,就是讓 AI 學(xué)會根據(jù)稀疏矩陣的結(jié)構(gòu),自動生成最優(yōu)的 CUDA 實現(xiàn)代碼。

      實驗顯示,在經(jīng)典的 SpMV 任務(wù)上,這種方法能讓編譯成功率提升 20%,代碼執(zhí)行速度提升 30%。

      目前,該項成果已入選 ICLR 2026 Oral。



      • 論文地址:https://openreview.net/pdf?id=VdLEaGPYWT
      • 代碼鏈接:https://github.com/QiWu-NCIC/SparseRL

      為什么稀疏代碼這么難寫?

      要理解這項工作的價值,得先說說稀疏矩陣運算的特殊性。

      稀疏矩陣在 LLM 推理、圖神經(jīng)網(wǎng)絡(luò)、科學(xué)計算中無處不在。但和稠密矩陣不同,稀疏矩陣的非零元素分布是不規(guī)則的,這導(dǎo)致一個核心問題:最優(yōu)的 CUDA 代碼實現(xiàn)取決于矩陣的具體結(jié)構(gòu),而這個結(jié)構(gòu)只有在運行時才能知道。

      換句話說,沒有一種「萬能」的高性能實現(xiàn)能應(yīng)對所有稀疏矩陣。工程師們不得不針對不同的稀疏模式手動調(diào)優(yōu),這個過程既耗時又依賴經(jīng)驗。

      現(xiàn)有的 AI 代碼生成方法也幫不上太大忙。原因有三:

      • 第一,傳統(tǒng)監(jiān)督學(xué)習(xí)只關(guān)心代碼「對不對」,不關(guān)心「快不快」。同一個稀疏矩陣可能有多種正確的 CUDA 實現(xiàn),但執(zhí)行速度可能相差數(shù)倍,監(jiān)督學(xué)習(xí)無法區(qū)分這種差異。
      • 第二,執(zhí)行效率這個核心指標是「不可微」的,沒法通過傳統(tǒng)的反向傳播來優(yōu)化。
      • 第三,稀疏矩陣的輸入(行列索引序列)和 CUDA 代碼之間存在巨大的語義鴻溝,模型很難理解矩陣結(jié)構(gòu)和最優(yōu)代碼策略之間的關(guān)聯(lián)。



      圖片 1:展示不同稀疏矩陣需要不同 CUDA 實現(xiàn)策略的示例

      SparseRL 怎么做到的?

      研究團隊的思路很巧妙:既然執(zhí)行效率不可微,那就用強化學(xué)習(xí)來優(yōu)化。

      SparseRL 把預(yù)訓(xùn)練語言模型當作一個策略網(wǎng)絡(luò),每生成一個 token 就是一次動作,而代碼的編譯結(jié)果和執(zhí)行時間就是獎勵信號。

      整個訓(xùn)練過程分為三個階段:

      • 第一階段是預(yù)訓(xùn)練:在大量 CUDA 代碼語料上訓(xùn)練語言模型,讓它建立對 GPU 編程的基礎(chǔ)認知;
      • 第二階段是監(jiān)督微調(diào):用「稀疏矩陣 - 正確代碼」的配對數(shù)據(jù)教模型生成語法正確、功能正確的代碼;
      • 第三階段是強化學(xué)習(xí)優(yōu)化:這一步是關(guān)鍵 —— 引入深度強化學(xué)習(xí),以編譯正確性和執(zhí)行效率為獎勵,讓模型學(xué)會生成高性能代碼。



      圖片 2:展示三階段訓(xùn)練流程的整體框架圖

      為了讓模型真正「看懂」稀疏矩陣的結(jié)構(gòu),研究團隊設(shè)計了一個關(guān)鍵技術(shù):正弦位置嵌入。

      稀疏矩陣的輸入是非零元素的行列索引序列,傳統(tǒng)的 token 嵌入無法捕捉這種二維坐標之間的空間關(guān)系。SparseRL 對行列索引分別進行正弦 / 余弦編碼,類似于 Transformer 的位置編碼,但專門針對二維坐標做了定制。

      用通俗的話說,這就像給模型裝上了一副「坐標眼鏡」,讓它能看見非零元素在哪里、是怎么分布的。

      另一個核心創(chuàng)新是層級獎勵函數(shù)。這個獎勵函數(shù)同時考慮兩個層面:正確性獎勵確保代碼能編譯、結(jié)果正確;效率獎勵則優(yōu)化執(zhí)行速度。設(shè)計邏輯是先保證「對」,再追求「快」。

      效果如何?

      研究團隊在 SpMV(稀疏矩陣 - 向量乘法)和 SpMM(稀疏矩陣 - 稠密矩陣乘法)兩個任務(wù)上驗證了方法的有效性。

      在 SpMV 任務(wù)上,SparseRL 相比傳統(tǒng)監(jiān)督學(xué)習(xí)方法,編譯成功率提升了 20%,平均執(zhí)行速度提升了 30%。更重要的是,模型能根據(jù)不同的稀疏結(jié)構(gòu)自動選擇不同的代碼策略,在對角型、帶狀型、隨機稀疏型等多種矩陣上都有優(yōu)勢,部分場景下生成的代碼甚至接近或超越了手工調(diào)優(yōu)的水平。



      圖片 3:展示 SparseRL 與基線方法的差距

      團隊還做了消融實驗來驗證各個組件的必要性。

      結(jié)果顯示,去掉 RL 階段后性能顯著下降,說明強化學(xué)習(xí)確實是關(guān)鍵;去掉正弦嵌入后模型難以理解輸入結(jié)構(gòu),編譯率下降;只用正確性獎勵而不用效率獎勵,代碼能跑但不夠快。

      當然,這個方法也有局限。論文提到,RL 訓(xùn)練需要大量的編譯 - 執(zhí)行反饋循環(huán),計算成本較高;模型是針對特定 GPU 架構(gòu)訓(xùn)練的,遷移到新硬件可能需要重新微調(diào);生成的代碼可能缺乏人類工程師的編碼風格,可解釋性不足。

      意義與展望

      SparseRL 的價值在于它代表了一個范式轉(zhuǎn)變:代碼生成的目標從「生成能運行的代碼」轉(zhuǎn)向「生成高性能代碼」。

      對于 HPC 工程師和 AI 基礎(chǔ)設(shè)施開發(fā)者來說,這項工作展示了一種新可能 ——讓 AI 來處理那些繁瑣的性能優(yōu)化工作,而人類可以把精力放在更高層次的設(shè)計上。

      研究團隊表示,未來計劃將方法擴展到多 GPU 分布式稀疏計算,探索與傳統(tǒng) AutoTuning 技術(shù)的結(jié)合,并支持更多類型的稀疏算子。同時,他們也在研究如何降低 RL 訓(xùn)練成本,讓這種方法更實用。

      作者介紹

      王耀宇,中國科學(xué)院計算技術(shù)研究所博士生(共同一作),主要研究方向為深度學(xué)習(xí)編譯優(yōu)化與高性能計算。

      譚光明,中國科學(xué)院計算技術(shù)研究所研究員、博士生導(dǎo)師,主要從事高性能計算、GPU 編譯優(yōu)化與深度學(xué)習(xí)系統(tǒng)研究,在多 GPU 分布式計算、稀疏矩陣計算、深度學(xué)習(xí)編譯器等領(lǐng)域取得多項重要成果,發(fā)表多篇高性能計算與機器學(xué)習(xí)相關(guān)論文。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      1000億背后的陽謀:拼多多利用中國制造的優(yōu)勢,要狂掃國外市場

      1000億背后的陽謀:拼多多利用中國制造的優(yōu)勢,要狂掃國外市場

      風向觀察
      2026-03-25 20:46:14
      油價漲了個寂寞!燃油車司機集體偷著樂,連夜囤油白忙活了!

      油價漲了個寂寞!燃油車司機集體偷著樂,連夜囤油白忙活了!

      今朝牛馬
      2026-03-25 17:10:30
      國際油價暴跌!3月24日,全國各地各大加油站92號汽油、95號汽油、98號汽油最新油價

      國際油價暴跌!3月24日,全國各地各大加油站92號汽油、95號汽油、98號汽油最新油價

      吉林烏拉侯
      2026-03-25 02:56:11
      美國想不通,伊朗為啥突然變強大了?靠山是誰?

      美國想不通,伊朗為啥突然變強大了?靠山是誰?

      凡人侃史
      2026-03-25 10:55:46
      是否有中國船只順利通過霍爾木茲海峽?外交部回應(yīng)

      是否有中國船只順利通過霍爾木茲海峽?外交部回應(yīng)

      財聯(lián)社
      2026-03-25 15:46:15
      張雪峰去世真相!網(wǎng)友:偌大的公司靠他個人ip養(yǎng)活,早死是必然的

      張雪峰去世真相!網(wǎng)友:偌大的公司靠他個人ip養(yǎng)活,早死是必然的

      火山詩話
      2026-03-25 09:18:58
      張雪峰搶救細節(jié)曝光!他認識的副院長參與搶救,用最好的救護手段

      張雪峰搶救細節(jié)曝光!他認識的副院長參與搶救,用最好的救護手段

      安寧007
      2026-03-24 23:14:49
      張雪峰登上這份死亡名單,他們有一個很玄的共同特點

      張雪峰登上這份死亡名單,他們有一個很玄的共同特點

      田先生研究室
      2026-03-25 06:05:11
      快訊!伊朗官方電視臺宣布了!

      快訊!伊朗官方電視臺宣布了!

      達文西看世界
      2026-03-25 18:46:51
      薩姆納和徐杰救了廣東!第三節(jié)贏23分打成垃圾時間,就該這么用!

      薩姆納和徐杰救了廣東!第三節(jié)贏23分打成垃圾時間,就該這么用!

      籃球資訊達人
      2026-03-25 21:19:51
      實錘了,日媒爆料六本木高級陪酒女廣州運毒被捕,日本網(wǎng)友這樣說

      實錘了,日媒爆料六本木高級陪酒女廣州運毒被捕,日本網(wǎng)友這樣說

      日本物語
      2026-03-25 20:56:54
      熱搜上63萬人破防的“奧特曼蛋糕”事件:有毒父母,逼瘋中國孩子

      熱搜上63萬人破防的“奧特曼蛋糕”事件:有毒父母,逼瘋中國孩子

      小椰子專欄
      2026-03-25 13:00:11
      黃仁勛罕見談生死:希望在工作中突然離世,重申不信任“繼任者計劃”

      黃仁勛罕見談生死:希望在工作中突然離世,重申不信任“繼任者計劃”

      界面新聞
      2026-03-25 12:15:45
      伊朗:倡議建立“無美以聯(lián)盟”!特朗普要談判,以色列慌了,繼續(xù)轟炸德黑蘭!以軍要強占黎巴嫩10%土地建“緩沖區(qū)”,真主黨:抵抗到底

      伊朗:倡議建立“無美以聯(lián)盟”!特朗普要談判,以色列慌了,繼續(xù)轟炸德黑蘭!以軍要強占黎巴嫩10%土地建“緩沖區(qū)”,真主黨:抵抗到底

      每日經(jīng)濟新聞
      2026-03-25 17:30:14
      伊朗格斗冠軍被捕!或被截肢+判處死刑 曾來中國參賽 擊敗5大高手

      伊朗格斗冠軍被捕!或被截肢+判處死刑 曾來中國參賽 擊敗5大高手

      念洲
      2026-03-25 17:59:21
      張雪峰去世,他留下的10條志愿鐵律,2026高考、考研依然封神

      張雪峰去世,他留下的10條志愿鐵律,2026高考、考研依然封神

      寒律
      2026-03-25 09:53:30
      伊朗外交部發(fā)言人:“沒人能相信美國的外交”

      伊朗外交部發(fā)言人:“沒人能相信美國的外交”

      財聯(lián)社
      2026-03-25 14:54:10
      奉勸所有中國人,大家一定要做好心理準備。

      奉勸所有中國人,大家一定要做好心理準備。

      安安說
      2026-03-25 11:04:58
      留幾手談張雪峰去世:死者又不是我爹,憑啥為大

      留幾手談張雪峰去世:死者又不是我爹,憑啥為大

      三言科技
      2026-03-25 19:03:05
      手機放床頭輻射傷身?央視實驗給出答案:這樣放手機,輻射降10倍

      手機放床頭輻射傷身?央視實驗給出答案:這樣放手機,輻射降10倍

      天氣觀察站
      2026-03-24 19:02:53
      2026-03-25 22:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12598文章數(shù) 142593關(guān)注度
      往期回顧 全部

      科技要聞

      紅極一時卻草草收場,Sora宣布正式關(guān)停

      頭條要聞

      于東來:我從30歲開始吃藥拍CT上百次 哪天說沒就沒了

      頭條要聞

      于東來:我從30歲開始吃藥拍CT上百次 哪天說沒就沒了

      體育要聞

      35歲替補門將,憑什么入選英格蘭隊?

      娛樂要聞

      張雪峰經(jīng)搶救無效不幸去世 年僅41歲

      財經(jīng)要聞

      管濤:中東局勢如何影響人民幣匯率走勢?

      汽車要聞

      智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

      態(tài)度原創(chuàng)

      房產(chǎn)
      教育
      時尚
      數(shù)碼
      旅游

      房產(chǎn)要聞

      41億!259畝!建學(xué)校…三亞這個大城更,最新方案曝光!

      教育要聞

      2026高考倒計時!這條逆襲名校的賽道,藏不住了

      今年春天最時髦的穿法:長外套+長裙、長針織+長褲,太高級了!

      數(shù)碼要聞

      外星人16X Aurora首發(fā)!RTX 5070 Ti+OLED屏,游戲黨直呼買不起?

      旅游要聞

      北京花溪覓春:櫻花河驚艷亮相,多處濱水空間成“賞花長廊”

      無障礙瀏覽 進入關(guān)懷版