算子(Kernel),作為連接硬件與軟件的核心軟件層,是軟件生態中的重要一環。算子優化是旨在根據硬件架構和芯片設計,優化特定程式代碼,以盡可能挖掘硬件潛力,提高程序運行速度的工作。
當前算子優化主要依靠專家通過試錯法進行手動優化,這一過程不僅耗時,而且需要跨硬件、軟件和指令集架構(ISA,Instruction Set Architecture)的多學科專業專家合作開發,人力和時間成本都十分高昂。對于新興的 ISA 架構而言,其配套算子庫的性能優化缺口已成為阻礙廣泛部署的主要瓶頸。
隨著大模型的發展,自動化算子優化領域出現了新范式。大模型驅動的方法利用其生成能力,通過最少的人工指導生成或迭代改進算子實現,已經涌現出了一批科研成果。尤其在 CUDA 算子優化領域,這一范式已展現出顯著潛力——完備的技術文檔和成熟的代碼庫使得現成的大模型能夠在部分算子問題上取得超越人類專家的效果。
然而,在 RISC-V 等新興架構或指令集上,參考材料的稀缺,限制了這種新興范式的有效性。
為此,來自香港城市大學的研究人員開展了一項課題,并研發出了一款名為 EoK 的應用。
![]()
圖 | 研究人員(來源:研究人員)
首先,EoK 通過系統化挖掘成熟開源算子庫的開發歷史(如 Git 提交記錄),構建結構化的優化“想法”池。每個想法包含通用設計原則和一系列可操作思路,其中包括簡明技術描述、示例代碼和歷史效果評估。這種方法為大模型提供了明確的數據驅動指導,彌補了訓練數據中 RISC-V 參考材料的缺失。
其次,EoK 采用基于檢索增強生成(RAG,Retrieval-Augmented Generation)的并行搜索策略,通過同時沿多個優化方向(由想法池中的不同想法定義)進行并行探索,并結合 RISC-V 特定的上下文信息(包括 ISA 手冊和硬件配置文件),顯著提高了搜索效率和效果。每個想法引導的搜索都根據歷史效果加權采樣可操作思路,確保優先驗證經過實踐檢驗的技術,同時保持探索多樣性。
通過這種方法,EoK 在 80 個算子設計任務中實現了中位數 1.27 倍的加速效果,在幾乎所有任務上超越人類專家性能,并將現有大模型方法的性能提升了 20%。這些結果表明,將人類經驗系統化地融入新興領域優化過程的可行性,同時也凸顯了大模型驅動的自動化算子優化在 RISC-V 領域的巨大潛力。
![]()
(來源:https://arxiv.org/pdf/2509.14265)
在應用前景上:
其一,可用于多架構支持擴展:EoK 的方法論可以擴展到其他開放或專有 ISA(如神經網絡異構計算架構、元計算統一系統架構等 AI 加速指令集或其它新興 ISA),通過適配想法池和參考材料,打破 CUDA 壁壘,實現跨平臺算子優化,促進硬件創新和軟件創新的協同進化。
其二,可用于 DAY0/DAY1 級適配:EoK 相較于其它大模型方法,其算子優化時間開銷更低,能夠幫助國產新興的 AI 加速算力在 Day0/Day1 級別對于類似于 Deepseek v3.2 等新型模型軟件架構實現支持,推動新興軟硬件生態正循環。
其三,可用于定制處理器算子優化:針對特定應用場景(如邊緣計算、具身智能等),EoK 可以自動生成高度優化的算子,減少開發時間并提升能效。
其四,可用于硬件-軟件協同設計:在芯片設計階段,EoK 可用于快速原型化和評估不同硬件配置下的算子性能,輔助設計決策,縮短產品上市周期。
目前,研究人員正在推進對于知識“想法”池的進一步挖掘,以期能夠使大模型在學習人類算子優化經驗和自動優化算子過程中,拓展可能的算子優化空間和范式。
參考資料:
https://arxiv.org/pdf/2509.14265
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.