![]()
新智元報道
編輯:桃子 好困
【新智元導讀】 在 Claude Code 30 分鐘遷移 CUDA 引發熱議的背后,眾智 FlagOS 社區已經給出了一條更系統的答案:通過 KernelGen 與統一編譯器 FlagTree,讓算子在多種 AI 芯片上實現自動生成、驗證與優化,真正降低跨芯片軟件遷移成本。
圍繞「CUDA 護城河是否松動」的討論,本質指向一個更現實的問題:
算子能否在不同芯片上被自動生成、正確運行,并具備可用性能?
![]()
算子生成綜述(https://arxiv.org/abs/2601.15727)
算子自動生成,已經跑在多芯片上了
對此,眾智 FlagOS 社區在2026年1月初推出了升級版KernelGen——一個支持多種AI芯片的高性能 Triton 算子生成自動化工具,并在真實多芯片環境下完成了系統性評測。
從實際數據來看,KernelGen 已不再停留在概念或 Demo 階段:
生成可編譯運行算子的成功率(生成成功率):82%
整體算子數值準確性通過(執行正確率):62%
覆蓋英偉達,以及華為、摩爾、海光、天數等多款國產 AI 芯片
這里所說的「生成成功率」,是指代碼能編譯、能運行。但與普通代碼生成不同,算子生成對數學精度提出了更為嚴苛的要求:需要在多種輸入變化條件下,始終保持高精度、可復現的一致數值結果,這也正是文中所強調的「執行正確率」。
如果說「生成成功率」關注的是算子是否能編譯、能運行,那么真正的技術門檻在于是否能跑得對。在多種芯片架構并存的場景下,這一挑戰被進一步放大——當同一份算子代碼需要同時適配華為、摩爾線程、海光、天數等架構各異的芯片時,數值精度、舍入策略、指令調度順序、緩存層級等細微差異,都可能導致結果偏差,甚至引發正確性失效。
一次生成、一次編譯,在多芯片平臺上實現數值一致、結果可驗證,才是算子自動生成真正需要跨越的核心門檻。
這些結果表明,算子自動生成在多芯片環境下已經具備可行性與工程實用價值。
實驗與實現細節:KernelGen是如何工作的?
實現原理:從「寫算子」到「生產算子」
KernelGen 的目標并非輔助開發者寫代碼,而是覆蓋算子從需求到落地的完整生命周期:
輸入層:用戶可通過自然語言、數學公式或已有實現描述算子需求
生成層:基于大模型與智能體技術,理解算子語義并自動生成 Triton 內核
驗證層:自動構建測試用例,在目標芯片上與 PyTorch reference 實現進行嚴格的數值一致性校驗
評估與優化層:對生成算子進行性能評測,量化加速比,并通過自動化調優持續優化執行效率
![]()
KernelGen 網站地址:https://kernelgen.flagos.io,用戶在對話框里僅需輸入自然語言、數學公式或是已有實現表達算子開發需求
這一流程的核心目標是:
將算子開發從「專家手工活」,轉變為可復制、可擴展的工程流程。
為什么必須與 FlagOS / FlagTree 協同?
在多芯片場景下,僅生成算子代碼并不足以解決工程問題,不同 AI 芯片在以下方面差異顯著:
并行模型與計算單元組織方式
內存層級與訪存語義
指令集與編譯穩定性
因此,KernelGen 從設計之初就被納入FlagOS 生態,并與統一 AI 編譯器FlagTree深度協同:
由 FlagTree 提供統一的硬件抽象與編譯基礎
將硬件差異盡可能收斂在編譯器的中間表示層
提升算子在多芯片環境下的編譯性能與正確性
這也是算子自動生成首次具備跨芯片工程可行性的關鍵前提。
FlagTree:支撐算子自動生成的統一AI編譯器底座
KernelGen 能夠在多芯片環境下實現算子自動生成與驗證,并不只是模型能力的結果,其關鍵支撐來自統一AI編譯器 FlagTree。
FlagTree 是眾智 FlagOS 社區長期推進的統一編譯器項目。從2025 年 3 月發布 v0.1,到2026 年 1 月 5 日發布 v0.4,已逐步發展為面向異構 AI 計算的通用編譯基礎設施:
已支持12 家廠商、近 20 款AI芯片,覆蓋芯片包括華為昇騰、寒武紀、沐曦、摩爾線程、海光等
支持架構從DSA、GPGPU,擴展到RISC-VAI芯片、ARM等多種體系
在技術設計上,FlagTree 主要解決兩類問題:
硬件差異隔離:通過統一的硬件中間表示(計算單元、內存層次、原子操作等),將芯片差異最大程度收斂在編譯器內部,而不是暴露給算子生成邏輯。
性能與易用性的平衡:在保留 Triton 高級語法的同時,引入硬件感知優化,避免「一套代碼跑所有芯片」帶來的性能和穩定性問題。
在FlagTree v0.4中,FlagOS 社區進一步引入TLE(Triton Language Extensions),以分層方式擴展 Triton 的跨芯片表達能力:
TLE-Lite:一次編寫,多后端運行,適用于快速驗證與輕量級優化
TLE-Struct:面向算子開發者的架構感知調優接口
TLE-Raw:允許直接內聯 CUDA、MLIR 等廠商原生代碼,用于極致性能場景
通過 FlagTree 的編譯支撐,KernelGen 自動生成的算子才能在不同芯片上保持較高的編譯通過率和執行穩定性。
FlagTree 項目地址:https://github.com/flagos-ai/flagtree
性能指標與驗證情況:多芯片、多模型、多輪評測
不同芯片上的生成與執行正確率(用戶真實場景)
![]()
數據表明:
華為芯片在生成成功率上表現最優
英偉達芯片在執行正確率(數值準確性)上表現最佳
國產多樣化架構下仍存在進一步優化空間
整體結果驗證了 KernelGen在降低人工開發成本、提升跨芯片適配效率方面的核心價值。
110 個 Torch 算子的多芯片正確性與性能評測
為驗證算子自動生成在真實工程場景下的可用性,評測選取了110 個代表性 TorchAPI算子,每個算子進行5 輪迭代式自動生成,并在多芯片環境下完成完整對比測試。
評測覆蓋華為、海光、天數、摩爾、Nvidia等平臺,并在每個平臺上分別對比:
芯片原生 Triton 編譯器
FlagOS / FlagTree Triton 編譯器
評測重點關注兩項核心指標:
執行正確率:是否成功編譯運行,并在多種輸入 shape 下與 Torch reference 數值一致
執行正確率與性能匯總(110 個算子)
![]()
主要結論
FlagTree 在多芯片平臺上整體執行正確率更高、穩定性更強
在海光、天數、摩爾及 Nvidia 等平臺上,FlagTree 的通過率普遍高于原生 Triton,其中 Nvidia 平臺達到70%,為各組合中最高。
更高的「能跑通」比例,為后續性能優化保留了更大空間
對規模化算子生成而言,執行正確率是第一門檻,FlagTree 在這一維度上更具工程優勢。
在執行正確率方面,KernelGen 對不同數據類型設定了工業界要求的嚴格且可量化的精度約束:整型與布爾類型要求完全一致(零誤差),而浮點與復數類型則依據其數值表示能力設定明確的誤差上限——例如 FP16/FP8 級別控制在 1e-3,BF16 控制在 1e-2 量級,FP32 與 Complex64 達到 1e-6 級別。通過這種按數據類型精細分級的精度標準,KernelGen 在追求極致性能的同時,確保算子替換與跨后端生成具備可驗證、可復現的數值正確性。
注:評測基于110 個算子 × 多平臺 × 雙編譯器的完整結果,算子級明細已隨 KernelGen / FlagOS 項目提供。
不同大模型在算子生成任務中的差異(以華為 Ascend 為例)
在算子自動生成場景中,大模型并非只承擔「代碼補全」的角色,其對算子語義理解、shape 泛化以及邊界條件處理能力,都會直接影響生成算子的可執行性與穩定性。
在統一使用FlagTree Triton 編譯器、并以華為 Ascend平臺為目標硬件的條件下,評測對比了多種主流大模型在110 個 TorchAPI算子生成任務中的表現,重點統計其執行正確率(數值準確性通過)。
![]()
從評測結果可以看到,不同大模型在算子生成任務中的能力差異較為明顯,整體呈現出清晰的分層:
GPT-5 表現最優,在 110 個算子中有 65 個能夠成功生成 Triton 實現并通過多種輸入 shape 的一致性校驗,顯示出其在算子語義理解、控制流生成和邊界條件處理方面的綜合優勢。
GLM-4.7 位于第二梯隊,在部分復雜算子和 shape 泛化場景中仍存在不穩定情況,但已具備較強的自動算子生成能力。
Qwen3-Max 與 MiniMax-M2.1在算子生成這一高約束場景下成功率相對較低,主要受限于對算子細粒度語義和底層 Triton 編程模式的理解能力。
這一結果表明,在算子自動生成這一高度結構化、強約束的任務中,模型本身的推理與結構化生成能力,仍然是影響最終工程效果的關鍵因素之一。
專家知識注入與算子性能進化(英偉達)
在引入模型自反思與外部專家知識后,KernelGen 的算子性能持續提升:
算子執行正確率最高可達 75.5%
74.2% 算子加速比 >0.8
68.5% 算子加速比 >1.0
加速比中位數1.04x,平均1.07x
![]()
Baseline 為基于智能體自反思的迭代方法;IterOpt為面向優化目標的反思迭代方法;v1_KNWL在優化迭代中引入模型軌跡總結知識;v2_KNWL與v3_KNWL分別在不同輪次進一步融合外部專家種子知識
這表明,算子自動生成已從「能跑」邁向「能用、可優化」。
總結
Claude Code 的 30 分鐘遷移案例,讓行業看到了AI正在改變「寫代碼」的方式。
而 KernelGen 與 FlagOS 所展示的,是另一層更工程化的進展:
在硬件高度碎片化的時代,通過算子自動生成、統一編譯器與跨芯片生態協同,讓算子開發不再成為AI系統落地的核心瓶頸。
這不是一次演示的勝負,而是一條正在被驗證、并持續演進的系統軟件路線。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.