<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      CUDA護城河破了?AI暴力直出82%算子,開發徹底告別手搓時代

      0
      分享至


      新智元報道

      編輯:桃子 好困

      【新智元導讀】 在 Claude Code 30 分鐘遷移 CUDA 引發熱議的背后,眾智 FlagOS 社區已經給出了一條更系統的答案:通過 KernelGen 與統一編譯器 FlagTree,讓算子在多種 AI 芯片上實現自動生成、驗證與優化,真正降低跨芯片軟件遷移成本。

      圍繞「CUDA 護城河是否松動」的討論,本質指向一個更現實的問題:

      算子能否在不同芯片上被自動生成、正確運行,并具備可用性能?


      算子生成綜述(https://arxiv.org/abs/2601.15727)

      算子自動生成,已經跑在多芯片上了

      對此,眾智 FlagOS 社區在2026年1月初推出了升級版KernelGen——一個支持多種AI芯片的高性能 Triton 算子生成自動化工具,并在真實多芯片環境下完成了系統性評測。

      從實際數據來看,KernelGen 已不再停留在概念或 Demo 階段:

      • 生成可編譯運行算子的成功率(生成成功率):82%

      • 整體算子數值準確性通過(執行正確率):62%

      • 覆蓋英偉達,以及華為、摩爾、海光、天數等多款國產 AI 芯片

      這里所說的「生成成功率」,是指代碼能編譯、能運行。但與普通代碼生成不同,算子生成對數學精度提出了更為嚴苛的要求:需要在多種輸入變化條件下,始終保持高精度、可復現的一致數值結果,這也正是文中所強調的「執行正確率」。

      如果說「生成成功率」關注的是算子是否能編譯、能運行,那么真正的技術門檻在于是否能跑得對。在多種芯片架構并存的場景下,這一挑戰被進一步放大——當同一份算子代碼需要同時適配華為、摩爾線程、海光、天數等架構各異的芯片時,數值精度、舍入策略、指令調度順序、緩存層級等細微差異,都可能導致結果偏差,甚至引發正確性失效。

      一次生成、一次編譯,在多芯片平臺上實現數值一致、結果可驗證,才是算子自動生成真正需要跨越的核心門檻。

      這些結果表明,算子自動生成在多芯片環境下已經具備可行性與工程實用價值

      實驗與實現細節:KernelGen是如何工作的?

      實現原理:從「寫算子」到「生產算子」

      KernelGen 的目標并非輔助開發者寫代碼,而是覆蓋算子從需求到落地的完整生命周期

      • 輸入層:用戶可通過自然語言、數學公式或已有實現描述算子需求

      • 生成層:基于大模型與智能體技術,理解算子語義并自動生成 Triton 內核

      • 驗證層:自動構建測試用例,在目標芯片上與 PyTorch reference 實現進行嚴格的數值一致性校驗

      • 評估與優化層:對生成算子進行性能評測,量化加速比,并通過自動化調優持續優化執行效率


      KernelGen 網站地址:https://kernelgen.flagos.io,用戶在對話框里僅需輸入自然語言、數學公式或是已有實現表達算子開發需求

      這一流程的核心目標是:

      將算子開發從「專家手工活」,轉變為可復制、可擴展的工程流程。

      為什么必須與 FlagOS / FlagTree 協同?

      在多芯片場景下,僅生成算子代碼并不足以解決工程問題,不同 AI 芯片在以下方面差異顯著:

      • 并行模型與計算單元組織方式

      • 內存層級與訪存語義

      • 指令集與編譯穩定性

      因此,KernelGen 從設計之初就被納入FlagOS 生態,并與統一 AI 編譯器FlagTree深度協同:

      • 由 FlagTree 提供統一的硬件抽象與編譯基礎

      • 將硬件差異盡可能收斂在編譯器的中間表示層

      • 提升算子在多芯片環境下的編譯性能與正確性

      這也是算子自動生成首次具備跨芯片工程可行性的關鍵前提。

      FlagTree:支撐算子自動生成的統一AI編譯器底座

      KernelGen 能夠在多芯片環境下實現算子自動生成與驗證,并不只是模型能力的結果,其關鍵支撐來自統一AI編譯器 FlagTree

      FlagTree 是眾智 FlagOS 社區長期推進的統一編譯器項目。從2025 年 3 月發布 v0.1,到2026 年 1 月 5 日發布 v0.4,已逐步發展為面向異構 AI 計算的通用編譯基礎設施:

      • 已支持12 家廠商、近 20 款AI芯片覆蓋芯片包括華為昇騰、寒武紀、沐曦、摩爾線程、海光

      • 支持架構從DSA、GPGPU,擴展到RISC-VAI芯片ARM等多種體系

      在技術設計上,FlagTree 主要解決兩類問題:

      • 硬件差異隔離:通過統一的硬件中間表示(計算單元、內存層次、原子操作等),將芯片差異最大程度收斂在編譯器內部,而不是暴露給算子生成邏輯。

      • 性能與易用性的平衡:在保留 Triton 高級語法的同時,引入硬件感知優化,避免「一套代碼跑所有芯片」帶來的性能和穩定性問題。

      FlagTree v0.4中,FlagOS 社區進一步引入TLE(Triton Language Extensions),以分層方式擴展 Triton 的跨芯片表達能力:

      • TLE-Lite:一次編寫,多后端運行,適用于快速驗證與輕量級優化

      • TLE-Struct:面向算子開發者的架構感知調優接口

      • TLE-Raw:允許直接內聯 CUDA、MLIR 等廠商原生代碼,用于極致性能場景

      通過 FlagTree 的編譯支撐,KernelGen 自動生成的算子才能在不同芯片上保持較高的編譯通過率和執行穩定性。

      FlagTree 項目地址:https://github.com/flagos-ai/flagtree

      性能指標與驗證情況:多芯片、多模型、多輪評測

      不同芯片上的生成與執行正確率(用戶真實場景)


      數據表明:

      • 華為芯片在生成成功率上表現最優

      • 英偉達芯片在執行正確率(數值準確性)上表現最佳

      • 國產多樣化架構下仍存在進一步優化空間

      整體結果驗證了 KernelGen降低人工開發成本、提升跨芯片適配效率方面的核心價值。

      110 個 Torch 算子的多芯片正確性與性能評測

      為驗證算子自動生成在真實工程場景下的可用性,評測選取了110 個代表性 TorchAPI算子,每個算子進行5 輪迭代式自動生成,并在多芯片環境下完成完整對比測試。

      評測覆蓋為、海光、天數、摩爾、Nvidia等平臺,并在每個平臺上分別對比:

      • 芯片原生 Triton 編譯器

      • FlagOS / FlagTree Triton 編譯器

      評測重點關注兩項核心指標:

      • 執行正確率:是否成功編譯運行,并在多種輸入 shape 下與 Torch reference 數值一致

      執行正確率與性能匯總(110 個算子)


      主要結論

      • FlagTree 在多芯片平臺上整體執行正確率更高、穩定性更強

        在海光、天數、摩爾及 Nvidia 等平臺上,FlagTree 的通過率普遍高于原生 Triton,其中 Nvidia 平臺達到70%,為各組合中最高。

      • 更高的「能跑通」比例,為后續性能優化保留了更大空間

        對規模化算子生成而言,執行正確率是第一門檻,FlagTree 在這一維度上更具工程優勢。

      在執行正確率方面,KernelGen 對不同數據類型設定了工業界要求的嚴格且可量化的精度約束:整型與布爾類型要求完全一致(零誤差),而浮點與復數類型則依據其數值表示能力設定明確的誤差上限——例如 FP16/FP8 級別控制在 1e-3,BF16 控制在 1e-2 量級,FP32 與 Complex64 達到 1e-6 級別。通過這種按數據類型精細分級的精度標準,KernelGen 在追求極致性能的同時,確保算子替換與跨后端生成具備可驗證、可復現的數值正確性。

      注:評測基于110 個算子 × 多平臺 × 雙編譯器的完整結果,算子級明細已隨 KernelGen / FlagOS 項目提供。

      不同大模型在算子生成任務中的差異(以華為 Ascend 為例)

      在算子自動生成場景中,大模型并非只承擔「代碼補全」的角色,其對算子語義理解、shape 泛化以及邊界條件處理能力,都會直接影響生成算子的可執行性與穩定性。

      在統一使用FlagTree Triton 編譯器、并以華為 Ascend平臺為目標硬件的條件下,評測對比了多種主流大模型在110 個 TorchAPI算子生成任務中的表現,重點統計其執行正確率(數值準確性通過)


      從評測結果可以看到,不同大模型在算子生成任務中的能力差異較為明顯,整體呈現出清晰的分層:

      • GPT-5 表現最優,在 110 個算子中有 65 個能夠成功生成 Triton 實現并通過多種輸入 shape 的一致性校驗,顯示出其在算子語義理解、控制流生成和邊界條件處理方面的綜合優勢。

      • GLM-4.7 位于第二梯隊,在部分復雜算子和 shape 泛化場景中仍存在不穩定情況,但已具備較強的自動算子生成能力。

      • Qwen3-Max 與 MiniMax-M2.1在算子生成這一高約束場景下成功率相對較低,主要受限于對算子細粒度語義和底層 Triton 編程模式的理解能力。

      這一結果表明,在算子自動生成這一高度結構化、強約束的任務中,模型本身的推理與結構化生成能力,仍然是影響最終工程效果的關鍵因素之一

      專家知識注入與算子性能進化(英偉達)

      在引入模型自反思與外部專家知識后,KernelGen 的算子性能持續提升:

      • 算子執行正確率最高可達 75.5%

      • 74.2% 算子加速比 >0.8

      • 68.5% 算子加速比 >1.0

      • 加速比中位數1.04x,平均1.07x


      Baseline 為基于智能體自反思的迭代方法;IterOpt為面向優化目標的反思迭代方法;v1_KNWL在優化迭代中引入模型軌跡總結知識;v2_KNWL與v3_KNWL分別在不同輪次進一步融合外部專家種子知識

      這表明,算子自動生成已從「能跑」邁向「能用、可優化」。

      總結

      Claude Code 的 30 分鐘遷移案例,讓行業看到了AI正在改變「寫代碼」的方式

      而 KernelGen 與 FlagOS 所展示的,是另一層更工程化的進展:

      在硬件高度碎片化的時代,通過算子自動生成、統一編譯器與跨芯片生態協同,讓算子開發不再成為AI系統落地的核心瓶頸。

      這不是一次演示的勝負,而是一條正在被驗證、并持續演進的系統軟件路線。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最高檢:持續深入推進醉駕治理

      最高檢:持續深入推進醉駕治理

      澎湃新聞
      2026-02-05 11:32:03
      愛潑斯坦被爆睪酮極低,常年抱怨欲望低尋求增大藥物,長期患性病

      愛潑斯坦被爆睪酮極低,常年抱怨欲望低尋求增大藥物,長期患性病

      譯言
      2026-02-06 04:17:46
      孟子義現身4S店,提7萬塊新車給員工當年終獎,網友:不如發現金

      孟子義現身4S店,提7萬塊新車給員工當年終獎,網友:不如發現金

      瘋說時尚
      2026-02-06 09:25:31
      王晶曝李兆基離婚內幕,信息量大,句句不提李連杰,卻字字提醒他

      王晶曝李兆基離婚內幕,信息量大,句句不提李連杰,卻字字提醒他

      社會日日鮮
      2026-02-06 06:15:13
      現貨白銀跌幅再度擴大至16%

      現貨白銀跌幅再度擴大至16%

      財聯社
      2026-02-05 22:38:07
      訂婚宴上婆婆罵我下三濫,我笑著問公公:你兒子做過親子鑒定嗎?

      訂婚宴上婆婆罵我下三濫,我笑著問公公:你兒子做過親子鑒定嗎?

      千秋文化
      2026-01-29 21:30:14
      不到48小時,丹麥企業已接管中方在巴拿馬兩港口,不給中方時間

      不到48小時,丹麥企業已接管中方在巴拿馬兩港口,不給中方時間

      夢想的現實
      2026-02-06 00:31:42
      “重慶橫渡瓊州海峽第一人”長江漂流溺亡 家屬起訴同伴索賠近百萬 終審被駁回

      “重慶橫渡瓊州海峽第一人”長江漂流溺亡 家屬起訴同伴索賠近百萬 終審被駁回

      紅星新聞
      2026-02-05 17:25:57
      太尷尬!某單位一把手調離,在群里發臨別感言,整整2天無人回應

      太尷尬!某單位一把手調離,在群里發臨別感言,整整2天無人回應

      另子維愛讀史
      2026-02-04 23:10:07
      愛潑斯坦私人飛機駕駛員:克林頓曾坐過26次,空姐像糖果脫衣舞娘

      愛潑斯坦私人飛機駕駛員:克林頓曾坐過26次,空姐像糖果脫衣舞娘

      海佑講史
      2026-02-05 13:00:05
      胡春華發表署名文章

      胡春華發表署名文章

      社評
      2025-10-31 10:11:37
      CCTV5直播!國乒6日比賽預告,孫穎莎王楚欽爭3連勝,4人迎生死戰

      CCTV5直播!國乒6日比賽預告,孫穎莎王楚欽爭3連勝,4人迎生死戰

      球盲百小易
      2026-02-06 02:01:43
      比濃眉都值錢?“魔仙哥”麥凱恩竟然換來了1首輪簽+3次輪簽!

      比濃眉都值錢?“魔仙哥”麥凱恩竟然換來了1首輪簽+3次輪簽!

      田先生籃球
      2026-02-05 11:41:26
      董璇二婚不幸!一家人現身皮松肉垮滿臉褶子,與佟麗婭同框像兩代人

      董璇二婚不幸!一家人現身皮松肉垮滿臉褶子,與佟麗婭同框像兩代人

      八星人
      2026-02-06 10:51:33
      黑石罕見重大投資失誤

      黑石罕見重大投資失誤

      新浪財經
      2026-02-04 18:25:34
      “聯系大使館!必須派飛機!”

      “聯系大使館!必須派飛機!”

      百態人間
      2026-02-05 15:35:32
      女生經常「自慰」,到底對身體有什么影響?(男生勿入)

      女生經常「自慰」,到底對身體有什么影響?(男生勿入)

      許超醫生
      2026-02-06 10:05:06
      一月份的3.2萬輛,讓零跑的100萬幻想破滅

      一月份的3.2萬輛,讓零跑的100萬幻想破滅

      DearAuto
      2026-02-05 09:33:24
      大雪暴雪、10級大風!雨雪最強時段來了!浙江連發70個寒潮預警,臺州9個

      大雪暴雪、10級大風!雨雪最強時段來了!浙江連發70個寒潮預警,臺州9個

      環球網資訊
      2026-02-06 10:16:26
      李嘉誠的港口,為什么最后成了“誰都沒贏”的一局?

      李嘉誠的港口,為什么最后成了“誰都沒贏”的一局?

      七分日記
      2026-02-04 22:33:06
      2026-02-06 13:47:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14489文章數 66590關注度
      往期回顧 全部

      科技要聞

      微信封禁元寶紅包后,又把阿里千問封了

      頭條要聞

      女子付4980元買500雙鞋僅收90余雙 涉事商家銷號失聯

      頭條要聞

      女子付4980元買500雙鞋僅收90余雙 涉事商家銷號失聯

      體育要聞

      西甲射手榜第2,身價不到姆巴佩1/40

      娛樂要聞

      微博之夜紅毯好精彩,堪比婚禮現場

      財經要聞

      很意外,美債危機要化解了

      汽車要聞

      標配華為乾崑解決方案 華境S完成六座滿載冬測

      態度原創

      本地
      旅游
      時尚
      藝術
      公開課

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      旅游要聞

      240個點位解鎖新春體驗!北京文旅邀市民游客“暢游北京過大年”

      開運首飾|| 300多到手天然珍珠、水晶,好意頭還顯貴氣

      藝術要聞

      Kristin Vestgard:挪威當代畫家

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版