<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      一文看懂 TritonNext 2026:FlagOS 亮點詳解、語言擴展新趨勢!

      0
      分享至

      作者 | CSDN 編輯部
      出品丨AI 科技大本營(ID:rgznai100)

      算力已成為 AI 時代的“石油”,但如何高效挖掘異構算力的潛能,打破單一硬件架構的軟件壁壘,是全行業面臨的共同考題。

      過去二十年,CUDA 幾乎定義了 GPU 編程的主流路徑。但在 2026 年,隨著更多國內 AI 芯片算力崛起與異構計算的普及,Triton 正從一個學術界的編程語言,演變為工業界打破 CUDA 壟斷、連接上層算法與底層芯片的關鍵“通用語”。然而,語言的繁榮也帶來了新的挑戰:算子開發如何平衡易用性與極致性能?如何解決碎片化的硬件適配難題?

      1 月 9 日,由眾智 FlagOS 開源社區、北京智源人工智能研究院與 CSDN 聯合主辦的「2026 TritonNext 技術大會」在北京海淀區中關村國家自主創新示范區展示中心盛大開幕。

      作為國內首個聚焦 Triton 生態與下一代算子編程和編譯器技術的硬核盛會,本次大會以“聚焦下一代算子編程語言與真實落地實踐”為核心,匯聚了來自北京智源人工智能研究院、中科院計算所、華為、螞蟻集團、字節跳動、百度、摩爾線程等頂尖機構與企業的 AI 系統專家。從 FlagOS 的統一生態構建到大廠的落地實戰,從 AI 輔助編程到 RISC-V 的前沿探索,與會專家共同探討了 AI 編譯器、高性能算子開發及異構硬件適配的最新解法,吹響了 AI 系統軟件棧向“好用、通用”進軍的號角。



      本次大會由 FlagOS 開源社區秘書長朱其罡主持,他熱烈歡迎了所有開發者的到來。朱其罡表示,縱觀計算機技術發展史,編程語言總是向著更高級、更抽象的方向演進。在 AI 領域,Triton 憑借其高效與優雅,吸引了無數開發者。接下來,一起聆聽專家們對“下一代”算子編程語言的演進洞察及應用實踐。這不僅是對技術的深挖,更是對 AI 基礎設施的一次全面檢閱。

      林詠華:三大挑戰指引 FlagOS v1.6 探索方向,以插件體系、語言擴展及 AI 賦能,加速破解 AI 軟硬件“M x N”的生態難題


      林詠華 北京智源人工智能研究院副院長兼總工程師

      “我們不僅著眼于今天的 Triton,更要探索 Triton 的 Next?!?/p>

      大會伊始,北京智源人工智能研究院副院長兼總工程師林詠華便為本次技術大會定下了前瞻性的基調。她回顧了海外 Triton 大會的技術熱潮,并指出,在中國舉辦首屆 TritonNext 大會,旨在匯聚生態之力,共同思考 AI 系統軟件的未來演進。

      林詠華首先重溫了 FlagOS 的初心:“讓 AI 算法創新不用擔心下層‘計算’的問題,芯片創新不用擔心上層‘生態’的問題。”基于這一愿景,FlagOS 自 2022 年底 PyTorch 2.0 發布后便選擇 Triton 路線。經過近兩年的發展,其生態已初具規?!粌H打造了全球最大的通用算子庫 FlagGems,更構建了已支持 12 家廠商 AI 芯片的統一多芯片編譯器 FlagTree,初步解決了國產芯片生態的“南向”統一問題。

      然而,AI 軟硬件生態正迎來新一輪的劇烈變局。林詠華將其總結為三大核心挑戰:芯片架構的快速迭代、算子語言的生態分裂、以及 M 種框架與 N 種芯片的“M x N”適配難題。

      為應對新變局,林詠華在現場分享了最新的開源統一 AI 系統軟件棧 FlagOS v1.6。新版本通過 FlagScale 開源插件體系,將框架與芯片解耦,把復雜的“M x N”適配問題降維為“M+N”,目標是要極大降低國產大模型的遷移成本;針對算子語言的碎片化趨勢,FlagOS 推出了TLE (Triton Language Extension) 預覽版,在保持易用性的同時賦予開發者更強的性能控制力;同時,將 Triton-Copilot 正式升級為KernelGen v1.0,構建起覆蓋“描述-生成-驗證-適配”全生命周期的自動化平臺,將算子開發從“勞動密集型”推向“AI 自動化”。

      演講最后,林詠華展示了 FlagOS 社區的硬核數據:截至目前,項目已累計擁有2,546,586 行代碼,Git Clone 次數高達 162,789 次,匯聚了658 位代碼貢獻者。她表示,FlagOS 正攜手 65 家生態伙伴,致力于成為 AI 時代的開放計算基石,共同推動技術向前。

      崔慧敏:AI for Compiler,以“自適應編譯”破解芯片快速演進難題



      崔慧敏 中國科學院計算技術研究所研究員、博士生導師,中科加禾創始人兼 CEO

      “我們希望把 AI 的技術引進編譯器,從過去的人工牽引,轉向未來的智能驅動。”面對日新月異的芯片架構,傳統編譯器漫長的開發周期已成為算力創新的瓶頸。中國科學院計算技術研究所研究員崔慧敏在演講中指出,理想的編譯器需要兼顧“好”(強優化能力)與“快”(快速生成適配),而 “AI for Compiler” 的自適應技術,正是實現這一目標的破局之道。

      為實現這一構想,崔慧敏團隊構建了一套 AI 驅動的工具鏈。首先,VEGA 工具通過自動化流程生成編譯器后端,將過去需要數月人工編寫數萬行代碼的工作大幅提速。為進一步提升代碼質量,團隊還構建了包含74 萬樣本的專用數據集ComBack++,并基于此微調出后端專用大模型 BePilot,可作為開發者的智能編程助手,將關鍵任務的準確率從零提升至近 60%。

      而最令人興奮的突破在于性能優化。通過構建優化專用數據集IR-OptSet,團隊訓練的 AI 編譯器竟找到了超越人類專家設計的優化路徑。崔慧敏展示的數據顯示,在測試中,AI 優化的結果有64 個案例的性能超越了業界公認高度優化的 LLVM -O3。

      崔慧敏總結道,從自動生成到智能優化,AI 正在重塑編譯器的開發范式,為國產 AI 芯片的快速生態構建提供了強大的“智能引擎”。

      致謝儀式:眾智 FlagOS 社區致謝生態貢獻

      一場技術盛會的價值,不僅在于前沿思想的碰撞,更在于生態力量的凝聚。當上午場的技術分享漸入佳境,議程也迎來了一個特別的環節,將全場目光聚焦舞臺中央,共同見證 FlagOS 社區發展歷程中的兩個里程碑時刻。

      首先,大會舉行了“眾智 FlagOS v1.6 研發致謝單位授予儀式”。北京智源研究院、中科院計算所、中科加禾、安謀科技、北京大學、北京師范大學、百度飛槳、硅基流動、寒武紀、海光信息、華為、基流科技、摩爾線程、沐曦科技、澎峰科技、清微智能、天數智芯、先進編譯實驗室、移動研究院、中國礦業大學(北京)等多家在 FlagOS v1.6 版本研發中做出卓越貢獻的單位代表上臺,接受了這份代表社區認可的榮譽。

      緊接著,“眾智 FlagOS 社區 FlagTree 項目第一屆項目管理委員會”正式成立。傅振東(天數智芯)、劉笑妍(北京智源人工智能研究院)、劉紅雨(百度)、門春雷(北京智源人工智能研究院)、邱凌峰(摩爾線程)、任鴿(昆侖芯)、楊銳林(北京智源人工智能研究院)、鄭楊(北京智源人工智能研究院)、曾平(寒武紀)九位來自社區核心單位的技術負責人。這標志著 FlagOS 社區的治理邁向了更加開放、共建的新階段。





      這一環節不僅是對過去一年多來所有貢獻者辛勤付出的肯定,更展現了 FlagOS 社區“眾智”的力量——正是這些來自產學研各界的核心力量,共同推動著國產 AI 系統軟件棧從愿景走向現實。

      上海人工智能實驗室:DLCompiler,打破算子開發與優化的“不可能三角”

      “高性能算子體系是國際 AI 競爭的核心戰場,也是 NVIDIA 生態的核心護城河?!鄙虾H斯ぶ悄軐嶒炇覍<以谘葜v中指出,當前國產算子開發正深陷“開發門檻高、調優難度大、架構兼容難”的“不可能三角”困境,嚴重制約了國產芯片的生態建設。

      為打破這一僵局,團隊推出了DLCompiler——一套基于 Triton 擴展的全棧優化解決方案。它并非簡單地進行后端適配,而是在語言、模型和編譯鏈路上進行了深度創新。

      在語言層面,DLCompiler 重構并擴展了 Triton 的語法原語,同時提供了從初學者到專家的四層漸進式 API,在降低入門門檻的同時,也為追求極致性能的專家提供了精細化控制硬件的能力。

      針對昇騰等國產芯片Cube核與 Vector 核分離的架構特性,DLCompiler 創新性地提出了Produce/Consumer 編程模型。通過顯式的流水線編排取代通用調度,該模型能更精細地控制數據在不同計算單元間的流動,從而在 Attention 等復雜算子上榨干硬件性能。

      實戰效果驗證了 DLCompiler 的威力。專家展示的數據顯示,在昇騰平臺上,優化后的算子性能相比社區通用實現提升了1.2 至 1.9 倍;特別是在8k 輸入的 AttentionProlog 融合算子場景下,性能加速比甚至達到了驚人的180%。

      演講最后,專家展望了 DLCompiler 的未來藍圖:通過打造產業級工具鏈,遷移 1000+ 算子到國產 AI 芯片,加速替代 CUDA 生態,突破國產 AI 芯片大規模落地的瓶頸。目前,DLCompiler 與其高性能算子庫 DLBlas 均已開源。

      門春雷:FlagTree v0.4 亮相,以“三層 DSL”重塑異構芯片編譯生態


      門春雷 北京智源人工智能研究院 AI 系統研究團隊負責人

      “一次編寫,多處編譯。FlagTree 的目標是大幅降低跨平臺適配成本,讓開發者專注于算法本身。”面對 AI 芯片生態的碎片化現狀,智源研究院 AI 系統團隊負責人門春雷在演講中,詳細介紹了統一編譯器 FlagTree 的最新進展。

      門春雷首先強調了統一編譯器的價值所在。他指出,GPGPU與 DSA 架構的差異導致了嚴重的生態割裂,開發者為不同芯片重寫優化、掌握多種編程模型的成本極高。FlagTree 的核心理念正是通過分層抽象架構,實現“Write once with Triton, compile anywhere”。

      為此,FlagTree 團隊推出了TLE (Triton Language Extensions),一個創新的三層協同DSL擴展:

      • TLE-Lite:面向算法工程師,通過高層語義提示引導編譯器優化,實現“一次編寫,到處運行”。
      • TLE-Struct:面向性能優化工程師,暴露 GPGPU/DSA 通用的并行和存儲結構,實現“架構感知,精細調優”。
      • TLE-Raw:面向底層開發者,支持內聯廠商原生代碼,實現“原生透傳,極致掌控”。

      通過這套漸進式語言體系,FlagTree 在易用性、可移植性和極致性能之間取得了精妙平衡。門春雷展示的實測數據顯示,在 DeepSeek 的核心算子上,僅需一行 TLE-Lite 的異步加載提示,GPU 性能便提升了 27%;在 DSA 硬件上,TLE 優化后的算子延遲相比原生 Triton 降低了 50% 以上。

      除了語言層面的創新,門春雷還重點介紹了FlagTree 對開發者體驗的極致追求。通過 PyPI 一鍵安裝、預編譯包離線部署等方式,將過去動輒半小時的編譯安裝流程縮短至5 分鐘以內,解決了企業內網、超算中心等場景的部署難題。同時,深度集成的 CI/CD 質量保障體系、性能回歸測試、以及與 PyTorch/PaddlePaddle 的無縫集成,都旨在為開發者提供一個穩定、易用、高效的開發環境。

      門春雷透露,團隊正在“憋大招”——設計一套面向 DSA 架構的統一中間表示FL-IR,并將在未來版本中正式發布,進一步推動多芯片生態的融合。

      鄭思澤:Triton-Distributed,從單卡到多卡的“編譯級”性能跨越


      鄭思澤 字節跳動工程師

      “如果僅僅因為更換了網絡拓撲或并行策略,就需要重寫成百上千行的 CUDA 代碼,這種工程代價是不可接受的?!弊止澨鴦庸こ處熰嵥紳傻拈_場,一針見血地指出了當前大模型分布式編程的痛點。

      為解決這一難題,字節Infra團隊帶來了他們的開源解決方案——Triton-Distributed。其核心目標是抽象底層硬件和通信的復雜性,讓開發者能以編寫單卡 Triton 的簡潔體驗,開發出高性能的分布式算子。

      Triton-Distributed 的創新之處在于引入了一套三層編程模型(Tile, Chunk, Task)。該模型為開發者提供了從細粒度的線程級通信(Tile),到數據塊的異步搬運(Chunk),再到上層計算任務圖調度(Task)的靈活抽象。這套體系,配合分布式數據重排(Swizzling)、硬件指令調用等一系列深度優化技術,使得計算與通信能夠實現極致的重疊(Overlap)。

      實戰性能數據驗證了 Triton-Distributed 的強大能力。在單層算子上,其性能相比傳統的 CuBLAS+NCCL 方案最高可提升 1.43 倍。更令人矚目的是,在 LLaMA3-70B 模型的端到端推理中,它將 Token 生成延遲從近 50ms 壓縮至 12.25ms。而在帶寬受限的 PCIe 集群上,其優勢更為明顯,在 MoE 場景下甚至取得了高達 49.84 倍的驚人加速。

      鄭思澤表示,Triton-Distributed 致力于讓開發者從繁瑣的分布式細節中解放出來,推動開源 AI 生態的繁榮。

      甄羿:DeepSeek 落地實戰——Triton 是國產 DSA 的“破局之刃”,但還需打磨


      甄羿 螞蟻集團技術專家

      “在真正的落地場景中,無論模型多么宏大,最終一切都會落到算子上面?!碑斍|參數的 DeepSeek V3.2 遇上新興的國產 DSA(專用領域架構)芯片,會擦出怎樣的火花?螞蟻集團技術專家甄羿在演講中,給出了來自工業界一線的答案。

      甄羿首先肯定了 Triton 在多芯片適配中的核心地位。他直言,相比為每款新硬件手寫底層代碼,Triton 極大地降低了開發門檻,縮短了接入周期,這對于成本和時間極其敏感的商業公司至關重要。然而,他也坦言 Triton 并非“萬能藥”,其原生為 GPU 設計的編程模型與許多國產 DSA 硬件存在天然的“映射錯位”,加之后端工具鏈尚不成熟,導致直接遷移的代碼性能不佳。

      面對 DeepSeek 中的 TopK 排序、KV Cache 融合等“硬骨頭”,螞蟻團隊并未退回到手寫 Native 代碼的老路,而是利用TLE (Triton Language Extension)進行突圍。例如,在 TopK 算子中,通過桶排序算法規避了硬件指令的短板;在 KV Cache 融合算子中,通過改變切分方式并引入 Double Buffer 機制,將性能從原生的 2400us 優化至50.13us,實現了超過 40 倍的躍升,幾乎追平了手寫 Native 算子的極限。

      演講最后,甄羿向全行業發出呼吁:共建“評測-優化-開源”的正向生態循環。他強調,螞蟻集團通過與 FlagOS 社區的深度合作,利用 FlagGems 算子庫和 FlagTree 編譯器,有效避免了“重復造輪子”。他希望更多開發者加入進來,共同打磨 Triton 和 FlagOS 工具鏈,讓國產 AI 軟硬件生態從“單點突破”走向“全面繁榮”。

      馬永強:飛槳支持原生 triton,大模型 triton 算子可一鍵遷移


      馬永強 百度資深工程師

      “開發者不應在底層硬件的適配泥潭中掙扎。飛槳要做的,就是讓 Triton 算子在不同芯片上‘無感’遷移,像用 Python 一樣簡單?!卑俣荣Y深工程師馬永強在演講中,從生態兼容與開發效率的角度,分享了飛槳(PaddlePaddle)如何通過原生支持 Triton,打通大模型落地的“最后一公里”。

      馬永強開場便強調了生態兼容的重要性。通過對 Triton 的原生編譯器支持,飛槳實現了對 import triton 的無縫兼容。這意味著,開發者現有的 Triton Kernel 代碼僅需一行聲明,即可直接在飛槳框架中運行,極大降低了用戶從 PyTorch 生態遷移的學習成本,可以復用社區中豐富的算子資產。

      為應對國產芯片“百芯大戰”的局面,飛槳推出了 CustomDevice 硬件接入機制。這一機制讓飛槳能夠快速擴展朋友圈,目前已高效支撐了 10+ 家硬件廠商的 25+ 款芯片接入。

      在性能方面,馬永強展示了飛槳“軟硬結合”的威力。通過引入 WINT2 極致量化和 CUDA Graph 圖優化技術,在大模型推理上取得了顯著突破。以 文心 4.5 (300B) 模型為例,優化后的飛槳推理吞吐量(TPS)高達 276.42,相比主流開源推理引擎提升了 40%,讓單卡部署超大模型成為可能。為解決新硬件上“跑得通但算不對”的頑疾,飛槳還構建了覆蓋 2700+ 開源模型的 GraphNet 自動化驗證體系,以及 PaddleAPITest 算子正確性驗證工具,目標是實現“GPU 收斂后,跑通即收斂”,徹底消除開發者對國產硬件穩定性的顧慮。

      海納:摩爾線程深度適配 FlagTree,三大“特化”技術榨干國產 GPU 性能


      海納 摩爾線程編譯器首席架構師

      “作為一家硬件廠商,我們的目標不僅是讓 Triton 代碼跑通,更是要跑得極致。語言上不分裂,實現上各顯神通,這是我們對生態的承諾?!蹦柧€程編譯器首席架構師海納在演講中,揭秘了他們在適配 FlagTree 編譯器過程中的“性能密碼”——通過三大技術組合拳,成功打破了國產 GPU 的性能天花板。

      首先,通過Linear Layout的數學魔法,巧妙地建立了物理硬件與邏輯數據之間的關系,從而大幅提升訪存效率,避免了因數據爭搶導致的性能瓶頸。

      其次,團隊引入了 Warp Specialization(Warp 特化) 技術?!皞鹘y的 GPU 編程像是一個人既要搬磚又要砌墻,而 Warp 特化則是讓一部分線程專門負責搬運數據,另一部分線程專門負責計算。”海納形象地比喻道。這種“專人專用”的分工模式,配合摩爾線程硬件的異步拷貝能力,使得計算單元幾乎可以一直處于滿載狀態。

      最后,通過與智源 FlagOS 團隊的深度合作,利用 TLE (Triton Language Extension) 標準實現了顯式的流水線控制,讓計算任務像工廠流水線一樣高效運轉,大幅掩蓋了數據讀取的延遲。

      在生態合作上,海納也強調了摩爾線程的鮮明態度。他坦言,雖然摩爾線程在底層做了大量定制優化,但在上層語言標準上,未來將全面擁抱并 Follow 智源發布的 TLE 標準。“我們不希望開發者為了適配摩爾線程而學習一套新的語言,”他總結道。

      劉廣:KernelGen v1.0 發布,“Code is cheap”,算子開發的護城河在于驗證


      劉廣 智源系統智能研究組負責人

      “在 AI 時代,代碼生成變得廉價,但驗證能力才是核心競爭力。Code is cheap, show me your test?!?/p>

      2025 年,AI 的推理能力正從實驗室走向工程可用。智源系統智能研究組負責人劉廣在演講中敏銳地指出,算子開發正如一道奧數題,它有清晰的邊界、可量化的目標和可驗證的標準,是 AI 發揮推理能力的絕佳場景。在此背景下,他正式發布了 KernelGen v1.0——AI 驅動的 Triton 算子自動生成與驗證平臺。

      劉廣指出,當前的算子開發仍是一個“勞動密集型”工作。KernelGen 的破局之道在于構建了一個“生成-反饋-驗證”的全自動閉環。用戶僅需輸入數學公式或自然語言描述,平臺即可自動生成 Triton 代碼,并利用 PyTorch 原生實現作為 Ground-Truth 進行正確性比對和性能測試,全流程無需人工干預。劉廣在現場展示了 KernelGen 的實戰能力:從需求輸入到生成可用代碼,最快僅需120 秒;在性能上,66% 的自動生成算子性能超過了 0.8 倍的手寫 CUDA 性能,部分甚至超越了手寫 Triton 代碼。

      演講的尾聲,劉廣將話題引向了更深層次的行業思考。他提到了近期 Meta 收購 AI 代碼生成公司 Manus 的熱點事件,并引用其創始人的觀點:Benchmark(基準測試/驗證能力)才是更強大的能力?!吧傻拇a敢不敢用?這取決于你的驗證體系,”劉廣強調,KernelGen 的核心價值不在于“會寫代碼”,而在于其擁有基于 PyTorch 的多芯片確定性驗證機制。

      展望未來,KernelGen 制定了清晰的 2026-2027 路線圖。團隊計劃在近期實現批量算子生成和性能自優化,支持 8 款芯片的后端兼容性評測。最終目標是完善算子生態,開源超過 1000 個自動生成的算子,并將算子開發效率提升一個量級,讓生成時間降低到秒級?!拔覀兊脑妇?,是讓算子開發像寫 Python 一樣簡單,”劉廣總結道,“通過 AI 驅動的自動化,大幅降低 GPU 算子開發門檻,加速國產芯片生態建設?!?/p>

      深度應用 Triton,九位一線技術專家拆解核心用法和優化思路

      下午場的「Triton 最佳實踐」分論壇,聚焦性能調優、跨硬件適配與編譯器優化等技術方向。九位來自科研機構和產業一線的專家,依次分享了各自的實踐案例,詳細介紹了 Triton 在不同硬件環境中的應用方法與工程經驗,進一步拓展了其應用邊界。

      邵恩:面向異構硬件的系統軟件共性優化


      邵恩 中國科學院計算技術研究所高級工程師

      面對異構硬件的碎片化,中國科學院計算技術研究所高級工程師邵恩指出,構建中立、可控的 SYCL 生態,并通過追求程序與硬件資源間的通用耦合優化,是緩解國產芯片生態碎片、打破行業壟斷的重要途徑。隨后,邵恩展示了其團隊在基于 SYCL 統一編程模型的代碼編譯生成工具鏈上的關鍵成果:其工具鏈已完成 SYCL 到 AMD GPU 的適配并開源到國際社區,這是首個由社區貢獻的 AMD GPU SYCL 支持模塊,并被 Intel oneAPI 社區采納加入主分支(CTS 適配度超過 90%)。同時,工具鏈實現了 TVM-SYCL 的代碼生成驗證,是首個支持 Apache TVM 的 SYCL 后端,并被 TVM 社區采納入主分支。

      在此基礎上,邵恩分享了面向不同體系結構的通用優化技術,包括在多租戶場景下兼顧關鍵任務時延與整體吞吐量、挖掘 Thread Block 之間潛在數據依賴,并充分拓展可并行算子融合的范圍,以提升算子執行效率。他指出,通過 SYCL 統一編程模型,這些優化能夠讓更多國產 AI 模型在多樣化芯片上高效運行,推動國產芯片生態向可用性和通用性發展。

      朱天陽:Triton語言擴展TLE硬件感知層設計和實現


      朱天陽 中科加禾研發總監、資深專家

      盡管 Triton 通過類 Python 風格的開發體驗和高效編譯優化降低了算子開發門檻,但在國內異構硬件環境下仍面臨挑戰:GPU 是主流,而非 GPGPU 架構的 DSA 芯片差異化明顯。為應對這一問題,TLE 提供分層編程接口,同時抽象 GPU 與 DSA 的通用性與硬件特性,實現跨架構適配與性能優化。中科加禾研發總監、資深專家朱天陽隨后分享了 TLE 的最新進展及分層設計理念與實現。

      他解釋道,TLE 分層設計包括:TLE-Lite,將硬件無關的基礎算子進行抽象;TLE-Struct,將具體硬件特性封裝為可調參數,從而在統一框架下兼顧通用性和性能。在編譯器實現方面,朱天陽表示,通??梢愿鶕橄髮哟伟幢碇薪ㄗh選擇下降路徑,但具體行為仍依賴于編譯器實現。當前,TLE 在 DSA/GPU 抽象層的開發已覆蓋 Buffer、Layout、Math、Scope、Pipeline、Slice、Sync 等模塊,并可通過 to_tensor / to_buffer 與原生 Triton 混合使用。此外,工具鏈已完成一系列基礎算子測試驗證。實測顯示,在國產 DS-v3.2-Exp 模型上,TLE 對關鍵算子優化后,kv_rmsnorm_rope 性能提升 1.4 倍,接近 CANN 原生算子性能的 95%,SparseFA 提升 8 倍以上。

      郭依蓬:AscendNPU IR完備表達昇騰,開源開放支持多語言接入


      郭依蓬 華為昇騰 CANN 生態技術專家

      華為昇騰 CANN 生態技術專家郭依蓬在大會上深度拆解了 AscendNPU IR 的核心技術架構。其多級抽象設計,通過 HFusion 多維度融合抽象層降低三方框架對接難度,提供 Tensor 級融合能力;同時,借助 HIVM 硬件抽象層,對昇騰執行細節進行完備表達——從分核架構抽象,到計算、同步、搬運操作管控,再到內存資源管理,全鏈路支撐面向昇騰的深度優化。這種設計,使開發者無需深入硬件細節,就能通過 Triton 等熟悉的 DSL 提升算子性能。

      郭依蓬介紹,昇騰通過 Triton-Ascend 兼容社區 Triton 特性與開發范式,并基于 AscendNPU IR 協同 FlagTree 構建高效算子編程生態,已實現140+昇騰高性能算子落地。當前,AscendNPU IR(https://gitcode.com/Ascend/AscendNPU-IR)與 Triton-Ascend(https://gitcode.com/Ascend/triton-ascend)已全面開源,并配套文檔、樣例和社區資源,支持開發者探索多語言適配和異構硬件優化。

      柴赟達:面向 Triton 編譯器的編譯優化實踐


      柴赟達 先進編譯實驗室基礎編譯部部長

      緊接著,先進編譯實驗室基礎編譯部部長柴赟達介紹了 Triton 算子生成與編譯優化的實踐。他表示,Triton 算子可通過自動生成或手工實現:自動生成依托 PyTorch 的 TorchDynamo、AOT Autograd 和 PrimTorch,將操作降低為 Inductor IR 并生成 Buffer,以進行調度和融合優化;手工實現則需定義算子功能、編寫實現并封裝以適配 PyTorch API,如 Angle 算子支持多種數據類型和運算驗證。完成算子生成后,還可通過運行時參數、啟發式算法和 Auto-tune 優化 Kernel 配置,自動選取性能最優參數。

      在跨架構編譯優化方面,柴赟達分享了 GPU、CPU 和 DSA 的多層策略:針對 DSA,利用 Triton-Linalg 和 Hint 注釋優化DMA調度與共享內存分配;針對 Ascend,通過 FlagTree 中間 IR Pass 兼容 Triton-Ascend 與 LLVM 版本差異;CPU 優化結合 LLVM 向量化和 OpenMP 提升吞吐量;GPU 優化包括訪存合并、張量核心分塊配置和代數變換,提高算力利用率。整體方案覆蓋從 Triton Kernel 到后端 Target IR 的全鏈路,實現算子性能、硬件可編程性與多架構適配的統一。

      郭暉:TLE——一種為各層次用戶設計的 Triton 語言擴展


      郭暉 北京智源人工智能研究院 AI 編譯器研究員

      針對 Triton 在細粒度控制和異構硬件適配上的不足,北京智源人工智能研究院 AI 編譯器研究員郭暉進一步闡述了 TLE 面向不同層次開發者的設計思路。他表示,TLE 通過構建TLE-Lite、TLE-Struct、TLE-Raw三層遞進式擴展架構,在保持 Triton 易用性的同時,引入更靈活的控制能力,既覆蓋從算法工程師到性能優化專家的多樣化需求,也從架構層面緩解了 Triton 在 DSA 適配上的核心痛點。

      郭暉指出,三層擴展體系各有側重。TLE-Lite 定位為硬件無關的輕量級擴展,遵循“一次編寫,到處運行”的理念,通過高層語義提示引導編譯器自動優化,僅需最小代碼改動即可獲得跨平臺性能收益,適合算法工程師在不關注硬件細節的前提下進行快速迭代。TLE-Struct 面向算子開發工程師,引入架構感知能力,依據硬件特征對后端進行 GPGPU、DSA 等聚類劃分,顯式暴露層次化并行與存儲結構,支持精細的數據布局與并行策略定義。TLE-Raw 則進一步打破 DSL 抽象邊界,支持內聯 MLIR、PyCUDA 等廠商原生代碼,直接生成目標指令,為性能優化專家提供對硬件的完全控制能力,以追求極致性能。

      在 DSA 適配方面,TLE 也給出了分層對應的解決方案。TLE-Lite 通過統一的高層接口降低不同 DSA 架構的重復開發成本;TLE-Struct 針對 DSA 進行專門聚類,抽象共性硬件結構,減少適配復雜度;而 TLE-Raw 則依托原生代碼透傳能力,允許開發者直接接入 DSA 廠商的編譯管線,快速響應新硬件特性,從而彌補 Triton 難以及時跟進硬件演進的不足。

      張先軼:基于 FlagGems Triton 的運行時調優與算子優化


      張先軼 北京澎峰科技創始人兼 CEO

      作為 OpenBLAS 的發起人,北京澎峰科技創始人兼 CEO 張先軼以 FlagGems C++ Wrapper 的底層依賴——輕量級 C++ 運行時庫 libtriton_jit 為例,分享了團隊在高性能算子庫上的核心優化實踐。他表示,重構 libtriton_jit 有兩個核心目標:一是降低開銷,消除純 Python 運行時中不可避免的解釋器開銷和調度延遲;二是實現多后端統一,提供統一 C++ 接口,支持多硬件后端,并屏蔽底層 API 差異。

      在技術實現上,他選擇了 Policy-Based Design(編譯時多態),利用 C++ 模板在編譯期靜態確定行為,從而消除抽象層開銷,同時兼顧靈活性。雖然這種做法會增加二進制體積,但經過優化,wrapper 延遲顯著下降,整體性能提升 2.5~4 倍;在小算子場景下,平均延遲僅為 11.69 μs,比重構前快 43%。此外,他進一步分享了算子層面的優化實踐,包括在 mm 算子加入 TMA 優化,同時提升 TensorDescriptor 穩定性,并擴大 Triton Autotuning 搜索空間;對 Kron、argmin、resolve_conj、gelu_backward、glu_backward 等算子,則通過針對算法特性的 Block_size 調整,實現了更高加速比。整體而言,這些優化不僅大幅降低了延遲,也實現了算子層面的極致解耦,為構建高性能算子庫提供了一套高效、靈活且可維護的解決方案。

      吳偉:FlagOS on RISC-V 現狀及規劃


      吳偉 上??嘌靠萍悸摵蟿撌既?br/>

      RISC-V 與 AI 的結合,正成為當前最受關注的技術方向之一。上海苦芽科技聯合創始人吳偉指出,作為全球開放指令集架構,RISC-V 正逐步演變為 AI 與智算芯片領域的“默認 ISA”。同時,FlagOS 被定位為“面向多種 AI 芯片的系統軟件棧”,希望通過統一的軟件接口,支持不同類型的 AI 加速芯片。

      如今 FlagOS 選擇全面擁抱 RISC-V,吳偉稱,主要基于四方面考量。首先,從產業趨勢看,NVIDIA、Meta、Google、高通等廠商已在 AI 芯片中引入 RISC-V。其次,AI 算力形態日益多樣,SpacemiT K1、Tenstorrent、Meta MTIA 等加速器均以 RISC-V 作為核心架構。第三,RISC-V 生態逐漸成熟,Ubuntu、Debian、OpenEuler 等主流操作系統已提供穩定支持。最后,RISC-V 在擴展性上更貼合 AI 需求,RVV 以及 AME、IME、VME 等擴展為高性能計算奠定了硬件基礎。與此同時,國內“松竹梅計劃”和 “RACE 委員會”也在推動產學研協同,加速完善整體生態。

      吳偉表示,盡管 FlagOS on RISC-V 當前仍處于起步階段,但發展路徑已較為明確。面向未來的發展,他也分享了技術路線圖:2026 年 1—4 月完成 FlagTree 對 RV64GC 后端的支持,8 月前實現 RVV 1.0 適配,年底前適配 SG2044、A210 等硬件平臺;到 2027 年 5 月,計劃完成對 IME、AME 擴展的實驗性支持,并實現對 RVA23 的完整支持,使整體生態成熟度接近 Arm64 水平。同時,其正依托“甲辰計劃”與 FlagOS 社區,通過開源實習生機制吸引人才,并連接香山、乘影等硬件社區,推動 FlagOS 融入并服務全球 RISC-V 生態。

      王鋒:基于 Triton 的高性能分布式算子實現及編譯優化


      王鋒 湖南卡姆派樂信息科技有限公司總經理

      湖南卡姆派樂信息科技有限公司總經理王鋒介紹了其團隊基于 Triton 的高性能分布式算子實現及編譯優化成果。他指出,Transformer Engine(TE)與 Triton Distributed(TD)是兩大核心分布式算子方案:其中,TE 依托 PyTorch Distributed 的 NCCL 后端,支持 FP8 混合精度計算與通信重疊;TD 基于 NVSHMEM 構建共享內存機制,在通信性能上相較 Torch 更具優勢。

      王鋒強調,分布式算子的性能突破離不開底層編譯器與核心算子的協同優化,并重點展示了 Triton 編譯器優化與 FlagGems 算子優化兩方面進展。在編譯器層面,Shared Memory Hint 通過注解方式顯式指定數據加載至共享內存,在 A100 GPU 的 mm 算子測試中,由于 Pipeline 優化較為充分,整體性能提升有限,但為共享內存緊張場景提供了新的調度空間?;诖?,團隊提出 SPLIT-K 策略,對 K 維度進行二次切分,在大 K 場景下減少加載指令、小 K 場景下提升并行度,在 Shared Memory Hint 場景中效果明顯。

      在此基礎上,FlagGems 針對 mm 算子進一步縮小 Triton 與 TileLang 的性能差距。此前在 H100 GPU 上,兩者差距曾達 25.58%~39.65%。通過引入 TMA 優化(張量描述符與 descriptor_load)及新增 BLOCK_M/N=256 的配置優化,優化后經 NCU 工具測試,Triton 與 Tilelang 性能基本持平,內置計時器下差異可忽略,實現了算子性能的顯著提升。

      李先鐸:基于 FlagOS 軟件棧的多芯片統一后端插件設計與實踐


      李先鐸 北京智源人工智能研究院 AI 框架研發工程師

      北京智源人工智能研究院 AI 框架研發工程師李先鐸分享了基于 FlagOS 軟件棧的多芯片統一后端插件設計與實踐。他指出,FlagOS 統一后端插件架構以 FlagGems 算子庫和 FlagCX 通信庫為核心支撐,構建了高可擴展的插件化體系。該架構基于 TransformerEngine-FL 實現 0 侵入、統一后端 Op API,通過兩層 Dispatch 機制解決多芯片適配難題:Language Dispatch 支持靈活選擇 FlagOS 原生 Op 或廠商 Op,可無縫接入廠商高性能計算庫并路由至最優性能算子;Op Dispatch 則支持 FlagOS Op 中的 Kernel 在多芯片后端運行。

      在實踐中,FlagOS 插件化設計已顯現成效。李先鐸透露,英偉達芯片上已完成 Qwen3-16B 模型分布式訓練的 Triton Kernels 全覆蓋,性能達原生版本約 80%;國產芯片方面,海光、昆侖芯、寒武紀等廠商均已成功接入。面向未來,FlagOS 統一后端插件將持續拓展能力邊界,其中在性能優化上推進 Triton 融合算子研發,實現顯存優化、降低 Kernel 啟動開銷,并支持分布式大 OP 計算與通信重疊調度;算子覆蓋方面,將適配更多 Dense/MoE 模型及新型架構,并通過精度測試、性能基準體系和 OpManager 策略,實現算子粒度動態選擇與自動化適配,推動“一次開發,處處運行”的生態建設。

      三大實戰工作坊:將理論與實踐深度鏈接

      下午,大會議程在廣度與深度上進一步展開。除了聚焦產業前沿的分論壇,大會還特別設置了三場技術工作坊,為開發者提供了一個將前沿理論與工程實踐緊密鏈接的交流平臺。

      在“‘人機協作’的 Triton 算子開發”工作坊中,來自北京智源人工智能研究院的陶健和韓冬煦,為與會者進行了一場深度的算子開發的技術剖析與現場演示。通過從官網注冊到實際使用的完整走查,開發者們直觀地看到了 KernelGen v1.0 如何將“自然語言描述需求”轉化為“經過自動化驗證的高性能 Triton 代碼”,深刻體會到 AI 驅動下算子開發的全新范式。

      由原點代碼 CTO 宮文學主導的“FlagOS-AI 編譯器實戰”工作坊,則以一場 Live Coding 的形式展開。在導師的指引下,開發者們通過克隆代碼庫、剖析真實示例,系統地理解了從前端算子到 IR、再到后端代碼生成的全過程,完成了從“會用框架”到“能造引擎”的關鍵認知升級。

      在“基于 FlagOS 的具身一站式平臺”工作坊里,北京智源人工智能研究院的敖玉龍和潘騰飛則系統性地展示了具身智能從數據到模型的工程閉環?,F場詳細拆解了從真實機器人數據采集,到在國產算力上完成具身模型訓練的全過程,為這個前沿領域的工程落地提供了清晰的實戰指引。

      TritonNext:始于一行代碼,成于眾人之智

      從上午場深度的技術趨勢及架構剖析,到下午場熱烈的技術實踐與代碼實戰操練,2026 TritonNext 技術大會不僅呈現了一場關于 Triton 與 AI 系統軟件的技術盛宴,更生動詮釋了“眾智”的力量。

      當“一次編寫,處處運行”不再是遙遠的理想,當 AI 開始自動生成并驗證算子,當開發者們能夠通過統一的開源社區協同攻克異構硬件的壁壘——我們看到的,是一個正在加速繁榮的、由開發者驅動的開源新生態。這場大會是起點,更是集結號,真正的變革將在每一行被貢獻的代碼、每一次社區的討論中發生。

      對于奮戰在一線的開發者而言,“異構適配”與“性能優化”或許是過去幾年中最令人頭疼的工程難題。而貫穿 2026 TritonNext 技術大會始終的,正是對這些難題的正面回應。

      從 KernelGen 將算子開發門檻降至“分鐘級”,到 FlagTree 讓跨芯遷移成本縮短至“天級”,再到 Triton-Distributed 將分布式編程化繁為簡——大會傳遞出一個明確的信號:工具的進化,正在將開發者從繁瑣的底層適配工作中解放出來,能夠重新聚焦于最具創造力的算法與應用創新。AI 系統軟件的未來,正由每一位被賦能的開發者親手構建。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      末節15分大逆轉!東契奇破歷史第一紀錄,詹姆斯17+8,狀元20中7

      末節15分大逆轉!東契奇破歷史第一紀錄,詹姆斯17+8,狀元20中7

      籃球掃地僧
      2026-01-25 16:40:53
      2-3!95分鐘壓哨絕殺 英超大冷門:10.4億豪門13場不敗慘遭終結

      2-3!95分鐘壓哨絕殺 英超大冷門:10.4億豪門13場不敗慘遭終結

      狍子歪解體壇
      2026-01-25 03:29:41
      馬刺撿到寶!正負值+257!力壓文班亞馬

      馬刺撿到寶!正負值+257!力壓文班亞馬

      籃球教學論壇
      2026-01-25 15:46:44
      炸裂!中糧集團春招公告,學歷從大專起步,外語水平居然不設限…

      炸裂!中糧集團春招公告,學歷從大專起步,外語水平居然不設限…

      火山詩話
      2026-01-22 10:40:46
      連爆5場!對手害怕謝潑德,阿門賽后發出請求,而烏度卡也明牌了

      連爆5場!對手害怕謝潑德,阿門賽后發出請求,而烏度卡也明牌了

      巴叔GO聊體育
      2026-01-25 16:00:42
      上海三至五年級期末考試取消英語,只考語文數學,令家長不解!

      上海三至五年級期末考試取消英語,只考語文數學,令家長不解!

      李老師講最真教育
      2026-01-22 21:17:11
      上海地鐵海報現“六指美女”,被質疑用AI生成,廣告方回應:如果確認存在問題,會第一時間修改替換

      上海地鐵海報現“六指美女”,被質疑用AI生成,廣告方回應:如果確認存在問題,會第一時間修改替換

      環球網資訊
      2026-01-24 18:11:11
      陳百祥稱自己每場直播收入超8位數,“這簡直是天文數字,就站在那里說四五句話”

      陳百祥稱自己每場直播收入超8位數,“這簡直是天文數字,就站在那里說四五句話”

      瀟湘晨報
      2026-01-23 12:09:10
      原來馬斯克沒說錯,全球搶的不是芯片,而是中國20萬一臺的變壓器

      原來馬斯克沒說錯,全球搶的不是芯片,而是中國20萬一臺的變壓器

      云上烏托邦
      2026-01-22 13:10:38
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      如何在半年內擊沉美國現役的十一艘航母?

      如何在半年內擊沉美國現役的十一艘航母?

      高博新視野
      2026-01-19 18:15:23
      維金斯17+6+6熱巴肆虐內線,努爾基奇三雙創造歷史,熱火大勝爵士

      維金斯17+6+6熱巴肆虐內線,努爾基奇三雙創造歷史,熱火大勝爵士

      釘釘陌上花開
      2026-01-25 13:04:08
      俄烏戰爭馬上第四年,打窮了3個國家也富了3個國家,中國也在其中

      俄烏戰爭馬上第四年,打窮了3個國家也富了3個國家,中國也在其中

      荷蘭豆愛健康
      2026-01-25 10:57:43
      高市內閣支持率暴跌

      高市內閣支持率暴跌

      新京報政事兒
      2026-01-25 16:47:11
      保時捷女銷冠來漢領取“特別貢獻獎”:去年賣出192臺車連續三年蟬聯銷冠,超60%是女顧客,今年沒有定目標

      保時捷女銷冠來漢領取“特別貢獻獎”:去年賣出192臺車連續三年蟬聯銷冠,超60%是女顧客,今年沒有定目標

      極目新聞
      2026-01-24 18:12:15
      空軍殲10空中加油直飛新加坡

      空軍殲10空中加油直飛新加坡

      財聯社
      2026-01-25 11:18:30
      秦漢時期為對付匈奴的高明手段——在邊關種榆樹,原因何在?

      秦漢時期為對付匈奴的高明手段——在邊關種榆樹,原因何在?

      鶴羽說個事
      2026-01-23 16:10:40
      何超瓊沒想到,倒貼嫁東北小伙的何超盈,如今竟給她狠狠長臉

      何超瓊沒想到,倒貼嫁東北小伙的何超盈,如今竟給她狠狠長臉

      白面書誏
      2026-01-25 14:44:04
      拜合拉木染黃,安東尼奧爆出西班牙國罵:碰都不能碰?P***!

      拜合拉木染黃,安東尼奧爆出西班牙國罵:碰都不能碰?P***!

      懂球帝
      2026-01-25 15:29:43
      廣東將迎雨霧天氣,濕度增大!氣象部門稱可開窗通風防止返潮

      廣東將迎雨霧天氣,濕度增大!氣象部門稱可開窗通風防止返潮

      南方都市報
      2026-01-25 11:54:29
      2026-01-25 17:12:49
      CSDN incentive-icons
      CSDN
      成就一億技術人
      26279文章數 242221關注度
      往期回顧 全部

      科技要聞

      黃仁勛在上海逛菜市場,可能惦記著三件事

      頭條要聞

      獲黃仁勛簽名紅包商戶:我開始不認識他 紅包里有600元

      頭條要聞

      獲黃仁勛簽名紅包商戶:我開始不認識他 紅包里有600元

      體育要聞

      中國足球不會一夜變強,但他們已經創造歷史

      娛樂要聞

      王玉雯方嚴正聲明 劇方回應:涉事人員已被開除

      財經要聞

      隋廣義等80人被公訴 千億騙局進入末路

      汽車要聞

      別克至境E7內飾圖曝光 新車將于一季度正式發布

      態度原創

      數碼
      房產
      旅游
      手機
      公開課

      數碼要聞

      華為FreeClip 2耳夾耳機確認支持Android設備豆包App喚醒

      房產要聞

      正式官宣!三亞又一所名校要來了!

      旅游要聞

      迎寒盛開!貴州梅園正式開園

      手機要聞

      榮耀泡泡瑪特聯名手機今日開售:首銷即引爆,線下再現排隊熱潮

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成av免费大片黄在线观看| 日韩精品射精管理在线观看| 国产AV一区二区三区| 亚洲欧美日韩在线码| 人妻无码中文久久久久专区| 91香蕉视频下载网站| 97人妻成人免费视频| 九色精品在线| 亚洲av二区伊人久久| 中文无码伦av中文字幕在线| 国产良妇出轨视频在线观看| 人妻无码专区| 国产精品麻豆成人AV电影艾秋 | 成人AV专区精品无码国产| 国产一区二区av天堂热| 亚洲人成欧美中文字幕| 昌平区| а√在线中文网新版地址在线 | 国产精品成人网址在线观看| 樱桃视频影院在线播放| 天干夜天干天天天爽视频| 微拍福利一区二区三区| 97中文字幕在线观看| 欧美疯狂xxxx乱大交| AV人摸人人人澡人人超碰妓女| 天天色欲网| xxxx国产| 亚洲最大成人在线播放| 日韩人妻无码一区二区三区| 中文字幕人成人乱码亚洲电影| 50路熟女| 黄色不卡视频| 漂亮人妻被中出中文字幕久久| 中文字幕在线看视频一区二区三区| 欧美成人片一区二区三区| 上高县| 亚洲欧洲激情| 洋洋AV| 日韩人妻精品无码制服| 婷婷五月激情综合| 日韩欧美偷拍|