近日,DeepSeek 宣布在其新版本中支持國產 GPU 專用語言 TileLang,引發業界對國產算力生態的關注。而國產高性能 GPU 代表企業沐曦集成電路(上海)股份有限公司(下稱 “沐曦股份”)已先行突破 —— 其曦云 C 系列產品率先獲得 TileLang 開源社區支持,成為國產 GPU 適配這一新興生態的重要實踐,標志著國產算力在 “硬件 + 軟件” 協同層面進一步貼近國際主流水平。
![]()
國產算力的協同前行
TileLang作為一種專門用來開發GPU內核的領域專用語言,性能上可以對標國際主流生態。DeepSeek官方推薦開發者使用該版本進行實驗性開發,因其在調試便捷性與迭代速度上具備明顯優勢。這一特性對正在積極構建軟件生態的國產GPU廠商來說,無疑是重要機遇。
沐曦股份率先跟進這一機遇。沐曦股份AI編譯器團隊和TileLang社區合作已提前參與該項目,探討沐曦股份GPU與TileLang的適配。 這種與開源社區的緊密合作,顯著加快了沐曦股份曦云C系列產品融入主流開發生態的速度。
從追趕者到參與者
在算力領域,硬件性能只是基礎,軟件生態才是決定成敗的關鍵。沐曦股份MXMACA軟件棧作為連接硬件與應用的橋梁,其兼容性與性能直接關系到用戶體驗。目前,沐曦股份MXMACA軟件棧已實現對主流國際主流生態的兼容,原生支持PyTorch、TensorFlow及國產框架。這種兼容性設計讓開發者能夠幾乎無成本地將現有項目遷移到MXMACA軟件棧。
如今,MXMACA對TileLang社區的快速支持更進一步,體現了沐曦股份在開源生態建設上的敏銳度。TileLang作為重要的AI計算編譯器項目,其對MXMACA的支持不僅減少了開發者適配工作量,更打通了沐曦股份硬件與現代化AI編譯工具鏈的通道。
在WAIC 2025期間,沐曦股份聯合創始人、CTO兼首席軟件架構師楊建曾明確表示,“GPU芯片的價值發揮離不開軟件驅動,從底層驅動、中間框架到上層應用,形成完整鏈條”。 這一理念正在通過實際的開源貢獻得以踐行。
TileLang的革命性突破
TileLang最顯著的優勢在于大幅提升GPU內核的開發效率。TileLang實現FlashAttention算子開發,代碼量從500+行減少至80行,并保持了與官方版本持平的性能。這種代碼量的大幅減少不僅降低了開發門檻,也提高了維護性和可讀性。
有開發者感嘆TileLang是一種非常優雅的語言,只需不到100行代碼就能寫出比Flash Attention 2原版快30%。這種開發效率與性能兼得的特點,正是TileLang引發關注的重要原因。TileLang提供了三個不同層次的編程接口,滿足從初學者到專家不同水平開發者的需求。 這種分層設計使曦云C系列的開發者能夠根據自身熟練程度,選擇合適的切入點進行算子開發與優化。
從原型到產品的性能表現
DeepSeek選擇TileLang并非偶然,而是基于實際性能驗證。具體的性能數據來自TileLang以DeepSeek發布的FlashMLA內核作為評測基準的實驗:在英偉達H100上的MLA解碼速度,TileLang編寫的內核做到與FlashMLA相當。這一結果證明了TileLang在性能上具備與國際先進產品競爭的實力。DeepSeek v3.2也驗證了TileLang確實可以用來訓練模型。這一實踐意義重大,表明了TileLang已從實驗階段走向實際生產應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.