網易首頁 > 網易號 > 正文申請入駐

天下苦CUDA久矣，又一國產方案上桌了

2026-01-30 21:59:52　來源: 量子位

北京舉報

分享至

允中發自凹非寺
量子位 | 公眾號 QbitAI

國產算力基建跑了這么多年，大家最關心的邏輯一直沒變：芯片夠不夠多？

但對開發者來說，真正扎心的問題其實是：好不好使？

如果把AI開發比作做飯，現在的尷尬是——

國產鍋（硬件）雖然越來越多了，但大部分大廚還是只習慣用那套進口調料包（生態）

這正是當下AI落地最真實的一幕。

模型層繁花似錦，底層卻隱憂重重。大家在參數規模上輪番刷新紀錄，回過頭來卻發現，最難擺脫的還是那套已經長進骨子里的開發流程。

△圖片由AI生成

算力只是敲門磚，真正的勝負手，是那段算法與硬件之間的“翻譯權”

說白了，如果拿不到這支“翻譯筆”，再強悍的國產硬件，也只能像是一座無法與外界溝通的孤島。

終于，那個讓開發者喊了無數次“天下苦CUDA久矣”的僵局，現在迎來了一個不一樣的國產答案

KernelCAT：計算加速專家級別的Agent

這幾年，AI領域的熱鬧幾乎是肉眼可見的。

模型在密集發布，應用數據持續走高，看上去一切都在加速向前。

但在工程現場，感受卻更復雜。

真正制約落地效率的，并不是模型能力本身，而是底層軟件生態的成熟度。

硬件選擇一多，問題反而集中暴露出來：遷移成本高，適配周期長，性能釋放不穩定。很多模型即便具備條件切換算力平臺，最終也會被算子支持和工具鏈完整度擋在門外。

這讓一個事實變得越來越清晰——突破口不在堆更多算力，而在打通算法到硬件之間那段最容易被忽視的工程鏈路，把芯片的理論性能真正轉化為可用性能。

其中最關鍵的一環，正是高性能算子的開發

算子（Kernel），是連接AI算法與計算芯片的“翻譯官”：它將算法轉化為硬件可執行的指令，決定了AI模型的推理速度、能耗與兼容性。

算子開發可以被理解為內核級別的編程工作，目前行業仍停留在“手工作坊”時代——開發過程極度依賴頂尖工程師的經驗與反復試錯，周期動輒數月，性能調優如同在迷霧中摸索。

若把開發大模型應用比作“在精裝修的樣板間里擺放家具”，那么編寫底層算子的難度，無異于“在深海中戴著沉重的手銬，徒手組裝一塊精密機械表”。

但如果，讓AI來開發算子呢？

傳統大模型或知識增強型Agent在此類任務面前往往力不從心。因為它們擅長模式匹配，卻難以理解復雜計算任務中的物理約束、內存布局與并行調度邏輯。

唯有超越經驗式推理，深入建模問題本質，才能實現真正的“智能級”優化。

正是在這一“地獄級”技術挑戰下，KernelCAT應運而生。

△終端版

具體來看，KernelCAT是一款本地運行的AI Agent，它不僅是深耕算子開發和模型遷移的“計算加速專家”，也能夠勝任日常通用的全棧開發任務，提供了CLI終端命令行版與簡潔桌面版兩種形態供開發者使用。

不同于僅聚焦特定任務的工具型Agent，KernelCAT具備扎實的通用編程能力——不僅能理解、生成和優化內核級別代碼，也能處理常規軟件工程任務，如環境配置、依賴管理、錯誤診斷與腳本編寫，從而在復雜場景中實現端到端自主閉環。

△桌面版

為國產芯片生態寫高性能算子

在算子開發中，有一類問題很像“調參”——面對幾十上百種參數或策略組合，工程師需要找出讓算子跑得最快的那一組配置。

傳統做法靠經驗試錯，費時費力，而且還容易踩坑。

KernelCAT的思路是——引入運籌優化，把“找最優參數”這件事交給算法，讓算法去探索調優空間并收斂到最佳方案

以昇騰芯片上的FlashAttentionScore算子為例，KernelCAT在昇騰官方示例代碼上，可以自動對該算子的分塊參數調優問題進行運籌學建模，并使用數學優化算法求解，在十幾輪迭代后就鎖定了最優配置，在多種輸入尺寸下延遲降低最高可達22%，吞吐量提升最高近30%，而且整個過程無需人工干預。

這正是KernelCAT的獨特之處：它不僅具備大模型的智能，能夠理解代碼、生成方案；還擁有運籌優化算法的嚴謹，能夠系統搜索并收斂到最優解。

智能與算法的結合，讓算子調優既靈活，又有交付保障。

在對KernelCAT的另一場測試中，該團隊選取了7個不同規模的向量加法任務，測試目標明確——

即在華為昇騰平臺上，直接對比華為開源算子、“黑盒”封裝的商業化算子與KernelCAT自研算子實現的執行效率。

結果同樣令人振奮，在這個案例的7個測試規模中，KernelCAT給出的算子版本性能均取得領先優勢，且任務完成僅用時10分鐘

這意味著，即便面對經過商業級調優的閉源實現，KernelCAT所采用的優化方式仍具備一定競爭力。

這不僅是數值層面的勝利，更是國產AI Agent在算子領域完成的一次自證。

沒有堅不可破的生態，包括CUDA

全球范圍內，目前超過90%的重要AI訓練任務運行于英偉達GPU之上，推理占比亦達80%以上；其開發者生態覆蓋超590萬用戶，算子庫規模逾400個，深度嵌入90%頂級AI學術論文的實現流程。

黃仁勛曾言：

我們創立英偉達，是為了加速軟件，芯片設計反而是次要的。

這句話揭示了一個關鍵真相：在現代計算體系中，軟件才是真正的護城河。

英偉達的持續領先，源于其從底層算法出發、貫通架構與編程模型的全棧掌控能力。

參考AMD的歷史經驗，即使在架構與制程上具備充足的競爭力，缺乏成熟的生態系統也仍然難以撼動英偉達的地位。

這類案例清晰地表明，模型性能并不簡單等價于算力規模的堆疊，而是取決于算法設計、算子實現與硬件特性的協同程度。當算子足夠成熟，硬件潛力才能被真正釋放。

沿著這條思路，KernelCAT團隊圍繞模型在本土算力平臺上的高效遷移，進行了系統性的工程探索。

DeepSeek-OCR-2模型在華為昇騰910B2 NPU上的部署為例，KernelCAT展示了一種全新的工作范式：

對抗“版本地獄”：KernelCAT對任務目標和限制條件有著深度理解，基于DeepSeek-OCR-2官方的CUDA實現，通過精準的依賴識別和補丁注入，解決了vLLM、torch和torch_npu的各個依賴庫間版本互鎖的三角矛盾，硬生生從零搭建起了一套穩定的生產環境，結合基礎Docker鏡像即可實現模型的開箱即用。
準確修補：它敏銳地識別出原版vLLM的MOE層依賴CUDA專有的操作，和vllm-ascend提供的Ascend原生MOE實現，并果斷通過插件包進行調用替換，讓模型在國產芯片上“說上了母語”。
實現35倍加速：在引入vllm-ascend原生MOE實現補丁后，vLLM在高并發下的吞吐量飆升至550.45toks/s，相比Transformers方案實現了35倍加速，且在繼續優化中。
無需人工大量介入：在這種復雜任務目標下，KernelCAT可以自己規劃和完成任務，無需研發提供大量提示詞指導模型工作。

這意味著，原本需要頂尖工程師團隊花費數周才能完成進行的適配工作，現在可以縮短至小時級（包含模型下載、環境構建的時間）。

與此同時，它讓國產芯片從“能跑”到“飛起”，實現了35倍的加速

也就是說，KernelCAT讓國產芯片不再是被“封印”的算力廢鐵，而是可以通過深度工程優化，承載頂級多模態模型推理任務的性能引擎。

“天下苦CUDA久矣”——這句話曾是無奈的自嘲，如今正成為行動的號角。

KernelCAT所代表的，不只是一個AI Agent新范式的出現，更是一種底層能力建設方式的轉向：

從依賴既有生態，到構建能夠自我演進的計算基礎。

KernelCAT正限時免費內測中，歡迎體驗：
https://kernelcat.cn/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.