英偉達推出 CUDA 軟件棧最大規(guī)模升級之一,芯片架構(gòu)傳奇人物吉姆?凱勒認為,此舉或宣告該軟件的獨家壟斷時代走向終結(jié)。
英偉達CUDA 全新升級:人人皆可輕松上手 GPU 編程
毫無疑問,在當下人工智能熱潮席卷的背景下,面向開發(fā)者打造生成式 AI 工作流所需的專屬函數(shù)庫與框架時,CUDA 堪稱英偉達的 “定海神針”。迄今為止,尚無任何企業(yè)成功復刻出同等級別的軟件棧。在此基礎上,英偉達對 CUDA 進行重大更新,推出CUDA Tile功能,將傳統(tǒng)的單指令多線程(SIMT)架構(gòu),轉(zhuǎn)向基于分塊(tile-based)的全新編程范式。下文將深入解析此次更新,而芯片架構(gòu)大師吉姆?凱勒則指出,這一變革或?qū)⒋蚱?CUDA 的壁壘優(yōu)勢。
在本次更新之前,程序員需手動微調(diào)各類參數(shù)—— 包括分塊尺寸、共享內(nèi)存數(shù)據(jù)加載量,以及 GPU 執(zhí)行任務所需的計算資源分配;而 CUDA Tile 的問世,徹底顛覆了這一格局。英偉達不僅引入分塊化編程模型,還打造出全新的底層虛擬機Tile IR,將 GPU 視作分塊處理器運行。這一設計讓程序員得以聚焦核心邏輯,無需再為 GPU 底層復雜架構(gòu)耗費心力。
通過分塊化方案,英偉達大幅減少了人工優(yōu)化的工作量,轉(zhuǎn)而將重心放在高規(guī)整度運算上,例如結(jié)構(gòu)化矩陣運算與卷積運算。該功能的核心優(yōu)勢在于,大幅降低 GPU 編程門檻,使其受眾范圍得到空前拓展。由于算法以抽象化形式呈現(xiàn),GPU 的各項參數(shù)將由內(nèi)置編譯器自動決策。當然,相較于底層代碼直接實現(xiàn),CUDA Tile 的性能表現(xiàn)略遜一籌,但它卻是英偉達推動 AI 技術普及的關鍵舉措。
![]()
吉姆?凱勒認為,CUDA Tile 將顯著降低代碼向 AMD 等其他廠商 GPU 移植的難度,背后存在兩大核心原因:其一,分塊化技術早已是行業(yè)通用方案,被 Triton 等主流框架廣泛采用。這意味著,代碼從 CUDA 遷移至 Triton,再進一步適配 AMD AI 芯片的可行性將大幅提升;其二,抽象層級的提升,讓開發(fā)者無需再編寫針對特定架構(gòu)的 CUDA 代碼,從理論上極大簡化了跨平臺移植流程。
![]()
但也有分析師認為,上述觀點恰恰相反——CUDA Tile 非但沒有削弱,反而加固了英偉達的護城河。究其根本,Tile IR 等核心底層技術均針對英偉達硬件語義深度優(yōu)化。因此,盡管代碼移植的門檻有所降低,實際落地適配的復雜度依然居高不下。歸根結(jié)底,英偉達通過降低 CUDA 編程門檻,實則進一步鞏固了自身在 CUDA 軟件棧生態(tài)的主導地位。這也是此次更新被業(yè)界譽為GPU 編程領域革命性突破的核心原因。
50份好禮!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.