![]()
新智元報道
編輯:桃子
【新智元導讀】英偉達護城河要守不住了?Claude Code半小時編程,直接把CUDA后端遷移到AMD ROCm上了。
一夜之間,CUDA護城河被AI終結了?
這幾天,一位開發者johnnytshi在Reddit上分享了一個令人震驚的操作:
Claude Code僅用了30分鐘,便將一段完整的CUDA后端代碼,成功移植到AMD的ROCm上。
整個過程,沒有手寫一行代碼。
這架勢,簡直是要填平這兩個生態系統之間的鴻溝。
![]()
更關鍵的是,這次移植完全沒有依賴傳統的「中間轉換工具」,如Hipify翻譯層,而是一鍵通過CLI完成。
就連AMD軟件副總Anush E.為之震驚,GPU編程的未來,是AI智能體的。
![]()
消息一出,整個科技圈瞬間沸騰,很多人直呼:英偉達CUDA護城河要守不住了.....
![]()
![]()
這究竟是怎么回事?
Claude手撕CUDA,僅30分鐘
Claude Code是在一個智能體框架運行的,這意味著它可以自己「動腦子」。
在執行過程中,他不會機械地轉換關鍵詞,而去真正理解代碼,即特定核函數的底層邏輯。
開發者johnnytshi介紹,這次移植中,最棘手的數據布局差異問題也被AI解決了,確保了內核核心計算邏輯保持一致。
![]()
令人驚嘆的是,johnnytshi在短短30分鐘內,就把整個CUDA后端移植到了AMD ROCm上,而且中間沒用任何翻譯層。
另外一個好處當然是,不用費勁去搭像Hipify這種復雜的翻譯環境了;直接在命令行(CLI)里就能干活。
如今,全網都被CUDA護城河被攻破呼聲淹沒了。
![]()
畢竟,英偉達霸主地位,很大程度上建立在CUDA這個幾乎成為行業標準的編程生態上。
無數AI框架、深度學習庫、科學計算工具都深度依賴它。
![]()
AMD的ROCm雖然功能強大,卻一直面臨生態兼容性,以及開發者遷移成本高的痛點。
現在,一個Claude卻用極短時間踢碎了門檻,說不定未來更多CUDA代碼可能輕松在AMD GPU跑起來了。
實現細節
GitHub中,johnnytshi本人也更新了日志和說明。
為AMD GPU實現了完整的ROCm后端,從而在RDNA 3.5及其他AMD架構上支持基于注意力機制的現代國際象棋網絡。
![]()
GitHub:https://github.com/LeelaChessZero/lc0/pull/2375
在
src/neural/backends/rocm/中添加了完整的ROCm后端實現了注意力網絡架構(多頭自注意力、FFN、嵌入層)
使用rocBLAS進行GEMM運算,使用MIOpen進行卷積運算
針對RDNA 3.5上的FP16性能優化了NCHW布局
提供三種后端變體:
rocm(FP32)、rocm-fp16(FP16)、rocm-auto(自動檢測)MIOpen是必選依賴(類似于CUDA的cuDNN)
通過
rocm_agent_enumerator自動檢測AMD GPU架構編譯選項:
-Drocm=true -Damd_gfx=gfx1151(或使用自動檢測)
![]()
性能說明:
FP16性能:在Strix Halo (Radeon 8060S, gfx1151) 上 >2000 nps
自動Batch Size調優(RDNA 3.5上min_batch=64)
測試過rocWMMA,但rocBLAS性能更好
驗證情況(Strix Halo - Radeon 8060S, gfx1151):
測試模型:
768x15x24h-t82-swa-7464000.pb.gz和maia-1900.pb.gz后端:
rocm-fp16功能正常,能生成正確的走法環境:ROCm 7.2.53150, MIOpen 3.5.1
注:僅在RDNA 3.5上進行了測試;其他AMD架構暫未驗證
GPU未來,是AI智能體主場
當然,這次演示也有局限性。
對于簡單或中等復雜度的內核,Claude Code表現得非常出色。更重要的是,寫核函數的核心就在于搞定「深度硬件」優化。
不過,一部分覺得Claude Code在這方面還是差點火候——
如果遇到那些針對特定硬件緩存層級,內存訪問模式做過極致優化的復雜內核,AI目前還難以完全取代人類專家。
即便如此,這一事件釋放出的信號已經足夠強烈。
過去幾個月,ZLUDA項目、還有微軟內部的嘗試,都想要打破CUDA的壟斷。
![]()
但它們大多依賴規則映射或中間層,自動化程度和智能水平有限。
Claude Code代表的智能體式編程,直接跳過了這些環節,用「理解+自主決策」的方式填平生態鴻溝。
正如AMD軟件副總所言,GPU編程的未來,是AI智能體主場。
全員AI編程,濃度高達100%
如今的Claude Code已經讓整個硅谷入坑了(Claude-Pilled)。
兩天前,CEO Dario Amodei在達沃斯上再出暴論:軟件工程師們沒有時間了。未來6-12個月,AI能夠徹底取代這些人!

甚至,Anthropic內部工程師已經不再手寫代碼了,全是Claude完成。
別不信,是真的。
就在Wired最新采訪中,Claude Code之父Boris Cherny坦承,「自己100%代碼都是AI寫的」。
![]()
或許Anthropic工程師怎么也沒有想到,一個「副業項目」竟讓硅谷如此狂熱。
Boris Cherny回憶道,「一年前我們發布Claude Code時,甚至不確定『智能體編程』能不能成,但火爆來得太快了」。
Cherny個人經歷就是最好的縮影:
剛發布時,他只有5%代碼是用Claude Code寫的;
到了去年5月,有了Opus 4和Sonnet 4,這個比例變成了30%;
而現在,有了Opus 4.5,他在過去兩個月里100%的代碼都是由Claude Code完成。
在Anthropic內部,這種全員AI化更是到了極致。
幾乎100%技術員工都在使用Claude Code,甚至連Claude Code團隊本身95%的代碼也是由自身寫出來的。
![]()
斯坦福AI教授都在用了
不得不說,AI編程的進化速度令人咋舌。
回望2021到2024年,大多數工具不過是高級版的「自動補全」,在開發者打字時卑微地建議幾行代碼。
但到了2025年初,隨著Cursor和Windsurf等初創發布早期的Agentic編程產品,游戲規則改變了——
開發者只需用大白話描述功能,剩下的臟活累活全扔給AI智能體完成。
Claude Code也在這個時間點,真正誕生了。
Boris Cherny坦承,早期版本也曾跌跌撞撞,甚至陷入死循環。但Anthropic下了一步狠棋:不為當下的AI能力開發產品,而要為AI即將抵達的未來而構建。
這一賭注押對了。隨著Anthropic下一代旗艦Claude Opus 4.5的發布,AI編程迎來了真正的「拐點」。
![]()
斯坦福大學AI講師、Workera CEO Kian Katanforoosh最近就把公司全員遷移到了Claude Code。
他直言,對于高級工程師來說,Claude Code比Cursor、Windsurf更能打。
Katanforoosh感嘆道,最近唯一讓我看到編程能力有階躍式提升的模型,就是Claude Opus 4.5。
「它給人的感覺不像是在模仿人類寫代碼,而是它真的找到了一種更聰明的解決路徑」。
據傳,微軟內部也在大規模采用Claude Code了。
![]()
年入超10億美金的「副業」
Claude Code大獲成功,給Anthropic帶來了最直觀的效益。
去年,AI編程智能體業務徹底爆發。11月,Anthropic宣布Claude Code在上線不到一年內,年度經常性收入(ARR)就突破了10億美元。
到2025年底,ARR至少又增長了1億美元。
![]()
彼時,該產品約占Anthropic總ARR(約90億美元)的12%。雖然比起向大企業提供 AI 系統的核心業務來說還算「小弟」,但它已是公司增長最快的板塊之一。
盡管Anthropic在AI編程領域看似獨孤求敗,但Claude Opus 4.5的光環其實照亮了整個賽道。
競爭對手Cursor也在11月達到了10億美元ARR,OpenAI、谷歌和xAI更是磨刀霍霍,試圖用自研模型分一杯羹。
但Anthropic沒打算停下。
前幾天,他們又發布了Cowork——這是一款面向非編程領域的AI智能體。
它能管理你電腦里的文件、操作各種軟件,而且完全不需要你在代碼終端里敲命令。
![]()
不是取代,是進化
提及Cowork時,Cherny透露自己已經用瘋了。
比如項目管理,他會讓Cowork盯著工程師的任務表格,誰沒填名字,AI就會自動在Slack上發消息催人。
Cherny感慨道,「這是我當工程師以來最爽的時候,因為我不再需要做那些枯燥乏味的臟活了」。
面對那些因不再需要親自寫代碼而感到失落的工程師,Cherny給出了他的建議:
這行業一直在變。我祖父在蘇聯用穿孔卡片編程;后來變成了機器碼;再后來是C語言、Java、Python。
這是一條不斷抽象化的連續體,AI智能體只是這條線上的最新一個點。
![]()
如今,Cherny每天早上起床會在手機上啟動3-4個編程智能體,到了公司再在終端里開幾個。
任何時候,他都有五到十個智能體在跑任務。
Cherny總結道,「AI智能體將接管生活中所有繁瑣的事——填表、搬運數據、發郵件。這會具有顛覆性,我們必須適應」。
話又說回來,Anthropic能不能先解決下Claude使用量?
![]()
參考資料:
https://github.com/LeelaChessZero/lc0/pull/2375
https://wccftech.com/the-claude-code-has-managed-to-port-nvidia-cuda-backend-to-rocm-in-just-30-minutes/
https://www.wired.com/story/claude-code-success-anthropic-business-model/?utm_brand=wired&utm_social-type=owned&utm_source=twitter&utm_medium=social&utm_campaign=aud-dev
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.