![]()
新智元報道
編輯:定慧 元宇
【新智元導讀】當谷歌不再只滿足于「TPU自己用」,TPU搖身一變成了英偉達王座下最鋒利的一把刀!CUDA護城河還能守住嗎?讀完這篇SemiAnalysis的分析,你或許會第一次從「算力賬本」的視角,看懂谷歌暗藏的殺招。
谷歌Gemini 3的成功,讓其背后的TPU再次成為全世界關注的焦點。
資本市場給出了明確的反應,谷歌股價的上漲,也讓一個話題再次被拿到牌桌上討論:
谷歌TPU是不是真的能和英偉達GPU掰一掰手腕?
![]()
尤其是TPUv7更是人們討論關注的焦點,這款專門為AI設計的芯片是否能夠打破英偉達多年來的GPU形成的壟斷?
眾所周知,SemiAnalysis是一家在科技界,尤其是半導體和人工智能領域極具影響力的精品研究與咨詢公司。
它以硬核、深度的數據分析著稱,不同于泛泛而談的科技媒體,它更像是一個服務于華爾街投資者、芯片巨頭和AI從業者的「行業智庫」。
剛剛,他們最新的文章給出一個明確的結論:TPUv7首次向英偉達發起了沖鋒。
而且這一篇文章由12位作者共同撰寫,可見分量之重。
![]()
這篇文章深入剖析了谷歌TPUv7如何向英偉達的AI硬件霸權發起實質性挑戰。核心轉折點在于:
谷歌打破長期以來的內部自用慣例,開始向Anthropic等外部客戶大規模出售TPU硬件及算力,后者已部署超過1GW的TPU集群。
盡管在單芯片理論參數上TPU未必碾壓英偉達,但谷歌憑借卓越的系統級工程(如ICI互聯和光路交換)實現了極高的實際模型算力利用率(MFU),且總體擁有成本(TCO)比英偉達GB200系統低約30%-40%。
谷歌正通過支持PyTorch原生環境和vLLM等開源生態,積極修補軟件短板,試圖從根基上瓦解CUDA的護城河。
CUDA護城河能否被終結?
TPUv8和英偉達下一代AI新品Vera Rubin,誰更強大?
接下來的內容,會給你答案。
TPUv7:谷歌向王者發起挑戰
英偉達堅不可摧的堡壘,出現了一絲裂痕。
目前,世界上最頂尖的兩個模型——Anthropic的Claude 4.5 Opus,以及谷歌的Gemini 3,它們絕大部分訓練和推理基礎設施,都運行在谷歌的TPU和亞馬遜的Trainium上。
其中的Gemini 3,以及其所有早期版本的Gemini,則是完全在TPU上進行訓練的。
![]()
這還不算,谷歌正在向多家公司出售商用的TPU硬件。
英偉達的王座迎來了新的挑戰者。
早在2006年,谷歌就有過建立AI專用基礎設施的想法。
但一直到2013年,谷歌才開始為TPU芯片奠定基礎,并在2016年將其投入生產。
![]()
同一年,亞馬遜也啟動了Nitro計劃,該計劃專注于開發芯片以優化通用CPU計算和存儲。
如今,通過推進TPU商業化,谷歌已經成為英偉達最新且最具威脅的挑戰者。
Gemini 3發布后,市場反響強烈。
英偉達還專門為此發布了一條官方推文,恭喜谷歌在AI領域的進展,同時不忘強調自己依然遙遙領先。
![]()
在推文中,英偉達強調自己仍在持續向谷歌供應硬件,并表示自己依然領先行業一代,是唯一能夠運行所有AI模型、并能在各種計算場景中使用的平臺。
同時,強調GPU比專用芯片(ASIC)在性能、通用性和可替代性上更強,這句話明顯是對谷歌TPU、AWS Trainium等專用芯片的回應。
突然崛起的TPU
在過去的幾個月里,谷歌DeepMind的Gemini 3、谷歌云以及TPU綜合體,賺足了眼球,也將谷歌母公司Alphabet的市值推高至接近4萬億美元。
TPU產量大幅上調,Anthropic、Meta、SSI、xAI、OAI等TPU的客戶名單正在不斷擴大,這些推動了谷歌和TPU供應鏈的大幅重新評級,無疑也將壓制以英偉達GPU為重點的供應鏈。
![]()
除了面對TPU的壓力,英偉達還面臨著通過「循環經濟」造成AI泡沫的質疑,許多質疑者認為英偉達通過資助燒錢的AI初創公司,本質上是將錢從一個口袋轉移到另一個口袋。
![]()
英偉達對此的回應
SemiAnalysis認為更合理的解釋是:
英偉達旨在通過股權投資而非降價來保護其在基礎實驗室的主導地位——降價將拉低毛利率并引發投資者普遍恐慌。
下文將通過解析OpenAI與Anthropic的合作模式,展示前沿實驗室如何通過采購(或威脅采購)TPU來降低 GPU 的總體擁有成本(TCO,Total Cost of Ownership)。
![]()
總擁有成本(TCO)模型、Anthropic和OpenAI
雖然OpenAI目前尚未部署TPU,但僅憑「轉向TPU」這一可能,就已在其英偉達集群成本上節省約30%。
簡單來說,OpenAI并沒有真的把谷歌的TPU芯片插進服務器里跑任務,而是把「我隨時可能改用TPU」作為一個巨大的談判籌碼,迫使英偉達為了留住這個大客戶,變相給予了巨額優惠。
谷歌TPU的大規模外部化
TPU堆棧長期以來一直與英偉達AI硬件相抗衡,但它主要是為了支持谷歌的內部工作負載。
即使在2018年向谷歌云平臺客戶提供TPU之后,谷歌仍未將其完全商業化。
如今,這種情況正在開始改變。
在過去的幾個月里,谷歌已經動員了整個堆棧的努力,通過谷歌云平臺或作為商用供應商銷售完整的TPU系統,開啟了TPU大規模商用的步伐。
這一舉措也使這家搜索巨頭成為一個真正差異化的云提供商。
與此同時,谷歌的頂級客戶Anthropic也在繼續推動擺脫對英偉達單一依賴,兩者在采用TPU上一拍即合。
![]()
與Anthropic的交易,標志著TPU規模化商用的一個重要里程碑。
那么,Anthropic和其他客戶為什么想要谷歌的TPU?
答案很簡單。
TPUv7 Ironwood是一個優秀系統內的強大芯片,即使芯片在參數上落后于英偉達,谷歌的系統級工程也使得TPU堆棧在性能和成本效率方面都能與英偉達相匹配。
這種組合為Anthropic提供了引人注目的性能和TCO,因此贏得了其大規模的訂單。
與英偉達通過GB200擴展其GPU生態一樣,谷歌自2017年TPUv2以來,也一直在機架內和跨機架擴展TPU。
谷歌的ICI擴展網絡,也與英偉達NVLink匹敵的競爭對手。
![]()
如今,預訓練前沿模型仍然是AI硬件中最困難和資源最密集的挑戰。
自2024年5月GPT-4o以來,OpenAI的頂尖研究人員尚未完成廣泛用于新前沿模型的成功全規模預訓練運行,而TPU平臺則通過了這一測試。
對于谷歌來說,在最具挑戰性的硬件問題之一中悄悄擠入并建立性能領先地位,確實是一個令人印象深刻的壯舉。
微架構仍然很重要:Ironwood接近Blackwell
雖然谷歌一直在推動系統和網絡設計的邊界,但從一開始,谷歌在芯片方面的設計理念相對于英偉達就更為保守。
歷史上,TPU的峰值理論FLOPs明顯較少,內存規格也低于相應的英偉達GPU。
其中有3個原因。
首先,谷歌對其基礎設施的「RAS」(可靠性、可用性和可服務性)非常重視。
谷歌寧愿犧牲絕對性能來換取更高的硬件正常運行時間。
第二個原因,直到2023年,谷歌的主要AI工作負載是為其核心搜索和廣告資產提供動力的推薦系統模型。
與大模型工作負載相比,RecSys工作負載的算術強度要低得多,這意味著相對于傳輸的每一位數據,需要的FLOPs更少。
![]()
第三個原因,是TPU主要面向內部,在外部夸大這些規格的壓力要小得多。
商用GPU提供商希望為其芯片營銷盡可能好的性能規格,這激勵他們將營銷的FLOPs提高到盡可能高的數字。
進入大模型時代之后,谷歌TPU的設計理念發生了明顯轉變。
從最近兩代為大模型設計的TPU:TPUv6 Trillium(Ghostlite)和TPUv7 Ironwood(Ghostfish)就可以看出這種變化。
![]()
TPUv6在FLOPs上已經非常接近H100/H200,但它比H100晚了2年。
TPUv7 Ironwood是下一次迭代,谷歌在FLOPs、內存和帶寬方面幾乎完全縮小了與相應英偉達旗艦GPU的差距,盡管全面上市比Blackwell晚了1年。
![]()
理論上的絕對性能是一回事,但重要的是單位總擁有成本(TCO)的實際性能。
雖然谷歌通過Broadcom采購TPU并支付高額利潤,但這明顯低于英偉達不僅在他們銷售的GPU上,而且在整個系統(包括CPU、交換機、NIC、系統內存、布線和連接器)上賺取的利潤。
從谷歌的角度來看,每顆芯片在全規模部署下的TCO比英偉達GB200服務器低 44%。
這足以彌補峰值FLOPs和峰值內存帶寬約10%的不足。
為什么Anthropic下注TPU?
比較理論FLOPs只能說明部分問題。
更重要的是有效FLOPs,因為峰值數字在實際工作負載中幾乎從未達到。
英偉達的優勢源于CUDA護城河和開箱即用的廣泛開源庫,幫助工作負載高效運行,實現高FLOPs和內存帶寬。
相比較之下,TPU軟件堆棧開箱即用的性能較弱,然而Anthropic擁有強大的工程資源和前谷歌編譯器專家,他們既了解TPU堆棧,也很好地理解自己的模型架構。
因此,彌補了這方面的不足。
他們可以投資自定義內核以驅動高TPU效率,這使得他們可以達到比采用其他商用GPU更高的MFU(模型FLOPs利用率)和更好的每PFLOP成本性能($/PFLOP)。
另一個巨大轉變
傳統上,TPU軟件和硬件團隊一直是面向內部的。
這具有優點,例如沒有營銷團隊施加壓力來夸大所述的理論FLOPs。
只面向內部的另一個優勢是TPU團隊非常重視內部功能請求和優化內部工作負載。
缺點是他們不太關心外部客戶或工作負載。
TPU生態系統中的外部開發者數量遠低于CUDA生態系統。
這是TPU的主要弱點之一,就像所有非英偉達加速器一樣。
谷歌此后修改了針對外部客戶的軟件戰略,并已經對其TPU團隊的KPI以及他們如何為AI/ML生態系統做出貢獻做出了重大改變。
其中有2個主要變化:
在PyTorchTPU「原生」支持上投入大量工程精力;
在vLLM/SGLangTPU支持上投入大量工程精力。
通過查看谷歌對各種TPU軟件倉庫的貢獻數量,可以清楚地看到外部化戰略。
從3月開始vLLM貢獻顯著增加。
從5月開始,創建了「tpu-inference」倉庫,這是官方的vLLMTPU統一后端。
![]()
谷歌在軟件戰略方面仍然處理不當的一個地方是,他們的XLA圖編譯器、網絡庫和TPU運行時仍然沒有開源,也沒有很好的文檔記錄。
這讓從高級用戶到普通用戶的各種用戶感到沮喪,因為他們無法調試代碼出了什么問題。
此外,用于多Pod訓練的MegaScale代碼庫也不是開源的。
就像PyTorch或Linux開源迅速增加了采用率一樣,為了加速用戶的采用,谷歌或許應該將其開源,用戶采用率的增加將超過他們公開和免費提供的所有軟件IP。
后續
如果想要了解更深入的技術細節,比如谷歌獨有的ICI光互連技術到底有哪些優勢,可以閱讀原文:
https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the
![]()
![]()
![]()
參考資料:
https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the
https://newsletter.semianalysis.com/p/mi300x-vs-h100-vs-h200-benchmark-part-1-training
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.