前幾天簡單聊了谷歌TPU現在面臨的困境,既離不開博通、又想擺脫對博通的高度依賴。這次就詳細聊聊谷歌如何與博通博弈。另外,在市場競爭環境中,TPU最終能否大量外售以搶占英偉達的市場份額?
一、谷歌TPU的開發模式
TPU目前 v7、v7e、v8 版本的開發歸屬如下:
![]()
谷歌 TPU 最早選擇博通,是因為在芯片設計代工環節,博通確實是全球最好的服務商,特別是擁有最頂尖的芯片高速互聯技術,這也是現在實現大規模 AI 芯片并行計算的核心。但另一方面,博通接單 TPU 的毛利率高達 70%,而聯發科作為消費級別芯片商,綜合技術實力雖然不如博通,但愿意以 30%+ 的毛利率接單 TPU,極大降低谷歌的運營成本,自然成為了谷歌用以制衡博通的一枚棋子。
同樣在 Mag7 里不少科技巨頭也在采用類似的模式開發自研 AI 芯片,Meta 也選擇了博通合作、微軟和亞馬遜則選擇了 Marvell 和 Alchip,就剩下 Tesla 和 Apple 則選擇自主開發。
二、谷歌和博通的工作界面問題
為什么谷歌要做芯片的頂層架構設計,而不是完全外包給博通?為什么博通不把谷歌的芯片設計作為公版賣給其他廠商?我們來研究下這個工作界面問題。
進入正題前講個小故事,我記得快10年前國內熱炒過云服務的股權投資,那時我們盡調覆蓋到服務器制造時聽過一個傳聞:阿里最早切入云服務賽道時找到富士康,私下要求提供其給谷歌代工的服務器主板,富士康拒絕了而提出使用自己的公版。拋開商業 IP 和商譽問題不談,谷歌當時設計的主板,直接在每塊主板上掛了一個 12V 的鉛酸電池,電網的電只轉換一次就進入主板,不像傳統集中式 UPS 設計需要三次轉換,大幅降低能耗。在當時的云服務領域,大幅節能意味著廠商要么毛利潤大幅增加、要么前端市場價格可以大幅降低,簡直就是商業開掛大殺器。
同樣我們看 TPU 的開發工作界面問題,谷歌之所以做 TPU,是因為最大使用方是谷歌自己的內部應用負載,譬如搜索引擎、YouTube、廣告推薦、Gemini大模型等,所以只有谷歌自己內部團隊才知道,TPU 的算子(Operator)設計成什么樣子,能發揮出內部應用的最大功效,而這些內部商業信息是不可能交給博通知曉而完成芯片的頂層架構設計的。這就是為什么谷歌一定要自己做 TPU 的頂層架構設計。
但這引來第二個問題,頂層架構設計交給博通,博通不就知道了嗎?是不是能改進自己的公版賣給其他廠商?
同樣拋開商業 IP 和商譽問題不談,芯片頂層架構設計的交付,并不像10多年前電路板設計的交付了。谷歌自己工程師會使用 SystemVerilog 編寫設計源代碼(RTL),而編譯后給到博通的是門級網表(Gate-level Netlist),確保了即使博通知道芯片設計里這1億個晶體管如何連線,但幾乎不可能逆向工程地反推出背后的高層設計邏輯。對于最核心的邏輯模塊設計,譬如谷歌特有的矩陣乘法單元 MXU,谷歌甚至不會給博通看具體的網表,而是做成物理版圖(Hard IP),丟給博通一個黑盒子,博通只需要按照要求給黑盒子搞定供電、散熱、數據聯通,而不需要知道黑盒子在算什么。
所以,我們現在看到的谷歌和博通的工作界面,其實已經是最理想的商業合作情況了。谷歌做 TPU 的頂層架構設計,各種信息加密后扔給博通,博通把剩下的實施的活全部接了,同時給谷歌配自己最頂尖的高速互聯技術,最后給到臺積電代工制造。現在谷歌說,TPU 出貨量越來越大了,我要控成本,所以博通你把一部分手里的活分給聯發科,我給他付費要比你低。博通說好的,我反正也有 Meta 和 OpenAI 的大活要接,有些收尾的工作就交給聯發科吧。聯發科說,谷歌大哥,我便宜點,你看以后多找我,除了高速互聯那玩意兒我不懂,其他工作盡量都交給我吧。
三、TPU 能否真正搶占英偉達的市場份額?
簡單地說結論:TPU 會有看得見的大幅度出貨增長,但對英偉達的出貨影響很小。兩者的增長邏輯并不相同,給客戶的服務也不相同。
如在前文里提到的,英偉達的卡出貨增長得益于三大塊需求:
(1)高端訓練市場的增長。之前有很多聲音說 AI 模型已經吃掉絕大多數世界的信息了,以后沒有訓練需求了,這其實是說的預訓練(Pre-training)。但大家很快發現,純粹大數據預訓練出來的模型很容易出現幻覺式的胡說八道,所以后訓練(Post-training)被馬上重視起來,而后訓練涵蓋了大量專家判斷,這里的數據量甚至是動態的,只要世界在變化,專家判斷也需要不斷修正,所以越復雜的大模型越需要更大規模的后訓練。
(2)復雜推理需求。后訓練出來的思考型大模型,例如 OpenAI 的 o1、xAI 的 Grok 4.1 Thinking、谷歌的 Gemini 3 Pro等,現在接受每一次復雜任務,都需要進行多次推理和自我驗證,工作量已經相當于一次小型輕量化訓練了,使得大部分高端復雜推理還是需要跑在英偉達的卡上。
(3)物理 AI 需求。即使全世界的固定知識信息訓練做完,動態的物理世界呢?自動駕駛、各行各業的機器人、自動化生產、科學研究,這些不斷產生新知識、互動信息的物理世界爆發出的訓練和復雜推理需求,甚至遠超當下全世界知識的總和。
TPU 的快速增長,更多是得益于:
(1)谷歌自身使用量的增長。特別是 AI 已經嵌入幾乎所有谷歌的頂級應用,從搜索引擎Search、視頻YouTube、廣告推薦、云服務、Gemini應用等,這些海量的增長使得谷歌自己對 TPU 的需求爆發式地增長。
(2)谷歌云服務里對外提供 TPU 云。盡管目前 Google Cloud 給外部客戶使用還是以英偉達的卡為主,但同時也在大力推廣基于 TPU 的云服務,類似于像 Meta 這樣的大客戶,自身對 AI 基礎設施的需求旺盛,但采購英偉達卡部署數據中心需要時間,同時也作為商業談判籌碼,Meta 完全可以考慮采用租賃 TPU 云服務來做預訓練、以減緩英偉達卡供不應求且價格昂貴的問題,而 Meta 的自研芯片則用于內部推理任務。這種混合式的芯片解決方案可能對 Meta 是最有利的選擇。
最后,再聊下軟硬件層面,TPU 為何無法做到對英偉達卡的替代或直面競爭。
(1)硬件障礙:基建不兼容
NVIDIA 的 GPU 是標準件,買回來插在戴爾/惠普的服務器里就能用,任何數據中心都能裝。TPU 是“系統”,依賴 Google 獨有的 48V 供電、液冷管道、機柜尺寸和封閉的 ICI 光互聯網絡。除非客戶愿意像 Google 一樣推倒重建數據中心,否則幾乎不可能買 TPU 回去自己部署(On-Prem)。這意味著 TPU 只能在 Google Cloud 上租用,限制了其高端市場的觸達。
(2)軟件障礙:生態不兼容(PyTorch/CUDA vs. XLA)
全球 90% 的 AI 開發者都在用 PyTorch + CUDA(動態圖模式),而 TPU 強制要求靜態圖模式(XLA)。這里對開發者而言,遷移成本極高。除了 Apple、Anthropic 這種有能力重寫底層代碼的巨頭,普通企業和開發者根本玩不起 TPU。這注定 TPU 只能服務于“極少數有全棧開發能力的客戶”,無法像 NVIDIA 那樣將 AI 訓練和推理普及到每一所大學和初創公司,即使是通過云服務也是一樣。
(3)最后還有一個商業問題:內部“左右互搏”(Gemini vs. Cloud)
作為云服務巨頭,Google Cloud 肯定是想賣 TPU 賺錢的,但 Google Gemini 團隊更想獨占 TPU 算力來保持領先,用輸出的應用端來給公司賺錢,這里面的利益肯定有沖突,為了年底的獎金,誰來賺這個錢呢?假設 Google 開始把最先進的 TPU 大規模賣給 Meta 或 Amazon,甚至幫助他們部署使用,結果 Google 最賺錢的廣告業務開始被這兩家最大的競爭對手挖了墻角,這筆賬怎么算呢?這種內部戰略沖突,一定會導致 Google 在外售 TPU 時會猶豫不決,甚至保留最強的版本不賣。這也注定了無法與英偉達競爭搶占高端市場。
四、總結:
谷歌和博通在 TPU 上的博弈會繼續以混合開發模式延續,但確實會給強大的 v8 帶來開發難度的增加,具體開發進展我們拭目以待,也期待下周12月11日博通發布 Q3 財報時會不會給我們帶來一些更多的信息。
TPU 對英偉達卡的競爭則相對還遠不到威脅的程度,不管是硬件壁壘、軟件生態適配、到商業邏輯上都注定了,直接購買 TPU 進行自身部署的行為,只有極少數高端玩家才能淺淺嘗試下,譬如最近小作文傳出的 Meta。
但從我對 Meta 的理解而言,他們很難做到耗費大量資本開支再去重建一套基于 TPU 的數據中心,且可能發展出 AI 用來蠶食谷歌的廣告業務。何況,傳出這個小作文的媒體是 The Infomation,一家長期敵視英偉達、微軟等幾家科技巨頭的小道消息網絡媒體,其報道的大部份小作文最后都被證偽過。最可能的還是 Meta 通過 TPU 云租賃的方式用于模型預訓練或復雜推理,減緩對英偉達的依賴,一如 TPU 自己的混合開發策略。科技巨頭分分合合,但最終還是打鐵終須自身硬,唯最佳利益方案才是正解。
文章來源:新視界AlanShore
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.