黃仁勛剛剛強調英偉達GPU的核心優勢在于“通用性”,谷歌就一口氣連發兩款第八代TPU,明確將其拆分為訓練與推理兩條路徑。這是谷歌十余年來TPU演進中最重要的一次架構分化。
其中,TPU 8t(Sunfish)更擅長處理大規模、計算密集型的訓練任務,在設計上優先提升計算吞吐能力和跨芯片擴展帶寬,以支撐超大模型的訓練需求;基于TPU 8t的訓練超節點(SuperPod),強調利用率與穩定性。它由博通合作設計。
TPU 8i(Zebrafish)則針對推理場景,尤其是大規模智能體(agent)交互場景,重點強化內存帶寬,以應對對延遲極為敏感的推理負載;基于TPU 8i的推理超節點,正強調其低延遲。它由聯發科合作設計。
相比第七代的Ironwood,TPU 8t的訓練性價比提升最高2.7倍,TPU 8i的推理性價比提升最高80%。兩顆芯片的能效都提升了2倍。
![]()
這標志著,大模型訓練與推理在算力基礎設施層面,已經進入必須“分工優化”的階段。在過去很長一段時間內,與英偉達GPU相似,每一代谷歌TPU,都兼顧著訓練和推理的工作負載。但隨著模型規模與應用場景分化,這種統一設計正在失去效率優勢。
直至去年,谷歌Gemini 3發布,宣告首個非英偉達生態的前沿模型誕生,也仍然是“通用TPU”的功勞。也許,Gemini 4的訓練,將不得不啟用TPU 8t的集群。這兩款芯片預計將于今年晚些時候正式推出。
TPU 8t
盡管OpenAI與Anthropic都對前沿模型的預訓練數據集大小,以及總參數規模守口如瓶。但擴展定律(Scaling Law)仍在持續驅動模型訓練需求增長。馬斯克最近就曾預告,即將到來的Grok 4.4與4.5,參數規模分別高達1T與1.5T,在xAI的集群里,還有高達6T的模型正在訓練中。
在這一背景下,訓練大模型仍然是算力密集的,依賴大規模矩陣計算、穩定的通信拓撲與高利用率調度能力。
由TPU 8t構建的單個超節點,規模上限約為9600顆TPU,與上一代基本持平,但單芯片計算能力提升近3倍。同時,超節點內共享的高帶寬內存提升至約2PB,接近翻倍,進一步緩解數據供給瓶頸。
更重要的變化在于可用的數據精度。谷歌首次在訓練中原生采用FP4,與英偉達NVFP4策略基本同步。低精度計算顯著降低數據搬運成本,使更多參數駐留片上緩存,從而提升計算單元利用率并逼近理論峰值性能。在不顯著損失精度的前提下,降低數值精度以擴大模型規模,已成為行業共同攻關方向。一旦突破,意味著同等硬件可獲得約2倍以上有效算力利用率。
網絡已經從通用基礎設施,變成計算系統的一部分,必須和芯片一起設計。新一代Virgo網絡可以同時連接13.4萬顆TPU 8t,甚至在單一訓練集群中,接近線性地擴展(near-linear scaling)到超過“百萬級”TPU芯片規模,而不顯著損失效率。
![]()
此外,谷歌TPU的關鍵秘密之一在于脈動陣列(systolic array)。它本質上是一種高度專用化的算術單元,只執行乘加運算,而不需要在復雜指令之間進行調度選擇。由于數據以固定路徑流動,系統得以顯著減少指令緩存與數據緩存開銷,在犧牲一定通用性的前提下,實現更高的能效與計算利用率。然而,這一架構一旦遇到隨機訪問或稀疏計算,數據流就會被打斷,導致計算單元利用率下降,甚至出現“空轉”瓶頸。
于是,在 TPU 8t 中,谷歌強化了SparseCore,將這類稀疏且不規則的內存訪問,從主計算路徑中卸載出去,從而在保持計算密度的同時,避免因數據訪問不均衡導致的整體性能損耗。
TPU 8i
推理正在進入Agentic時代。在這個時代,計算不再由單顆芯片定義,計算就是整個數據中心。在這一體系中,TPU 8i承擔底層算力基礎設施角色。在這之上,運行著“可信上下文”(trusted context)的Agentic數據云、保護運行環境安全的Agentic防御系統、任務控制中心的Agentic平臺與模型,以及具體的Agentic工作流與任務。
到處都是交互的智能體。這意味著更高頻次的數據調度、任務編排、工具調用和系統交互,對整個算力基礎設施的時延,提出了越來越高的要求。于是,SRAM與CPU在這個時代復興了。
![]()
由TPU 8i構建的單個超節點,大幅縱向擴展,上限為1152顆TPU,接近上一代的5倍。超節點采用了最新的Boardfly架構,把網絡直徑砍掉一半左右,時延也因此大幅改善。TPU 8i還專門加了CAE(集合加速引擎),專門做集合通信的加速和同步。
它最顯著的進化在于,在繼續提升HBM的基礎上,疊加了384MB的片上SRAM,較上一代提升約3倍。推理的token經濟學,正在不可避免地向著低延時的方向擴展,思路之一就是重新設計內存層次結構,搭載更大容量的SRAM。這能夠讓更大規模的KV緩存,直接存在速度更快的SRAM上,而不用在不用頻繁訪問HBM。
2026/03/18 完整閱讀 >
谷歌的TPU 8i,在這方面要遠超微軟Maia 200(272MB)與亞馬遜Trainium 3(256 MB)。不過,它仍然弱于英偉達LPU 3更激進的500MB的規格。
與第八代TPU配對的CPU,也首次轉向了谷歌自研的Axion。尤其是在推理超節點,而且,每臺服務器內的CPU數量倍增,以應對數據調度、任務編排、工具調用和系統交互等智能體工作負荷。這是行業趨勢。
2026/03/26 完整閱讀 >
在某些英偉達Rubin Ultra配置中,GPU與CPU的部署比例,已超過1個GPU對2個CPU的比例;而在Hopper世代,通常12個GPU才配1個CPU。一旦Axion與TPU的協同成熟,谷歌就可以AI任務的實際負載需求,定制兩者之間的配比。
開放,與供應鏈壓力
這個月,黃仁勛在討論英偉達GPU與谷歌TPU的競爭關系時,再次強調GPU的核心優勢在于“通用性”。在他看來,現實世界中的應用場景高度多樣化,存在大量TPU難以覆蓋的工作負載,而英偉達的優勢在于“支持世界上所有類型的應用”。
這次,將TPU拆分為訓練與推理專用,谷歌相當于直接與黃仁勛“對著干”了。但是,谷歌最懂自家特定工作負載,也懂得如何讓Gemini與TPU更好地協同優化,為旗下產品與服務提供更低總擁有成本(TCO)的算力。在官方博客上,谷歌強調第八代TPU架構,是與谷歌DeepMind團隊共同設計的。
谷歌一直都很清楚自研芯片之于模型的重要性。早在2015年底,谷歌將AlphaGO搬上全新的TPU時,發現它對陣配備GPU的AlphaGO,以8比2大勝,連棋風都變了。2023年底,谷歌發布Gemini,同步發布了TPUv5p,此時已經可以建立起幾萬張卡的推理集群,但訓練主還是依靠英偉達Hopper系列。而到了2025年,谷歌發布的Ironwood,足以與前一年的B200相媲美,并訓練出了當時最強大模型Gemini 3,實現了王者歸來。
2025/12/1 完整閱讀 >
在這一過程中,谷歌TPU犧牲掉的通用性,可以通過其他方式找回來。它可以通過抓住那些最有實力的大玩家,從而在事實上最大程度地支持“這個世界上大多數類型的應用”。現在,谷歌已經把全球最重要的消費級AI與企業級AI客戶,都抓在自己手里了。黃仁勛也知道,當一款前沿模型基于其他算力生態而構建時,對英偉達的傷害會有多大。
社交媒體巨頭Meta,已與谷歌達成協議,將在未來數年租用谷歌TPU,并明確其用途在于大模型訓練,該協議價值“數十億美元”。這一合作意味著英偉達GPU在訓練市場長期以來的事實性壟斷地位開始松動。仍被寄望于造出下一代AI硬件的蘋果,不僅選擇了谷歌的Gemini,很多基礎研究都是基于TPU展開的;谷歌的TPU,將是蘋果10億高價值用戶使用Siri的完美推理引擎。
最近風頭正猛的Anthropic,也將成為這兩款芯片的首批客戶之一。它與谷歌的合作,已擴大至3.5GW的算力規模。Anthropic深陷算力之困,如果那些顛覆辦公室白領的應用,可以很好地跑在谷歌的TPU上,合作規模將有望進一步擴大。OpenAI也曾租用谷歌TPU降低推理計算成本。
谷歌將TPU商品化,它的意義不只是撬動了英偉達的市場。這是一個仍在迅速膨脹的市場,遠未進入存量競爭。在這一階段,市場份額的重分配,實質在于供應鏈議價能力的再分配。
谷歌與英偉達在能源、芯片制造及算力基礎設施層面,存在高度重疊的供應鏈體系,兩者本質上正在競爭同一套全球產能資源。對于谷歌而言,在不斷擴大的總需求中占據更高比例,本質上意味著向上游供應鏈釋放更強的確定性信號。這一信號直接影響其在芯片制造、先進封裝與能源供給等關鍵環節中的議價能力。
在這個意義上,來自供應鏈的產能壓力,也將倒逼TPU成為谷歌一條完整的商業路線。如果TPU僅作為內部系統使用,其增長上限將受制于谷歌自身業務規模;如果以公有云形式開放,其擴張速度將受制于谷歌資本開支節奏;如果以商品化方式向特定高價值客戶輸出,則其規模邊界將顯著擴張。
此前,市場傳言稱,谷歌正在與Marvell商談,有意合作設計另一款推理專業TPU,以及與谷歌TPU協同工作的內存處理單元(MPU)。這將覆蓋更多谷歌及其關鍵客戶所未能覆蓋的“特定應用場景”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.