網易首頁 > 網易號 > 正文申請入駐

谷歌TPU 8t/8i，負載分化與黃仁勛“對著干”

2026-04-24 00:02:51　來源: 未盡研究

上海舉報

分享至

黃仁勛剛剛強調英偉達GPU的核心優勢在于“通用性”，谷歌就一口氣連發兩款第八代TPU，明確將其拆分為訓練與推理兩條路徑。這是谷歌十余年來TPU演進中最重要的一次架構分化。

其中，TPU 8t（Sunfish）更擅長處理大規模、計算密集型的訓練任務，在設計上優先提升計算吞吐能力和跨芯片擴展帶寬，以支撐超大模型的訓練需求；基于TPU 8t的訓練超節點（SuperPod），強調利用率與穩定性。它由博通合作設計。

TPU 8i（Zebrafish）則針對推理場景，尤其是大規模智能體（agent）交互場景，重點強化內存帶寬，以應對對延遲極為敏感的推理負載；基于TPU 8i的推理超節點，正強調其低延遲。它由聯發科合作設計。

相比第七代的Ironwood，TPU 8t的訓練性價比提升最高2.7倍，TPU 8i的推理性價比提升最高80%。兩顆芯片的能效都提升了2倍。

這標志著，大模型訓練與推理在算力基礎設施層面，已經進入必須“分工優化”的階段。在過去很長一段時間內，與英偉達GPU相似，每一代谷歌TPU，都兼顧著訓練和推理的工作負載。但隨著模型規模與應用場景分化，這種統一設計正在失去效率優勢。

直至去年，谷歌Gemini 3發布，宣告首個非英偉達生態的前沿模型誕生，也仍然是“通用TPU”的功勞。也許，Gemini 4的訓練，將不得不啟用TPU 8t的集群。這兩款芯片預計將于今年晚些時候正式推出。

TPU 8t

盡管OpenAI與Anthropic都對前沿模型的預訓練數據集大小，以及總參數規模守口如瓶。但擴展定律（Scaling Law）仍在持續驅動模型訓練需求增長。馬斯克最近就曾預告，即將到來的Grok 4.4與4.5，參數規模分別高達1T與1.5T，在xAI的集群里，還有高達6T的模型正在訓練中。

在這一背景下，訓練大模型仍然是算力密集的，依賴大規模矩陣計算、穩定的通信拓撲與高利用率調度能力。

由TPU 8t構建的單個超節點，規模上限約為9600顆TPU，與上一代基本持平，但單芯片計算能力提升近3倍。同時，超節點內共享的高帶寬內存提升至約2PB，接近翻倍，進一步緩解數據供給瓶頸。

更重要的變化在于可用的數據精度。谷歌首次在訓練中原生采用FP4，與英偉達NVFP4策略基本同步。低精度計算顯著降低數據搬運成本，使更多參數駐留片上緩存，從而提升計算單元利用率并逼近理論峰值性能。在不顯著損失精度的前提下，降低數值精度以擴大模型規模，已成為行業共同攻關方向。一旦突破，意味著同等硬件可獲得約2倍以上有效算力利用率。

網絡已經從通用基礎設施，變成計算系統的一部分，必須和芯片一起設計。新一代Virgo網絡可以同時連接13.4萬顆TPU 8t，甚至在單一訓練集群中，接近線性地擴展（near-linear scaling）到超過“百萬級”TPU芯片規模，而不顯著損失效率。

此外，谷歌TPU的關鍵秘密之一在于脈動陣列（systolic array）。它本質上是一種高度專用化的算術單元，只執行乘加運算，而不需要在復雜指令之間進行調度選擇。由于數據以固定路徑流動，系統得以顯著減少指令緩存與數據緩存開銷，在犧牲一定通用性的前提下，實現更高的能效與計算利用率。然而，這一架構一旦遇到隨機訪問或稀疏計算，數據流就會被打斷，導致計算單元利用率下降，甚至出現“空轉”瓶頸。

于是，在 TPU 8t 中，谷歌強化了SparseCore，將這類稀疏且不規則的內存訪問，從主計算路徑中卸載出去，從而在保持計算密度的同時，避免因數據訪問不均衡導致的整體性能損耗。

TPU 8i

推理正在進入Agentic時代。在這個時代，計算不再由單顆芯片定義，計算就是整個數據中心。在這一體系中，TPU 8i承擔底層算力基礎設施角色。在這之上，運行著“可信上下文”（trusted context）的Agentic數據云、保護運行環境安全的Agentic防御系統、任務控制中心的Agentic平臺與模型，以及具體的Agentic工作流與任務。

到處都是交互的智能體。這意味著更高頻次的數據調度、任務編排、工具調用和系統交互，對整個算力基礎設施的時延，提出了越來越高的要求。于是，SRAM與CPU在這個時代復興了。

由TPU 8i構建的單個超節點，大幅縱向擴展，上限為1152顆TPU，接近上一代的5倍。超節點采用了最新的Boardfly架構，把網絡直徑砍掉一半左右，時延也因此大幅改善。TPU 8i還專門加了CAE（集合加速引擎），專門做集合通信的加速和同步。

它最顯著的進化在于，在繼續提升HBM的基礎上，疊加了384MB的片上SRAM，較上一代提升約3倍。推理的token經濟學，正在不可避免地向著低延時的方向擴展，思路之一就是重新設計內存層次結構，搭載更大容量的SRAM。這能夠讓更大規模的KV緩存，直接存在速度更快的SRAM上，而不用在不用頻繁訪問HBM。

2026/03/18 完整閱讀 >

谷歌的TPU 8i，在這方面要遠超微軟Maia 200（272MB）與亞馬遜Trainium 3（256 MB）。不過，它仍然弱于英偉達LPU 3更激進的500MB的規格。

與第八代TPU配對的CPU，也首次轉向了谷歌自研的Axion。尤其是在推理超節點，而且，每臺服務器內的CPU數量倍增，以應對數據調度、任務編排、工具調用和系統交互等智能體工作負荷。這是行業趨勢。

2026/03/26 完整閱讀 >

在某些英偉達Rubin Ultra配置中，GPU與CPU的部署比例，已超過1個GPU對2個CPU的比例；而在Hopper世代，通常12個GPU才配1個CPU。一旦Axion與TPU的協同成熟，谷歌就可以AI任務的實際負載需求，定制兩者之間的配比。

開放，與供應鏈壓力

這個月，黃仁勛在討論英偉達GPU與谷歌TPU的競爭關系時，再次強調GPU的核心優勢在于“通用性”。在他看來，現實世界中的應用場景高度多樣化，存在大量TPU難以覆蓋的工作負載，而英偉達的優勢在于“支持世界上所有類型的應用”。

這次，將TPU拆分為訓練與推理專用，谷歌相當于直接與黃仁勛“對著干”了。但是，谷歌最懂自家特定工作負載，也懂得如何讓Gemini與TPU更好地協同優化，為旗下產品與服務提供更低總擁有成本（TCO）的算力。在官方博客上，谷歌強調第八代TPU架構，是與谷歌DeepMind團隊共同設計的。

谷歌一直都很清楚自研芯片之于模型的重要性。早在2015年底，谷歌將AlphaGO搬上全新的TPU時，發現它對陣配備GPU的AlphaGO，以8比2大勝，連棋風都變了。2023年底，谷歌發布Gemini，同步發布了TPUv5p，此時已經可以建立起幾萬張卡的推理集群，但訓練主還是依靠英偉達Hopper系列。而到了2025年，谷歌發布的Ironwood，足以與前一年的B200相媲美，并訓練出了當時最強大模型Gemini 3，實現了王者歸來。

2025/12/1 完整閱讀 >

在這一過程中，谷歌TPU犧牲掉的通用性，可以通過其他方式找回來。它可以通過抓住那些最有實力的大玩家，從而在事實上最大程度地支持“這個世界上大多數類型的應用”。現在，谷歌已經把全球最重要的消費級AI與企業級AI客戶，都抓在自己手里了。黃仁勛也知道，當一款前沿模型基于其他算力生態而構建時，對英偉達的傷害會有多大。

社交媒體巨頭Meta，已與谷歌達成協議，將在未來數年租用谷歌TPU，并明確其用途在于大模型訓練，該協議價值“數十億美元”。這一合作意味著英偉達GPU在訓練市場長期以來的事實性壟斷地位開始松動。仍被寄望于造出下一代AI硬件的蘋果，不僅選擇了谷歌的Gemini，很多基礎研究都是基于TPU展開的；谷歌的TPU，將是蘋果10億高價值用戶使用Siri的完美推理引擎。

最近風頭正猛的Anthropic，也將成為這兩款芯片的首批客戶之一。它與谷歌的合作，已擴大至3.5GW的算力規模。Anthropic深陷算力之困，如果那些顛覆辦公室白領的應用，可以很好地跑在谷歌的TPU上，合作規模將有望進一步擴大。OpenAI也曾租用谷歌TPU降低推理計算成本。

谷歌將TPU商品化，它的意義不只是撬動了英偉達的市場。這是一個仍在迅速膨脹的市場，遠未進入存量競爭。在這一階段，市場份額的重分配，實質在于供應鏈議價能力的再分配。

谷歌與英偉達在能源、芯片制造及算力基礎設施層面，存在高度重疊的供應鏈體系，兩者本質上正在競爭同一套全球產能資源。對于谷歌而言，在不斷擴大的總需求中占據更高比例，本質上意味著向上游供應鏈釋放更強的確定性信號。這一信號直接影響其在芯片制造、先進封裝與能源供給等關鍵環節中的議價能力。

在這個意義上，來自供應鏈的產能壓力，也將倒逼TPU成為谷歌一條完整的商業路線。如果TPU僅作為內部系統使用，其增長上限將受制于谷歌自身業務規模；如果以公有云形式開放，其擴張速度將受制于谷歌資本開支節奏；如果以商品化方式向特定高價值客戶輸出，則其規模邊界將顯著擴張。

此前，市場傳言稱，谷歌正在與Marvell商談，有意合作設計另一款推理專業TPU，以及與谷歌TPU協同工作的內存處理單元（MPU）。這將覆蓋更多谷歌及其關鍵客戶所未能覆蓋的“特定應用場景”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.