網易首頁 > 網易號 > 正文申請入駐

TPU 的成功，是否正在宣告“GPU + CUDA 時代”的終結？

2026-01-17 09:44:21　來源: 老虎說芯

廣東舉報

分享至

1) 先把兩種“范式”講清楚（用類比）

GPU + CUDA像“通用瑞士軍刀 + 統一工具箱”：硬件足夠通用，軟件生態（CUDA）極強，適配面廣、迭代快、外部開發者多。
TPU（ASIC）+ 軟件棧（XLA/JAX/Pathways/Runtime）更像“深度定制的工業產線”：從芯片、板卡、互連網絡到編譯器、并行策略一起設計，目標是把某類工作（大規模訓練/推理）做到極致，強調端到端吞吐、能效、可擴展性。TPU 的體系就是典型“芯片+網絡+軟件協同”的思路：XLA 編譯器把計算圖切分到多芯片，JAX/Pathways把單個模型鋪到成千上萬顆 TPU 上跑，并且軟硬件一起優化效率。

目前來看：TPU 的成功證明“垂直整合”確實能打穿 GPU 的優勢區間，但它更像“分層替代”，而不是“一刀切把 GPU 全部替掉”。

2) 為什么說 TPU 的成功“不是偶然”，它擊中了 GPU 的系統瓶頸

對大模型來說，真正決定“交付成本”的往往不是單卡峰值，而是系統級的有效吞吐（goodput）/擴展效率/能耗。TPU v4 的論文直接給了系統級證據：

TPU v4 在相近規模系統下，比 Nvidia A100 快 1.2×–1.7×，且功耗更低（用電少 1.3×–1.9×），并且在 Google Cloud 的能效型數據中心里還體現為更低能耗與更低碳排。
這類“同規模系統、真實工作負載”的對比，比單芯片 spec 更能說明“范式差異”。

更關鍵的是 TPU v4 不是只改芯片，而是把“規模化訓練最痛的地方”——互連和調度——也一起改了：

TPU v4 引入 OCS（光電路交換），其思想是：把拓撲做成可重構，讓網絡能隨任務切換，更像“可插拔配線架”。論文描述 OCS 讓系統在規模、可用性、利用率、功耗、部署等方面顯著受益。
TPU v4 還明確對比了 NVLink/NVSwitch：NVSwitch 的電交換更像“固定結構的交換機級聯”，而 OCS 是“光纖+鏡子”，可以在4096 芯片尺度上做 1:1 的電路級重連，并且帶來更高帶寬潛力與更低功耗/成本壓力。

而在“大模型”訓練里，通信很容易變成主瓶頸（尤其是 all-reduce / all-to-all / all-gather）。Google 的材料里也直說：巨型模型通信開銷顯著，擴展需要一攬子優化，并且要盡可能做計算與通信重疊。

這就是 TPU 的“勝點”：它不是只靠算力，而是靠**“系統工程 + 軟件棧”**把規模化訓練/推理的瓶頸端到端優化掉。

3) 那么：這會不會“系統性替代 GPU + CUDA”？ 3.1 會替代的部分：在超大規模、成本敏感的“云側主戰場”，趨勢更偏長期結構性

原因很直接：當你的規模上升到“上萬/十萬顆加速器”時，決定勝負的是集群級擴展。材料里提到 TPU 的網絡/系統可以連接到10 萬級芯片、~13Pbps 量級的雙向帶寬（Jupiter fabric）。
并且 TPU 還在往“多切片/多集群近線性擴展”方向推進（Multislice 連接多個 slice，把單任務擴展到成千上萬乃至數萬顆 TPU）。

這意味著：對超大云廠商（或極少數具備同等級系統工程能力的玩家），“垂直整合”不是階段性策略，而是一種可持續的成本曲線優勢——尤其在推理規模爆發后，能效和利用率會越來越硬核。

3.2 不會完全替代的部分：在通用市場（多樣化負載/開發者生態）更像階段性與長期并存

GPU + CUDA 的強項仍然是：

通用性：科研、圖形、仿真、視頻、各種不規則算子/新算子快速落地；
生態慣性：大量現成庫、工程經驗、人才供給。

而 TPU 體系的門檻在于：你需要把芯片 + 網絡 + 編譯器/并行策略 + 調度系統整套吃下來，才能吃到主要紅利（這也是“產線式”方案的特征）。這就是為什么“垂直整合”更容易在大廠內部閉環先跑通。

4) 最終判斷：它是“分層替代”，并且在云側是結構性長期趨勢

對超大規模云側訓練/推理主戰場：垂直整合 ASIC + 軟件棧是更偏“結構性長期趨勢”。因為 TPU 展示了在同等規模下“更快+更省電”的系統級優勢，并通過 OCS/集群網絡/軟件棧把擴展做到了 GPU 體系很難用同樣方式解決的尺度。
對更廣泛的通用計算與多樣化 AI 負載：GPU + CUDA 仍將長期共存。GPU 像“通用平臺”，TPU 像“專用產線”。未來更可能是：一線云廠商內部用垂直整合吃下成本曲線，而行業外部仍大量使用 GPU（以及把 TPU 當作云上的一種選擇）。

5) 給半導體工程師的“看趨勢抓手”

如果你要判斷這是不是長期趨勢，不要只盯 TOPS/TFLOPS，建議盯三件事：

集群 goodput（有效吞吐）：能不能把峰值算力“變現”為訓練/推理速度？（大模型通信開銷是硬現實）
網絡/拓撲的可塑性：固定拓撲 vs 可重構拓撲（OCS 這類東西的系統價值會越來越大）
編譯器/并行系統能力：XLA/JAX/Pathways 這種軟件棧是不是能持續把新模型映射到硬件上并保持高效率？

歡迎加入行業交流群，備注崗位+公司，請聯系老虎說芯（加V：tigerchip）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.