1) 先把兩種“范式”講清楚(用類比)
GPU + CUDA像“通用瑞士軍刀 + 統一工具箱”:硬件足夠通用,軟件生態(CUDA)極強,適配面廣、迭代快、外部開發者多。
TPU(ASIC)+ 軟件棧(XLA/JAX/Pathways/Runtime)更像“深度定制的工業產線”:從芯片、板卡、互連網絡到編譯器、并行策略一起設計,目標是把某類工作(大規模訓練/推理)做到極致,強調端到端吞吐、能效、可擴展性。TPU 的體系就是典型“芯片+網絡+軟件協同”的思路:XLA 編譯器把計算圖切分到多芯片,JAX/Pathways把單個模型鋪到成千上萬顆 TPU 上跑,并且軟硬件一起優化效率。
目前來看:TPU 的成功證明“垂直整合”確實能打穿 GPU 的優勢區間,但它更像“分層替代”,而不是“一刀切把 GPU 全部替掉”。
2) 為什么說 TPU 的成功“不是偶然”,它擊中了 GPU 的系統瓶頸
對大模型來說,真正決定“交付成本”的往往不是單卡峰值,而是系統級的有效吞吐(goodput)/擴展效率/能耗。TPU v4 的論文直接給了系統級證據:
TPU v4 在相近規模系統下,比 Nvidia A100 快 1.2×–1.7×,且功耗更低(用電少 1.3×–1.9×),并且在 Google Cloud 的能效型數據中心里還體現為更低能耗與更低碳排。
這類“同規模系統、真實工作負載”的對比,比單芯片 spec 更能說明“范式差異”。
更關鍵的是 TPU v4 不是只改芯片,而是把“規模化訓練最痛的地方”——互連和調度——也一起改了:
TPU v4 引入 OCS(光電路交換),其思想是:把拓撲做成可重構,讓網絡能隨任務切換,更像“可插拔配線架”。論文描述 OCS 讓系統在規模、可用性、利用率、功耗、部署等方面顯著受益。
TPU v4 還明確對比了 NVLink/NVSwitch:NVSwitch 的電交換更像“固定結構的交換機級聯”,而 OCS 是“光纖+鏡子”,可以在4096 芯片尺度上做 1:1 的電路級重連,并且帶來更高帶寬潛力與更低功耗/成本壓力。
而在“大模型”訓練里,通信很容易變成主瓶頸(尤其是 all-reduce / all-to-all / all-gather)。Google 的材料里也直說:巨型模型通信開銷顯著,擴展需要一攬子優化,并且要盡可能做計算與通信重疊。
這就是 TPU 的“勝點”:它不是只靠算力,而是靠**“系統工程 + 軟件棧”**把規模化訓練/推理的瓶頸端到端優化掉。
3) 那么:這會不會“系統性替代 GPU + CUDA”? 3.1 會替代的部分:在超大規模、成本敏感的“云側主戰場”,趨勢更偏長期結構性
原因很直接:當你的規模上升到“上萬/十萬顆加速器”時,決定勝負的是集群級擴展。材料里提到 TPU 的網絡/系統可以連接到10 萬級芯片、~13Pbps 量級的雙向帶寬(Jupiter fabric)。
并且 TPU 還在往“多切片/多集群近線性擴展”方向推進(Multislice 連接多個 slice,把單任務擴展到成千上萬乃至數萬顆 TPU)。
這意味著:對超大云廠商(或極少數具備同等級系統工程能力的玩家),“垂直整合”不是階段性策略,而是一種可持續的成本曲線優勢——尤其在推理規模爆發后,能效和利用率會越來越硬核。
3.2 不會完全替代的部分:在通用市場(多樣化負載/開發者生態)更像階段性與長期并存
GPU + CUDA 的強項仍然是:
通用性:科研、圖形、仿真、視頻、各種不規則算子/新算子快速落地;
生態慣性:大量現成庫、工程經驗、人才供給。
而 TPU 體系的門檻在于:你需要把芯片 + 網絡 + 編譯器/并行策略 + 調度系統整套吃下來,才能吃到主要紅利(這也是“產線式”方案的特征)。這就是為什么“垂直整合”更容易在大廠內部閉環先跑通。
4) 最終判斷:它是“分層替代”,并且在云側是結構性長期趨勢
對超大規模云側訓練/推理主戰場:垂直整合 ASIC + 軟件棧是更偏“結構性長期趨勢”。因為 TPU 展示了在同等規模下“更快+更省電”的系統級優勢,并通過 OCS/集群網絡/軟件棧把擴展做到了 GPU 體系很難用同樣方式解決的尺度。
對更廣泛的通用計算與多樣化 AI 負載:GPU + CUDA 仍將長期共存。GPU 像“通用平臺”,TPU 像“專用產線”。未來更可能是:一線云廠商內部用垂直整合吃下成本曲線,而行業外部仍大量使用 GPU(以及把 TPU 當作云上的一種選擇)。
如果你要判斷這是不是長期趨勢,不要只盯 TOPS/TFLOPS,建議盯三件事:
集群 goodput(有效吞吐):能不能把峰值算力“變現”為訓練/推理速度?(大模型通信開銷是硬現實)
網絡/拓撲的可塑性:固定拓撲 vs 可重構拓撲(OCS 這類東西的系統價值會越來越大)
編譯器/并行系統能力:XLA/JAX/Pathways 這種軟件棧是不是能持續把新模型映射到硬件上并保持高效率?
歡迎加入行業交流群,備注崗位+公司,請聯系老虎說芯(加V:tigerchip)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.