1) 先把兩種“范式”講清楚(用類比)
GPU + CUDA像“通用瑞士軍刀 + 統(tǒng)一工具箱”:硬件足夠通用,軟件生態(tài)(CUDA)極強,適配面廣、迭代快、外部開發(fā)者多。
TPU(ASIC)+ 軟件棧(XLA/JAX/Pathways/Runtime)更像“深度定制的工業(yè)產線”:從芯片、板卡、互連網絡到編譯器、并行策略一起設計,目標是把某類工作(大規(guī)模訓練/推理)做到極致,強調端到端吞吐、能效、可擴展性。TPU 的體系就是典型“芯片+網絡+軟件協(xié)同”的思路:XLA 編譯器把計算圖切分到多芯片,JAX/Pathways把單個模型鋪到成千上萬顆 TPU 上跑,并且軟硬件一起優(yōu)化效率。
目前來看:TPU 的成功證明“垂直整合”確實能打穿 GPU 的優(yōu)勢區(qū)間,但它更像“分層替代”,而不是“一刀切把 GPU 全部替掉”。
2) 為什么說 TPU 的成功“不是偶然”,它擊中了 GPU 的系統(tǒng)瓶頸
對大模型來說,真正決定“交付成本”的往往不是單卡峰值,而是系統(tǒng)級的有效吞吐(goodput)/擴展效率/能耗。TPU v4 的論文直接給了系統(tǒng)級證據:
TPU v4 在相近規(guī)模系統(tǒng)下,比 Nvidia A100 快 1.2×–1.7×,且功耗更低(用電少 1.3×–1.9×),并且在 Google Cloud 的能效型數(shù)據中心里還體現(xiàn)為更低能耗與更低碳排。
這類“同規(guī)模系統(tǒng)、真實工作負載”的對比,比單芯片 spec 更能說明“范式差異”。
更關鍵的是 TPU v4 不是只改芯片,而是把“規(guī)模化訓練最痛的地方”——互連和調度——也一起改了:
TPU v4 引入 OCS(光電路交換),其思想是:把拓撲做成可重構,讓網絡能隨任務切換,更像“可插拔配線架”。論文描述 OCS 讓系統(tǒng)在規(guī)模、可用性、利用率、功耗、部署等方面顯著受益。
TPU v4 還明確對比了 NVLink/NVSwitch:NVSwitch 的電交換更像“固定結構的交換機級聯(lián)”,而 OCS 是“光纖+鏡子”,可以在4096 芯片尺度上做 1:1 的電路級重連,并且?guī)砀邘挐摿εc更低功耗/成本壓力。
而在“大模型”訓練里,通信很容易變成主瓶頸(尤其是 all-reduce / all-to-all / all-gather)。Google 的材料里也直說:巨型模型通信開銷顯著,擴展需要一攬子優(yōu)化,并且要盡可能做計算與通信重疊。
這就是 TPU 的“勝點”:它不是只靠算力,而是靠**“系統(tǒng)工程 + 軟件棧”**把規(guī)模化訓練/推理的瓶頸端到端優(yōu)化掉。
3) 那么:這會不會“系統(tǒng)性替代 GPU + CUDA”? 3.1 會替代的部分:在超大規(guī)模、成本敏感的“云側主戰(zhàn)場”,趨勢更偏長期結構性
原因很直接:當你的規(guī)模上升到“上萬/十萬顆加速器”時,決定勝負的是集群級擴展。材料里提到 TPU 的網絡/系統(tǒng)可以連接到10 萬級芯片、~13Pbps 量級的雙向帶寬(Jupiter fabric)。
并且 TPU 還在往“多切片/多集群近線性擴展”方向推進(Multislice 連接多個 slice,把單任務擴展到成千上萬乃至數(shù)萬顆 TPU)。
這意味著:對超大云廠商(或極少數(shù)具備同等級系統(tǒng)工程能力的玩家),“垂直整合”不是階段性策略,而是一種可持續(xù)的成本曲線優(yōu)勢——尤其在推理規(guī)模爆發(fā)后,能效和利用率會越來越硬核。
3.2 不會完全替代的部分:在通用市場(多樣化負載/開發(fā)者生態(tài))更像階段性與長期并存
GPU + CUDA 的強項仍然是:
通用性:科研、圖形、仿真、視頻、各種不規(guī)則算子/新算子快速落地;
生態(tài)慣性:大量現(xiàn)成庫、工程經驗、人才供給。
而 TPU 體系的門檻在于:你需要把芯片 + 網絡 + 編譯器/并行策略 + 調度系統(tǒng)整套吃下來,才能吃到主要紅利(這也是“產線式”方案的特征)。這就是為什么“垂直整合”更容易在大廠內部閉環(huán)先跑通。
4) 最終判斷:它是“分層替代”,并且在云側是結構性長期趨勢
對超大規(guī)模云側訓練/推理主戰(zhàn)場:垂直整合 ASIC + 軟件棧是更偏“結構性長期趨勢”。因為 TPU 展示了在同等規(guī)模下“更快+更省電”的系統(tǒng)級優(yōu)勢,并通過 OCS/集群網絡/軟件棧把擴展做到了 GPU 體系很難用同樣方式解決的尺度。
對更廣泛的通用計算與多樣化 AI 負載:GPU + CUDA 仍將長期共存。GPU 像“通用平臺”,TPU 像“專用產線”。未來更可能是:一線云廠商內部用垂直整合吃下成本曲線,而行業(yè)外部仍大量使用 GPU(以及把 TPU 當作云上的一種選擇)。
如果你要判斷這是不是長期趨勢,不要只盯 TOPS/TFLOPS,建議盯三件事:
集群 goodput(有效吞吐):能不能把峰值算力“變現(xiàn)”為訓練/推理速度?(大模型通信開銷是硬現(xiàn)實)
網絡/拓撲的可塑性:固定拓撲 vs 可重構拓撲(OCS 這類東西的系統(tǒng)價值會越來越大)
編譯器/并行系統(tǒng)能力:XLA/JAX/Pathways 這種軟件棧是不是能持續(xù)把新模型映射到硬件上并保持高效率?
歡迎加入行業(yè)交流群,備注崗位+公司,請聯(lián)系老虎說芯(加V:tigerchip)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.