![]()
![]()
“不煉大模型了,搞Agent代理才是大生意。”
作者丨高允毅
編輯丨林覺民
在拉斯維加斯Google Cloud Next大會,谷歌高級副總裁Amin Vahdat掏出的不是一枚芯片,而是兩枚:TPU 8t與TPU 8i。 這是谷歌TPU家族史上第一次明確“分家”:一枚專攻訓練,一枚專注推理。
“隨著AI智能體的興起,我們認為社區將受益于分別針對訓練和服務需求進行優化的芯片。”Amin Vahdat在官方博客中寫道。
![]()
谷歌率先釋放了一個明確信號,過去那個只要抱緊英偉達大腿、靠“萬能芯片”的草莽時代翻篇,正式進入了像流水線車間一樣“精細化分工”的時代。
而這場“分家”的核心焦點,正是那枚為“奔跑”而生的TPU 8i,以及它背后那個即將噴涌的“Agentic AI”時代。
01
TPU為什么要分家
為什么谷歌非要把芯片一分為二?答案很簡單:效率。
訓練和推理看似都是AI算力的活兒,本質上完全不同。訓練像學霸埋頭啃完整個人類圖書館,追求的是“大力出奇跡”,核心是把模型能力“錘煉”出來;推理則像學霸畢業后去大廠當客服,重點不再是誰懂得最多,而是誰回得夠快、成本夠低、性價比夠高。
過去,業界默認一顆芯片兼顧訓練和推理,是因為那時AI還處在算力早期:模型沒那么大,場景沒那么多,統一架構至少可以攤薄研發成本。但到了Agentic AI時代,這套邏輯開始失效。訓練和推理的訴求,已經變得幾乎不可調和的地步。
過去兩年,硅谷的風向已經從“大模型狂熱”轉向“智能體熱”。AI不再只是一個陪你聊天的對話框,而是一個會接任務、會調工具、會連續干活的“數字員工”。而Agent帶來的推理事務量,往往是普通聊天機器人的20到50倍,遠超行業現狀。
企業的成本焦慮,迅速從“訓練太貴”,轉向“推理更貴”。
算筆經濟賬。訓練芯片為了追求“大力出奇跡”,必須配備極其昂貴的HBM。HBM的成本約占整塊芯片成本的40%-50%,且十分稀缺。 拿這種高成本的訓練芯片,去跑Agent每天幾十萬次的高頻推理請求,相當于用洲際導彈送外賣。企業的運營成本會迅速攀升,商業化落地也就無從談起。
“關鍵在于如何以最低的每筆交易成本實現最低的響應延遲。交易量正在大幅攀升,而每筆交易的成本必須大幅下降,才能實現規模化。”谷歌云人工智能與計算基礎架構副總裁Mark Lohmeyer如此說道。
所以,谷歌這次徹底把業務剝離了。
![]()
先看算力怪獸TPU 8t。
單個超級模塊可以集成9600顆芯片,提供121 exaflops算力和2PB共享內存,計算性能較前代提升近3倍;新的Virgo橫向擴展架構,則讓單個集群可以調度超過100萬顆TPU芯片,能把前沿大模型的訓練周期,從“數月”壓縮到“數周”。
![]()
在電力成為數據中心核心瓶頸的今天,它能在同等價格下性能提升2.8倍,每瓦性能提升124%,本身就是大模型訓練的硬通貨。
再看省錢專家TPU8i。
首先,谷歌給芯片換了個完全不同的“大腦”結構,精準解決了 Agent 時代高頻交互的痛點。
它先給芯片的“短期記憶”來了個史詩級加強,讓片上 SRAM 直接擴容 3 倍。這讓芯片隨手就能抓到關鍵數據,不用每走一步都去“翻內存字典”,極大減少了數據在搬運途中的損耗。 這 3 倍的 SRAM 空間,配合上 288GB 的“怪獸級”HBM 內存,從根源上解決了 AI 思考時的“腦卡頓”,讓 TPU 8i 成了專為復雜任務而生的“推理暴君”。
更硬核的是省電。在算力中心,電力的盡頭就是物理極限。TPU 8i 的能效比直接較上一代提升117%。這意味著谷歌云可以用同樣的一張電費賬單,支撐起近乎兩倍的推理服務。
可以說,TPU8i為谷歌拿下 Agent 時代的 “商業化入場券”。
據Gartner預測,到2026年底,40%的企業應用將嵌入特定任務的AI Agent 。而在麥肯錫的算盤里,到2030年,由Agentic AI帶來的商業機會高達3萬億至5萬億美元。
技術再牛,模型再聰明,如果跑一次推理的成本高到客戶掏不起錢,那就是一場空中樓閣。谷歌把芯片一分為二,就是在向整個行業宣告:AI的下半場,誰能把“勞務費”打下來,誰才能笑到最后。
02
Meta、Anthropic站臺,新的算力聯盟浮現?
谷歌關于“算力分工”的預判,正在被市場用真金白銀證實。Meta和Anthropic這兩家AI巨頭率先“入伙”,成了TPU v8的首批“吃螃蟹者”。
![]()
先看Anthropic,這家當下最炙手可熱的AI獨角獸。掌門人Dario Amodei雖然沒到現場,但特意錄了視頻站臺,確認其下一代模型的早期開發,已經在谷歌TPU 8t集群上跑了數月。而且Anthropic更是與谷歌強綁定,計劃在2027年前繼續向AWS和谷歌云簽下的是數吉瓦級TPU算力協議,提前鎖定支撐客戶需求爆發所必需的算力資源。
在Agentic AI時代,芯片與軟件的邊界正在消融。谷歌與Anthropic的關系,早已超越了單純的貨架買賣,進化為一種深度共生的“軟件—硅反饋循環”。雙方的共同研發,讓TPU的光學互聯元件與MoE架構實現了底層原生的基因咬合。這種深度的“軟硬一體”調優,直接擊穿了單次推理的Token成本。對Anthropic而言,這轉化成了Claude在商業戰場上的成本定價權;對谷歌而言,Anthropic則是最頂級的“實戰壓力測試場”,支撐它在不交“英偉達稅”的道路上,擁有了一個全球領先的盟友和陪練。
幾乎同時,Meta也被曝已與谷歌簽署價值數十億美元、為期多年的TPU使用協議。這筆交易直接導致消息披露當天,英偉達股價應聲下跌4%。
這是否意味著一個“反英偉達”的新聯盟已經形成?
這其實更像是一次“務實的結盟”,而非“桃園結義”。對于Anthropic和Meta這樣的算力“吞金獸”而言,當前最害怕的兩件事是:拿不到足夠的算力,或者算力成本壓垮商業模式。
英偉達GPU雖是行業黃金標準,但其價格、供貨周期和潛在的供應鏈風險,迫使頂級客戶必須尋找“第二選擇”以分散風險、增強議價能力。 谷歌TPU,就是這個“Plan B”。
Anthropic就明確表示,其采用多平臺策略,同時在AWS Trainium、Google TPU和NVIDIA GPU上運行Claude。
對谷歌而言,這絕非簡單的“賣芯片”生意。TPU不單獨出售,只通過Google Cloud提供服務。客戶使用TPU,往往會自然而然地進入谷歌的全棧AI云生態:從數據處理、模型訓練到推理部署,乃至與Workspace等應用集成。 谷歌爭奪的,是AI時代的云入口和定價權。當一家大模型公司將其核心訓練和推理負載遷至谷歌云,它購買的不僅是算力時間,更是將未來業務的一部分根基,埋在了谷歌的土壤里。
摩根士丹利分析師 Brian Nowak 指出,谷歌TPU的年產量預計在 2027 年達到 500 萬顆,到 2028 年將進一步增長至 700 萬顆。估算每對外銷售 50 萬顆 TPU,就可能為谷歌帶來約 130 億美元的新增收入。
這是屬于谷歌的機會。
03
老黃危機?英偉達“泥潭式”護城河
那么最尖銳的問題來了:谷歌兩枚芯片齊發,黃仁勛是不是該慌了?
至少現在,還遠沒到可以做空英偉達的時候。
知名分析師Patrick Moorhead在X上調侃過一段辛酸往事,2016年谷歌發布第一代TPU時,他就曾大放厥詞說英偉達要完蛋。結果呢?今天英偉達市值接近5萬億美元。
谷歌和英偉達的關系,不是一刀切的“敵我陣營”。
就在推出 TPU 8i 的同時,谷歌云也明確表示,這款芯片對英偉達是“補充”,不是“替代”。谷歌一邊發布自研 TPU,一邊繼續引入英偉達最新的 Vera Rubin 實例,并推進網絡軟件層面的合作。合作姿態十足。
為什么谷歌干不掉老黃?因為英偉達的壁壘,早就不只是芯片本身了。
首先是英偉達護城河CUDA。
全世界成千上萬的AI開發者,從上學第一天起敲的就是CUDA代碼。英偉達不是只賣芯片,它賣的是一個完整的系統。這種“認知慣性”形成的遷移成本高到令人吐血,企業寧愿支付“英偉達稅”。
其次是英偉達近乎不給對手喘息空間的迭代速度。
英偉達的恐怖之處在于其超越摩爾定律的迭代速度,也就是黃仁勛推崇的 “One-Year Rhythm”(一年一迭代) 節奏。
正如英偉達首席科學家 Bill Dally 所言,英偉達通過垂直整合,在過去 10 年實現了系統性能 1000 倍的飛躍。當谷歌的 TPU 8i 試圖通過優化 SRAM 解決推理瓶頸時,英偉達的 Rubin GPU 已經帶上了 HBM4 和高達 50 PFlops 的推理算力。
而且,英偉達賣的從來不是芯片,而是在賣整套 AI 基礎設施。
英偉達通過收購 Mellanox 并深度集成 BlueField DPU,構建了一個封閉且高效的數據傳輸生態。如果你不用英偉達的 GPU,你就很難發揮其網絡的極致性能;如果你用了它的網絡,你就必須忍受它的溢價。
谷歌很聰明,它知道用TPU全面取代GPU是癡人說夢。所以TPU 8i打的是“差異化偷家”。
只要你是個精打細算的企業,只要你的AI Agent一秒鐘要打一萬個API調用,當你看完CUDA開發版上的天文賬單后,你一定會默默點開Google Cloud的報價單,嘗試把推理業務切給這枚又省電、又便宜的TPU 8i。
在“煉大模型”的正面戰場,老黃依然是唯一的王;但在“跑 Agent”的精細化戰場,谷歌要靠 TPU 8i 割走英偉達的一塊肉。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.