今天,谷歌在 Cloud Next '26 峰會(huì)上發(fā)布了其第八代 TPU 架構(gòu)(TPU 8t 與 TPU 8i),TPU 8t 主攻訓(xùn)練,TPU 8i 主攻推理,將在 2026 年晚些時(shí)候上市。第八代 TPU 采用申請(qǐng)制,Google Cloud 用戶(hù)如需使用,需要在官網(wǎng)提交登記需求。原生 PyTorch 對(duì)于 TPU 的支持等軟件棧功能,目前也處于 Preview 階段。眼下,谷歌是在小范圍內(nèi)開(kāi)放給特定合作伙伴和早期客戶(hù)進(jìn)行測(cè)試,旨在管理早期算力資源的分配。
TPU 8t 憑借 SparseCore 核心與 Virgo 網(wǎng)絡(luò)拓?fù)洌瑢⒋笠?guī)模預(yù)訓(xùn)練效能推向極致,以 2.7 倍的單位成本算力改寫(xiě)了模型訓(xùn)練版圖。
第八代 TPU 將開(kāi)放給所有谷歌云客戶(hù)使用。TPU 8t 和 TPU 8i 支持主流的 AI 框架比如 PyTorch 和 JAX。開(kāi)發(fā)者不需要學(xué)習(xí)新的編程語(yǔ)言,使用自己熟悉的工具就能直接調(diào)用 TPU 算力。谷歌還提供了開(kāi)源的參考模型代碼,讓用戶(hù)可以快速上手。
![]()
我們可能都遇到過(guò) AI 反應(yīng)很慢的情況,要轉(zhuǎn)好幾圈才給出答案,很多時(shí)候問(wèn)題不在于網(wǎng)速,其實(shí)是處理請(qǐng)求的芯片距離太遠(yuǎn)。我們的聲音數(shù)據(jù)要跑到遠(yuǎn)處的數(shù)據(jù)中心,在那里排隊(duì)、計(jì)算、再傳回來(lái),一來(lái)一回時(shí)間就過(guò)去了,此次第八代 TPU 正是為解決這個(gè)問(wèn)題而來(lái)。
當(dāng)前,AI 訓(xùn)練和 AI 推理對(duì)于芯片的要求越來(lái)越不一樣。訓(xùn)練需要極致的算力,這要求芯片之間能夠高效地協(xié)同工作。推理則需要極低的延遲,這要求芯片能夠快速處理多個(gè)請(qǐng)求,并且還得盡可能地省電。于是,第八代 TPU 分成了 TPU 8t 和 TPU 8i。
TPU 8t:專(zhuān)為大規(guī)模 AI 訓(xùn)練設(shè)計(jì)
TPU 8t 主要負(fù)責(zé)訓(xùn)練,它被設(shè)計(jì)得可以成千上萬(wàn)個(gè)連在一起工作。谷歌用一個(gè)名為 3D Torus 的網(wǎng)絡(luò)把其連接起來(lái),組成了一個(gè)超級(jí)計(jì)算集群。一個(gè)單獨(dú)的超級(jí)計(jì)算單元里就裝了 9600 顆 TPU 8t 芯片,一起共享高達(dá) 2PB 的內(nèi)存,總共能夠提供高達(dá) 121 ExaFlops 的算力。
![]()
TPU 8t 還用到了 SparseCore 這一技術(shù)。現(xiàn)在的很多大模型用的是混合專(zhuān)家技術(shù),每次計(jì)算只激活一小部分參數(shù),混合專(zhuān)家技術(shù)雖然能效高,但是會(huì)產(chǎn)生大量不規(guī)則的內(nèi)存訪問(wèn),這讓普通芯片招架不來(lái)。
而谷歌此次使用的 SparseCore 技術(shù)專(zhuān)門(mén)負(fù)責(zé)處理這種任務(wù),比如它可以讓負(fù)責(zé)核心數(shù)學(xué)運(yùn)算的矩陣乘法單元專(zhuān)心做自己擅長(zhǎng)的事情,通過(guò)這樣互相配合的方式,芯片就不會(huì)閑置,始終保持滿負(fù)荷運(yùn)轉(zhuǎn)的狀態(tài)。
TPU 8t 還改進(jìn)了數(shù)據(jù)傳輸方式,用上了谷歌自研的 Virgo 網(wǎng)絡(luò),把芯片之間的通信帶寬翻了一倍,把連接到外部數(shù)據(jù)中心的帶寬提升了四倍。TPU 的 Direct Storage 技術(shù)允許芯片直接從高速存儲(chǔ)里讀取數(shù)據(jù),從而能夠繞開(kāi) CPU 這個(gè)“中間人”。
這樣一來(lái),喂給芯片的數(shù)據(jù)流就不會(huì)斷,訓(xùn)練速度能提升十倍。在能耗上,TPU 8t 相比上一代的每瓦性能提升了兩倍。訓(xùn)練超大模型時(shí),它的性?xún)r(jià)比提升了 2.7 倍。對(duì)于需要訓(xùn)練幾百甚至上千億參數(shù)模型的團(tuán)隊(duì)來(lái)說(shuō),這意味著能夠節(jié)約大量的時(shí)間和電費(fèi)。
![]()
![]()
TPU 8i 的另一項(xiàng)關(guān)鍵創(chuàng)新是集體通信加速引擎。當(dāng)大模型進(jìn)行推理的時(shí)候,尤其是在處理混合專(zhuān)家模型時(shí),芯片之間需要頻繁地同步數(shù)據(jù)和匯總結(jié)果,這個(gè)過(guò)程叫做集體通信。要是做得不好,芯片的大部分時(shí)間都在干等。
TPU 8i 的 CAE 專(zhuān)門(mén)負(fù)責(zé)加速這個(gè)環(huán)節(jié),把延遲降低了五倍。它還把芯片之間的互聯(lián)帶寬翻了一番,達(dá)到了 19.2 Tb/s。
谷歌還為 TPU 8i 設(shè)計(jì)了一種名為 Boardfly 的全新網(wǎng)絡(luò)連接方式。傳統(tǒng)的 3D Torus 網(wǎng)絡(luò)在連接大量芯片時(shí),數(shù)據(jù)包在芯片之間傳輸時(shí)需要經(jīng)過(guò)很多跳。Boardfly 通過(guò)借鑒 Dragonfly 拓?fù)涞乃枷耄迷黾娱L(zhǎng)距離直連鏈路的方式,把由 1024 顆芯片組成的系統(tǒng)里的最遠(yuǎn)的兩個(gè)芯片之間的通信距離從 16 跳減少至 7 跳,降低了 56%,讓任何兩顆芯片之間都能更快地交換信息,助力更好地處理復(fù)雜的推理任務(wù)。
這些改進(jìn)讓 TPU 8i 在推理任務(wù)上的性?xún)r(jià)比比上一代提升了 80%。對(duì)于一家企業(yè)用戶(hù)來(lái)說(shuō),將能用同樣的成本服務(wù)將近兩倍的客戶(hù)。谷歌還為 TPU 8i 搭配了自研的 Axion ARM 架構(gòu) CPU,并做了針對(duì)性?xún)?yōu)化,讓系統(tǒng)運(yùn)行得更順暢。
![]()
眾所周知,谷歌這套 TPU 體系已經(jīng)運(yùn)行了很多年,谷歌的 Gemini 正是跑在 TPU 之上。如前所述,他們這次將第八代 TPU 開(kāi)放給了所有云客戶(hù),旨在為全球開(kāi)發(fā)者構(gòu)建一座通往更高 AI 想象力的算力基石。總的來(lái)說(shuō),在智能體時(shí)代這種芯片設(shè)計(jì)上的精細(xì)化分工,將有利于打造一個(gè)隨叫隨到、反應(yīng)靈敏的 AI 應(yīng)用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.