網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

TPU，8i通信距離減56%，帶寬翻倍延遲降5倍

2026-04-27 00:57:10　來(lái)源: 關(guān)系新篇章

四川舉報(bào)

分享至

今天，谷歌在 Cloud Next '26 峰會(huì)上發(fā)布了其第八代 TPU 架構(gòu)（TPU 8t 與 TPU 8i），TPU 8t 主攻訓(xùn)練，TPU 8i 主攻推理，將在 2026 年晚些時(shí)候上市。第八代 TPU 采用申請(qǐng)制，Google Cloud 用戶(hù)如需使用，需要在官網(wǎng)提交登記需求。原生 PyTorch 對(duì)于 TPU 的支持等軟件棧功能，目前也處于 Preview 階段。眼下，谷歌是在小范圍內(nèi)開(kāi)放給特定合作伙伴和早期客戶(hù)進(jìn)行測(cè)試，旨在管理早期算力資源的分配。

TPU 8t 憑借 SparseCore 核心與 Virgo 網(wǎng)絡(luò)拓?fù)洌瑢⒋笠?guī)模預(yù)訓(xùn)練效能推向極致，以 2.7 倍的單位成本算力改寫(xiě)了模型訓(xùn)練版圖。

第八代 TPU 將開(kāi)放給所有谷歌云客戶(hù)使用。TPU 8t 和 TPU 8i 支持主流的 AI 框架比如 PyTorch 和 JAX。開(kāi)發(fā)者不需要學(xué)習(xí)新的編程語(yǔ)言，使用自己熟悉的工具就能直接調(diào)用 TPU 算力。谷歌還提供了開(kāi)源的參考模型代碼，讓用戶(hù)可以快速上手。

我們可能都遇到過(guò) AI 反應(yīng)很慢的情況，要轉(zhuǎn)好幾圈才給出答案，很多時(shí)候問(wèn)題不在于網(wǎng)速，其實(shí)是處理請(qǐng)求的芯片距離太遠(yuǎn)。我們的聲音數(shù)據(jù)要跑到遠(yuǎn)處的數(shù)據(jù)中心，在那里排隊(duì)、計(jì)算、再傳回來(lái)，一來(lái)一回時(shí)間就過(guò)去了，此次第八代 TPU 正是為解決這個(gè)問(wèn)題而來(lái)。

當(dāng)前，AI 訓(xùn)練和 AI 推理對(duì)于芯片的要求越來(lái)越不一樣。訓(xùn)練需要極致的算力，這要求芯片之間能夠高效地協(xié)同工作。推理則需要極低的延遲，這要求芯片能夠快速處理多個(gè)請(qǐng)求，并且還得盡可能地省電。于是，第八代 TPU 分成了 TPU 8t 和 TPU 8i。

TPU 8t：專(zhuān)為大規(guī)模 AI 訓(xùn)練設(shè)計(jì)

TPU 8t 主要負(fù)責(zé)訓(xùn)練，它被設(shè)計(jì)得可以成千上萬(wàn)個(gè)連在一起工作。谷歌用一個(gè)名為 3D Torus 的網(wǎng)絡(luò)把其連接起來(lái)，組成了一個(gè)超級(jí)計(jì)算集群。一個(gè)單獨(dú)的超級(jí)計(jì)算單元里就裝了 9600 顆 TPU 8t 芯片，一起共享高達(dá) 2PB 的內(nèi)存，總共能夠提供高達(dá) 121 ExaFlops 的算力。

TPU 8t 還用到了 SparseCore 這一技術(shù)。現(xiàn)在的很多大模型用的是混合專(zhuān)家技術(shù)，每次計(jì)算只激活一小部分參數(shù)，混合專(zhuān)家技術(shù)雖然能效高，但是會(huì)產(chǎn)生大量不規(guī)則的內(nèi)存訪問(wèn)，這讓普通芯片招架不來(lái)。

而谷歌此次使用的 SparseCore 技術(shù)專(zhuān)門(mén)負(fù)責(zé)處理這種任務(wù)，比如它可以讓負(fù)責(zé)核心數(shù)學(xué)運(yùn)算的矩陣乘法單元專(zhuān)心做自己擅長(zhǎng)的事情，通過(guò)這樣互相配合的方式，芯片就不會(huì)閑置，始終保持滿負(fù)荷運(yùn)轉(zhuǎn)的狀態(tài)。

TPU 8t 還改進(jìn)了數(shù)據(jù)傳輸方式，用上了谷歌自研的 Virgo 網(wǎng)絡(luò)，把芯片之間的通信帶寬翻了一倍，把連接到外部數(shù)據(jù)中心的帶寬提升了四倍。TPU 的 Direct Storage 技術(shù)允許芯片直接從高速存儲(chǔ)里讀取數(shù)據(jù)，從而能夠繞開(kāi) CPU 這個(gè)“中間人”。

這樣一來(lái)，喂給芯片的數(shù)據(jù)流就不會(huì)斷，訓(xùn)練速度能提升十倍。在能耗上，TPU 8t 相比上一代的每瓦性能提升了兩倍。訓(xùn)練超大模型時(shí)，它的性?xún)r(jià)比提升了 2.7 倍。對(duì)于需要訓(xùn)練幾百甚至上千億參數(shù)模型的團(tuán)隊(duì)來(lái)說(shuō)，這意味著能夠節(jié)約大量的時(shí)間和電費(fèi)。

TPU 8i 的另一項(xiàng)關(guān)鍵創(chuàng)新是集體通信加速引擎。當(dāng)大模型進(jìn)行推理的時(shí)候，尤其是在處理混合專(zhuān)家模型時(shí)，芯片之間需要頻繁地同步數(shù)據(jù)和匯總結(jié)果，這個(gè)過(guò)程叫做集體通信。要是做得不好，芯片的大部分時(shí)間都在干等。

TPU 8i 的 CAE 專(zhuān)門(mén)負(fù)責(zé)加速這個(gè)環(huán)節(jié)，把延遲降低了五倍。它還把芯片之間的互聯(lián)帶寬翻了一番，達(dá)到了 19.2 Tb/s。

谷歌還為 TPU 8i 設(shè)計(jì)了一種名為 Boardfly 的全新網(wǎng)絡(luò)連接方式。傳統(tǒng)的 3D Torus 網(wǎng)絡(luò)在連接大量芯片時(shí)，數(shù)據(jù)包在芯片之間傳輸時(shí)需要經(jīng)過(guò)很多跳。Boardfly 通過(guò)借鑒 Dragonfly 拓?fù)涞乃枷耄迷黾娱L(zhǎng)距離直連鏈路的方式，把由 1024 顆芯片組成的系統(tǒng)里的最遠(yuǎn)的兩個(gè)芯片之間的通信距離從 16 跳減少至 7 跳，降低了 56%，讓任何兩顆芯片之間都能更快地交換信息，助力更好地處理復(fù)雜的推理任務(wù)。

這些改進(jìn)讓 TPU 8i 在推理任務(wù)上的性?xún)r(jià)比比上一代提升了 80%。對(duì)于一家企業(yè)用戶(hù)來(lái)說(shuō)，將能用同樣的成本服務(wù)將近兩倍的客戶(hù)。谷歌還為 TPU 8i 搭配了自研的 Axion ARM 架構(gòu) CPU，并做了針對(duì)性?xún)?yōu)化，讓系統(tǒng)運(yùn)行得更順暢。

眾所周知，谷歌這套 TPU 體系已經(jīng)運(yùn)行了很多年，谷歌的 Gemini 正是跑在 TPU 之上。如前所述，他們這次將第八代 TPU 開(kāi)放給了所有云客戶(hù)，旨在為全球開(kāi)發(fā)者構(gòu)建一座通往更高 AI 想象力的算力基石。總的來(lái)說(shuō)，在智能體時(shí)代這種芯片設(shè)計(jì)上的精細(xì)化分工，將有利于打造一個(gè)隨叫隨到、反應(yīng)靈敏的 AI 應(yīng)用。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.