![]()
作者 | 褚杏娟
根據(jù)最新報(bào)道,隨著谷歌 TPU 芯片需求大漲,谷歌擴(kuò)大了對(duì)聯(lián)發(fā)科合作定制新一代 TPU v7e 的訂單,訂單量比原規(guī)劃激增數(shù)倍。消息稱,聯(lián)發(fā)科為谷歌操刀定制的首款 TPU v7e 將于下季度末進(jìn)入風(fēng)險(xiǎn)性試產(chǎn),并再拿下谷歌下一代 TPU v8e 的訂單。聯(lián)發(fā)科大單獲得了臺(tái)積電的先進(jìn)封裝產(chǎn)能支持,2027 年臺(tái)積電提供給聯(lián)發(fā)科谷歌項(xiàng)目的 CoWoS 產(chǎn)能更將暴增 7 倍以上。
盡管承認(rèn)谷歌在過(guò)去 10 年中取得了進(jìn)步,但英偉達(dá)認(rèn)為其大約領(lǐng)先谷歌 TPU 兩年。由于人工智能模型變化迅速,英偉達(dá)認(rèn)為谷歌很難讓云服務(wù)提供商采用 TPU,因?yàn)?TPU 是為更特定的模型類型而設(shè)計(jì)的。相比之下,英偉達(dá)相信其更靈活、可編程的平臺(tái)仍然是構(gòu)建大規(guī)模云端人工智能基礎(chǔ)設(shè)施的最佳選擇。
但無(wú)論如何,谷歌確實(shí)讓英偉達(dá)產(chǎn)生了些許危機(jī)。近日,在 NeurIPS 大會(huì)期間,谷歌 DeepMind、谷歌研究院的首席科學(xué)家兼 Gemini 項(xiàng)目聯(lián)合技術(shù)負(fù)責(zé)人 Jeff Dean 做客 Laude Lounge 節(jié)目,聊到了 TPU 和 Pathways 等基礎(chǔ)系統(tǒng)是如何出現(xiàn)的,下面是其在節(jié)目中的相關(guān)對(duì)話。
主持人:谷歌最近發(fā)布了一款新型 TPU 芯片。第七代 TPU 芯片有什么特別之處?
Jeff Dean:就像每一代后續(xù)的 TPU 芯片一樣,它都比上一代更出色。它有很多新功能,這些芯片會(huì)連接成我們稱之為集群(pods)的大型配置。我記得每個(gè)集群大概有 9216 塊芯片。而且它的性能提升非常顯著,尤其是在處理 FP4 這類低精度浮點(diǎn)格式時(shí)。這對(duì)大模型訓(xùn)練、推理以及很多類似場(chǎng)景都非常有用。所以我們對(duì)此非常興奮。
主持人:很棒。往大了說(shuō),谷歌最初開發(fā) TPU 是為了滿足內(nèi)部需求。谷歌是全球頂尖的人工智能應(yīng)用公司和人工智能研究機(jī)構(gòu),據(jù)我了解,最初的動(dòng)機(jī)是希望掌控完整的垂直整合技術(shù)棧。之后你們最終開放了這些技術(shù)的使用權(quán),在加速器態(tài)系統(tǒng)中參與全球競(jìng)爭(zhēng),與其他設(shè)計(jì)和銷售加速器的企業(yè)同臺(tái)競(jìng)技。現(xiàn)在很多人都對(duì) TPU 的巨大市場(chǎng)潛力感到興奮。
在你看來(lái),你在谷歌的角色如何平衡兩方面目標(biāo):一方面是谷歌內(nèi)部對(duì) TPU 的使用需求,另一方面是在競(jìng)爭(zhēng)激烈的市場(chǎng)中參與競(jìng)爭(zhēng),讓谷歌之外的數(shù)百萬(wàn)人、數(shù)十億人都能通過(guò)購(gòu)買 TPU 獲得這些技術(shù)優(yōu)勢(shì)?
Jeff Dean:TPU 項(xiàng)目最初確實(shí)是為了滿足我們內(nèi)部需求,一開始主要聚焦于推理。
早在 2013 年,我們就意識(shí)到深度學(xué)習(xí)方法將會(huì)非常成功。而且每次我們用更多數(shù)據(jù)訓(xùn)練更大規(guī)模的模型時(shí),在語(yǔ)音和視覺等領(lǐng)域的效果都會(huì)更好。當(dāng)時(shí)我做了一些粗略估算,如果我們想把這個(gè)性能更優(yōu)但計(jì)算密集型的語(yǔ)音模型推廣給 1 億用戶,讓他們每天使用幾分鐘,所需的計(jì)算量會(huì)非常驚人。如果用 CPU 來(lái)處理,我們實(shí)際上需要把谷歌的電腦數(shù)量增加一倍,才能推出這個(gè)改進(jìn)后的語(yǔ)音模型。
所以,這就是我們的初衷:如果我們?cè)O(shè)計(jì)專門用于這類機(jī)器學(xué)習(xí)計(jì)算的硬件,也就是密集低精度線性代數(shù)相關(guān)的硬件,就能大幅提升效率。事實(shí)也證明了這一點(diǎn)。第一代 TPU 的能效比當(dāng)時(shí)的 CPU 或 GPU 高出 30 到 70 倍,速度也快 15 到 30 倍。
主持人:你是說(shuō)那是 2015 年的事?
Jeff Dean:是的。我們 2013 年開始進(jìn)行這個(gè)思想實(shí)驗(yàn),2015 年這些芯片才部署到我們的數(shù)據(jù)中心。我們還就此發(fā)表了一篇論文,當(dāng)時(shí)還是前 Transformer 架構(gòu)時(shí)代。
主持人:前 Transformer 架構(gòu)時(shí)代啊。
Jeff Dean:對(duì)。當(dāng)時(shí)我們主要關(guān)注語(yǔ)音識(shí)別和視覺卷積模型。我們?cè)诘谝淮?TPUv1 的設(shè)計(jì)末期,特意加了一點(diǎn)設(shè)計(jì)改動(dòng),讓它也支持長(zhǎng)短期記憶網(wǎng)絡(luò)。當(dāng)時(shí)長(zhǎng)短期記憶網(wǎng)絡(luò)在語(yǔ)言建模領(lǐng)域很流行,這一改動(dòng)也讓我們能夠支持語(yǔ)言翻譯任務(wù)。
之后的 TPU 版本則更側(cè)重于更大規(guī)模的系統(tǒng),不再只是單一的 PCIe 卡,而是完整的機(jī)器學(xué)習(xí)超級(jí)計(jì)算機(jī),包括最新的 Ironwood 芯片。每一代 TPU 都在能效、性價(jià)比等我們關(guān)注的方面都有很大提升,這讓我們能夠支持更大規(guī)模的訓(xùn)練任務(wù),也能處理更多用戶的請(qǐng)求。
主持人:Transformer 架構(gòu)本身也是在谷歌誕生的,時(shí)間線差不多。但 TPU 是在這之前發(fā)明的,之后 Transformer 架構(gòu)才出現(xiàn)。你認(rèn)為,隨著 Transformer 架構(gòu)的發(fā)展改變了我們?nèi)缃竦氖澜纾雀钃碛羞@種垂直整合的硬件棧,兩者之間是否存在協(xié)同設(shè)計(jì)的偶然性?
Jeff Dean:每一代 TPU 的開發(fā),我們都非常努力地利用協(xié)同設(shè)計(jì)的機(jī)會(huì)。我們有很多研究人員會(huì)思考未來(lái) 2 年半到 6 年內(nèi)我們可能會(huì)運(yùn)行哪些機(jī)器學(xué)習(xí)計(jì)算。
作為硬件設(shè)計(jì)者,你需要預(yù)測(cè)這個(gè)發(fā)展迅速的領(lǐng)域,這并不容易。但有很多人在關(guān)注這個(gè)領(lǐng)域的發(fā)展方向,他們會(huì)提出一些可能有趣的想法。雖然我們還不確定這些想法是否可行,但我們可以在硬件中加入相關(guān)的硬件特性或功能。如果這些想法最終被證明很重要,我們的硬件就能及時(shí)提供支持。就算這些投入沒有得到回報(bào),也只是在芯片面積上占用了一小部分空間,不算太大的損失,但我們確實(shí)需要為這些重要的潛在需求做好準(zhǔn)備。
這是一項(xiàng)很有趣的預(yù)測(cè)工作,需要預(yù)測(cè)整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展方向,然后判斷我們需要什么樣的硬件支持。
主持人:縱觀您在谷歌的過(guò)往,從 MapReduce 到 Google File System,這些最初都是為谷歌內(nèi)部需求而發(fā)明的系統(tǒng),最終都對(duì)外發(fā)布了。您見證了谷歌創(chuàng)造并向世界展示價(jià)值,然后通過(guò) TPU 架構(gòu)等公開發(fā)布。您是否認(rèn)為,隨著 Ironwood 的發(fā)布,世界其他地方也即將迎來(lái)拐點(diǎn),獲得谷歌曾經(jīng)享有的優(yōu)勢(shì)?對(duì)于一位研究人員來(lái)說(shuō),影響力的實(shí)現(xiàn)就是我們追求的時(shí)刻,您是否感覺 TPU 正處于這個(gè)關(guān)鍵的拐點(diǎn)?
Jeff Dean:是的,我們使用 TPU 已經(jīng)超過(guò)十年了,一直對(duì)它們非常滿意。協(xié)同設(shè)計(jì)的特性使它們非常適合我們想運(yùn)行的各種機(jī)器學(xué)習(xí)計(jì)算。多年來(lái),我們也通過(guò)我們的云 TPU(Cloud TPU)項(xiàng)目對(duì)外出租。現(xiàn)在,許多客戶正將它們用于各種不同的任務(wù)。
我們?cè)?TPU 之上構(gòu)建了一系列軟件層,讓它們使用起來(lái)非常方便。目前,使用 TPU 最成熟的途徑是 JAX 框架,它運(yùn)行在我們內(nèi)部構(gòu)建的 Pathways 系統(tǒng)之上,而 Pathways 又運(yùn)行在 XLA 編譯器(一個(gè)帶有 TPU 后端的機(jī)器學(xué)習(xí)編譯器)之上。
Pathways 的意義在于,我們所有的 Gemini 模型開發(fā)、研究和大規(guī)模訓(xùn)練任務(wù)都運(yùn)行在這個(gè)技術(shù)棧上。Pathways 是一個(gè)我們從大約七年前開始構(gòu)建的優(yōu)秀系統(tǒng),它能夠給你一種單一系統(tǒng)映像的錯(cuò)覺,跨越數(shù)千或數(shù)萬(wàn)個(gè)芯片。你可以運(yùn)行一個(gè)單獨(dú)的 Python 進(jìn)程來(lái)驅(qū)動(dòng)你的 JAX 代碼,它不會(huì)顯示為單個(gè) TPU 節(jié)點(diǎn)上的四個(gè)設(shè)備,而是顯示為你的 JAX 進(jìn)程可以訪問(wèn) 2 萬(wàn)個(gè)設(shè)備。
它運(yùn)行起來(lái)非常自然,系統(tǒng)會(huì)在底層自動(dòng)找出應(yīng)該使用哪種傳輸機(jī)制和哪個(gè)網(wǎng)絡(luò):在 TPU Pod 內(nèi)部使用高速互連,跨越 Pod 邊界時(shí)使用數(shù)據(jù)中心網(wǎng)絡(luò),跨越城市區(qū)域時(shí)使用長(zhǎng)距離鏈接(Long-distance Links)等等。我們實(shí)際上運(yùn)行著非常大規(guī)模的訓(xùn)練任務(wù),其中一個(gè) Python 進(jìn)程驅(qū)動(dòng)著位于多個(gè)城市的多個(gè) TPU Pod。
https://www.youtube.com/watch?v=9u21oWjI7Xk&t=31s
聲明:本文為 InfoQ 翻譯整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。
技術(shù)人的年度儀式感! 年度盤點(diǎn)與趨勢(shì)洞察 啟動(dòng)!
《2025 年度盤點(diǎn)與趨勢(shì)洞察》由 InfoQ 技術(shù)編輯組策劃。覆蓋大模型、Agent、具身智能、AI Native 開發(fā)范式、AI 工具鏈與開發(fā)、AI+ 傳統(tǒng)行業(yè)等方向,通過(guò)長(zhǎng)期跟蹤、與業(yè)內(nèi)專家深度訪談等方式,對(duì)重點(diǎn)領(lǐng)域進(jìn)行關(guān)鍵技術(shù)進(jìn)展、核心事件和產(chǎn)業(yè)趨勢(shì)的洞察盤點(diǎn)。
力求以體系化視角幫助讀者理解年度技術(shù)演化的底層邏輯、創(chuàng)新方向與落地價(jià)值,并為新一年決策提供參考。內(nèi)容將在 InfoQ 媒體矩陣陸續(xù)放出,歡迎大家持續(xù)關(guān)注。
![]()
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.