谷歌正將其自研芯片業(yè)務推向新的競爭前沿。其計劃推出專為AI推理任務打造的定制芯片,在已與Meta和Anthropic相繼達成大規(guī)模合作協(xié)議之后,進一步向英偉達的市場主導地位發(fā)起挑戰(zhàn)。
據(jù)彭博,谷歌計劃在本周于拉斯維加斯舉行的Google Cloud Next大會上發(fā)布新一代張量處理單元(TPU)。
谷歌首席科學家Jeff Dean在接受采訪時表示,隨著對AI查詢快速處理需求的上升,"針對訓練或推理工作負載對芯片進行更專門化的設計,現(xiàn)在已經(jīng)是合理之舉。"
這一布局正值AI芯片市場格局加速演變之際。英偉達GPU目前仍是AI領域、尤其是模型訓練環(huán)節(jié)的行業(yè)標桿,但推理市場的爭奪正日趨激烈。
市場研究機構Gartner分析師Chirag Dekate指出,"戰(zhàn)場正向推理方向轉移,而在這一戰(zhàn)場上,谷歌擁有基礎設施優(yōu)勢。"
![]()
從內(nèi)部工具到行業(yè)爆款:TPU的破圈之路
谷歌的芯片制造歷經(jīng)逾十年的積累。這段歷程始于一個實際問題:谷歌需要為語言翻譯和語音識別服務提供算力支撐,但市面上可用的芯片和硬件根本無法在可承受的成本下實現(xiàn)這一目標。
TPU背后的核心理念,據(jù)Vahdat描述,是"解決一小部分問題,但這些問題所需的計算量是巨大的"。彼時的主流觀點是不值得為此專門開發(fā)定制硬件,谷歌選擇了逆勢而為。
在這一階段,谷歌的芯片研發(fā)與其AI模型工作始終保持著緊密的協(xié)同演進關系。2017年那篇催生了當代大語言模型的里程碑式研究論文,推動TPU團隊將重心轉向服務于更大規(guī)模AI系統(tǒng)訓練的芯片設計。
此后,谷歌DeepMind與芯片團隊又注意到,TPU在執(zhí)行強化學習任務時存在大量閑置浪費,并據(jù)此調(diào)整了芯片之間的網(wǎng)絡互聯(lián)方式,以加快數(shù)據(jù)流轉、避免算力空轉。
這種內(nèi)部反饋機制也帶來了對"硬件級錯誤"更強的把控能力。
谷歌科學家、Gemini基礎設施團隊聯(lián)合負責人Paul Barham透露,當AI加速芯片在處理海量數(shù)學運算時,一個細微的故障都可能蔓延并導致模型"徹底崩潰"。"現(xiàn)在我們能在10秒內(nèi)完成對數(shù)十萬枚加速芯片的排查,"他說。
大客戶接連入場,商業(yè)勢能持續(xù)積聚
谷歌芯片業(yè)務的商業(yè)突破同樣來得迅猛。去年10月,Anthropic宣布擴大與谷歌的合作協(xié)議,將獲取多達100萬枚TPU;隨后谷歌發(fā)布的Gemini模型獲得廣泛好評,該模型正是基于TPU進行訓練和運行。
此后,需求持續(xù)擴大。Meta已簽署一項價值數(shù)十億美元、為期數(shù)年的TPU云服務協(xié)議。Meta基礎設施負責人Santosh Janardhan表示,"看起來在推理方面可能存在優(yōu)勢",但同時指出"新平臺免不了有門檻和學習曲線"。
對沖基金公司Citadel Securities計劃在本次谷歌大會上分享其借助TPU實現(xiàn)比此前GPU方案更快模型訓練速度的經(jīng)驗。
阿布扎比科技集團G42旗下云業(yè)務Core42的臨時CEO Talal Al Kaissi表示,已與谷歌就TPU使用進行"多輪磋商",并對此持樂觀態(tài)度。
軟件生態(tài)的補強也在同步推進。谷歌已允許TPU客戶使用PyTorch等外部工具及第三方調(diào)度軟件,不再要求完全依賴谷歌自有產(chǎn)品;與此同時,谷歌還在測試允許Anthropic等合作方將部分TPU部署于自有數(shù)據(jù)中心而非谷歌設施。
英偉達的強勢應戰(zhàn)與市場格局的再平衡
面對谷歌的進逼,英偉達并非毫無回應。上月,英偉達推出了一款基于其收購自Groq的技術所開發(fā)的推理芯片。黃仁勛強調(diào)其芯片的多用途優(yōu)勢,表示能夠完成"大量TPU無法勝任的應用"。
谷歌自身在實際部署中也同時依賴TPU與GPU兩種芯片。谷歌DeepMind CEO Demis Hassabis指出,頂尖AI實驗室對TPU的興趣尤為濃厚,"很多人希望同時在兩種平臺上運行"。
谷歌的優(yōu)勢在于兼具十余年芯片設計經(jīng)驗、充裕資金以及對AI模型的第一手洞察。在頂級AI開發(fā)商中,谷歌是唯一一家大規(guī)模自研芯片的公司,這使其能夠在硬件與模型團隊之間形成高效的雙向反饋。
Gimlet Labs聯(lián)合創(chuàng)始人Natalie Serrino表示,現(xiàn)有TPU已非常適合處理新興AI智能體的工作負載,"對于正在爆發(fā)的這類任務來說,它們是很好的工具"。
三年研發(fā)周期與AI快速迭代的深層矛盾
谷歌芯片的制約因素在于,芯片從研發(fā)到量產(chǎn)需要約三年時間,而AI模型的演進速度遠超于此,這使得精準預判未來客戶需求變得極為困難。
Barham則對硬件與模型團隊之間過于緊密的反饋循環(huán)表達了另一層擔憂——這種循環(huán)可能導致團隊只優(yōu)化當前軟硬件的契合度,而錯失更具突破性的新思路。
為在兩者之間尋求平衡,TPU團隊有時選擇將芯片設計為"足夠好"以應對多種使用場景,而非針對某一用途極致優(yōu)化;另一種策略是并行推進兩套不同設計方案,視具體需求決定最終落地。
Vahdat的一段話或許最能概括谷歌在芯片戰(zhàn)略上的長遠考量:
"只為谷歌生產(chǎn)TPU有其好處,但也有顯著的弊端。最終你會困在一座我們所說的'技術孤島'上。它或許是一座美麗的孤島,但居民有限,多樣性也有限,最終可能反而發(fā)展受阻。"
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.