劉柯
AI領(lǐng)域的焦點(diǎn),正從英偉達(dá)轉(zhuǎn)向谷歌。就在資本市場對英偉達(dá)的財(cái)報(bào)和高估值爭論不休的時(shí)候,“谷歌鏈”開始浮出水面,這也讓唱空和做空英偉達(dá)的一方有了強(qiáng)有力的武器。
整個(gè)世界都在想逃離“英偉達(dá)稅”,因此這個(gè)時(shí)候“谷歌鏈”悄悄崛起頗有意思。大家對谷歌其實(shí)并不陌生,但對“谷歌鏈”以及其對AI領(lǐng)域產(chǎn)生的影響,似乎在重新認(rèn)識。“谷歌鏈”的優(yōu)勢在于全產(chǎn)業(yè)鏈閉環(huán),它可以實(shí)現(xiàn)全棧式技術(shù)方案以及強(qiáng)大的生態(tài),覆蓋芯片、云、大模型、應(yīng)用四大環(huán)節(jié),是垂直整合程度最高的AI大廠。這也是英偉達(dá)夢寐以求并正在付諸實(shí)施的愿景,英偉達(dá)之所以要入股OpenAI,之所以要收購云服務(wù)初創(chuàng)公司Lepton AI,就是為了打造AI產(chǎn)業(yè)鏈閉環(huán)。
最關(guān)鍵的,是谷歌3億的付費(fèi)訂閱用戶,是6.5億AI模型Gemini的月活躍用戶。12這是英偉達(dá)可望而不可及的,因?yàn)閼?yīng)用端的渠道基本都已經(jīng)排排坐,沒有多大的縫隙可以給新來者。但這卻并不是市場擔(dān)憂的焦點(diǎn),“谷歌鏈”的真正挑戰(zhàn)并不是用戶應(yīng)用端,因?yàn)辇嫶蟮慕K端用戶已經(jīng)不是秘密。那英偉達(dá)擔(dān)心什么?擔(dān)心的是谷歌利用終端優(yōu)勢向上拓展的AI硬件,即專用集成電路芯片TPU對圖形加速芯片GPU的挑戰(zhàn),即全光交換網(wǎng)絡(luò)OCS對英偉達(dá)CUDA并行計(jì)算平臺(tái)的挑戰(zhàn)。
TPU也叫張量處理單元,2016年5月在Google I/O開發(fā)者大會(huì)上首次公開并應(yīng)用于AlphaGo人工智能圍棋系統(tǒng)。TPU是專為神經(jīng)網(wǎng)絡(luò)的矩陣運(yùn)算優(yōu)化而設(shè)計(jì)的芯片,優(yōu)勢很明顯,其開發(fā)成本更低、滿負(fù)荷運(yùn)行時(shí)功耗更小,在特定場景下具有成本和能效優(yōu)勢,比如高頻交易公司,大型金融機(jī)構(gòu)等,來滿足數(shù)據(jù)安全和合規(guī)要求。但TPU的短板也很突出,它只專注于高效計(jì)算AI 神經(jīng)網(wǎng)絡(luò)中的矩陣運(yùn)算,靈活性不如英偉達(dá)GPU,其采用脈動(dòng)陣列架構(gòu)和低精度計(jì)算技術(shù),在矩陣運(yùn)算任務(wù)中展現(xiàn)出比傳統(tǒng)GPU和CPU高15至30倍的推理速度,能效比提升30至80倍。目前谷歌已經(jīng)發(fā)布了第七代TPU芯片,其FP8峰值算力4614 TFlops(每秒4.6萬億億次運(yùn)算),首次超越英偉達(dá)B200的4500 TFlops,且能效比提升29倍。
與TPU芯片配套的,是谷歌的光電路交換平臺(tái)OCS,它是一種通過物理層面改變光束路徑實(shí)現(xiàn)數(shù)據(jù)傳輸?shù)募夹g(shù),具有超低延遲、高能效和高帶寬等優(yōu)勢,主要應(yīng)用于AI算力、數(shù)據(jù)中心等場景。這其實(shí)也是英偉達(dá)最擔(dān)憂的,因?yàn)閮H僅從芯片競爭看它不是很擔(dān)心,畢竟英特爾、AMD的芯片對其GPU的沖擊會(huì)更大,但谷歌將TPU和OCS結(jié)合,則會(huì)對其CUDA(通用并行計(jì)算平臺(tái)和編程模型)形成直接競爭。CUDA包含指令集架構(gòu)和GPU并行計(jì)算引擎,支持多種語言編程,開發(fā)者可實(shí)現(xiàn)CPU與GPU協(xié)同計(jì)算,其與GPU的配合是英偉達(dá)獨(dú)步AI硬件產(chǎn)業(yè)鏈的關(guān)鍵所在。
也許有人會(huì)納悶,其實(shí)谷歌的這些東西也算不上突然蹦出來的,為什么現(xiàn)在成了英偉達(dá)的威脅?原因也很簡單,以前谷歌的TPU+OCS都是自己用,即在自己的云計(jì)算中心使用,但現(xiàn)在要拓展到直接把硬件套裝賣給客戶了,Meta就正在與谷歌就2027年在其數(shù)據(jù)中心使用價(jià)值數(shù)十億美元的TPU芯片進(jìn)行談判,同時(shí)計(jì)劃明年從谷歌云租用芯片。大家想一下,以前云巨頭們都在采購英偉達(dá)的GPU,高達(dá)75%的毛利被英偉達(dá)拿走了,云廠商的AI業(yè)務(wù)毛利從傳統(tǒng)的50%到70%驟降至20%到35%,如果換成“谷歌鏈”就能使毛利率回升,誰不愿干?現(xiàn)在是Meta,后面會(huì)不會(huì)是微軟或者亞馬遜?
于是,市場開始重新給AI產(chǎn)業(yè)鏈估值。首先從芯片開始。TPU芯片是ASIC(特定用途定制設(shè)計(jì)的集成電路)芯片的一個(gè)分支,是目前在AI領(lǐng)域能與GPU(以前也只做圖形加速)抗衡的專用芯片。2024年全球GPU、ASIC芯片出貨量分別為876萬、283萬顆,預(yù)計(jì)2030年這一數(shù)字將增長至約3000萬、1400萬顆,對應(yīng)2024年到2030年的年均復(fù)合增速約為23%和30%。由此可見,ASIC芯片的成長空間更大,特別是在芯片的制程物理大小被摩爾定律限制以后,GPU似乎更容易達(dá)到天花板,而ASIC芯片的發(fā)展前途更光明。連AIGC的鼻祖OpenAI都開始計(jì)劃2026年底實(shí)現(xiàn)3納米ASIC芯片的量產(chǎn),由此可見一斑。
當(dāng)然,把芯片組合在一起運(yùn)算無損算力才是根本,這也是OCS與CUDA網(wǎng)絡(luò)架構(gòu)的核心競爭,OCS技術(shù)正在被市場重新認(rèn)識。傳統(tǒng)電交換機(jī)需要進(jìn)行光、電、光轉(zhuǎn)換,導(dǎo)致微秒級的延遲和較高的能耗,轉(zhuǎn)發(fā)延遲差不多十億分之一秒,而OCS的切換延遲卻可以達(dá)到千分之一秒,兩者相差百萬倍。OCS不同于傳統(tǒng)交換機(jī),可直接進(jìn)行光路交換,無需做光電轉(zhuǎn)換,通過全光路切換實(shí)現(xiàn)數(shù)據(jù)傳輸。谷歌實(shí)測表明,OCS網(wǎng)絡(luò)延遲降低50%以上,能耗比電交換機(jī)低50倍。你可以這樣理解,OCS架構(gòu)的算力損耗更小且性價(jià)比更高,更適合訓(xùn)練;CUDA架構(gòu)的適用性和拓展性更強(qiáng),更適合應(yīng)用拓展,核心在于你用這個(gè)智算中心干什么。
而谷歌能把這個(gè)系統(tǒng)玩這么轉(zhuǎn),關(guān)鍵還在于其龐大的下游用戶,也就是訓(xùn)練出來的算力有龐大的吸納潛力。因此,“谷歌鏈”有可能憑借TPU+OCS闖出一條不同于“英偉達(dá)鏈”的新路。而一旦這條路成功了,就可能不斷蠶食英偉達(dá)目前高達(dá)85%左右的市場份額,從10%到20%甚至更多,這就是資本市場開始追捧“谷歌鏈”的根本所在。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.