Jay 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
老黃穩(wěn)準狠,谷歌的TPU威脅剛至,就鈔能力回應了。
200億美元說砸就砸,只為拉攏一家炙手可熱的「鏟子新工廠」——Groq。
這無疑也標志這家芯片巨頭,面向AI新時代的一次重大布局。但在某種程度上,也的確反映出老黃對包括TPU在內等一眾新芯片范式的擔憂。
所以,Groq究竟能為英偉達帶來什么?
針對這個問題,知名科技投資人Gavin Baker發(fā)表了自己的觀點。
而他的這一連串技術剖析,紛紛指向了英偉達帝國防守最薄弱的那塊領土——推理。
推理方面,Groq LPU的速度遠超GPU、TPU,以及目前所見的任何ASIC。
![]()
Gavin Baker
這一觀點得到大量網(wǎng)友點贊:
GPU架構根本無法滿足推理市場對低延遲的需求,片外HBM顯存速度實在太慢了。
![]()
網(wǎng)友觀點
但也有網(wǎng)友指出,LPU所采用的SRAM,或許并不能勝任長下文decode。
對此,Gavin認為英偉達可以通過產品「混搭」的方式解決。
![]()
Gavin Baker
下面具體來看——
Groq:英偉達斥200億美元購入的一劑疫苗
Gavin認為,GPU在新時代水土不服的根本原因在于——推理過程的兩個階段,prefill和decode,對芯片能力有截然不同的要求。
先看prefill:
這一步,簡單來說就是讓模型「讀題」,把用戶提供的關鍵信息在腦子里記好,用于后續(xù)調用。
讀題過程中,模型會一次性吃下用戶所給的上下文,所有輸入token都可以同時計算。
這正是GPU最擅長的舞臺,其為圖形處理而生,可以一次性計算數(shù)千個像素,天生適合處理并行任務。
在這個準備階段,模型不用急著響應用戶問題。即便有延遲,模型也完全可以通過顯示「思考中」來掩蓋等待時間。
因此,相比「速度」,prefiil需要芯片有更大的上下文容量。
但到了decode,這套邏輯不再適用。
decode是串行任務,必須得一個一個token挨著算。更重要的是,用戶還會親眼看到token被一個個「打」出來的過程。這種情況下,延遲對用戶體驗來說是致命的。
然而,GPU的數(shù)據(jù)主要存放在HBM,而不是緊貼算力核心的片上存儲。這意味著,每生成一個token,GPU都需要重新從內存中讀取數(shù)據(jù)。
這時候,GPU的問題就暴露出來了——大部分算力都處于閑置,F(xiàn)LOPs根本用不滿,常常在等內存把數(shù)據(jù)搬過來,實際計算量遠小于prefill。
相比之下,Groq有更好的解決方案——LPU。
比起HBM,LPU使用直接集成在芯片硅片中的SRAM。這種片上存儲的模式不需要讀取數(shù)據(jù),這讓其速度比GPU快100倍。即使只處理單個用戶,它也能跑出每秒300–500個token的速度,并能始終保持滿負荷運轉。
事實證明,在速度這一塊,LPU幾乎打遍天下無敵手——不僅是GPU,就連TPU,以及市面上絕大多數(shù)ASIC都難以望其項背。
但這并非沒有代價的。
相比GPU,LPU的內存容量小的多。單顆Groq的LPU芯片,片上SRAM只有230MB。
作為對比,即便是英偉達的H200 GPU,也配備了高達141GB的HBM3e顯存。
結果就是:你必須把成百上千顆LPU芯片連在一起,才能跑起一個模型。
以Llama-3 70B為例,用英偉達GPU的話,只需要兩到四張卡,塞進一個小型服務器盒子里就能搞定。而同樣的模型,需要數(shù)百顆LPU,占地面積也將遠大于使用GPU的數(shù)據(jù)中心。
這意味著,即便單顆LPU價格更低,整體硬件投資依然會非常巨大。
因此,AI公司在考慮LPU時,最重要的問題是——
用戶是否愿意為「速度」付費?
對于這個問題,一年前的市場還不無法給出答案。但從Groq如今的業(yè)績情況來看已經(jīng)非常明確:「速度」是個真實存在的巨大需求,并且仍在高速成長。
而對英偉達而言,這不僅是一個新的業(yè)務盤,更是一個顛覆者暗流涌動的高風險地帶。倘若錯失這個風口,英偉達在AI時代的機會可能會被新玩家顛覆,就像英偉達當年通過游戲業(yè)務顛覆其他競爭對手一樣。
為了抵抗這些競爭者蠶食自己的護城河,英偉達選擇注射名為Groq的疫苗。希望通過人才收購引入新血液,補齊這塊低延遲場景的推理短板,幫助英偉達這艘巨艦擺脫創(chuàng)新者窘境。
「鏟子」進入新時代
TPU的崛起,給英偉達的金鐘罩撕開了一道裂縫。
通過自研芯片,谷歌成功擺脫了對英偉達天價GPU的依賴,這在很大程度上幫助谷歌削薄了訓練和推理成本,這讓谷歌在服務大量免費用戶的情況下,依然能維持相當健康的財務賬面。
谷歌通過Gemini 3 Pro的絕地翻盤,證明了GPU并非AI時代的唯一解。在技術周期高速迭代的背景下,作為AI「心臟」的芯片,也需要根據(jù)不同的發(fā)展階段做出相應的調整。
隨著基礎模型的進展放緩,AI競爭的重點開始從訓練層轉向應用層。而在AI應用市場,「速度」對用戶體驗而言至關重要。
而這次人才收購Groq,雖然也是變相承認了公司在推理賽道的不足,但同樣標志著英偉達帝國的又一次擴張。
稱霸預訓練的英偉達,這次要借Groq的東風,入局競爭對手噴涌而出的「推理大陸」。
而在這個新市場,英偉達或許不再能像如今這樣風光。
正如Groq CEO所言,推理芯片是項高銷量、低利潤的苦活。這與即便炒到天價也有客戶搶著要,毛利率高達70-80%的GPU截然不同。
參考鏈接:[1]https://x.com/gavinsbaker/status/2004562536918598000[2]https://www.uncoveralpha.com/p/the-20-billion-admission-why-nvidia
本文來自微信公眾號“量子位”,作者:關注前沿科技,36氪經(jīng)授權發(fā)布。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.