英偉達(dá)(NVIDIA)首席執(zhí)行官黃仁勛,為其芯片團(tuán)隊(duì)送上了一份出人意料的“圣誕大禮”——這家科技巨頭已與專業(yè)人工智能硬件制造商Groq公司達(dá)成合作協(xié)議。而雙方合作的絕非普通芯片,這或?qū)⒊蔀橛ミ_(dá)搶占推理類算力市場主導(dǎo)地位的關(guān)鍵抓手。
要理解為什么這是一場“大師課”,我們需要審視兩個截然不同的維度分析:黃仁勛巧妙的用了監(jiān)管漏洞,以及他所獲得的硬件主導(dǎo)地位。
看似收購,實(shí)則“非排他性合作”
美國消費(fèi)者新聞與商業(yè)頻道(CNBC)率先披露這一重磅消息,稱英偉達(dá)正以200億美元(約1400億元人民幣)的天價“收購”Groq公司,這也將成為黃仁勛執(zhí)掌英偉達(dá)以來規(guī)模最大的一筆收購案。消息一出,立刻在科技行業(yè)掀起軒然大波:有人認(rèn)為這一交易將面臨嚴(yán)苛的監(jiān)管審查,也有人直言Groq此番難逃被吞并的命運(yùn)。然而不久后,Groq官方在其網(wǎng)站發(fā)布聲明,明確表示與英偉達(dá)簽署的是一份“非排他性技術(shù)授權(quán)協(xié)議”,僅向這家AI巨頭開放其推理技術(shù)的使用權(quán)。
我們計劃將
Groq
的低延遲處理器整合至英偉達(dá)
AI
工廠架構(gòu)中,進(jìn)一步拓展平臺的適用邊界,以滿足更廣泛的
AI
推理及實(shí)時性算力需求。本次合作中,我們確實(shí)吸納了
Groq
的核心人才,并獲得了其知識產(chǎn)權(quán)授權(quán),但并未收購
Groq
公司本身。
英偉達(dá)
CEO
黃仁勛,內(nèi)部郵件內(nèi)容
Groq的聲明一出,這場看似“并購”的交易在官方層面便不攻自破。在筆者看來,整個事件的發(fā)展脈絡(luò)耐人尋味——這宗交易其實(shí)只差“在官方公告中明確定義為收購”這一步,就完全符合全面收購的所有特征。
這正是英偉達(dá)祭出的經(jīng)典“反向人才收購”策略。對于不熟悉該策略的讀者,這里可以參考微軟2024年的操作案例:當(dāng)時微軟以6.53億美元與Inflection公司達(dá)成合作,不僅將穆斯塔法·蘇萊曼、卡倫·西蒙婭等AI領(lǐng)域頂尖人才招致麾下,更借此一舉夯實(shí)了自身的AI戰(zhàn)略布局。
所謂“反向人才收購”,是指企業(yè)通過合作協(xié)議吸納初創(chuàng)公司的核心人才,同時保留對方“空殼化”的企業(yè)架構(gòu)。這種模式的精妙之處在于,它能從法律層面規(guī)避“并購”的定性。此次黃仁勛顯然復(fù)刻了這一思路,目的就是避開美國聯(lián)邦貿(mào)易委員會(FTC)的審查——通過將合作定義為“非排他性技術(shù)授權(quán)”,英偉達(dá)成功脫離了《哈特-斯科特-羅迪諾反壟斷改進(jìn)法案》(HSR Act)的監(jiān)管范疇。值得玩味的是,Groq在聲明中提到旗下GroqCloud云計算平臺將繼續(xù)運(yùn)營,但僅保留最基礎(chǔ)的運(yùn)營架構(gòu)。
綜上,英偉達(dá)以傳聞中的200億美元代價,斬獲了Groq的核心人才與知識產(chǎn)權(quán),同時巧妙規(guī)避了監(jiān)管審查,讓整筆交易在短短數(shù)天內(nèi)便塵埃落定。而比交易本身更值得關(guān)注的,是英偉達(dá)通過此次合作獲得的硬件技術(shù)——這才是雙方合作的核心價值所在。
Groq的LPU架構(gòu):英偉達(dá)稱霸推理市場的“關(guān)鍵拼圖”
這正是筆者最想深入探討的部分。Groq打造的硬件生態(tài),極有可能復(fù)刻英偉達(dá)在AI訓(xùn)練時代的輝煌成就,以下將逐層拆解其底層邏輯。過去數(shù)月間,AI行業(yè)的算力需求格局發(fā)生了翻天覆地的變化:以O(shè)penAI、Meta、谷歌為代表的科技巨頭,在深耕前沿大模型訓(xùn)練的同時,紛紛加速布局高性能推理算力體系——原因很簡單,推理業(yè)務(wù)才是超大規(guī)模云計算服務(wù)商的核心盈利點(diǎn)。
此前谷歌推出Ironwood張量處理單元(TPU)時,曾被業(yè)界譽(yù)為“推理算力的最優(yōu)解”,這款專用集成電路(ASIC)甚至一度被視作英偉達(dá)的“替代者”。究其原因,外界普遍認(rèn)為英偉達(dá)當(dāng)時尚未推出一款能夠主導(dǎo)推理吞吐量的標(biāo)桿產(chǎn)品(盡管英偉達(dá)已有Rubin CPX系列產(chǎn)品,但下文將具體分析其局限性)。
![]()
要理解這一點(diǎn),首先要明確:訓(xùn)練與推理的算力需求存在本質(zhì)差異。模型訓(xùn)練階段,行業(yè)更看重算力吞吐量、高運(yùn)算密度,這也是為何現(xiàn)代加速器普遍搭載高帶寬內(nèi)存(HBM)和大規(guī)模張量計算核心。
但當(dāng)超大規(guī)模云計算服務(wù)商將重心轉(zhuǎn)向推理業(yè)務(wù)時,市場對算力的需求就轉(zhuǎn)變?yōu)?b>高速、穩(wěn)定、前饋式的執(zhí)行能力——畢竟,響應(yīng)延遲才是推理場景的核心瓶頸。
為應(yīng)對這一需求,英偉達(dá)推出了Rubin CPX系列產(chǎn)品,主攻超長上下文推理(包括預(yù)填充和通用推理)場景;谷歌則憑借TPU主打高能效比優(yōu)勢。然而,在模型解碼這一關(guān)鍵環(huán)節(jié),市場上的優(yōu)質(zhì)解決方案卻寥寥無幾。
解碼,指的是Transformer大模型推理過程中的“token生成階段”,如今已成為劃分AI算力負(fù)載類型的核心維度。該環(huán)節(jié)對算力的核心要求是確定性與低延遲,而傳統(tǒng)推理硬件普遍采用的HBM技術(shù),恰恰存在延遲高、功耗大的短板。正是瞄準(zhǔn)這一痛點(diǎn),Groq推出了獨(dú)創(chuàng)的解決方案——基于靜態(tài)隨機(jī)存取存儲器(SRAM)的算力架構(gòu)。在剖析其技術(shù)優(yōu)勢前,我們先明確:當(dāng)前AI推理算力市場,正迫切需要一種全新的技術(shù)路徑。
Groq LPU:破解解碼延遲難題,實(shí)現(xiàn)極致token生成穩(wěn)定性
LPU(語言處理單元)由Groq前首席執(zhí)行官喬納森·羅斯主導(dǎo)研發(fā)——值得一提的是,隨著本次合作落地,羅斯已正式加盟英偉達(dá)。羅斯曾深度參與谷歌TPU架構(gòu)的研發(fā)工作,由此可見,英偉達(dá)此番收獲的是一筆足以改寫市場格局的核心資產(chǎn)。
作為Groq專為推理類算力負(fù)載打造的解決方案,LPU的核心競爭力源于兩大技術(shù)決策:確定性執(zhí)行機(jī)制與片上SRAM作為權(quán)重數(shù)據(jù)主存儲介質(zhì)。這正是Groq實(shí)現(xiàn)“以穩(wěn)定性換速度”的底層邏輯。
![]()
此前Groq曾對外展示過兩款核心產(chǎn)品:自研的GroqChip芯片,以及與合作伙伴聯(lián)合開發(fā)的GroqCard加速卡。根據(jù)官方披露的參數(shù),這類芯片集成了230MB的片上SRAM,片上內(nèi)存帶寬高達(dá)80TB/s。
采用SRAM是LPU的核心技術(shù)優(yōu)勢,這使其延遲水平較傳統(tǒng)方案降低了數(shù)個數(shù)量級。對比HBM技術(shù):傳統(tǒng)架構(gòu)需要通過DRAM存取數(shù)據(jù),再加上內(nèi)存控制器的隊(duì)列等待時間,延遲劣勢十分明顯,而SRAM在這方面的優(yōu)勢堪稱碾壓。超大的片上SRAM帶寬,讓Groq得以實(shí)現(xiàn)遠(yuǎn)超行業(yè)平均水平的推理吞吐量。
除此之外,SRAM還賦予了LPU高能效比的優(yōu)勢:訪問SRAM的單位比特能耗遠(yuǎn)低于HBM,同時還能省去物理層(PHY)的額外開銷。對于內(nèi)存密集型的解碼任務(wù)而言,這意味著單位token生成能耗的大幅優(yōu)化。
![]()
以上是LPU的架構(gòu)優(yōu)勢,但這只是其技術(shù)實(shí)力的冰山一角。另一大核心競爭力,在于其編譯期調(diào)度機(jī)制——該機(jī)制可徹底消除不同計算核心間的時序差異,確保解碼流水線的零延遲等待。這一特性帶來了極致的流水線利用率,讓LPU的吞吐量遠(yuǎn)超當(dāng)前主流加速器產(chǎn)品。
綜合來看,LPU是一款完全貼合超大規(guī)模云計算服務(wù)商推理需求的硬件產(chǎn)品,但目前行業(yè)對其存在一個普遍忽視的短板:LPU雖是性能卓越的推理專用硬件,但因功能高度專用化,尚未成為市場主流算力平臺。而這,恰恰是英偉達(dá)的機(jī)會所在。
盡管目前英偉達(dá)尚未公布LPU與自身產(chǎn)品生態(tài)的整合方案,但一個極具可行性的路徑是:將LPU納入機(jī)架級推理系統(tǒng)(類似Rubin CPX的部署模式),并搭配英偉達(dá)的高性能網(wǎng)絡(luò)基礎(chǔ)設(shè)施。通過這種組合,英偉達(dá)可以實(shí)現(xiàn)“GPU負(fù)責(zé)預(yù)填充與長上下文處理,LPU專攻解碼任務(wù)”的協(xié)同模式——如此一來,英偉達(dá)將在推理算力市場實(shí)現(xiàn)全場景覆蓋。這一整合,不僅能讓LPU從一款實(shí)驗(yàn)性產(chǎn)品升級為行業(yè)標(biāo)準(zhǔn)推理方案,更能推動其在超大規(guī)模云計算服務(wù)商中實(shí)現(xiàn)全面普及。
![]()
毫無疑問,這筆交易是英偉達(dá)拓展產(chǎn)品版圖的里程碑式成就。種種跡象表明,推理業(yè)務(wù)將成為英偉達(dá)下一階段的戰(zhàn)略核心,而LPU架構(gòu),正是英偉達(dá)在這一賽道制勝的關(guān)鍵王牌。
https://wccftech.com/no-nvidia-isnt-acquiring-groq-but-jensen-just-executed-a-surgical-masterclass
邀請函
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.