
![]()
“黃仁勛200億美元買的是Jonathan Ross這個人。”
作者丨胡清文
編輯丨徐曉飛
“黃仁勛這200億美元,買的其實就是Jonathan Ross這個人,押注在此英偉達未來可能會賺回三倍的錢,所以200 億美元實在不算貴。”某投資人近日向雷峰網透露。
2025年12月24日,英偉達以其史上最大規模交易額200億美金,將推理芯片獨角獸Groq的核心技術與團隊收入麾下。Groq創始人、谷歌TPU初代核心開發者Jonathan Ross帶隊加盟英偉達,其獨創的LPU芯片技術將融入英偉達AI Factory架構。
當下AI行業正從“規模競賽期”轉向“效率價值兌換期”,推理側需求大于訓練側需求已成為普遍共識。
面對推理市場的爆發式增長,Groq的專屬LPU芯片以5-10倍于GPU 的速度優勢,以及1/10的成本優勢,成為異軍突起的核心玩家,而黃仁勛最終還是選擇了將這條攪動市場的鯰魚收入囊中。
這究竟是招安潛在對手的緩兵之計,還是壟斷推理市場的霸權布局?
01
重金收編的核心是什么?
2026年CES大會期間,英偉達管理層在面向投資者的會議上強調,此次收購Groq不會對核心業務產生沖擊,反而將為公司開辟全新的增長空間。
而這樁被包裝成“非獨家技術授權”的交易,本質是硅谷近年流行的“收購式招聘”的升級版:用授權的名義實現“人才+技術”的雙收。
瑞銀分析師團隊在研報中直言:“這是一場沒有收購之名的完全收購,英偉達用最小的監管風險,獲得了最核心的戰略資產。”
根據披露信息,英偉達所支付的200億美元中,130億已即時到賬,剩余款項中包含核心員工的股權激勵,其中Groq CEO Jonathan Ross個人獲得數億美元英偉達股權。團隊核心成員則幾乎全員轉入英偉達,芯片設計、編譯器開發等核心資產也盡數歸入英偉達體系。
“黃仁勛這200億美元買的其實就是Jonathan Ross這個人,因為Jonathan Ross是個非一般意義的天才。如果拿黃仁勛類比杰夫里辛頓(深度學習教父)的話,那Jonathan Ross就要類比伊利亞(OpenAI聯合創始人兼首席科學家)。”苔蘚花園播客主理人、資深私募投資人王韋華告訴雷峰網。
作為谷歌初代TPU的核心設計者,Jonathan Ross早在2016年Groq成立時就已預判推理將成為規模化難題,并率先提出“推理市場規模終將遠超訓練”。他提前洞悉到推理的核心需求是“低延遲、高能效、低成本”,而非計算密度。因此他摒棄了GPU架構改良思路,從零打造專為推理設計的LPU架構。
LPU架構完全圍繞“消除數據搬運延遲”展開,采用無外置內存、全片上SRAM作為主存的設計,片上帶寬達80TB/s,是Blackwell B300 的HBM帶寬8TB/s的10倍。
成本方面,Jonathan Ross曾在福布斯獨家專訪中公開聲明,“Groq LPU在LLM推理速度快10倍同時,成本是Nvidia GPU的1/10,功耗是Nvidia GPU的1/10。”
這種集性能與成本優勢于一身的提升,精準擊中了英偉達在推理賽道的核心短板,也成為黃仁勛不惜斥資 200億果斷出手的關鍵所在。
另一方面,回溯英偉達過往的并購布局便不難發現,這場交易也并非偶然。
2000年,英偉達以7000萬美元+100萬股普通股收購了3dfx核心圖形資產,奠定GPU領域統治基礎;2013年,收購了HPC編譯器龍頭PGI,強化了CUDA生態在高性能計算領域的核心支撐;2019年,以約69億美元收購了Mellanox,補全數據中心網絡短板。
王韋華認為,“LPU現在已經不是0億美金市場了,但黃仁勛再次早于別人發現了LPU的重要性。英偉達現在收購Groq,甚至比2019年收購Mellanox的重要性要更大,這一步直接讓英偉達在推理端領先兩三年。雖然在英偉達整個數據中心的建設里推理占比不大,但只要它在技術上保持領先就會產生巨大的杠桿效應。”
盡管Groq當前的市占率遠未對英偉達構成直接威脅,但它掌握的可重構數據流架構,代表了AI推理的未來方向。英偉達此次用200億美元“買斷”這條技術路線,正是“技術補位+生態壟斷”并購戰略的延續。
而這種不計短期成本、鎖定長期技術優勢的大手筆操作,底氣完全來自其充沛到近乎 “過剩” 的現金流。據英偉達最新財報,僅2026財年Q3,英偉達的自由現金流便達到了220.89億美元。
02
為什么是Groq?
當下,全球僅有兩個團隊掌握TPU架構技術:谷歌與Groq。
在此之前,谷歌憑借TPU訓練出優質模型引發市場關注,導致英偉達股價受挫,此次收編補齊了其在TPU架構路線上的短板,在鞏固行業地位的同時為其估值提供了重要支撐。
王韋華表示,“英偉達這次押注LPU不單是為了對抗谷歌的TPU,TPU專注于矩陣運算,更多還是強調在訓練方面的優勢。LPU 其實跟 TPU 相比的話,更專注于推理這一塊。以后在推理這塊誰能省最多的電?誰能在速度上面最有優勢?目前看最有可能的方向就是LPU了。”
作為谷歌TPU的核心締造者,Jonathan Ross深知GPU處理線性代數運算時的架構冗余,離開谷歌后他以第一性原理為核心,選擇SRAM作為核心存儲、通過編譯器規劃數據路徑,打造低延遲LPU產品,其TPU開發經驗直接決定了Groq“順序延遲優先”的技術路線。從谷歌TPU的靈魂人物,到出走自立門戶成立Groq,過程中的勢力角逐,歡迎添加作者微信IHAVEAPLANB-交流。
業內人士告訴雷峰網,TPU架構的計算效率遠超GPU的原因在于,GPU需經歷“計算-傳數據至存儲-讀寫-再計算”的循環,而TPU采用片上存儲直接計算,省去了數據往返存儲的環節,效率極高。
當token的吞吐量效率落地到用戶體驗層面,Jonathan Ross表示,響應時間每縮短 100 毫秒,桌面端用戶參與度就能提升8%,移動端更是高達34%。業界早已形成共識:當用戶體驗的響應時間控制在250到300毫秒以內時,商業收益才能最大化。
根據Groq 官方信息,實測數據顯示Groq LPU在運行Llama 3.3 70B模型時,token生成速度達284tokens/s,首token響應時間僅為0.22s,運行混合專家(MoE)模型時更是突破460 tokens/s。
![]()
![]()
圖片來源:Groq官網
這種極致性能讓Groq斬獲沙特王國15億美元業務承諾資金,也讓英偉達意識到,要統治推理市場需補齊這一短板。
英偉達此前推出的H200、B300等推理優化芯片,本質仍是基于GPU架構的改良,未能突破馮·諾依曼架構的先天局限,而谷歌TPU、AMD MI300等競爭對手,均在專用推理架構上持續發力。
更嚴峻的是,Meta、谷歌等大客戶開始尋求算力供應多元化,Anthropic甚至宣布接入100萬個谷歌TPU構建計算集群。在此背景下,收購Groq成為英偉達快速搶占推理高地、留住核心客戶的最優解。
“英偉達真正擅長的是訓練,在這一領域它是最出色的。英偉達既不提供高速的token處理服務,也沒有低成本的token解決方案,這便是Groq要解決的問題。”
在被英偉達納入麾下之前,Jonathan Ross曾在播客中公開聲明,英偉達與Groq并非競爭對手,二者的產品完全是不同維度的存在。然而事實果真如此嗎?
某機構分析師張簡告訴雷峰網:“英偉達要忌憚的,是Groq代表的“去GPU化”技術路線可能引發的產業變革。英偉達的霸權建立在“GPU+CUDA生態+HBM/CoWoS稀缺產能”的三重護城河上,而Groq的技術路線恰恰繞開了這三大壁壘:可重構架構無需依賴CUDA生態,采用GlobalFoundries和三星代工,不占用臺積電稀缺的CoWoS產能。”
“一旦這條路線跑通,意味著AI芯片的生產門檻將大幅降低,其他設計公司無需依賴稀缺供應鏈就能大規模生產推理芯片。英偉達以200億美元收編Groq,意味著將這條潛在的顛覆路線握在自己手中,確保算力革命的主導權不旁落。”
03
推理市場變天?
“為了成為一名心血管外科醫生,你不可能花費一生95%的時間接受培訓,真正手術的時間只占5%。實際情況恰恰相反:你經過短暫培訓,隨后便會用余生持續實踐這項技能。”對于推理市場未來的演進趨勢,Jonathan Ross曾打過這么一個比方。
2025年初Deepseek橫空出世時,Jonathan Ross將其稱為AI行業的“斯普特尼克時刻”;當下,推理市場也許將再次進入“斯普特尼克時刻”。
據悉,在收購Groq后英偉達會將LPU作為專用的DAC硬件單元嵌入到CUDA生態系統中,以此保持CUDA編程的通用性。短期內,英偉達會通過NVFusion快速集成LPU;長期來看,則會在底層架構和編譯器層面實現協同設計,從而滿足性能場景下的高性能需求。
由于推理場景和訓練場景存在顯著差異,無法通過單一架構解決所有問題,不同推理場景對大模型的工作負載要求各異,所以推理芯片架構將呈現多樣化,需要針對細分場景進行優化。
業內人士爆料,英偉達下一代Feynman GPU或將于2028年集成Groq的LPU單元,采用類似AMD X3D方案的獨立芯片堆疊設計,即利用臺積電的SoIC混合鍵技術將3D V-Cache芯片集成到主計算芯片上。
![]()
可能搭載LPU單元的Feynman芯片,圖片來源:Wccftech
考慮到SRAM的擴展性有限,將其作為單元芯片集成到Feynman GPU中可能并非明智之舉,因為在先進制程上構建SRAM將導致高端硅片的浪費,并大幅增加每片晶圓面積的使用成本,因此英偉達很可能會將LPU單元堆疊到Feynman芯片上。
“這樣一來,像A16(1.6納米)這樣的芯片將用于主Feynman芯片,而獨立的LPU芯片將包含大型SRAM存儲體。此外,為了將這些芯片連在一起,臺積電的混合鍵合技術至關重要,因為它能提供更寬的接口,并且與封裝外存儲器相比,每比特能耗更低。最重要的是,由于A16具有背面供電功能,正面將可用于垂直SRAM連接,從而確保低延遲的解碼響應。”
可要做到上述也絕非易事,目前的主要問題仍在于CUDA在LPU風格執行中的行為方式,因為它需要顯式的內存布局,而CUDA內核設計初衷是為了實現硬件抽象。對于英偉達團隊而言,在AI架構中集成SRAM難度極高,這需要“工程奇跡”來確保LPU-GPU環境得到充分優化。
然而,如果英偉達想要主導推理市場,這或許是其愿意付出的代價。
本文作者長期聚焦海外To B半導體科技巨頭,更多公司動態、行業邏輯、價值投資信息,歡迎添加作者微信 IHAVAPLANB- 交流探討。
注:文中張簡為化名。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.