公眾號記得加星標??,第一時間看推送不會錯過。
最近,英偉達戰略性收購 AI 推理新秀 Groq 的事件,像一顆深水炸彈,在科技界引發了強烈震蕩。這場交易不僅讓 LPU(張量流處理器)背后的 SRAM 技術走向臺前,更引發了一場關于“SRAM 是否會取代 HBM”的行業大辯論。
在近日召開的CES 2026會上,有采訪人問黃仁勛相關的問題中,黃仁勛表示:“如果一切都能裝進 SRAM,那確實不需要HBM,然而。。。”
SRAM和HBM:
電子世界的“口袋”與“倉庫”
要理解這句話的含金量,我們得先搞清楚:這兩個縮寫到底代表了什么?
在計算機世界里,數據存儲遵循一個鐵律:越快的東西越貴、越占地方;越大的東西越慢。
SRAM(靜態隨機存取存儲器)是目前世界上最快的存儲介質之一,直接集成在 CPU/GPU 核心旁邊。它不需要像 DRAM 那樣定時“刷新”電量,只要有電,數據就穩如泰山。形象的來比喻,它就像是你的“襯衫口袋”。伸手即得,速度極快(納秒級),但空間極小,只能放幾張名片(幾百MB)。
HBM(高帶寬存儲器)本質上仍是DRAM(動態隨機存取存儲器),我們電腦/服務器里最常見的內存條,容量大、便宜。只是用3D堆疊 + 超寬接口“貼著”GPU/加速器封裝在一起,追求的是帶寬,而不是把“每次訪問的延遲”降到 SRAM 那個級別。它就好像是你家樓下的“大型倉庫”。容量巨大(幾十GB),搬運貨物的“門”(帶寬)也非常寬,但你得走一段路才能到,存在物理延遲。
為何HBM被挑戰?
過去十年,AI芯片的核心戰場只有一個:訓練。模型參數動輒百億甚至是千億級,其計算強度極高,數據復用率高、可批量處理。在這種模式下:容量第一,帶寬第二,延遲反而不敏感,這正是HBM的舒適區。大容量、堆疊封裝、極高順序帶寬,與 GPU 的大規模并行計算天然匹配。這也是為什么,HBM幾乎成為“AI芯片 = GPU”的默認前提。
但當 AI 走向“推理”階段(即真實世界的使用),規則變了。在應用端也就是到推理階段,特別是人機交互和實時控制場景,延遲才是生命線。
根據Groq的技術文獻,傳統GPU架構(如 NVIDIA A100/H100)高度依賴 HBM。HBM 本質上是 DRAM的垂直堆疊,雖然帶寬驚人,但其存取權重時仍會引入數百納秒的延遲。在 Batch Size = 1(即單次請求、零等待處理)的實時推理場景中,GPU必須頻繁重新加載權重,導致執行停滯,性能劇烈下滑。
這里有一個“出身”問題:如下圖所示,在傳統的GPU內存結構當中,當處理單元引用本地緩存時,會開始繁瑣的緩存填充和回寫過程。這些處理單元屬于流式多處理器(SM)核心,所有核心都在動態競爭共享的 DRAM 控制器。具體而言,80 個核心正在執行線程,實現總共 32 個單指令多線程(SIMT),這意味著總共有 2560 個線程在競爭共享 DRAM 控制器中的 16 個 HBM2e 偽通道。這導致了漫長的等待時間,并因為對共享資源的動態競爭導致了重測序、延遲波動和不可預測的性能,從而造成系統層面的不確定性。
![]()
傳統GPU內存層級結構
(圖源:Groq技術白皮書)
為了掩蓋這種延遲,傳統架構被迫增加“批大小”(Batch Size),即攢夠 256 個請求再一起處理。這在訓練中很有效,但在推理中卻導致了明顯的延遲:正如我們在 ChatGPT 或 Gemini 中看到的,文字往往是“蹦”出來的,而不是像真人對話那樣絲滑瞬時呈現。
SRAM作“主存”為何合理?
那么,為何SRAM作為“主存”,會在推理中突然變得合理?
SRAM不是因為AI才出現的,它一直存在,但長期只被當“緩存(Cache)”使用。在過往發展中,CPU的L1 / L2 / L3 Cache 全是 SRAM,GPU的Register File、本地 Cache 也是 SRAM,此外在NPU / DSP一直有小規模 SRAM。
過去沒有人敢、也沒必要,把SRAM 當“主內存”。原因很現實:面積太大、成本太高、工藝縮放比邏輯電路慢。而且過去幾年,業界普遍存在一種悲觀情緒:SRAM 縮放撞墻了。在臺積電的 5nm 到 3nm 演進中,邏輯晶體管(計算單元)縮小了約 1.6 倍,但 SRAM 單元幾乎沒有縮小(僅約 5%)。這導致在單枚芯片(Die)上,SRAM 占用的面積越來越大,成本飆升。
但 Groq 采取了“反向思維”。既然 SRAM 縮放慢,那我就不再把它當作“昂貴的緩存”,而是利用它在先進制程下極高的開關速度和確定性。Groq 芯片目前主要采用臺積電 14nm/7nm。在這些節點上,SRAM 的技術非常成熟。但Groq官方路線圖是計劃走向 4nm。到了4nm 或更先進的 GAA(全環繞柵極) 架構下,雖然 SRAM 單元面積縮小依然緩慢,但由于靜噪邊際改善,大規模 SRAM 的讀寫穩定性反而更高了。
在技術本質上,SRAM相比DRAM的訪問延遲不是“更快一點”,而是“快一個數量級”。HBM / DRAM的典型訪問延遲大約在100ns,而SRAM僅需1ns。當權重直接常駐在 SRAM 中,不需要Cache 猜測、預取、等待,這不是優化,而是物理層級的改變。
Groq LPU的核心殺手锏是完全拋棄HBM作為主存儲,改用數百MB的片上SRAM存放模型權重。Groq的芯片將SRAM集成在處理器內部,訪問延遲僅為 HBM 的幾分之一。據Groq 官方數據顯示,其片上帶寬高達 80TB/s。
下圖展示了 GroqChip 如何利用異構線程或“直線”線程,即線程不分支,而是對應不同的執行功能單元。數據路徑在兩個方向上完全流水線化。指令垂直流水線化,而數據流向東西方向流動,在功能單元處交叉執行運算,充分利用了局部性。我們可以從內存讀取數值,在向量單元上進行運算,然后將結果存回內存。此外,GroqChip 將計算與內存訪問解耦——這對于實現更高的內存級并行性(MLP)至關重要,使大量讀寫操作可以同時處于在途狀態。這意味著 GroqChip 在單步內即可完成有效的計算與通信,提供低延遲、高性能以及可預測的準確性。
![]()
GroqChip處理器內存架構
(圖源:Groq技術白皮書)
進一步的,下圖展示了 GroqChip 如何高效地展現指令級并行(ILP)、內存級并行(MLP)和數據級并行(DLP),采用獨特的同步計算與通信方法。在開發完成后,控制權交給了軟件端,通過大規模并行編譯器來利用所有這些形式的并發。這促成了 Groq 在 Batch 1 下提供高性能的能力。在其他架構中,訓練通常采用 256 批次,這意味著在應用能提供關于第一張圖像的信息之前,必須處理并“學習”完所有 256 張圖像。而 Groq 在 Batch 1 下運行,圖像一接收就處理(無需等待 256 張湊齊),不僅減少了等待,還提升了準確性。此外,Groq 架構允許開發者無需像在 GPU 或其他傳統架構中那樣去平攤長延遲成本。
![]()
GroqChip處理器內存架構
(圖源:Groq技術白皮書)
所以,SRAM真正的隱性優勢是其確定性。“快”和“每次都一樣快”,是兩件完全不同的事。為什么“不確定延遲”很可怕?看視頻卡一下,你可能只是不爽,但是自動駕駛卡一下,可能已經撞了。
對工業控制、自動駕駛、金融風控、核聚變、能源調度等這些場景來說,“確定性”比“平均性能”更重要。這也是為什么 Groq 在 Argonne 實驗室、金融行業 benchmark 中特別強調“deterministic ML”。在阿貢國家實驗室(Argonne National Laboratory)的托卡馬克核聚變反應堆預測任務中,Groq 的確定性架構在 0.6ms內實現了 19.3 萬次推理(IPS),比Nvidia A100結果高出 600多倍。這是 GPU 體系結構先天不擅長的維度。
![]()
阿貢國家實驗室延遲關鍵型控制系統的性能對比
黃仁勛怎么看?
在近日的CES 2026大會期間,有采訪者問黃仁勛:英偉達已經擁有 CPX 技術,并通過收購 Groq 獲得了推理所需的 SRAM 訪問權限。英偉達的團隊一個月前發表了一篇關于利用 CPX 減少 HBM 使用的論文,建議 GDDR7 可以替代 HBM。展望未來,Grok (=SRAM) + 內部 CPX 的組合是否能讓 HBM 使用量控制在更“可控”的水平?這會對利潤率產生積極影響嗎?
CPX(計算與存儲解耦/壓縮技術) 結合 GDDR7 或 HBM。根據英偉達近期發表的論文,利用 CPX 可以減少對昂貴 HBM 的依賴,甚至在某些場景下用 GDDR7 替代 HBM。
對于上述提問,黃仁勛的答復是:“先解釋各自的優勢,再說明為什么沒那么簡單。CPX 在單位成本的預填充(Prefill)性能上更優。如果一切都能裝進 SRAM,HBM 確實沒必要。然而,問題是這會使模型尺寸縮小約 100 倍。”這就是 SRAM 的致命傷:太占地方,太貴了。 如果你想讓一個千億參數的大模型(如 Llama 3)完全跑在 SRAM 上,你可能需要成百上千顆 Groq 芯片,其成本和電力消耗將是一個天文數字。
黃仁勛強調,“靈活性使我們成為了通用答案。”面對不斷變化的 MoE(混合專家模型)、多模態、甚至是 SSM(狀態空間模型),能夠靈活切換壓力點(NVLink、HBM 或計算單元)的架構才是數據中心 TCO 的最優解。
英偉達收購 Groq 并不代表要全面倒向 SRAM,而是在補齊“極致低延遲推理”這一塊拼圖。黃仁勛指出,數據中心本質上是“有限的電力資源”,而非無限的空間。針對單一工作負載(如特定的極速推理)進行極致優化是可能的,但如果這種優化只能覆蓋 10% 的任務,剩下的電力就會被浪費。有限的電力必須在整個數據中心內得到優化利用,因此靈活性越高越好。
集成度更高的架構也更好——例如,更新 DeepSeek 模型可以瞬間提升數據中心所有 GPU 的表現。更新模型庫可以改善整個數據中心。明白嗎?如果擁有 17 種零散的架構,這個適合那個,那個適合這個,結果就是整體 TCO(總擁有成本)提升并不明顯。“總之,CPX 確實有優勢,但也會降低數據中心的靈活性。”黃仁勛表示。
結論
SRAM并不是突然崛起的新技術,而是在 AI 推理時代,被放到了一個從未承擔過的位置。它的優勢不在于容量或性價比,而在于確定性、能效和極低延遲;它的限制也同樣明確,面積、成本,以及對模型規模的天然約束。
因此,“SRAM 取代 HBM”是一個偽命題,真正的命題是「AI 推理如何實現 TCO 最優解」。推理不是“算力終點”,而是“用量起點”。一個常被忽略的事實是:訓練只發生一次,推理會發生數十億次。訓練像“造發動機”,推理像“上路開車”,造發動機只造一次,但上路會開很多很多次。
所以推理體驗變好(更低延遲、更自然響應)帶來的結果,往往不是“HBM 用得更少”,而是:在追求極致速度的邊緣側(如 AI 眼鏡、工業實時控制)和特定高性能推理場景,SRAM 確實在通過 ASIC 架構蠶食 HBM 的份額;但在大規模數據中心,HBM 依然是承載海量參數的基石;此外,SSD/NAND 則要負責模型分發、冷數據與長上下文存儲擴展。
對于投資者和行業從業者而言,不應押注單一技術的勝負,而應關注存儲層級化帶來的全面機遇。在這個時代,快有快的代價(SRAM 的高昂成本與低密度),慢有慢的平衡(HBM 的高帶寬與通用性),兩者將在 AI 推理的星辰大海中并肩而行。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4285期內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.