網易首頁 > 網易號 > 正文申請入駐

SRAM，取代HBM？

2026-01-12 09:34:16　來源: 半導體行業觀察

上海舉報

分享至

公眾號記得加星標??，第一時間看推送不會錯過。

最近，英偉達戰略性收購 AI 推理新秀 Groq 的事件，像一顆深水炸彈，在科技界引發了強烈震蕩。這場交易不僅讓 LPU（張量流處理器）背后的 SRAM 技術走向臺前，更引發了一場關于“SRAM 是否會取代 HBM”的行業大辯論。

在近日召開的CES 2026會上，有采訪人問黃仁勛相關的問題中，黃仁勛表示：“如果一切都能裝進 SRAM，那確實不需要HBM，然而。。。”

SRAM和HBM：

電子世界的“口袋”與“倉庫”

要理解這句話的含金量，我們得先搞清楚：這兩個縮寫到底代表了什么？

在計算機世界里，數據存儲遵循一個鐵律：越快的東西越貴、越占地方；越大的東西越慢。

SRAM（靜態隨機存取存儲器）是目前世界上最快的存儲介質之一，直接集成在 CPU/GPU 核心旁邊。它不需要像 DRAM 那樣定時“刷新”電量，只要有電，數據就穩如泰山。形象的來比喻，它就像是你的“襯衫口袋”。伸手即得，速度極快（納秒級），但空間極小，只能放幾張名片（幾百MB）。

HBM（高帶寬存儲器）本質上仍是DRAM（動態隨機存取存儲器），我們電腦/服務器里最常見的內存條，容量大、便宜。只是用3D堆疊 + 超寬接口“貼著”GPU/加速器封裝在一起，追求的是帶寬，而不是把“每次訪問的延遲”降到 SRAM 那個級別。它就好像是你家樓下的“大型倉庫”。容量巨大（幾十GB），搬運貨物的“門”（帶寬）也非常寬，但你得走一段路才能到，存在物理延遲。

為何HBM被挑戰？

過去十年，AI芯片的核心戰場只有一個：訓練。模型參數動輒百億甚至是千億級，其計算強度極高，數據復用率高、可批量處理。在這種模式下：容量第一，帶寬第二，延遲反而不敏感，這正是HBM的舒適區。大容量、堆疊封裝、極高順序帶寬，與 GPU 的大規模并行計算天然匹配。這也是為什么，HBM幾乎成為“AI芯片 = GPU”的默認前提。

但當 AI 走向“推理”階段（即真實世界的使用），規則變了。在應用端也就是到推理階段，特別是人機交互和實時控制場景，延遲才是生命線。

根據Groq的技術文獻，傳統GPU架構（如 NVIDIA A100/H100）高度依賴 HBM。HBM 本質上是 DRAM的垂直堆疊，雖然帶寬驚人，但其存取權重時仍會引入數百納秒的延遲。在 Batch Size = 1（即單次請求、零等待處理）的實時推理場景中，GPU必須頻繁重新加載權重，導致執行停滯，性能劇烈下滑。

這里有一個“出身”問題：如下圖所示，在傳統的GPU內存結構當中，當處理單元引用本地緩存時，會開始繁瑣的緩存填充和回寫過程。這些處理單元屬于流式多處理器（SM）核心，所有核心都在動態競爭共享的 DRAM 控制器。具體而言，80 個核心正在執行線程，實現總共 32 個單指令多線程（SIMT），這意味著總共有 2560 個線程在競爭共享 DRAM 控制器中的 16 個 HBM2e 偽通道。這導致了漫長的等待時間，并因為對共享資源的動態競爭導致了重測序、延遲波動和不可預測的性能，從而造成系統層面的不確定性。

傳統GPU內存層級結構

（圖源：Groq技術白皮書）

為了掩蓋這種延遲，傳統架構被迫增加“批大小”（Batch Size），即攢夠 256 個請求再一起處理。這在訓練中很有效，但在推理中卻導致了明顯的延遲：正如我們在 ChatGPT 或 Gemini 中看到的，文字往往是“蹦”出來的，而不是像真人對話那樣絲滑瞬時呈現。

SRAM作“主存”為何合理？

那么，為何SRAM作為“主存”，會在推理中突然變得合理？

SRAM不是因為AI才出現的，它一直存在，但長期只被當“緩存（Cache）”使用。在過往發展中，CPU的L1 / L2 / L3 Cache 全是 SRAM，GPU的Register File、本地 Cache 也是 SRAM，此外在NPU / DSP一直有小規模 SRAM。

過去沒有人敢、也沒必要，把SRAM 當“主內存”。原因很現實：面積太大、成本太高、工藝縮放比邏輯電路慢。而且過去幾年，業界普遍存在一種悲觀情緒：SRAM 縮放撞墻了。在臺積電的 5nm 到 3nm 演進中，邏輯晶體管（計算單元）縮小了約 1.6 倍，但 SRAM 單元幾乎沒有縮小（僅約 5%）。這導致在單枚芯片（Die）上，SRAM 占用的面積越來越大，成本飆升。

但 Groq 采取了“反向思維”。既然 SRAM 縮放慢，那我就不再把它當作“昂貴的緩存”，而是利用它在先進制程下極高的開關速度和確定性。Groq 芯片目前主要采用臺積電 14nm/7nm。在這些節點上，SRAM 的技術非常成熟。但Groq官方路線圖是計劃走向 4nm。到了4nm 或更先進的 GAA（全環繞柵極）架構下，雖然 SRAM 單元面積縮小依然緩慢，但由于靜噪邊際改善，大規模 SRAM 的讀寫穩定性反而更高了。

在技術本質上，SRAM相比DRAM的訪問延遲不是“更快一點”，而是“快一個數量級”。HBM / DRAM的典型訪問延遲大約在100ns，而SRAM僅需1ns。當權重直接常駐在 SRAM 中，不需要Cache 猜測、預取、等待，這不是優化，而是物理層級的改變。

Groq LPU的核心殺手锏是完全拋棄HBM作為主存儲，改用數百MB的片上SRAM存放模型權重。Groq的芯片將SRAM集成在處理器內部，訪問延遲僅為 HBM 的幾分之一。據Groq 官方數據顯示，其片上帶寬高達 80TB/s。

下圖展示了 GroqChip 如何利用異構線程或“直線”線程，即線程不分支，而是對應不同的執行功能單元。數據路徑在兩個方向上完全流水線化。指令垂直流水線化，而數據流向東西方向流動，在功能單元處交叉執行運算，充分利用了局部性。我們可以從內存讀取數值，在向量單元上進行運算，然后將結果存回內存。此外，GroqChip 將計算與內存訪問解耦——這對于實現更高的內存級并行性（MLP）至關重要，使大量讀寫操作可以同時處于在途狀態。這意味著 GroqChip 在單步內即可完成有效的計算與通信，提供低延遲、高性能以及可預測的準確性。

GroqChip處理器內存架構

（圖源：Groq技術白皮書）

進一步的，下圖展示了 GroqChip 如何高效地展現指令級并行（ILP）、內存級并行（MLP）和數據級并行（DLP），采用獨特的同步計算與通信方法。在開發完成后，控制權交給了軟件端，通過大規模并行編譯器來利用所有這些形式的并發。這促成了 Groq 在 Batch 1 下提供高性能的能力。在其他架構中，訓練通常采用 256 批次，這意味著在應用能提供關于第一張圖像的信息之前，必須處理并“學習”完所有 256 張圖像。而 Groq 在 Batch 1 下運行，圖像一接收就處理（無需等待 256 張湊齊），不僅減少了等待，還提升了準確性。此外，Groq 架構允許開發者無需像在 GPU 或其他傳統架構中那樣去平攤長延遲成本。

GroqChip處理器內存架構

（圖源：Groq技術白皮書）

所以，SRAM真正的隱性優勢是其確定性。“快”和“每次都一樣快”，是兩件完全不同的事。為什么“不確定延遲”很可怕？看視頻卡一下，你可能只是不爽，但是自動駕駛卡一下，可能已經撞了。

對工業控制、自動駕駛、金融風控、核聚變、能源調度等這些場景來說，“確定性”比“平均性能”更重要。這也是為什么 Groq 在 Argonne 實驗室、金融行業 benchmark 中特別強調“deterministic ML”。在阿貢國家實驗室（Argonne National Laboratory）的托卡馬克核聚變反應堆預測任務中，Groq 的確定性架構在 0.6ms內實現了 19.3 萬次推理（IPS），比Nvidia A100結果高出 600多倍。這是 GPU 體系結構先天不擅長的維度。

阿貢國家實驗室延遲關鍵型控制系統的性能對比

黃仁勛怎么看？

在近日的CES 2026大會期間，有采訪者問黃仁勛：英偉達已經擁有 CPX 技術，并通過收購 Groq 獲得了推理所需的 SRAM 訪問權限。英偉達的團隊一個月前發表了一篇關于利用 CPX 減少 HBM 使用的論文，建議 GDDR7 可以替代 HBM。展望未來，Grok (=SRAM) + 內部 CPX 的組合是否能讓 HBM 使用量控制在更“可控”的水平？這會對利潤率產生積極影響嗎？

CPX（計算與存儲解耦/壓縮技術）結合 GDDR7 或 HBM。根據英偉達近期發表的論文，利用 CPX 可以減少對昂貴 HBM 的依賴，甚至在某些場景下用 GDDR7 替代 HBM。

對于上述提問，黃仁勛的答復是：“先解釋各自的優勢，再說明為什么沒那么簡單。CPX 在單位成本的預填充（Prefill）性能上更優。如果一切都能裝進 SRAM，HBM 確實沒必要。然而，問題是這會使模型尺寸縮小約 100 倍。”這就是 SRAM 的致命傷：太占地方，太貴了。如果你想讓一個千億參數的大模型（如 Llama 3）完全跑在 SRAM 上，你可能需要成百上千顆 Groq 芯片，其成本和電力消耗將是一個天文數字。

黃仁勛強調，“靈活性使我們成為了通用答案。”面對不斷變化的 MoE（混合專家模型）、多模態、甚至是 SSM（狀態空間模型），能夠靈活切換壓力點（NVLink、HBM 或計算單元）的架構才是數據中心 TCO 的最優解。

英偉達收購 Groq 并不代表要全面倒向 SRAM，而是在補齊“極致低延遲推理”這一塊拼圖。黃仁勛指出，數據中心本質上是“有限的電力資源”，而非無限的空間。針對單一工作負載（如特定的極速推理）進行極致優化是可能的，但如果這種優化只能覆蓋 10% 的任務，剩下的電力就會被浪費。有限的電力必須在整個數據中心內得到優化利用，因此靈活性越高越好。

集成度更高的架構也更好——例如，更新 DeepSeek 模型可以瞬間提升數據中心所有 GPU 的表現。更新模型庫可以改善整個數據中心。明白嗎？如果擁有 17 種零散的架構，這個適合那個，那個適合這個，結果就是整體 TCO（總擁有成本）提升并不明顯。“總之，CPX 確實有優勢，但也會降低數據中心的靈活性。”黃仁勛表示。

結論

SRAM并不是突然崛起的新技術，而是在 AI 推理時代，被放到了一個從未承擔過的位置。它的優勢不在于容量或性價比，而在于確定性、能效和極低延遲；它的限制也同樣明確，面積、成本，以及對模型規模的天然約束。

因此，“SRAM 取代 HBM”是一個偽命題，真正的命題是「AI 推理如何實現 TCO 最優解」。推理不是“算力終點”，而是“用量起點”。一個常被忽略的事實是：訓練只發生一次，推理會發生數十億次。訓練像“造發動機”，推理像“上路開車”，造發動機只造一次，但上路會開很多很多次。

所以推理體驗變好（更低延遲、更自然響應）帶來的結果，往往不是“HBM 用得更少”，而是：在追求極致速度的邊緣側（如 AI 眼鏡、工業實時控制）和特定高性能推理場景，SRAM 確實在通過 ASIC 架構蠶食 HBM 的份額；但在大規模數據中心，HBM 依然是承載海量參數的基石；此外，SSD/NAND 則要負責模型分發、冷數據與長上下文存儲擴展。

對于投資者和行業從業者而言，不應押注單一技術的勝負，而應關注存儲層級化帶來的全面機遇。在這個時代，快有快的代價（SRAM 的高昂成本與低密度），慢有慢的平衡（HBM 的高帶寬與通用性），兩者將在 AI 推理的星辰大海中并肩而行。

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯系半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4285期內容，歡迎關注。

加星標??第一時間看推送

求推薦

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.