網易首頁 > 網易號 > 正文申請入駐

推理芯片的四種方案，David Patterson撰文

2026-01-19 09:55:10　來源: 半導體行業觀察

上海舉報

分享至

公眾號記得加星標??，第一時間看推送不會錯過。

編者按

日前，由Xiaoyu Ma和David Patterson聯合署名的文章《Challenges and Research Directions for Large Language Model Inference Hardware》正式發布。這篇文章被發布以后，引起了廣泛關注。文章中，作者圍繞LLM推理芯片的挑戰以及解決方案，給出了建議。

以下為文章正文：

大型語言模型 (LLM) 推理難度很高。底層 Transformer 模型的自回歸解碼階段使得 LLM 推理與訓練有著本質區別。受近期人工智能趨勢的影響，主要挑戰在于內存和互連，而非計算能力。

為了應對這些挑戰，我們重點介紹了四個架構研究方向：高帶寬閃存，可提供 10 倍內存容量，帶寬堪比 HBM；近內存處理和 3D 內存邏輯堆疊，可實現高內存帶寬；以及低延遲互連，可加速通信。雖然我們的研究重點是數據中心人工智能，但我們也探討了這些方案在移動設備上的應用。

引言

當一位作者于 1976 年開始其職業生涯時，計算機體系結構會議上約 40% 的論文來自業界。到 2025 年 ISCA 會議時，這一比例已降至 4% 以下，表明研究與實踐之間幾乎完全脫節。為了幫助恢復二者之間的歷史聯系，我們提出了一些研究方向，如果這些方向得以推進，將有助于解決人工智能行業面臨的一些最嚴峻的硬件挑戰。

大型語言模型 (LLM) 推理正面臨危機。硬件的快速發展推動了人工智能的進步。預計未來 5-8 年，推理芯片的年銷售額將增長 4-6 倍。雖然訓練展現了人工智能的顯著突破，但推理的成本決定了其經濟可行性。隨著這些模型使用量的急劇增長，企業發現維護最先進的模型成本高昂。

新的趨勢使推理變得更加困難。LLM 的最新進展需要更多資源來進行推理：

專家混合模型 (MoE：Mixture of Experts)。與單一的密集前饋模塊不同，MoE 使用數十到數百個專家（DeepSeekv3 為 256 個）進行選擇性調用。這種稀疏性使得模型規模能夠顯著增長，從而提高模型質量，盡管訓練成本僅略有增加。MoE 在幫助訓練的同時，也通過擴展內存和通信能力，加劇了推理過程。
推理模型。推理是一種先思考后行動的技術，旨在提高模型質量。額外的“思考”步驟會在最終答案之前生成一長串“想法”，類似于人們逐步解決問題的過程。思考會顯著增加生成延遲，而長長的想法序列也會占用大量內存。
多模態。LLM 已從文本生成發展到圖像、音頻和視頻生成。更大的數據類型比文本生成需要更多的資源。
長上下文。上下文窗口指的是 LLM 模型在生成答案時可以查看的信息量。更長的上下文有助于提高模型質量，但會增加計算和內存需求。
檢索增強生成 (RAG：Retrieval-Augmented Generation)。RAG 訪問用戶特定的知識庫，獲取相關信息作為額外上下文，以改進 LLM 結果，但這會增加資源需求。
擴散。與順序生成標記的自回歸方法不同，新型擴散方法一步生成所有標記（例如，整幅圖像），然后迭代地對圖像進行去噪，直至達到所需的質量。與上述方法不同，擴散方法只會增加計算需求。

不斷增長的市場和LLM推理面臨的挑戰表明，創新既是機遇也是需求！

當前LLM推理硬件及其效率低下之處

我們首先回顧LLM推理的基礎知識及其在主流AI架構中的主要瓶頸，重點關注數據中心中的LLM。移動設備上的LLM受到不同的限制，因此也需要不同的解決方案（例如，HBM不可行）。

LLM的核心是Transformer，它包含兩個特性截然不同的推理階段：預填充(Prefill)和解碼(Decode) （圖1）。預填充類似于訓練，它同時處理輸入序列中的所有標記，因此本質上是并行的，并且通常受限于計算能力。相比之下，解碼本質上是順序的，因為每個步驟都會生成一個輸出標記（“自回歸:autoregressive”），因此它受限于內存。KV（Key Value）緩存連接這兩個階段，其大小與輸入和輸出序列的長度成正比。盡管在圖1中預填充和解碼同時出現，但它們并非緊密耦合，通常運行在不同的服務器上。分解推理允許使用批處理等軟件優化方法，從而降低解碼過程的內存占用。一項關于高效LLM推理的調查回顧了許多軟件優化方法。

GPU 和 TPU 是數據中心常用的加速器，可用于訓練和推理。歷史上，推理系統通常是在訓練系統的基礎上縮減而來，例如減少芯片數量或使用內存或性能更低的小型芯片。迄今為止，還沒有專門為 LLM 推理設計的 GPU/TPU。由于預填充與訓練類似，而解碼則截然不同，因此 GPU/TPU 在解碼方面面臨兩個挑戰，導致效率低下。

解碼挑戰 1：內存

自回歸解碼使得推理本質上受限于內存，而新的軟件趨勢加劇了這一挑戰。相比之下，硬件發展趨勢則完全不同。

1.AI 處理器面臨著內存瓶頸

目前的數據中心 GPU/TPU 依賴于高帶寬內存 (HBM)，并將多個 HBM 堆棧連接到單個單芯片加速器 ASIC（圖 2 和表 1）。然而，內存帶寬的提升速度遠低于計算浮點運算能力 (FLOPS) 的提升速度。例如，NVIDIA 64位GPU的浮點運算性能

從2012年到2022年增長了80倍，但帶寬僅增長了17倍。這種差距還將繼續擴大。

2.HBM 的成本日益高昂

以單個 HBM 堆棧為例，其容量（美元/GB）和帶寬（美元/GBps）的標準化價格均隨時間推移而上漲。圖 3(a) 顯示，從 2023 年到 2025 年，兩者的價格均增長了 1.35 倍。這一增長是由于隨著每個 HBM 堆棧芯片數量的增加以及 DRAM 密度的增長，制造和封裝難度也隨之增加。相比之下，圖 3(b) 顯示，標準 DDR4 DRAM 的等效成本隨時間推移而下降。從 2022 年到 2025 年，容量成本降至 0.54 倍，帶寬成本降至 0.45 倍。盡管由于意外的需求，所有內存和存儲設備的價格在 2026 年大幅上漲，但我們認為，從長遠來看，HBM 和 DRAM 價格走勢的分化趨勢將持續下去。

3.DRAM 密度增長正在放緩

對于單個 DRAM 芯片而言，其擴展性也令人擔憂。自2014年推出的8Gb DRAM芯片以來，實現四倍增長需要超過10年的時間。此前，四倍增長通常每3-6年發生一次。

4.僅使用SRAM的解決方案已不足以應對挑戰

Cerebras和Groq曾嘗試使用填充SRAM的全光罩芯片來規避DRAM和HBM的挑戰。（Cerebras甚至采用了晶圓級集成。）雖然在公司十年前成立時這種方案看似可行，但LLM很快就超過了芯片上SRAM的容量。兩家公司后來都不得不進行改造，加裝外部DRAM。

解碼挑戰 2：端到端延遲

1.面向用戶的推理意味著低延遲

與耗時數周的訓練不同，推理與實時請求緊密相關，需要在幾秒甚至更短的時間內得到響應。低延遲對于面向用戶的推理至關重要。（批量或離線推理沒有低延遲要求。）根據應用場景的不同，延遲的衡量標準可以是所有輸出標記完成的時間，也可以是第一個標記的生成時間。兩者都存在挑戰：

完成時間挑戰。解碼過程一次生成一個標記，因此輸出序列越長，延遲就越長。較長的輸出序列會拉長延遲，但較長的輸入序列也會降低延遲，因為在解碼和預填充過程中訪問V Cache需要更多時間。每次解碼迭代都存在較高的內存訪問延遲，因為它受限于內存。
第一個標記的生成時間挑戰。較長的輸入序列和隨機數生成器（RAG）會增加生成標記之前的工作量，從而增加第一個標記的生成時間。推理模型也會增加這種延遲，因為它們在第一個用戶可見的tokens之前會生成許多“thought”tokens。

2.互連延遲比帶寬更重要

在 LLM 出現之前，數據中心的推理通常在單個芯片上運行，而訓練則需要超級計算機。超級計算機互連的目標顯然更側重于帶寬而非延遲。LLM 推理改變了這一切：

由于權重較大，LLM 推理現在需要一個多芯片系統，并采用軟件分片技術，這意味著需要頻繁通信。MoE 和長序列模型進一步增加了系統規模，以滿足更大的內存容量需求。
與訓練不同，考慮到 Decode 的批次大小較小，網絡消息的大小通常也較小。對于大型網絡中頻繁發送的小消息而言，延遲比帶寬更重要。

表 2 總結了 Decode 推理的主要挑戰。只有 Diffusion 需要增加計算能力——這相對容易實現——因為它與 Transformer Decode 的本質不同。因此，我們專注于改善內存和互連延遲的有前景的方向，而不是計算能力。最后四行是滿足這些需求的研究機會，接下來將進行介紹。

重新思考LLM推理硬件的四個研究機會

性能/成本指標衡量人工智能系統的效率。現代指標強調實際的性能歸一化、總擁有成本 (TCO)、平均功耗和二氧化碳當量排放量 (CO2e)，這為系統設計提供了新的目標：

性能必須有意義。對于 LLM 解碼推理而言，在大芯片上實現高 FLOPS 并不一定意味著高性能。相反，我們需要高效地擴展內存帶寬和容量，并優化互連速度。
性能必須在數據中心容量范圍內實現，而數據中心容量通常受到功耗、空間和 CO2e 預算的限制。
功耗和 CO2e 是首要的優化目標。功耗影響 TCO 和數據中心容量。功耗和能源清潔度決定了運行 CO2e。制造良率和生命周期決定了隱含 CO2e。

接下來，我們將介紹四個有前景的研究方向，以應對解碼挑戰（表 2 底部）。盡管它們是獨立描述的，但它們是協同作用的；一種架構可以有效地結合其中的許多方向。全面提升性能/總擁有成本、性能/二氧化碳當量和性能/功率。

高帶寬閃存，容量提升 10 倍

高帶寬閃存 (HBF) 通過堆疊閃存芯片（類似于 HBM）的方式，將 HBM 的帶寬與閃存容量相結合（圖 4 (a)）。HBF 可使每個節點的內存容量提升 10 倍，從而縮小系統尺寸，降低功耗、總擁有成本 (TCO)、二氧化碳排放量 (CO2e) 和網絡開銷。表 3 將 HBF 與 HBM 和 DDR DRAM 進行了比較。其他方案的缺點分別是：DDR5 的帶寬、HBM 的容量以及 HBF 的寫入限制和較高的讀取延遲。HBF 的另一個優勢是可持續的容量擴展；閃存容量每三年翻一番，而如上所述，DRAM 的增長速度正在放緩。

需要解決兩個眾所周知的閃存限制：

寫入耐久性有限。寫入/擦除周期會損耗閃存。因此，HBF 必須存儲更新頻率較低的數據，例如推理時的權重或變化緩慢的上下文。
基于頁面的讀取延遲較高。閃存讀取以頁為單位（數十KB），延遲遠高于DRAM（數十微秒）。小數據讀取會降低有效帶寬。

這些問題意味著HBF無法完全取代HBM；系統仍然需要普通DRAM來存儲不適合HBF存儲的數據。

HBF 的加入為 LLM 推理帶來了令人興奮的新功能：

10 倍權重內存(weight memory)。權重在推理過程中會被凍結，因此 HBF 10 倍的容量可以容納更多權重（例如巨型 MoE），從而支持比目前可承受的規模更大的模型。
10 倍上下文內存(context memory)。由于寫入耐久性有限，HBF 不適用于每次查詢或生成標記都會更新的鍵值緩存數據。但是，它適用于變化緩慢的上下文。例如：

LLM 搜索使用的 Web 語料庫，存儲了數十億篇互聯網文檔。
AI 編碼使用的代碼數據庫，存儲了數十億行代碼。
AI 輔導使用的論文語料庫，追蹤了數百萬篇研究論文。

更小的推理系統。內存容量決定了運行模型所需的最小硬件。HBF 可以縮小系統規模，從而提升通信、可靠性和資源分配效率。
更大的資源容量。 HBF 將降低對僅使用 HBM 架構的依賴，并緩解主流內存設備全球短缺的問題。

HBF 也引出了新的研究問題：

軟件如何應對有限的寫入耐久性和基于頁面的高延遲讀??？
系統中傳統內存與 HBF 的比例應該是多少？
我們能否降低 HBF 技術本身的限制？
移動設備和數據中心的 HBF 配置應該有何不同？

內存附近處理技術

（Processing-Near-Memory）實現高帶寬

內存內處理（Processing-in-Memory，PIM）技術誕生于20世紀90年代，它通過在內存芯片上添加小型低功耗處理器來增強內存容量，從而實現高帶寬。雖然PIM提供了卓越的帶寬，但其主要挑戰在于軟件分片和內存邏輯耦合。前者限制了能夠在PIM上良好運行的軟件內核數量，后者則降低了計算邏輯的功耗和面積效率。相比之下，內存附近處理（Processing-Near-Memory，PNM）技術將內存和邏輯放置在附近，但仍然使用分離芯片。PNM的一種形式是3D計算邏輯堆疊（參見③）。

遺憾的是，一些近期的論文模糊了PIM和PNM之間的區別。它們將PIM作為一個通用術語，而不管計算邏輯是否直接放置在內存芯片中。我們在此提出一個簡單而明確的區分：PIM指的是處理器和內存位于同一芯片中的設計，而PNM指的是它們位于相鄰但獨立的芯片上。這種區別使得 PIM 和 PNM 的概念清晰明確。

如果軟件難以使用，硬件優勢就毫無意義，而這正是我們在 PIM 和數據中心 LLM 方面的經驗。表 4 列出了 PNM 在 LLM 推理方面優于 PIM 的原因，盡管 PNM 在帶寬和功耗方面存在不足。具體來說，PIM 需要軟件將 LLM 的內存結構分片成許多很少交互的小塊，才能裝入 32-64MB 的內存塊中；而 PNM 中的分片可以大 1000 倍，從而更容易地對 LLM 進行分區，且通信開銷極低。此外，考慮到 DRAM 技術工藝節點的功耗和散熱預算非常有限，PIM 的計算能力是否足夠也尚不明確。

雖然對于數據中心LLM而言，PNM 優于 PIM，但對于移動設備而言，兩者的比較并不那么明顯。移動設備的能耗更為受限，并且由于單用戶運行，其 LLM 的權重更少、上下文更短、數據類型更小、批處理大小也更小。這些差異簡化了分片，降低了計算和散熱需求，使得 PIM 的弱點不再那么突出，因此 PIM 在移動設備上可能更具可行性。

用于高帶寬的 3D 內存邏輯堆疊

與內存 I/O 位于芯片邊緣的 2D 硬件不同，3D 堆疊（參見圖 4(b)）采用垂直硅通孔 (TSV) 來實現寬而密的內存接口，從而在低功耗下實現高帶寬。

3D 內存邏輯堆疊有兩種版本：

1. 基于 HBM 芯片的計算方案：通過將計算邏輯插入 HBM 基片來復用 HBM 設計。由于內存接口保持不變，帶寬與 HBM 相同，而由于數據路徑縮短，功耗降低了 2-3 倍。

2. 定制 3D 解決方案：通過使用更寬更密的內存接口和更先進的封裝技術，實現比復用 HBM 更高的帶寬和每瓦帶寬。

盡管帶寬和功耗更低，3D 堆疊仍面臨以下挑戰：

1. 散熱。由于表面積較小，3D 設計的散熱難度高于 2D 設計。一種解決方案是通過降低時鐘頻率和電壓來限制計算邏輯的浮點運算次數（FLOPS），因為LLM解碼推理的運算強度本身就很低。

2. 內存邏輯耦合。3D計算邏輯堆疊的內存接口可能需要一個行業標準。

3D堆疊帶來了新的研究問題：

內存帶寬與容量或計算浮點運算次數的比值與現有系統顯著不同。軟件如何適應？
設想一個包含多種內存類型的系統。我們如何高效地映射LLM？
如何與其他內存邏輯堆疊以及主AI處理器（如有必要）進行通信？
各種設計選擇（例如，計算芯片位于頂部還是底部、每個堆疊的內存芯片數量等）在帶寬、功耗、散熱和可靠性方面有哪些權衡？
這些機遇對于移動設備和數據中心LLM加速器有何不同？

低延遲互連

技術①-③有助于降低延遲和吞吐量：更高的內存帶寬可以減少每次解碼迭代的延遲，而每個加速芯片更高的內存容量可以減小系統尺寸，從而節省通信開銷。數據中心另一個有前景的降低延遲方向是重新思考網絡延遲與帶寬之間的權衡，因為推理對互連延遲更為敏感。例如：

高連通性拓撲。具有高連通性的拓撲結構（例如樹形、蜻蜓形和高維環面形）需要的跳數更少，從而降低延遲。這些拓撲結構可能會降低帶寬，但可以改善延遲。
網絡內處理。LLM（低延遲模型）使用的通信集合（例如廣播、全歸約、MoE調度和收集）非常適合網絡內加速，可以同時改善帶寬和延遲。例如，具有網絡內聚合的樹形拓撲結構可以實現低延遲和高吞吐量的全歸約。
AI芯片優化。延遲問題會影響芯片設計，并帶來以下幾種可能的優化：

將到達的小數據包直接存儲到片上 SRAM 中，而不是片外 DRAM；
將計算引擎放置在靠近網絡接口的位置，以減少傳輸時間。

可靠性?？煽啃院突ミB性的協同設計有助于：

本地備用節點可以減少系統故障，并降低在沒有備用節點的情況下將故障作業遷移到其他正常節點所帶來的延遲和吞吐量損失。
如果 LLM 推理不需要完美的通信，則可以通過在消息超時時使用偽數據或先前結果，而不是等待延遲到達的消息，來降低延遲并提供令人滿意的結果質量。

相關工作

高帶寬閃存 (HBF)。SanDisk 最初提出了 HBF，這是一種類似 HBM 的閃存架構，旨在克服其帶寬限制。（SK 海力士后來也加入了開發）微軟的研究人員提出了一種新型內存，該內存專注于讀取性能和高密度，而非寫入性能和保持時間，用于人工智能推理。雖然沒有明確提及，但 HBF 是這種新型人工智能內存的一個具體示例。另一篇研究論文提出將閃存集成到移動處理器中，用于設備端 LLM 推理，并采用 LPDDR 接口來滿足預填充的低帶寬需求，以及采用近閃存處理來滿足解碼的高帶寬需求。

近內存處理。3D 計算邏輯堆疊作為一種帶寬高于 HBM 的技術，越來越受到關注，例如基于 HBM 芯片的計算方案和 AMD 的概念。

在非 3D 領域，三星 AXDIMM9 和 Marvell Structera-A將處理器連接到商用 DDR DRAM 上。前者將計算邏輯集成到 DIMM 緩沖芯片中。后者利用 CXL 接口提高了可編程性并簡化了系統集成。（一篇綜述文章提供了更多 PNM/PIM 的示例。）許多論文討論了在移動設備中使用 PIM/PNM，但這并非本文的重點。

低延遲互連。大量論文描述了低跳數網絡拓撲結構，包括樹形、蜻蜓形和高維環面形。（由于本刊參考文獻數量限制，無法引用。）商用網絡內處理 (PIN) 的示例包括支持交換機內縮減的 NVIDIA NVLink 和 Infiniband 交換機，以及通過 SHARP 實現的多播加速。以太網交換機最近也出現了類似的 AI 工作負載功能。

軟件創新。除了本文重點關注的硬件創新之外，還有豐富的軟硬件協同設計空間，可用于算法和軟件創新，以改進 LLM 推理。例如，Transformer 解碼的自回歸特性是其根本原因之一。一種避免自回歸生成的新算法（例如用于圖像生成的擴散算法）可以極大地簡化人工智能推理硬件。

結論

LLM推理的重要性日益凸顯，難度也隨之增加，而LLM又迫切需要降低成本和延遲，因此，LLM的推理正成為一個極具吸引力的研究方向。自回歸解碼本身就對內存和互連延遲構成重大挑戰，而模態優化（MoE）、推理、多模態數據、RAG以及長輸入/輸出序列等因素更會加劇這一挑戰。

計算機體系結構領域在擁有真實模擬器的情況下，曾為解決這些挑戰做出過巨大貢獻，例如之前在分支預測和緩存設計方面所做的貢獻。由于LLM推理的主要瓶頸在于內存和延遲，因此，基于屋頂線的性能模擬器可以有效地在許多場景下提供初步的性能估算。此外，此類框架還應跟蹤內存容量，探索對性能至關重要的各種分片技術，并使用現代的性能/成本指標。我們希望學術研究人員能夠抓住這一機遇，加速人工智能研究。

當前的人工智能硬件理念——采用高浮點運算性能（FLOPS）的全光罩芯片、多個HBM堆棧以及帶寬優化的互連——與LLM解碼推理并不匹配。盡管許多研究人員致力于數據中心的計算，但我們建議從四個方面改進內存和網絡：HBF、PNM、3D堆疊和低延遲互連。此外，關注數據中心容量、系統功耗和碳足跡的新型性能/成本指標，相比傳統指標，提供了新的機遇。HBF、PNM、PIM和3D堆疊的受限版本也可能適用于移動設備的LLM。

這些進展將促進各方合作，共同推進世界亟需的重要創新，以實現經濟實惠的AI推理。

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯系半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4292期內容，歡迎關注。

加星標??第一時間看推送

求推薦

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.