網易首頁 > 網易號 > 正文申請入駐

計算所嚴明玉團隊新作： Attention 并非永遠是瓶頸，多 GPU 并不一定更快

2025-12-21 12:05:39　來源: AI科技評論

廣東舉報

分享至

系統實驗表明，模型推理分為計算受限的 Prefill 與內存受限的 Decode。

作者丨鄭佳美

編輯丨岑峰

隨著大語言模型逐漸走向真實應用，推理階段的性能問題正在成為制約落地的關鍵因素。

模型規模不斷增大、上下文持續拉長，再加上 RAG、MoE 等新用法的引入，使得延遲、吞吐和能耗不再只是“調一調參數”的問題，而是直接影響系統架構和算力成本的核心挑戰。

圍繞這些問題，來自中國科學院計算所的嚴明玉團隊，聯合中國電信云計算研究院、浙江實驗室和北京大學的研究者，在論文《A Systematic Characterization of LLM Inference on GPUs》中，對大語言模型在 GPU 上的推理行為進行了系統研究。

不同于以往側重單一模型、單一算子或局部優化的研究路徑，嚴明玉團隊從系統和硬件協同的視角出發，通過大規模實驗，對大語言模型在 GPU 上的推理行為進行了全面刻畫，試圖從根本上回答一個長期困擾工程實踐的問題：大模型推理為什么會呈現出現在這樣的性能特征。

這項工作并沒有直接給出如何優化的現成答案，而是首先建立了一套統一、可解釋的性能認知框架，將 Prefill 與 Decode 的差異上升為系統級的基本規律，并在不同模型規模、不同硬件平臺以及 MoE、RAG 等新型推理范式下進行了驗證。

在這一框架下，推理延遲、資源利用率和能耗不再是孤立的指標，而是隨著工作負載和系統配置發生有規律的變化。這種從現象出發、最終回到系統根因的研究方式，使得這項工作更像是在為大模型推理建立一張可理解、可推演的性能全景圖，而不是提供某個場景下的經驗結論。

論文鏈接：https://arxiv.org/pdf/2512.01644v1

01
一次對大模型推理性能的系統性拆解

嚴明玉團隊的這項工作通過大量有組織的實驗，系統地總結了大語言模型在推理階段的性能規律，而不是停留在零散的經驗觀察上。研究團隊發現，LLM 的推理過程在本質上可以分成兩個完全不同的階段，而且這種差異并不是靠優化就能消除的。

具體來說，第一個階段是 Prefill 階段，主要任務是一次性處理用戶輸入的 prompt。這個階段可以并行執行，核心計算是大規模矩陣乘法，因此計算量大、算得很滿，GPU 的計算單元利用率很高，整體性能主要受限于算力本身。

第二個階段是 Decode 階段，用來逐個生成輸出 token。由于生成過程是一步一步進行的，每一步都需要訪問已經緩存的上下文信息（KV Cache），實際計算量不大，但內存訪問非常頻繁，因此性能瓶頸從算力轉移到了內存帶寬和訪問延遲上。

在此基礎上，論文進一步指出，推理過程中到底是 Prefill 慢還是 Decode 慢，并不是固定的，而是取決于具體的輸入和輸出情況。當輸入較短時，雖然每一步 Decode 的計算不多，但需要執行很多步，因此 Decode 往往成為主要耗時部分。

而當輸入變長時，Prefill 階段需要處理的 token 數迅速增加，其計算量增長更快，在超過某個長度之后就會反過來成為整體延遲的主要來源。這種從 Decode 主導到 Prefill 主導的轉變說明，性能瓶頸更多是由工作負載決定的，而不是模型本身天生慢在哪。

如果進一步拆到模型內部的算子層面，研究團隊發現瓶頸同樣不是固定的。在常見的上下文長度下，Prefill 階段的主要時間往往花在前饋網絡（FFN）上，但在上下文特別長的情況下，由于注意力計算的復雜度增長更快，Attention 會逐漸成為主要瓶頸。

Decode 階段的情況則和模型規模有關：對于較小的模型，頻繁訪問 KV Cache 的 Attention 更容易成為瓶頸；而對于大模型，由于前饋網絡權重更大，FFN 的內存加載成本反而更突出。這說明，單純地說 Attention 是瓶頸或 FFN 是瓶頸都是不準確的，必須結合所處階段、上下文長度和模型規模來判斷。

在性能可預測性方面，論文發現 Prefill 階段的行為非常規律。它的執行時間幾乎只由真正需要計算的輸入 token 數量決定，而且二者之間呈現非常穩定的線性關系。這意味著，只要知道輸入長度和緩存命中情況，就可以比較準確地預測 Prefill 的延遲，這對系統調度和資源規劃非常有用。相比之下，Decode 階段由于是逐步生成，并且受到采樣和串行依賴的影響，性能波動更大，也更難提前預測。

在能耗分析中，論文給出了一個非常直觀但重要的結論：整個推理過程消耗的能量，幾乎全部來自 Decode 階段。輸入有多長，對總能耗影響很小，而輸出生成了多少 token，幾乎直接決定了能耗大小。同時，模型參數越多，總能耗也會隨之增加。這說明，在真實系統中，如果想要降低推理能耗，限制輸出長度往往比優化 Prefill 更有效。

在多 GPU 擴展實驗中，研究團隊發現并行化并不是在所有情況下都有效。Prefill 階段由于計算量大，把計算分攤到多張 GPU 上通常能帶來收益，但 Decode 階段每一步計算都很小，多 GPU 之間的通信和同步反而會成為負擔，導致性能提升不明顯甚至變慢。因此，在 Decode 為主的場景下，使用單 GPU 或較輕量的流水并行往往更合適，這也打破了GPU 越多越快的直覺。

最后，論文還分析了新的推理范式。對于 MoE 模型，推理速度主要取決于每次實際參與計算的參數規模，而不是模型的總參數量，這帶來了明顯的性能優勢，但同時，在 Decode 階段會額外引入專家選擇和調度的開銷，使性能表現更加復雜。

對于RAG 工作流，研究團隊發現隨著外部知識規模變大，系統瓶頸會從 GPU 推理轉移到 CPU 側的檢索和內存訪問上，形成新的性能限制。盡管推理流程變得更加復雜，但 Prefill 和 Decode 在性能上的根本差異依然存在，仍然是理解整體行為的關鍵。

02
面向系統理解的大模型推理實驗框架

為了讓結論更完整、也更容易理解，這篇論文在實驗設計上采用了一種由淺入深的分析思路。研究團隊并不是一開始就研究底層硬件細節，而是先觀察整體推理性能表現，再逐步深入到 GPU 的執行和存儲行為，最后把得到的規律放回到真實系統和新型推理場景中進行驗證。

在實驗平臺方面，論文同時使用了數據中心級的 GPU（A100）和邊緣設備上的 GPU（Jetson AGX Orin）。這樣做的目的，是檢驗前面總結出的性能規律是否只在高端服務器上成立，還是在算力和內存條件更受限的設備上同樣適用。

模型選擇上，研究團隊覆蓋了多種主流的 dense 模型（從 7B 到 32B），同時還引入了一個具有代表性的 MoE 模型，以觀察不同參數規模和不同架構設計對推理性能的影響。為了保證對比公平，所有實驗都在同一套推理框架和相同精度設置下進行，盡量減少實現細節帶來的干擾。

在工作負載設計上，研究團隊并沒有簡單地跑幾組固定 benchmark，而是有針對性地設計了多種輸入和輸出組合。例如，有的任務輸入短、輸出長，有的輸入長、輸出短，還有真實對話數據和可控的合成數據。這樣的設計是為了有意識地制造 Prefill 占主導或 Decode 占主導的不同場景，從而驗證兩階段在不同條件下是否始終表現出不同的性能特征。

在性能分析方法上，論文采用了分層剖析的方式。首先在整體層面上，測量端到端的延遲、吞吐量和能耗，建立對系統行為的直觀認識；接著在階段和算子層面，分析 Prefill 和 Decode 各自占用了多少時間，以及不同算子在其中的作用；最后深入到硬件層面，通過 Roofline 模型、warp 停頓分析，以及緩存命中率和內存帶寬使用情況，來判斷性能究竟是受限于計算還是受限于內存。

在能耗分析中，研究人員通過高頻功率采樣并扣除空閑功耗的方式，盡量保證測量結果的準確性。在涉及 RAG 的實驗中，還額外使用了 CPU 側的性能分析工具，專門分析檢索階段的瓶頸來源。

通過這種從“看現象”到“找原因”的逐步分析過程，論文避免了只憑經驗判斷或簡單相關性分析下結論的問題，使得每一個宏觀層面的性能現象，都能在底層硬件執行機制上找到清晰的解釋。

03
當問題被看清，優化才有方向

這篇論文的意義不在于提出某一種新的優化技巧，而在于建立了一套統一、可解釋的大模型推理性能認知框架。它首次將 Prefill 與 Decode 的階段差異提升為系統級基本規律，并證明這一規律在不同模型規模、硬件平臺和新興推理范式下均成立。

從工程角度看，論文糾正了多個長期存在的直覺性誤解，例如Attention 永遠是瓶頸、多 GPU 一定更快、Prefill 是主要能耗來源等，并給出了明確的反例和機制解釋。這些結論對實際推理服務的部署策略、資源配置和成本控制具有直接指導意義。

從系統研究角度看，這篇內容為后續工作提供了清晰的問題分解方式：優化 Prefill 和優化 Decode 不應混為一談，而應針對各自的根本瓶頸分別設計機制。這一思想對調度器設計、并行策略選擇以及新硬件特性利用都具有啟發作用。

從未來發展看，論文指出了 MoE 和 RAG 等新范式如何重塑瓶頸位置，提示研究者在模型和系統協同設計時需要關注路由開銷、內存局部性和 CPU–GPU 協同，而不僅僅是算力規模。

總體而言，這是一篇以實驗為基礎、以解釋為核心、以系統認知為目標的論文，其價值在于回答了“為什么 LLM 推理會這樣表現”，而不僅是“如何讓它更快一點”。

04
工作背后的研究者

本文通訊作者為中國科學院計算技術研究所的嚴明玉教授。他主要從事計算機體系結構相關研究，研究方向涵蓋圖機器學習、設計空間探索以及復雜計算系統的性能分析等問題。

參考鏈接：https://mingyuyan-ict.github.io/MingyuYan-ICT/

在學術研究方面，嚴明玉教授已在多個國際頂級會議和期刊上發表近 20 篇論文，相關成果發表于 MICRO、HPCA、DAC、ICCAD、IJCAI、IEEE TC、IEEE TPDS 等重要學術平臺，覆蓋體系結構、系統與應用交叉等多個研究領域。

除科研工作外，嚴明玉教授也是 IEEE 和中國計算機學會（CCF）的高級會員，并多次擔任 HPCA、ISCA、MICRO、IJCAI、ISPASS 等國際會議的技術程序委員會委員或審稿人，長期參與相關領域的學術評審與社區建設。

在學術培養與科研經歷方面，他于中國科學院大學獲得博士學位，并曾赴美國加州大學圣塔芭芭拉分校進行聯合培養。其博士論文曾獲得中國計算機學會優秀博士論文獎。此外，他還入選北京市科技新星計劃、中國科學院青年創新促進會，并主持或參與中國科學院青年團隊項目等科研計劃。

總體而言，嚴明玉教授長期致力于從系統視角理解復雜計算負載在硬件平臺上的執行行為，強調通過系統性實驗和硬件行為分析揭示性能瓶頸的形成機理，其研究成果兼具理論深度與工程實踐價值。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.