<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      0
      分享至


      系統實驗表明,模型推理分為計算受限的 Prefill 與內存受限的 Decode。

      作者丨鄭佳美

      編輯丨岑峰

      隨著大語言模型逐漸走向真實應用,推理階段的性能問題正在成為制約落地的關鍵因素。

      模型規模不斷增大、上下文持續拉長,再加上 RAG、MoE 等新用法的引入,使得延遲、吞吐和能耗不再只是“調一調參數”的問題,而是直接影響系統架構和算力成本的核心挑戰。

      圍繞這些問題,來自中國科學院計算所的嚴明玉團隊,聯合中國電信云計算研究院、浙江實驗室和北京大學的研究者,在論文《A Systematic Characterization of LLM Inference on GPUs》中,對大語言模型在 GPU 上的推理行為進行了系統研究。

      不同于以往側重單一模型、單一算子或局部優化的研究路徑,嚴明玉團隊從系統和硬件協同的視角出發,通過大規模實驗,對大語言模型在 GPU 上的推理行為進行了全面刻畫,試圖從根本上回答一個長期困擾工程實踐的問題:大模型推理為什么會呈現出現在這樣的性能特征

      這項工作并沒有直接給出如何優化的現成答案,而是首先建立了一套統一、可解釋的性能認知框架,將 Prefill 與 Decode 的差異上升為系統級的基本規律,并在不同模型規模、不同硬件平臺以及 MoE、RAG 等新型推理范式下進行了驗證。

      在這一框架下,推理延遲、資源利用率和能耗不再是孤立的指標,而是隨著工作負載和系統配置發生有規律的變化。這種從現象出發、最終回到系統根因的研究方式,使得這項工作更像是在為大模型推理建立一張可理解、可推演的性能全景圖,而不是提供某個場景下的經驗結論。


      論文鏈接:https://arxiv.org/pdf/2512.01644v1

      01
      一次對大模型推理性能的系統性拆解

      嚴明玉團隊的這項工作通過大量有組織的實驗,系統地總結了大語言模型在推理階段的性能規律,而不是停留在零散的經驗觀察上。研究團隊發現,LLM 的推理過程在本質上可以分成兩個完全不同的階段,而且這種差異并不是靠優化就能消除的。


      具體來說,第一個階段是 Prefill 階段,主要任務是一次性處理用戶輸入的 prompt。這個階段可以并行執行,核心計算是大規模矩陣乘法,因此計算量大、算得很滿,GPU 的計算單元利用率很高,整體性能主要受限于算力本身。


      第二個階段是 Decode 階段,用來逐個生成輸出 token。由于生成過程是一步一步進行的,每一步都需要訪問已經緩存的上下文信息(KV Cache),實際計算量不大,但內存訪問非常頻繁,因此性能瓶頸從算力轉移到了內存帶寬和訪問延遲上。


      在此基礎上,論文進一步指出,推理過程中到底是 Prefill 慢還是 Decode 慢,并不是固定的,而是取決于具體的輸入和輸出情況。當輸入較短時,雖然每一步 Decode 的計算不多,但需要執行很多步,因此 Decode 往往成為主要耗時部分。

      而當輸入變長時,Prefill 階段需要處理的 token 數迅速增加,其計算量增長更快,在超過某個長度之后就會反過來成為整體延遲的主要來源。這種從 Decode 主導到 Prefill 主導的轉變說明,性能瓶頸更多是由工作負載決定的,而不是模型本身天生慢在哪。


      如果進一步拆到模型內部的算子層面,研究團隊發現瓶頸同樣不是固定的。在常見的上下文長度下,Prefill 階段的主要時間往往花在前饋網絡(FFN)上,但在上下文特別長的情況下,由于注意力計算的復雜度增長更快,Attention 會逐漸成為主要瓶頸。


      Decode 階段的情況則和模型規模有關:對于較小的模型,頻繁訪問 KV Cache 的 Attention 更容易成為瓶頸;而對于大模型,由于前饋網絡權重更大,FFN 的內存加載成本反而更突出。這說明,單純地說 Attention 是瓶頸或 FFN 是瓶頸都是不準確的,必須結合所處階段、上下文長度和模型規模來判斷。


      性能可預測性方面,論文發現 Prefill 階段的行為非常規律。它的執行時間幾乎只由真正需要計算的輸入 token 數量決定,而且二者之間呈現非常穩定的線性關系。這意味著,只要知道輸入長度和緩存命中情況,就可以比較準確地預測 Prefill 的延遲,這對系統調度和資源規劃非常有用。相比之下,Decode 階段由于是逐步生成,并且受到采樣和串行依賴的影響,性能波動更大,也更難提前預測。


      能耗分析中,論文給出了一個非常直觀但重要的結論:整個推理過程消耗的能量,幾乎全部來自 Decode 階段。輸入有多長,對總能耗影響很小,而輸出生成了多少 token,幾乎直接決定了能耗大小。同時,模型參數越多,總能耗也會隨之增加。這說明,在真實系統中,如果想要降低推理能耗,限制輸出長度往往比優化 Prefill 更有效。


      多 GPU 擴展實驗中,研究團隊發現并行化并不是在所有情況下都有效。Prefill 階段由于計算量大,把計算分攤到多張 GPU 上通常能帶來收益,但 Decode 階段每一步計算都很小,多 GPU 之間的通信和同步反而會成為負擔,導致性能提升不明顯甚至變慢。因此,在 Decode 為主的場景下,使用單 GPU 或較輕量的流水并行往往更合適,這也打破了GPU 越多越快的直覺。


      最后,論文還分析了新的推理范式。對于 MoE 模型,推理速度主要取決于每次實際參與計算的參數規模,而不是模型的總參數量,這帶來了明顯的性能優勢,但同時,在 Decode 階段會額外引入專家選擇和調度的開銷,使性能表現更加復雜。


      對于RAG 工作流,研究團隊發現隨著外部知識規模變大,系統瓶頸會從 GPU 推理轉移到 CPU 側的檢索和內存訪問上,形成新的性能限制。盡管推理流程變得更加復雜,但 Prefill 和 Decode 在性能上的根本差異依然存在,仍然是理解整體行為的關鍵。


      02
      面向系統理解的大模型推理實驗框架

      為了讓結論更完整、也更容易理解,這篇論文在實驗設計上采用了一種由淺入深的分析思路。研究團隊并不是一開始就研究底層硬件細節,而是先觀察整體推理性能表現,再逐步深入到 GPU 的執行和存儲行為,最后把得到的規律放回到真實系統和新型推理場景中進行驗證。

      實驗平臺方面,論文同時使用了數據中心級的 GPU(A100)和邊緣設備上的 GPU(Jetson AGX Orin)。這樣做的目的,是檢驗前面總結出的性能規律是否只在高端服務器上成立,還是在算力和內存條件更受限的設備上同樣適用。


      模型選擇上,研究團隊覆蓋了多種主流的 dense 模型(從 7B 到 32B),同時還引入了一個具有代表性的 MoE 模型,以觀察不同參數規模和不同架構設計對推理性能的影響。為了保證對比公平,所有實驗都在同一套推理框架和相同精度設置下進行,盡量減少實現細節帶來的干擾。


      工作負載設計上,研究團隊并沒有簡單地跑幾組固定 benchmark,而是有針對性地設計了多種輸入和輸出組合。例如,有的任務輸入短、輸出長,有的輸入長、輸出短,還有真實對話數據和可控的合成數據。這樣的設計是為了有意識地制造 Prefill 占主導或 Decode 占主導的不同場景,從而驗證兩階段在不同條件下是否始終表現出不同的性能特征。


      性能分析方法上,論文采用了分層剖析的方式。首先在整體層面上,測量端到端的延遲、吞吐量和能耗,建立對系統行為的直觀認識;接著在階段和算子層面,分析 Prefill 和 Decode 各自占用了多少時間,以及不同算子在其中的作用;最后深入到硬件層面,通過 Roofline 模型、warp 停頓分析,以及緩存命中率和內存帶寬使用情況,來判斷性能究竟是受限于計算還是受限于內存。


      能耗分析中,研究人員通過高頻功率采樣并扣除空閑功耗的方式,盡量保證測量結果的準確性。在涉及 RAG 的實驗中,還額外使用了 CPU 側的性能分析工具,專門分析檢索階段的瓶頸來源。

      通過這種從“看現象”到“找原因”的逐步分析過程,論文避免了只憑經驗判斷或簡單相關性分析下結論的問題,使得每一個宏觀層面的性能現象,都能在底層硬件執行機制上找到清晰的解釋。

      03
      當問題被看清,優化才有方向

      這篇論文的意義不在于提出某一種新的優化技巧,而在于建立了一套統一、可解釋的大模型推理性能認知框架。它首次將 Prefill 與 Decode 的階段差異提升為系統級基本規律,并證明這一規律在不同模型規模、硬件平臺和新興推理范式下均成立。

      從工程角度看,論文糾正了多個長期存在的直覺性誤解,例如Attention 永遠是瓶頸、多 GPU 一定更快、Prefill 是主要能耗來源等,并給出了明確的反例和機制解釋。這些結論對實際推理服務的部署策略、資源配置和成本控制具有直接指導意義。

      從系統研究角度看,這篇內容為后續工作提供了清晰的問題分解方式:優化 Prefill 和優化 Decode 不應混為一談,而應針對各自的根本瓶頸分別設計機制。這一思想對調度器設計、并行策略選擇以及新硬件特性利用都具有啟發作用。

      從未來發展看,論文指出了 MoE 和 RAG 等新范式如何重塑瓶頸位置,提示研究者在模型和系統協同設計時需要關注路由開銷、內存局部性和 CPU–GPU 協同,而不僅僅是算力規模。

      總體而言,這是一篇以實驗為基礎、以解釋為核心、以系統認知為目標的論文,其價值在于回答了“為什么 LLM 推理會這樣表現”,而不僅是“如何讓它更快一點”。

      04
      工作背后的研究者

      本文通訊作者為中國科學院計算技術研究所的嚴明玉教授。他主要從事計算機體系結構相關研究,研究方向涵蓋圖機器學習、設計空間探索以及復雜計算系統的性能分析等問題。


      參考鏈接:https://mingyuyan-ict.github.io/MingyuYan-ICT/

      在學術研究方面,嚴明玉教授已在多個國際頂級會議和期刊上發表近 20 篇論文,相關成果發表于 MICRO、HPCA、DAC、ICCAD、IJCAI、IEEE TC、IEEE TPDS 等重要學術平臺,覆蓋體系結構、系統與應用交叉等多個研究領域。

      除科研工作外,嚴明玉教授也是 IEEE 和中國計算機學會(CCF)的高級會員,并多次擔任 HPCA、ISCA、MICRO、IJCAI、ISPASS 等國際會議的技術程序委員會委員或審稿人,長期參與相關領域的學術評審與社區建設。

      在學術培養與科研經歷方面,他于中國科學院大學獲得博士學位,并曾赴美國加州大學圣塔芭芭拉分校進行聯合培養。其博士論文曾獲得中國計算機學會優秀博士論文獎。此外,他還入選北京市科技新星計劃、中國科學院青年創新促進會,并主持或參與中國科學院青年團隊項目等科研計劃。

      總體而言,嚴明玉教授長期致力于從系統視角理解復雜計算負載在硬件平臺上的執行行為,強調通過系統性實驗和硬件行為分析揭示性能瓶頸的形成機理,其研究成果兼具理論深度與工程實踐價值。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣州男子因狗吠亂拉投毒致寵物狗死亡,法院最終判決

      廣州男子因狗吠亂拉投毒致寵物狗死亡,法院最終判決

      愛下廚的阿釃
      2026-02-06 17:10:03
      中國農業銀行河北省分行原黨委委員、副行長陳元良被開除黨籍

      中國農業銀行河北省分行原黨委委員、副行長陳元良被開除黨籍

      澎湃新聞
      2026-02-06 15:45:06
      體面分手!哈登聲明揭露真相:我從未申請離隊,只是看不到未來

      體面分手!哈登聲明揭露真相:我從未申請離隊,只是看不到未來

      鍵侃籃球
      2026-02-07 02:19:56
      馬未都:我身價至少100億,但這點錢,跟我母親比,我就是個貧農

      馬未都:我身價至少100億,但這點錢,跟我母親比,我就是個貧農

      忠于法紀
      2026-01-15 22:08:28
      成功了!中國向世界宣布重大科技成果

      成功了!中國向世界宣布重大科技成果

      元爸體育
      2026-02-04 16:44:45
      第一批獨生子女的扎心現實:父母去世后,成了舉目無親的“孤兒”

      第一批獨生子女的扎心現實:父母去世后,成了舉目無親的“孤兒”

      千秋文化
      2026-02-01 20:31:47
      第三次世界大戰導火索如果中國攔截了美國的

      第三次世界大戰導火索如果中國攔截了美國的

      林子說事
      2026-02-07 00:57:11
      霍金也被愛潑斯坦檔案害慘了,都癱瘓成這樣,真的還能玩女人嗎?

      霍金也被愛潑斯坦檔案害慘了,都癱瘓成這樣,真的還能玩女人嗎?

      我心縱橫天地間
      2026-02-05 19:14:54
      終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

      終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

      福建平子
      2026-01-28 10:52:25
      媒體人:申花吸金能力在中超第一檔,胸前廣告贊助額每年兩億元

      媒體人:申花吸金能力在中超第一檔,胸前廣告贊助額每年兩億元

      懂球帝
      2026-02-07 01:04:18
      11歲玥兒罕見穿黑衣現身,眼神哀傷克制:她其實什么都懂

      11歲玥兒罕見穿黑衣現身,眼神哀傷克制:她其實什么都懂

      橙星文娛
      2026-02-05 17:06:04
      逆行救出51人的劉海洋轉院至長沙,病房里向女兒重述救援過程:這就是爸爸的警察故事

      逆行救出51人的劉海洋轉院至長沙,病房里向女兒重述救援過程:這就是爸爸的警察故事

      瀟湘晨報
      2026-02-06 14:57:30
      賴清德喊話大陸對話,提出兩岸有三大共同敵人,國臺辦:有個前提

      賴清德喊話大陸對話,提出兩岸有三大共同敵人,國臺辦:有個前提

      午夜搭車a
      2026-02-07 02:23:47
      最新任命!查爾斯宣布由威廉王子代替,哈里王子不得不“妥協”

      最新任命!查爾斯宣布由威廉王子代替,哈里王子不得不“妥協”

      夜深愛雜談
      2026-02-06 17:37:17
      大反轉!向嫣然醫院捐款429.2萬元?李亞鵬哽咽:感謝董宇輝!

      大反轉!向嫣然醫院捐款429.2萬元?李亞鵬哽咽:感謝董宇輝!

      小娛樂悠悠
      2026-02-06 09:09:39
      樊振東球隊三天內三位實力隊友接連宣布離隊,冠軍陣容解體。

      樊振東球隊三天內三位實力隊友接連宣布離隊,冠軍陣容解體。

      章民解說體育
      2026-02-06 04:33:53
      正式復出!WTA多哈1000簽表:鄭欽文首秀對手出爐,或戰萊巴金娜

      正式復出!WTA多哈1000簽表:鄭欽文首秀對手出爐,或戰萊巴金娜

      大秦壁虎白話體育
      2026-02-06 20:51:54
      訪華回國后,斯塔默日子不好過,被逼到公開道歉,首相當不成了?

      訪華回國后,斯塔默日子不好過,被逼到公開道歉,首相當不成了?

      燦若銀爛
      2026-02-07 03:20:27
      中央定調,延遲退休實施后,每晚1年退休,養老金能增加6%嗎?

      中央定調,延遲退休實施后,每晚1年退休,養老金能增加6%嗎?

      另子維愛讀史
      2026-02-05 17:45:59
      戲子誤國!離春節不到20天,4位明星相繼塌房,一個比一個荒唐

      戲子誤國!離春節不到20天,4位明星相繼塌房,一個比一個荒唐

      往史過眼云煙
      2026-02-06 16:40:38
      2026-02-07 04:16:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7071文章數 20728關注度
      往期回顧 全部

      科技要聞

      獨角獸版圖巨變:SpaceX奔萬億 中美差在哪

      頭條要聞

      電動車行業"老三"沖刺上市 分股東2億克扣員工社保3億

      頭條要聞

      電動車行業"老三"沖刺上市 分股東2億克扣員工社保3億

      體育要聞

      西甲射手榜第2,身價不到姆巴佩1/40

      娛樂要聞

      微博之夜搶C風波 楊冪工作室9字討說法

      財經要聞

      愛爾眼科董事長旗下7家精神病院騙保

      汽車要聞

      寶馬"本命年"關鍵詞:20款新車與"新世代"耐力賽

      態度原創

      家居
      教育
      房產
      游戲
      數碼

      家居要聞

      現代輕奢 溫馨治愈系

      教育要聞

      為什么留學機構沒有好的老師?

      房產要聞

      新春三亞置業,看過這個熱盤再說!

      T2總裁回應GTA6爭議:給他愛新DLC力證老作熱度不減

      數碼要聞

      零刻SER10 Max迷你主機上市:AI 9 HX 470,0+0款4499元

      無障礙瀏覽 進入關懷版