![]()
演講嘉賓|曾書(shū)霖 博士
編輯|Kitty
策劃|QCon 全球軟件開(kāi)發(fā)大會(huì)
AI 2.0 模型對(duì)算力和數(shù)據(jù)的需求激增,導(dǎo)致硬件系統(tǒng)的能耗開(kāi)銷(xiāo)逐漸“供不應(yīng)求”,亟需軟硬協(xié)同為 AI 行業(yè)提供高質(zhì)量的 AI 系統(tǒng)能效( Tokens/J) 。本文整理自無(wú)問(wèn)芯穹總經(jīng)理曾書(shū)霖博士在 2025 年 QCon 全球軟件開(kāi)發(fā)大會(huì)(上海站) 的演講 “AI 2.0 時(shí)代的大模型推理:從模型到硬件的協(xié)同優(yōu)化”。他介紹了軟硬件協(xié)同優(yōu)化以提升智能系統(tǒng)能效的研究成果,包括模型稀疏量化壓縮、高效推理系統(tǒng)設(shè)計(jì)與大模型加速器設(shè)計(jì)。并且結(jié)合華為昇騰集群的工程實(shí)踐,探討下一代 AI 推理系統(tǒng)的演進(jìn)趨勢(shì)。
以下是演講實(shí)錄(經(jīng) InfoQ 進(jìn)行不改變?cè)獾木庉嬚恚?/strong>
各位好,今天我想和大家介紹一下我們無(wú)問(wèn)芯穹在大模型時(shí)代圍繞大模型推理所開(kāi)展的一些實(shí)踐工作,以及我們觀察到的一些趨勢(shì)。我將主要從云和端兩個(gè)維度展開(kāi),并結(jié)合我們?cè)谌A為昇騰集群上進(jìn)行優(yōu)化的實(shí)踐經(jīng)驗(yàn)進(jìn)行分享。
在開(kāi)始之前,我想先簡(jiǎn)要回顧一下大的背景。我們相信,大家聚集在這里交流今天的工程實(shí)踐,是因?yàn)槲覀兌颊J(rèn)同我們正處于一個(gè)非常重要的時(shí)間節(jié)點(diǎn)。通過(guò)人工智能,尤其是大模型技術(shù),我們有望對(duì)整個(gè)產(chǎn)業(yè)進(jìn)行深刻的變革。在大模型時(shí)代,最核心的工具是一套大模型算法以及底層的算力芯片,它們共同實(shí)現(xiàn)新的勞動(dòng)價(jià)值創(chuàng)造。而我們最核心的任務(wù)是通過(guò)軟硬協(xié)同,將上層的算法與底層的芯片通過(guò)中間的模型推理軟件棧連接起來(lái),以此作為放大 AI 產(chǎn)業(yè)價(jià)值的關(guān)鍵。這涉及如何在各種芯片和算力集群上進(jìn)行有效的資源調(diào)度,以及如何優(yōu)化模型在芯片上的推理過(guò)程,包括模型壓縮、圖算融合以及云和端的協(xié)同。接下來(lái),我將分別從云和端兩個(gè)維度詳細(xì)介紹我們所開(kāi)展的工作。
1 以智能革命,引領(lǐng)大模型推理范式變革
快速回顧一下過(guò)去十年 AI 發(fā)展的一些重要節(jié)點(diǎn)。相信各位對(duì)大模型的典型發(fā)展趨勢(shì)也十分熟悉,無(wú)論是在國(guó)內(nèi)還是國(guó)外。推動(dòng)這些模型不斷演進(jìn)、不斷涌現(xiàn)出新的創(chuàng)意結(jié)構(gòu)的核心因素,其實(shí)是底層堅(jiān)實(shí)的 AI 基礎(chǔ)設(shè)施,包括芯片的演進(jìn)以及整個(gè)推理基礎(chǔ)設(shè)施的演進(jìn)。
從發(fā)展歷程來(lái)看,2022 年大家還在關(guān)注如何制定一個(gè)良好的預(yù)訓(xùn)練方案。隨后,通過(guò) Post-Training 使模型能夠更好地適應(yīng)各種垂直領(lǐng)域以及與人類(lèi)思維方式對(duì)齊。如今,我們已經(jīng)進(jìn)入了一個(gè)新的階段,即推理的規(guī)模拓展階段。這一階段的關(guān)鍵是如何將更優(yōu)質(zhì)的模型應(yīng)用于各種垂直領(lǐng)域場(chǎng)景,以及在長(zhǎng)文本和更大規(guī)模的推理服務(wù)中進(jìn)行拓展,從而真正實(shí)現(xiàn)不同行業(yè)的落地應(yīng)用。
![]()
在這一過(guò)程中,我們觀察到一些重要的趨勢(shì)。首先是推理范式的變化。從最初的逐 Token 推理,到現(xiàn)在基于 Agent 和強(qiáng)化學(xué)習(xí)的引入,推理計(jì)算需求發(fā)生了顯著變化。從最初的幾倍增長(zhǎng),到現(xiàn)在由于引入了長(zhǎng)上下文推理等因素,算力需求已經(jīng)增長(zhǎng)了 10 到 100 倍。這對(duì)于從事基礎(chǔ)設(shè)施建設(shè),尤其是推理優(yōu)化的我們來(lái)說(shuō),無(wú)疑帶來(lái)了更大的挑戰(zhàn)。
我們探討模型推理,從產(chǎn)業(yè)界的角度來(lái)看,未來(lái)對(duì)算力的需求正逐漸從訓(xùn)練轉(zhuǎn)向推理。今年年初,在 NVIDIA 的 GTC 大會(huì)上,黃仁勛也提到,未來(lái)我們需要更大規(guī)模的集群來(lái)支撐大模型在各行業(yè)的落地。集群規(guī)模越大,優(yōu)化空間越高,由此帶來(lái)的企業(yè)收益或 AI 應(yīng)用的效益也會(huì)越大。然而,這一切都離不開(kāi)一套強(qiáng)大的 AI 推理基礎(chǔ)設(shè)施的支撐。
接下來(lái),我將從幾個(gè)方面展開(kāi)分析。首先,我們來(lái)看優(yōu)化的對(duì)象。端側(cè)包括手機(jī)、PC 等小型設(shè)備,而云側(cè)則涵蓋一體機(jī)和數(shù)據(jù)中心的集群。我們對(duì)應(yīng)用及其理論性能進(jìn)行了分析。從端側(cè)來(lái)看,現(xiàn)有的手機(jī)或 PC 設(shè)備在運(yùn)行本地 3B 或 7B 模型時(shí),推理性能大致在每秒 10 到 20 個(gè) Token 左右,基本能滿足正常對(duì)話需求。但如今,人們不再滿足于單純的對(duì)話,還希望 AI 能處理更復(fù)雜的任務(wù),如日程規(guī)劃、屏幕內(nèi)容分析等。這些任務(wù)所需的 Token 量,隨著 Test-Time Scaling 和多模態(tài)的發(fā)展,相比現(xiàn)有能力存在 1 到 2 個(gè)量級(jí)的差距。如何彌補(bǔ)這一差距,是端側(cè)需要思考的問(wèn)題。而在云側(cè),無(wú)論是單臺(tái)機(jī)器還是大規(guī)模集群,核心都是要充分釋放芯片、存儲(chǔ)和互聯(lián)的能力,盡可能用滿集群的算力資源。目前,一些運(yùn)行 DeepSeek 的推理系統(tǒng),其實(shí)際性能與理論值仍有 2 到 3 倍的差距,這需要我們從基礎(chǔ)設(shè)施層面去提高利用率,挖掘芯片的每一分潛力。
從實(shí)際應(yīng)用場(chǎng)景來(lái)看,端側(cè)和云側(cè)各有特點(diǎn)。端側(cè)主要針對(duì)單用戶、少請(qǐng)求場(chǎng)景,需要將單個(gè)模型、單個(gè)用戶請(qǐng)求的性能優(yōu)化到極致。這是一個(gè)資源受限的場(chǎng)景,手機(jī)和 PC 的功耗、芯片算力、存儲(chǔ)和帶寬都是有限的。如何選擇合適的模型,使其與芯片協(xié)同,滿足端側(cè)需求,是一個(gè)關(guān)鍵問(wèn)題。云側(cè)則從基礎(chǔ)設(shè)施角度出發(fā),要考慮多用戶、資源搶占以及不同用戶上下文、模型和 Agent 場(chǎng)景的差異。這種差異化的訪問(wèn)請(qǐng)求,為云側(cè)優(yōu)化提供了更大的空間,也帶來(lái)了不同的優(yōu)化目標(biāo)和約束條件。
![]()
這些場(chǎng)景背后都繞不開(kāi)幾個(gè)核心挑戰(zhàn)。如何提升計(jì)算利用率,以及如何充分利用存儲(chǔ)資源,無(wú)論是在筆記本還是集群中,都是關(guān)鍵問(wèn)題。最近兩個(gè)月,內(nèi)存價(jià)格幾乎翻了一倍,HBM、DRAM 等供應(yīng)商也在控制產(chǎn)能。隨著模型規(guī)模增大、上下文變長(zhǎng),存儲(chǔ)挑戰(zhàn)將越來(lái)越大。在端側(cè),我們還要關(guān)注 SOC 的異構(gòu)調(diào)度,包括 CPU、GPU 和 NPU。而在云側(cè),要在保證每個(gè)用戶的 SLO 以及低延遲和高吞吐量的前提下,盡可能用滿整個(gè)集群的資源。
![]()
2 以彈性算力集群,驅(qū)動(dòng)云側(cè)智能升級(jí)
我們先回顧一下在云側(cè)進(jìn)行大模型推理所面臨的基本挑戰(zhàn),這些挑戰(zhàn)主要集中在計(jì)算、存儲(chǔ)和調(diào)度三個(gè)維度。
在計(jì)算方面,模型推理中的 Prefill(填充)和 Decode(解碼)階段本身就存在較大差異。Prefill 更傾向于計(jì)算密集型任務(wù),而 Decode 則更偏向于訪存密集型任務(wù)。在存儲(chǔ)方面,盡管人們可能天然認(rèn)為云側(cè)的存儲(chǔ)資源是充足的,但我們發(fā)現(xiàn),許多端云推理引擎都存在存儲(chǔ)利用率低的問(wèn)題。這主要是由于 Prefill 和 Decode 對(duì)顯存的占用不同,以及多用戶之間的碎片化導(dǎo)致的。此外,在云側(cè),調(diào)度問(wèn)題也是不可避免的,包括如何進(jìn)行虛擬化、如何實(shí)現(xiàn)多用戶的性能隔離,同時(shí)還要盡可能提升資源利用率。這些就是目前我們?cè)谠苽?cè)大模型推理中所面臨的一些挑戰(zhàn)。
![]()
從 2022 年大模型出現(xiàn)以來(lái),無(wú)論是產(chǎn)業(yè)界還是學(xué)術(shù)界,都有一些代表性的工作,從計(jì)算、存儲(chǔ)、調(diào)度等多個(gè)不同維度對(duì)大模型在云側(cè)的推理服務(wù)進(jìn)行了針對(duì)性的優(yōu)化。今天,我將重點(diǎn)介紹其中一項(xiàng)工作,即圍繞 Prefill 和 Decode 分離(P/D 分離)的優(yōu)化實(shí)踐。
最初,在進(jìn)行大模型推理時(shí),我們通常會(huì)將 Prefill 和 Decode 請(qǐng)求都放在同一張 GPU 卡或一個(gè) GPU 節(jié)點(diǎn)內(nèi)。在這種情況下,它們需要共享 GPU 的計(jì)算資源,同時(shí)它們的權(quán)重、激活值以及 KV Cache 都存儲(chǔ)在 GPU 的 HBM 中。這種融合式場(chǎng)景在早期被廣泛采用,包括 Kimi 和 DeepSeek 等項(xiàng)目,都是在 P/D 分離的基礎(chǔ)上進(jìn)行大模型推理的實(shí)踐。P/D 分離的簡(jiǎn)單邏輯是將 Prefill 實(shí)例和 Decode 實(shí)例進(jìn)行分解,將 Prefill 實(shí)例部署在一些算力較高的 GPU 集群上,而將 Decode 實(shí)例部署在另一些存儲(chǔ)容量大、帶寬高的 GPU 集群上。例如,對(duì)于 Prefill 實(shí)例,我們可以選擇算力更強(qiáng)的 GPU 集群;而對(duì)于 Decode 實(shí)例,我們可以選擇像 H20 這樣算力稍小但 HBM 容量和帶寬較大的集群進(jìn)行部署。這種方案目前在業(yè)界較為常見(jiàn)。
![]()
我們分析一下這兩種方案各自的優(yōu)劣勢(shì)。對(duì)于融合式推理方案,它首先面臨的是我們?cè)谠粕线M(jìn)行推理時(shí)不可避免的問(wèn)題,即資源沖突和資源搶占。Prefill 和 Decode 請(qǐng)求本身對(duì)計(jì)算和存儲(chǔ)的需求就不一致。我們之前提到,Prefill 是一個(gè)算力密集型任務(wù),而 Decode 是一個(gè)訪存密集型任務(wù)。將它們都放在同一張 GPU 卡或一個(gè)節(jié)點(diǎn)上,自然會(huì)面臨由于需求不同導(dǎo)致的延時(shí)干擾和計(jì)算資源分配不均的問(wèn)題。在這種情況下,想要對(duì)它們進(jìn)行細(xì)粒度的調(diào)控是非常困難的。然而,這種融合式方案也有它的優(yōu)勢(shì),即將存儲(chǔ)融合在一起,無(wú)需進(jìn)行 KV Cache 之間的傳輸,相應(yīng)地,存儲(chǔ)管理的實(shí)現(xiàn)會(huì)更加簡(jiǎn)單。
再來(lái)看 P/D 分離的方式,它的核心優(yōu)勢(shì)在于解決了融合式方案中 Prefill 和 Decode 計(jì)算資源搶占的問(wèn)題。將 Prefill 和 Decode 拆開(kāi)后,可以根據(jù)它們各自對(duì)計(jì)算和存儲(chǔ)的需求進(jìn)行針對(duì)性的管理。如果 Prefill 實(shí)例對(duì)計(jì)算的要求比較一致,它們的行為和模式就更容易預(yù)測(cè),因此在資源調(diào)度上可以采用更粗粒度、更可預(yù)測(cè)的方式進(jìn)行管理,Decode 實(shí)例也是如此。此外,P/D 分離還可以更好地進(jìn)行資源配比。然而,這種方式也引入了一些新的問(wèn)題。首先,它對(duì)存儲(chǔ)的開(kāi)銷(xiāo)和切換會(huì)帶來(lái)額外的挑戰(zhàn)。例如,P/D 分離后,P 實(shí)例和 D 實(shí)例之間的 KV Cache 存儲(chǔ)非常不均衡。在 P 實(shí)例上,可能只有 23% 的存儲(chǔ)用于 KV Cache,而在 Decode 實(shí)例上,可能有 70% 的存儲(chǔ)開(kāi)銷(xiāo)都用于存儲(chǔ) KV Cache。這就導(dǎo)致 P 實(shí)例和 D 實(shí)例之間需要頻繁進(jìn)行 KV Cache 的傳輸,這就要求 GPU 之間以及節(jié)點(diǎn)之間的互聯(lián)帶寬需要更大,同時(shí)需要對(duì)通信庫(kù)進(jìn)行更底層的優(yōu)化支持。此外,由于 P 實(shí)例和 D 實(shí)例之間存儲(chǔ)的不均衡,在進(jìn)行內(nèi)存管理時(shí),P 實(shí)例上可能會(huì)出現(xiàn)顯存浪費(fèi)的情況。例如,除了存儲(chǔ)權(quán)重和 KV Cache 之外,可能有 30% 到 40% 的顯存無(wú)法被充分利用,這些未被利用的顯存會(huì)導(dǎo)致整個(gè)集群出現(xiàn)顯存浪費(fèi)的問(wèn)題。由于顯存成本較高,這種浪費(fèi)會(huì)顯著增加整個(gè)推理系統(tǒng)的成本。
![]()
如何將兩者的優(yōu)點(diǎn)結(jié)合起來(lái),同時(shí)避免它們的不足。基于上述分析,我們提出了一個(gè)名為“P/D 半分離”的方式。在計(jì)算層面,我們對(duì) Prefill 和 Decode 進(jìn)行隔離,而在存儲(chǔ)層面則進(jìn)行融合。我們希望既能享受計(jì)算隔離帶來(lái)的優(yōu)勢(shì),又能減少存儲(chǔ)融合導(dǎo)致的 KV Cache 傳輸開(kāi)銷(xiāo)。
在 P/D 半分離的整體架構(gòu)中,首先從計(jì)算層面來(lái)看,我們希望對(duì) Prefill 和 Decode 進(jìn)行分離。這種分離借鑒了云計(jì)算領(lǐng)域常用的虛擬化技術(shù)。早在 20 年云游戲興起時(shí),就涉及如何在 GPU 的 SM 或其他計(jì)算單元上對(duì)不同游戲?qū)嵗M(jìn)行隔離式切分,當(dāng)時(shí)采用了多種進(jìn)程間虛擬化和隔離技術(shù)。類(lèi)似地,在大模型出現(xiàn)之前,許多 AI 推理服務(wù)也在進(jìn)程維度對(duì)多個(gè)任務(wù)進(jìn)行隔離和虛擬化。因此,我們同樣以進(jìn)程間的方式對(duì) Prefill 和 Decode 實(shí)例進(jìn)行隔離,并按照 SM 的粒度對(duì)資源進(jìn)行分配。這樣做的好處是可以實(shí)現(xiàn)細(xì)粒度的資源管控,同時(shí)盡可能確保 P 實(shí)例和 D 實(shí)例之間有較好的分離。
![]()
在存儲(chǔ)維度,我們主要針對(duì) Prefill 和 Decode 的不同需求進(jìn)行了針對(duì)性優(yōu)化。之前的主要問(wèn)題是,如果將它們?nèi)诤希捎?Prefill 和 Decode 對(duì)顯存的需求是動(dòng)態(tài)的,核心邏輯是盡可能高效地利用顯存。這就需要了解當(dāng)前顯存的使用情況以及任務(wù)所需的顯存量。具體來(lái)說(shuō),分為三個(gè)步驟:第一步是分析當(dāng)前顯存的使用情況;第二步是確定當(dāng)前是 Prefill 還是 Decode,以及該任務(wù)所需的顯存量;第三步是對(duì)顯存空間進(jìn)行資源申請(qǐng)。如果將 Prefill 和 Decode 放在一起運(yùn)行,它們之間可能會(huì)出現(xiàn)讀后寫(xiě)依賴(lài),以及細(xì)粒度訪存請(qǐng)求互相干擾的問(wèn)題。因此,我們首先將 Prefill 和 Decode 的細(xì)粒度內(nèi)存訪問(wèn)融合成一個(gè)大的原子操作,然后在這個(gè)原子操作上對(duì) Prefill 和 Decode 分別進(jìn)行管理。這樣做的好處是,融合后 Prefill 和 Decode 之間不會(huì)出現(xiàn)讀后寫(xiě)依賴(lài)沖突,同時(shí)也能更好地管理顯存碎片化。
在資源分配方面,我們舉了一個(gè)例子。在優(yōu)化前,我們可能給 Prefill 分配了約 2/3 的資源,給 Decode 分配了 60% 的資源。但如果在下一時(shí)刻我們認(rèn)為應(yīng)該給 Prefill 分配更多資源,由于這兩個(gè)進(jìn)程本身獲得的資源不同,理論上需要重新加載和拷貝 KV Cache、上下文等參數(shù),這會(huì)產(chǎn)生額外的資源調(diào)整開(kāi)銷(xiāo)。于是,我們想到引入一個(gè)常駐進(jìn)程來(lái)管理 KV Cache 和模型權(quán)重的加載。這樣,原有的 Prefill 和 Decode 進(jìn)程可以預(yù)先依托常駐進(jìn)程進(jìn)行資源加載,無(wú)需引入額外的拷貝開(kāi)銷(xiāo),從而減少 KV Cache 和資源分配方面的問(wèn)題。
![]()
除了前面提到的方案,我們?cè)趯?shí)際生產(chǎn)環(huán)境中,也針對(duì)實(shí)例推理以及集群規(guī)模的 P/D 融合方式進(jìn)行了支持。在實(shí)例級(jí)別,我們主要關(guān)注一臺(tái)或兩臺(tái) 8 卡、16 卡的服務(wù)器規(guī)模。在這種情況下,Prefill 實(shí)例和 Decode 實(shí)例分別進(jìn)行通信,且 Prefill 和 Decode 之間采用異步方式,這樣可以更好地進(jìn)行管理,并減少同步開(kāi)銷(xiāo)。
在集群規(guī)模方面,我們主要與現(xiàn)有的框架,包括 Kimi 開(kāi)源的一些 P/D 分離框架進(jìn)行融合。你可以選擇直接使用現(xiàn)有的 Prefill 和 Decode 實(shí)例,也可以使用我們這種半分離的實(shí)例。核心目標(biāo)是打開(kāi)整個(gè)集群規(guī)模的優(yōu)化空間,從而在上面進(jìn)行更精細(xì)化的優(yōu)化空間探索,找到一些更好的設(shè)計(jì)點(diǎn)。
與 SGLang 相比,我們的吞吐率提升了 10%,延時(shí)降低了兩倍。同時(shí),我們的 TTFT 和 ITL 的整體延時(shí)都得到了顯著優(yōu)化。從完成率曲線可以看出,與 SGLang 相比,我們?cè)趯?shí)際線上業(yè)務(wù)中完成請(qǐng)求的占比提升明顯快于 SGLang 的結(jié)果。
![]()
3 面向華為昇騰的推理優(yōu)化部署實(shí)踐
最近,我們?cè)谌A為昇騰平臺(tái),特別是其 910B 的 384 超節(jié)點(diǎn)上,進(jìn)行了一些探索。這些探索主要集中在百卡到千卡規(guī)模的集群推理實(shí)踐上。在開(kāi)始之前,我們首先進(jìn)一步分析了為什么需要超節(jié)點(diǎn),以及華為開(kāi)發(fā)超節(jié)點(diǎn)背后的邏輯。從下圖左邊可以看到,OpenAI 提出了從 L1 到 L5 的演進(jìn)趨勢(shì),橫軸代表智能水平。理論上,從 L1 到 L5,模型的智能水平應(yīng)該越來(lái)越強(qiáng)。我們經(jīng)過(guò)分析發(fā)現(xiàn),要支撐這種智能水平的演進(jìn),整個(gè)推理的能效,即 Token/J,也需要持續(xù)迭代。我們之前介紹的實(shí)例推理主要圍繞 L1 到 L2,或接近 L3 的部分。但未來(lái),如果要支持多智能體、超大的 MoE,就需要更強(qiáng)的系統(tǒng)能力。
從右邊的趨勢(shì)可以看出,首先,模型規(guī)模越來(lái)越大。DeepSeek、Llama、Kimi 等模型從千億規(guī)模演進(jìn)到萬(wàn)億規(guī)模,這意味著原來(lái)的實(shí)例推理已經(jīng)無(wú)法滿足需求,需要更大的模型來(lái)提供支持。其次,目前大家都有意識(shí)地向 MoE 的超稀疏多專(zhuān)家方向發(fā)展,且專(zhuān)家數(shù)量越來(lái)越多。例如,DeepSeek 有 256 個(gè)專(zhuān)家,而 Kimi 有 384 個(gè)專(zhuān)家。這種多專(zhuān)家的變化與超節(jié)點(diǎn)多卡的方式天然契合,便于進(jìn)行大規(guī)模 EP(Expert Parallelism,專(zhuān)家并行)部署。此外,超長(zhǎng)上下文也是一個(gè)趨勢(shì)。現(xiàn)在,上下文長(zhǎng)度已經(jīng)從 8K、50K 發(fā)展到 128K,甚至更長(zhǎng)。
![]()
接下來(lái),我們來(lái)看在昇騰平臺(tái)上部署會(huì)面臨哪些問(wèn)題。最近,昇騰的許多團(tuán)隊(duì)圍繞 910B 和 920C 進(jìn)行了一些具體的實(shí)踐,這是一個(gè)令人欣喜的過(guò)程。從最初的實(shí)例推理到現(xiàn)在的集群推理,性能有了量級(jí)的提升。然而,從“能用”到“好用”之間仍存在差距。這個(gè)差距主要體現(xiàn)在兩個(gè)方面:一方面,模型的上下文越來(lái)越長(zhǎng),這帶來(lái)了計(jì)算、存儲(chǔ)和通信的匹配問(wèn)題;另一方面,華為的昇騰架構(gòu)是一個(gè) NPU 架構(gòu),其算子生態(tài)需要整個(gè)行業(yè)共同迭代。這自然會(huì)面臨開(kāi)源社區(qū)和整個(gè)軟件棧迭代的問(wèn)題。未來(lái),模型肯定會(huì)逐步演進(jìn),如何將模型與集群更好地匹配起來(lái),也是一個(gè)亟待解決的問(wèn)題。
在這里,我想和大家分享一些我們?cè)诔?jié)點(diǎn)上以及結(jié)合未來(lái)模型發(fā)展所遇到的挑戰(zhàn)。首先是長(zhǎng)文本問(wèn)題。長(zhǎng)文本的需求在 Agent 以及未來(lái)的具身智能等領(lǐng)域肯定會(huì)不斷增加。長(zhǎng)文本的核心特點(diǎn)是對(duì) KV Cache 的占用會(huì)越來(lái)越大。如果文本較短,實(shí)例推理或許還能應(yīng)對(duì),最多支持 4K 到 8K 的上下文。但如果要支持 128K,甚至未來(lái)是 512K 以及更長(zhǎng)的上下文,現(xiàn)有的實(shí)例推理顯存顯然已經(jīng)無(wú)法滿足需求。因此,自然而然地需要從實(shí)例推理轉(zhuǎn)向集群推理,以獲得更大的存儲(chǔ)池來(lái)支持 KV Cache 的存儲(chǔ)。
這自然帶來(lái)了另一個(gè)問(wèn)題:如何解決 KV Cache 之間的傳輸挑戰(zhàn)。從計(jì)算層面來(lái)看,上下文越長(zhǎng),對(duì)應(yīng)的 KV Cache 以及在 Prefill 階段進(jìn)行 Attention 計(jì)算時(shí)的計(jì)算需求也會(huì)越大。因?yàn)?Attention 計(jì)算本身是隨著上下文長(zhǎng)度呈二次方增長(zhǎng)的,這就必然涉及到 MLA 以及 MoE 算子的計(jì)算優(yōu)化問(wèn)題。在通信層面,KV Cache 越來(lái)越大,必然會(huì)帶來(lái)更多的通信和同步開(kāi)銷(xiāo)。過(guò)去,我們更多關(guān)注的是實(shí)例推理中的 TP(張量并行)并行。但現(xiàn)在,我們可能需要從張量并行切換到序列并行,甚至融合序列并行和專(zhuān)家并行的方式,來(lái)解決計(jì)算和通信開(kāi)銷(xiāo)問(wèn)題。從框架層面來(lái)看,過(guò)去我們主要關(guān)注如何在 P 實(shí)例和 D 實(shí)例之間進(jìn)行調(diào)度。但如今,超節(jié)點(diǎn)本身是一個(gè)融合方案,超節(jié)點(diǎn)與超節(jié)點(diǎn)之間如何協(xié)同支持,以及未來(lái)如何將不同模型部署到不同的超節(jié)點(diǎn)上,這都是框架層面需要考慮的模型適配問(wèn)題。
在對(duì)昇騰架構(gòu)的探索中,我們重點(diǎn)關(guān)注了計(jì)算層面的優(yōu)化問(wèn)題,尤其是與長(zhǎng)文本處理和集群推理相關(guān)的挑戰(zhàn)。首先,從計(jì)算層面來(lái)看,隨著模型上下文長(zhǎng)度的增加,注意力機(jī)制(Attention)的算力需求顯著增大。這不僅體現(xiàn)在對(duì)張量核心(Tensor Core)的計(jì)算需求上,還體現(xiàn)在對(duì)標(biāo)量計(jì)算的需求上。在昇騰架構(gòu)中,標(biāo)量計(jì)算單元(Scalar Unit)和向量計(jì)算單元(Vector Unit)的算力與矩陣計(jì)算單元(Cube Unit)存在較大差距。我們通過(guò)分析發(fā)現(xiàn),隨著上下文長(zhǎng)度的增加,標(biāo)量和向量計(jì)算的時(shí)間占比可能會(huì)從 10% 飆升到 30% 至 40%。這種非張量計(jì)算帶來(lái)的瓶頸需要從芯片層面進(jìn)行針對(duì)性優(yōu)化。
針對(duì)長(zhǎng)上下文導(dǎo)致的 KV Cache 存儲(chǔ)不均問(wèn)題,這與之前提到的 P/D 分離優(yōu)化類(lèi)似,但面向的是超節(jié)點(diǎn)內(nèi) NPU 和 NPU 之間,甚至是 GPU 和 GPU 之間的部署問(wèn)題。在長(zhǎng)上下文和云端推理場(chǎng)景中,計(jì)算力需求與存儲(chǔ)需求的綁定因素不同。算力需求與請(qǐng)求數(shù)(batch size)緊密相關(guān),而存儲(chǔ)需求則與上下文長(zhǎng)度相關(guān)。這種不一致性導(dǎo)致在集群推理和云端推理場(chǎng)景中,需要考慮的因素更多,且它們之間的相互影響也更為復(fù)雜。
![]()
資源匹配問(wèn)題也是一個(gè)關(guān)鍵挑戰(zhàn)。例如,在 384 超節(jié)點(diǎn)上部署 DeepSeek 模型時(shí),由于模型的專(zhuān)家權(quán)重?cái)?shù)量(320)與超節(jié)點(diǎn)數(shù)量(384)無(wú)法整除,導(dǎo)致部分 NPU 或 GPU 資源浪費(fèi)。這表明 384 超節(jié)點(diǎn)在設(shè)計(jì)時(shí)可能并未完全針對(duì)特定模型進(jìn)行優(yōu)化,未來(lái)新模型的出現(xiàn)將進(jìn)一步加劇這一問(wèn)題。
針對(duì)這些問(wèn)題,我們與清華大學(xué)和上海交通大學(xué)的團(tuán)隊(duì)進(jìn)行了探索,并針對(duì)一些關(guān)鍵算子進(jìn)行了底層優(yōu)化。這些優(yōu)化包括 L2、L1、L0 緩存之間的數(shù)據(jù)搬運(yùn)和復(fù)用策略,以及基于昇騰 CCE 的底層支持。最近,我們還發(fā)表了一篇論文《FlashOverlap》 ,提出了針對(duì)昇騰架構(gòu)的細(xì)粒度計(jì)算和通信流水優(yōu)化方法,感興趣的朋友可以查閱。
![]()
總結(jié)來(lái)說(shuō),我們認(rèn)為集群推理其實(shí)是一個(gè)更為復(fù)雜的優(yōu)化問(wèn)題。在進(jìn)行 AI 推理優(yōu)化時(shí),本質(zhì)上我們都在做各種各樣的多目標(biāo)優(yōu)化。我們既希望延時(shí)低,又希望吞吐量高,還希望資源利用率強(qiáng),并且能夠盡可能地服務(wù)更多用戶。然而,在這個(gè)過(guò)程中,我們需要考慮諸多因素,包括模型的類(lèi)型、規(guī)模,芯片的算力構(gòu)成,可用的帶寬、顯存,以及整個(gè)節(jié)點(diǎn)的規(guī)模和節(jié)點(diǎn)之間的互聯(lián)帶寬等。我們一直強(qiáng)調(diào)軟硬協(xié)同,其本質(zhì)便是在這樣一個(gè)龐大的優(yōu)化空間里,嘗試對(duì)計(jì)算、通信以及框架等資源配比進(jìn)行合理的映射和優(yōu)化搜索。所以,我覺(jué)得這個(gè)領(lǐng)域是需要持續(xù)進(jìn)行技術(shù)攻關(guān)的,而我們目前也正在不斷地探索,從計(jì)算到框架再到通信層面,我們都在持續(xù)地進(jìn)行嘗試。
4 以有限算力架構(gòu),釋放終端應(yīng)用潛能
在一些資源受限的芯片上,比如手機(jī)、PC 上,我們還能做哪些工作呢?大的背景是,我們堅(jiān)信未來(lái)大模型將在更廣泛的智能終端設(shè)備上落地,包括大家手里的手機(jī)、筆記本電腦,以及現(xiàn)在比較火的機(jī)器人,還有各種新形態(tài)的終端,這些都將是未來(lái)重要的智能入口。這個(gè)智能入口不僅會(huì)影響到云側(cè)的配合,也會(huì)涉及到端側(cè)有一個(gè)更懂你的智能體來(lái)幫你處理越來(lái)越多的事情。所以,這塊帶來(lái)的想象空間是越來(lái)越大的。結(jié)合現(xiàn)在比較火的具身智能,不管是自動(dòng)駕駛、無(wú)人機(jī)還是機(jī)器人的場(chǎng)景,其實(shí)對(duì) Token 的需求還是很大的,至少是在 100 到 1000 個(gè) Token 這個(gè)量級(jí)。那么,如何用一個(gè)比較好的芯片和基礎(chǔ)設(shè)施去支撐這樣大的 Token 需求,至少在端側(cè)這個(gè)場(chǎng)景是一個(gè)需要解決的問(wèn)題。
![]()
在端側(cè),我們也是從計(jì)算、存儲(chǔ)、通信這幾個(gè)方面做了一些分析,包括在 GPU 和 CPU 上的一些優(yōu)化。這可能涉及到在 SOC 上,能否把上面的 NPU 也利用起來(lái)。因?yàn)槎藗?cè)本身就是一個(gè)存儲(chǔ)非常有限的設(shè)備,所以如何把一個(gè)很大的模型進(jìn)行蒸餾、壓縮,壓縮完以后是否還能滿足需求,以及是否能在有限的空間里用計(jì)算去換存儲(chǔ)的方式做一些優(yōu)化。
目前業(yè)界的優(yōu)化也分為幾類(lèi)。一類(lèi)是做一些投機(jī)解碼等技術(shù),本質(zhì)上是因?yàn)槎藗?cè)存儲(chǔ)比較貴,而算力相對(duì)來(lái)說(shuō)有一些富余。因?yàn)樵诙藗?cè),你不需要跑很大的 batch size,一般都是單 batch 和單用戶的推理,所以大部分情況下計(jì)算是有富余的。那么,多出來(lái)的計(jì)算就可以用來(lái)?yè)Q取存儲(chǔ)。所以,現(xiàn)在所有的投機(jī)解碼方式都是在做這塊的事情。另一類(lèi)是模型壓縮,不管是做稀疏量化還是蒸餾,都是為了讓模型在保持智能水平的情況下變得越來(lái)越小。其實(shí),包括 MIT 和我們團(tuán)隊(duì)之前都做了很多這種壓縮的工作。還有一類(lèi)是端側(cè)本身是一個(gè) SOC 平臺(tái),那如何在上面做一些協(xié)同優(yōu)化,也是一個(gè)重要的方向。
![]()
我們團(tuán)隊(duì)最近開(kāi)展了一項(xiàng)工作,這是一個(gè)典型的軟硬件協(xié)同優(yōu)化方案。我們的思路是從投機(jī)采樣等技術(shù)入手,從模型和軟件兩個(gè)層面進(jìn)行探索。簡(jiǎn)單來(lái)說(shuō),正常情況下,模型推理包含多個(gè)層級(jí)。之前有早退技術(shù)的概念,即無(wú)需完成所有層級(jí)的計(jì)算就能輸出結(jié)果。例如,一個(gè) 32 層的模型,可能在計(jì)算到第 31 層時(shí),結(jié)果的概率就已經(jīng)接近閾值,可以提前結(jié)束。但關(guān)鍵問(wèn)題在于,何時(shí)應(yīng)該結(jié)束?這需要一個(gè)判斷過(guò)程。如果將這個(gè)判斷過(guò)程建模,實(shí)際上是在一個(gè)上萬(wàn)規(guī)模的詞表中進(jìn)行搜索分類(lèi)。對(duì)于典型的大模型,詞表通常是萬(wàn)級(jí)的,比如一個(gè) 3 萬(wàn)詞表,這樣的搜索開(kāi)銷(xiāo)非常大。我們希望在享受早退技術(shù)帶來(lái)的計(jì)算和存儲(chǔ)開(kāi)銷(xiāo)減少優(yōu)勢(shì)的同時(shí),盡量使其可用,否則每次都要搜索一遍,可能會(huì)帶來(lái)不可接受的開(kāi)銷(xiāo)。
![]()
核心問(wèn)題在于如何構(gòu)建一個(gè)中間預(yù)測(cè)模型,以縮短在線搜索的開(kāi)銷(xiāo)。比如在某一層判斷是否可以結(jié)束時(shí),能夠通過(guò)一個(gè)小的推測(cè)模型,在極低開(kāi)銷(xiāo)下進(jìn)行判斷。這個(gè)推測(cè)模型會(huì)根據(jù)輸入,將原本龐大的詞表縮減為一個(gè)非常小的詞表。因?yàn)樵趯?duì)話場(chǎng)景中,下一個(gè)詞相對(duì)比較確定,本質(zhì)上不需要在大詞表中搜索。理論上,可以提前訓(xùn)練一個(gè)小模型,讓它知道在什么范圍內(nèi)找到這個(gè)詞,然后在這個(gè)小詞表下進(jìn)行搜索,從而盡可能降低開(kāi)銷(xiāo)。
如何以低開(kāi)銷(xiāo)、高精度的方式進(jìn)行這種級(jí)聯(lián)計(jì)算。由于我們本質(zhì)上是在做軟硬件協(xié)同優(yōu)化,修改算法不可避免地會(huì)引入一些開(kāi)銷(xiāo)。因此,如果預(yù)測(cè)錯(cuò)誤,就需要一些在線修正機(jī)制。我們?cè)谶@方面也做了一些工程優(yōu)化,以確保預(yù)測(cè)錯(cuò)誤時(shí)能夠快速修正,從而保證精度不受損失。此外,針對(duì)頻繁調(diào)度的開(kāi)銷(xiāo)問(wèn)題,我們?cè)诙藗?cè)開(kāi)發(fā)了一個(gè)調(diào)度引擎,用于記錄早退的位置,并提前存儲(chǔ)早退的概率,結(jié)合離線調(diào)度和在線調(diào)度,優(yōu)化整體的調(diào)度效率。
從結(jié)果來(lái)看,下圖黃色部分是基于一些稀疏化的優(yōu)化,綠色部分是量化優(yōu)化。我們可以看到,通過(guò)軟硬件協(xié)同的方式,在保證精度的同時(shí)提升了速度,使性能盡可能向右上角提升。在實(shí)際部署中,我們?cè)诼?lián)想的 AI PC 上進(jìn)行了部署,端到端的性能大約提升了兩倍。
![]()
5 以大模型推理技術(shù)創(chuàng)新,融合人工智能產(chǎn)業(yè)創(chuàng)新
我們與各位探討了在云和端側(cè)部署大模型時(shí)面臨的效率挑戰(zhàn)。我們的核心目標(biāo)是無(wú)論在云端還是端側(cè)設(shè)備上,都能充分利用大模型的優(yōu)勢(shì),同時(shí)盡可能降低對(duì)硬件資源的需求,并滿足用戶對(duì)推理服務(wù)質(zhì)量的要求。一直以來(lái),我們致力于將推理系統(tǒng)部署到云端,推動(dòng)整個(gè)產(chǎn)業(yè)鏈的運(yùn)轉(zhuǎn)。因?yàn)椋M管從事基礎(chǔ)設(shè)施和技術(shù)工作的人員主要關(guān)注 Token 的性能,但僅靠 Token 性能是不夠的。我們還需要讓足夠多的應(yīng)用企業(yè)參與進(jìn)來(lái),形成產(chǎn)業(yè)閉環(huán)。只有當(dāng)大家廣泛使用大模型,探索其在各行業(yè)的應(yīng)用,并在 Token 量大幅提升后,才能有足夠的需求推動(dòng)基礎(chǔ)設(shè)施的發(fā)展。我認(rèn)為這是一個(gè)良好的正向循環(huán)。在端側(cè),我們則與聯(lián)想等企業(yè)以及各種端設(shè)備進(jìn)行了探索,希望未來(lái)無(wú)論是 AI PC、AI 手機(jī),還是其他終端設(shè)備,都能為用戶帶來(lái)使用體驗(yàn)上的變革。
我們認(rèn)為未來(lái)端和云并非解耦的,而是需要協(xié)同支撐的。在相當(dāng)長(zhǎng)的一段時(shí)間里,端和云將相互補(bǔ)充、共同存在。在端側(cè),我們可以部署 3B、7B 或 13B 左右的模型,用于本地化處理和個(gè)人個(gè)性化助理功能。這些模型能夠了解用戶的想法,幫助管理個(gè)人日程,并分析個(gè)性化需求。由于涉及隱私性要求,這些功能需要在本地實(shí)現(xiàn)。而當(dāng)用戶需要處理更復(fù)雜的任務(wù)時(shí),端側(cè)設(shè)備可以調(diào)用云端的 Agent 和更強(qiáng)大的模型,為用戶提供輔助支持。我們相信,在未來(lái)很長(zhǎng)一段時(shí)間里,需要探索出一個(gè)云與端協(xié)同的框架,以確保大模型在各行業(yè)的更好落地。
![]()
我們的愿景是,就像 30 年前水電走進(jìn)千家萬(wàn)戶一樣,如今我們希望通過(guò)端云協(xié)同和更高效的基礎(chǔ)設(shè)施,與上下游通力合作將大模型的成本降低萬(wàn)倍,使其普及到更多領(lǐng)域。
演講嘉賓介紹
曾書(shū)霖,無(wú)問(wèn)芯穹總經(jīng)理,于 2018 年和 2023 年在清華大學(xué)電子工程系獲得工學(xué)學(xué)士和博士學(xué)位,師從清華大學(xué)電子工程系教授、IEEE Fellow 汪玉,研究領(lǐng)域?yàn)檐浻矃f(xié)同優(yōu)化研究和 AI 加速器設(shè)計(jì)。在相關(guān)領(lǐng)域發(fā)表高水平國(guó)際會(huì)議和期刊論文 20 余篇,谷歌學(xué)術(shù)施引九百余次,包括以第一作者或共同一作發(fā)表高水平論文于可重構(gòu)計(jì)算領(lǐng)域旗艦會(huì)議( FPGA · 25, FPGA · 24)、體系結(jié)構(gòu)領(lǐng)域頂級(jí)會(huì)議 (HPCA · 25, MICRO · 23)、以及頂級(jí)期刊 IEEE TC、ACM TRETS 等。曾獲 FPGA 2025 會(huì)議最佳論文獎(jiǎng)( FPGA 會(huì)議首次將該獎(jiǎng)項(xiàng)授予完全由中國(guó)大陸科研團(tuán)隊(duì)主導(dǎo)的研究工作,也是亞太國(guó)家團(tuán)隊(duì)首次獲此殊榮)、IEEE TC 2023 Featured Paper of the Month、清華大學(xué)研究生國(guó)家獎(jiǎng)學(xué)金等。在創(chuàng)新創(chuàng)業(yè)方面,作為創(chuàng)始成員參與創(chuàng)立上海無(wú)問(wèn)芯穹智能科技有限公司,并作為智能終端業(yè)務(wù)負(fù)責(zé)人,帶領(lǐng)團(tuán)隊(duì)打造“端模型 + 端軟件 + 端 IP ”的智能終端一體化解決方案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.