從并不先進(jìn)的芯片系統(tǒng)中榨取算力,月之暗面成為DeepSeek之后新的狂魔。它提出了一套新的商業(yè)模式,Prefill-as-a-Service(PrfaaS,預(yù)填充即服務(wù))。
![]()
如果這一模式成立,國(guó)內(nèi)規(guī)模捉襟見肘的高性能AI芯片,未來(lái)將可以集中部署于PrfaaS集群中,為更多采用稍低性能的國(guó)產(chǎn)AI芯片的推理集群,提供遠(yuǎn)程預(yù)填充能力,從而在系統(tǒng)層面實(shí)現(xiàn)算力結(jié)構(gòu)的重新分配。
它的核心邏輯在于,讓KV緩存(KV cache)在一定條件下跨數(shù)據(jù)中心傳輸,使得預(yù)填充(Prefill)和解碼(Decode)這兩大環(huán)節(jié),有望解耦并部署到不同的異構(gòu)計(jì)算集群中。這兩個(gè)階段,對(duì)硬件資源的需求存在顯著差異,前者是“算力密集”的,后者是“內(nèi)存密集”的。中國(guó)在大規(guī)模高端算力芯片供給上仍處于追趕階段。
基于Transformer架構(gòu)的AI基礎(chǔ)設(shè)施,針對(duì)PD環(huán)節(jié)的硬件解耦,已經(jīng)是大勢(shì)所趨。英偉達(dá)先后提出了面向長(zhǎng)上下文高吞吐預(yù)填充的Rubin CPX,以及更偏向解碼優(yōu)化、強(qiáng)調(diào)高內(nèi)存帶寬利用的Groq 3 LPU。
2026/03/18 完整閱讀 >
然而,PD解耦的關(guān)鍵挑戰(zhàn)在于,需要將KV緩存從預(yù)填充節(jié)點(diǎn)傳輸至解碼節(jié)點(diǎn)。這一傳輸效率取決于KV緩存的大小,以及網(wǎng)絡(luò)的速度。在傳統(tǒng)架構(gòu)中,由于KV緩存體量較大,該過(guò)程通常依賴高帶寬、低時(shí)延的RDMA網(wǎng)絡(luò),僅適用于機(jī)房級(jí)部署,無(wú)法輕易跨集群擴(kuò)展。
讓這些專用芯片停留在同一個(gè)數(shù)據(jù)中心的局限,在于盡管專用芯片能夠顯著提升單一計(jì)算階段的效率,但當(dāng)它們被鎖死在一個(gè)固定配比的集群里時(shí),系統(tǒng)就失去了靈活性。它們不像通用芯片,可以隨時(shí)動(dòng)態(tài)調(diào)整用途。這往往導(dǎo)致一側(cè)資源過(guò)度配置,而另一側(cè)形成性能瓶頸。
然而,隨著新一代混合注意力架構(gòu)成為國(guó)內(nèi)開源模型的主流選擇,KV緩存規(guī)模正在顯著下降。這為跨數(shù)據(jù)中心的PD解耦,提供了工程落地的可能性。
2025/09/13 完整閱讀 >
無(wú)論是Kimi Linear的KDA(Kimi Delta注意力)疊加MLA(多頭潛在注意力)機(jī)制,還是MiMo-V2-Flash的SWA(稀疏窗口注意力)疊加GQA(分組查詢注意力),等等,都在將少量的全注意力層,與大量線性復(fù)雜度或有限狀態(tài)層混合起來(lái),交替排列,在保證質(zhì)量的基礎(chǔ)上,盡可能地減少“記憶”的開銷。
![]()
跨數(shù)據(jù)中心的PD解耦,其基礎(chǔ)設(shè)施的核心架構(gòu),在于將長(zhǎng)上下文請(qǐng)求的Prefill需求,選擇性卸載到獨(dú)立的、算力密集型的專用PrfaaS集群完成;而“讀出來(lái)”的KV緩存,則通過(guò)通用的以太網(wǎng),傳輸?shù)奖镜豍D集群來(lái)解碼。該架構(gòu)可以由多個(gè)PrfaaS集群與多個(gè)本地PD集群共同組成,形成分布式協(xié)同拓?fù)洹?/p>
當(dāng)然,并非所有的Prefill需求,都會(huì)被路由轉(zhuǎn)發(fā)給PrfaaS集群。那些小于動(dòng)態(tài)閾值的短請(qǐng)求,仍然留給本地集群解決;如果帶寬緊張,也會(huì)優(yōu)先使用本地集群。針對(duì)智能體時(shí)代KV緩存高度命中導(dǎo)致重復(fù)計(jì)算的問(wèn)題,月之暗面提出了全局KV緩存管理機(jī)制,以減少冗余傳輸,僅傳遞增量信息。
2026/02/27 完整閱讀 >
如此一來(lái),計(jì)算密集型的PrfaaS集群,和內(nèi)存密集型的本地PD集群,可以各自獨(dú)立擴(kuò)展。這種靈活性意味著,不同地點(diǎn)、不同類型、甚至臨時(shí)空閑的GPU資源,都可以被統(tǒng)一利用起來(lái)參與模型推理,而不再需要它們必須在同一個(gè)高性能集群中協(xié)同工作。算力真正從“設(shè)備”,變成了“流動(dòng)資源”。
月之暗面實(shí)際驗(yàn)證了這套方案。團(tuán)隊(duì)采用的是一款混合注意力架構(gòu)的內(nèi)部自研模型,總參數(shù)規(guī)模高達(dá)1T。測(cè)試用的PrfaaS集群,由32張H200構(gòu)成,代表當(dāng)前國(guó)內(nèi)合規(guī)可用的高端算力;本地PD集群則由64張H20構(gòu)成,代表規(guī)模量產(chǎn)的國(guó)產(chǎn)AI芯片的平均水平。兩類集群通過(guò)100Gbps網(wǎng)絡(luò)連接,這也是當(dāng)前較為常見的工程部署配置。
實(shí)驗(yàn)結(jié)果顯示,相較于等規(guī)模同構(gòu)PD集群(96張H20),該方案整體吞吐量提升約54%,平均TTFT(首token延遲)降低約50%,其中90分位延遲下降約64%。同時(shí),總網(wǎng)絡(luò)出站帶寬約13Gbps,遠(yuǎn)低于上限,說(shuō)明系統(tǒng)仍具備進(jìn)一步擴(kuò)展空間。
在相同硬件成本條件下,該架構(gòu)的綜合吞吐效率提升約15%。論文指出,成本效益更高的預(yù)填充專用芯片,可以進(jìn)一步降低部署成本。
在獲取國(guó)外先進(jìn)制程算力芯片受限,國(guó)產(chǎn)AI芯片研發(fā)仍處于代際落后,良率與產(chǎn)能也仍在爬坡的背景下,通過(guò)將高性能算力從單一集群中解耦出來(lái),專門承擔(dān)PrfaaS預(yù)填充任務(wù),從而優(yōu)化整體系統(tǒng)資源配置結(jié)構(gòu),對(duì)于中國(guó)AI生態(tài)而言,具有現(xiàn)實(shí)意義。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.