網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

跨數(shù)據(jù)中心PrfaaS，Kimi探索國(guó)產(chǎn)AI算力新生態(tài) | 筆記

2026-04-19 23:32:03　來(lái)源: 未盡研究

上海舉報(bào)

分享至

從并不先進(jìn)的芯片系統(tǒng)中榨取算力，月之暗面成為DeepSeek之后新的狂魔。它提出了一套新的商業(yè)模式，Prefill-as-a-Service（PrfaaS，預(yù)填充即服務(wù)）。

如果這一模式成立，國(guó)內(nèi)規(guī)模捉襟見肘的高性能AI芯片，未來(lái)將可以集中部署于PrfaaS集群中，為更多采用稍低性能的國(guó)產(chǎn)AI芯片的推理集群，提供遠(yuǎn)程預(yù)填充能力，從而在系統(tǒng)層面實(shí)現(xiàn)算力結(jié)構(gòu)的重新分配。

它的核心邏輯在于，讓KV緩存（KV cache）在一定條件下跨數(shù)據(jù)中心傳輸，使得預(yù)填充（Prefill）和解碼（Decode）這兩大環(huán)節(jié)，有望解耦并部署到不同的異構(gòu)計(jì)算集群中。這兩個(gè)階段，對(duì)硬件資源的需求存在顯著差異，前者是“算力密集”的，后者是“內(nèi)存密集”的。中國(guó)在大規(guī)模高端算力芯片供給上仍處于追趕階段。

基于Transformer架構(gòu)的AI基礎(chǔ)設(shè)施，針對(duì)PD環(huán)節(jié)的硬件解耦，已經(jīng)是大勢(shì)所趨。英偉達(dá)先后提出了面向長(zhǎng)上下文高吞吐預(yù)填充的Rubin CPX，以及更偏向解碼優(yōu)化、強(qiáng)調(diào)高內(nèi)存帶寬利用的Groq 3 LPU。

2026/03/18 完整閱讀 >

然而，PD解耦的關(guān)鍵挑戰(zhàn)在于，需要將KV緩存從預(yù)填充節(jié)點(diǎn)傳輸至解碼節(jié)點(diǎn)。這一傳輸效率取決于KV緩存的大小，以及網(wǎng)絡(luò)的速度。在傳統(tǒng)架構(gòu)中，由于KV緩存體量較大，該過(guò)程通常依賴高帶寬、低時(shí)延的RDMA網(wǎng)絡(luò)，僅適用于機(jī)房級(jí)部署，無(wú)法輕易跨集群擴(kuò)展。

讓這些專用芯片停留在同一個(gè)數(shù)據(jù)中心的局限，在于盡管專用芯片能夠顯著提升單一計(jì)算階段的效率，但當(dāng)它們被鎖死在一個(gè)固定配比的集群里時(shí)，系統(tǒng)就失去了靈活性。它們不像通用芯片，可以隨時(shí)動(dòng)態(tài)調(diào)整用途。這往往導(dǎo)致一側(cè)資源過(guò)度配置，而另一側(cè)形成性能瓶頸。

然而，隨著新一代混合注意力架構(gòu)成為國(guó)內(nèi)開源模型的主流選擇，KV緩存規(guī)模正在顯著下降。這為跨數(shù)據(jù)中心的PD解耦，提供了工程落地的可能性。

2025/09/13 完整閱讀 >

無(wú)論是Kimi Linear的KDA（Kimi Delta注意力）疊加MLA（多頭潛在注意力）機(jī)制，還是MiMo-V2-Flash的SWA（稀疏窗口注意力）疊加GQA（分組查詢注意力），等等，都在將少量的全注意力層，與大量線性復(fù)雜度或有限狀態(tài)層混合起來(lái)，交替排列，在保證質(zhì)量的基礎(chǔ)上，盡可能地減少“記憶”的開銷。

跨數(shù)據(jù)中心的PD解耦，其基礎(chǔ)設(shè)施的核心架構(gòu)，在于將長(zhǎng)上下文請(qǐng)求的Prefill需求，選擇性卸載到獨(dú)立的、算力密集型的專用PrfaaS集群完成；而“讀出來(lái)”的KV緩存，則通過(guò)通用的以太網(wǎng)，傳輸?shù)奖镜豍D集群來(lái)解碼。該架構(gòu)可以由多個(gè)PrfaaS集群與多個(gè)本地PD集群共同組成，形成分布式協(xié)同拓?fù)洹?/p>

當(dāng)然，并非所有的Prefill需求，都會(huì)被路由轉(zhuǎn)發(fā)給PrfaaS集群。那些小于動(dòng)態(tài)閾值的短請(qǐng)求，仍然留給本地集群解決；如果帶寬緊張，也會(huì)優(yōu)先使用本地集群。針對(duì)智能體時(shí)代KV緩存高度命中導(dǎo)致重復(fù)計(jì)算的問(wèn)題，月之暗面提出了全局KV緩存管理機(jī)制，以減少冗余傳輸，僅傳遞增量信息。

2026/02/27 完整閱讀 >

如此一來(lái)，計(jì)算密集型的PrfaaS集群，和內(nèi)存密集型的本地PD集群，可以各自獨(dú)立擴(kuò)展。這種靈活性意味著，不同地點(diǎn)、不同類型、甚至臨時(shí)空閑的GPU資源，都可以被統(tǒng)一利用起來(lái)參與模型推理，而不再需要它們必須在同一個(gè)高性能集群中協(xié)同工作。算力真正從“設(shè)備”，變成了“流動(dòng)資源”。

月之暗面實(shí)際驗(yàn)證了這套方案。團(tuán)隊(duì)采用的是一款混合注意力架構(gòu)的內(nèi)部自研模型，總參數(shù)規(guī)模高達(dá)1T。測(cè)試用的PrfaaS集群，由32張H200構(gòu)成，代表當(dāng)前國(guó)內(nèi)合規(guī)可用的高端算力；本地PD集群則由64張H20構(gòu)成，代表規(guī)模量產(chǎn)的國(guó)產(chǎn)AI芯片的平均水平。兩類集群通過(guò)100Gbps網(wǎng)絡(luò)連接，這也是當(dāng)前較為常見的工程部署配置。

實(shí)驗(yàn)結(jié)果顯示，相較于等規(guī)模同構(gòu)PD集群（96張H20），該方案整體吞吐量提升約54%，平均TTFT（首token延遲）降低約50%，其中90分位延遲下降約64%。同時(shí)，總網(wǎng)絡(luò)出站帶寬約13Gbps，遠(yuǎn)低于上限，說(shuō)明系統(tǒng)仍具備進(jìn)一步擴(kuò)展空間。

在相同硬件成本條件下，該架構(gòu)的綜合吞吐效率提升約15%。論文指出，成本效益更高的預(yù)填充專用芯片，可以進(jìn)一步降低部署成本。

在獲取國(guó)外先進(jìn)制程算力芯片受限，國(guó)產(chǎn)AI芯片研發(fā)仍處于代際落后，良率與產(chǎn)能也仍在爬坡的背景下，通過(guò)將高性能算力從單一集群中解耦出來(lái)，專門承擔(dān)PrfaaS預(yù)填充任務(wù)，從而優(yōu)化整體系統(tǒng)資源配置結(jié)構(gòu)，對(duì)于中國(guó)AI生態(tài)而言，具有現(xiàn)實(shí)意義。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.