品玩4月20日訊,據(jù) marktechpost 報道,Moonshot AI與清華大學(xué)研究團隊聯(lián)合發(fā)布Prefill-as-a-Service(PrfaaS)架構(gòu),突破大模型推理的硬件部署限制。該研究針對混合注意力模型,將長上下文預(yù)填充任務(wù)卸載至獨立的高算力集群,通過通用以太網(wǎng)傳輸KVCache至本地解碼集群,實現(xiàn)跨數(shù)據(jù)中心協(xié)同。
PrfaaS引入基于長度的閾值路由機制與雙時間尺度調(diào)度器,根據(jù)請求長度動態(tài)分配資源并優(yōu)化網(wǎng)絡(luò)傳輸。實測數(shù)據(jù)顯示,該架構(gòu)使服務(wù)吞吐量較同構(gòu)基線提升54%,較樸素異構(gòu)配置提升32%,同時將首字生成延遲降低50%。
研究表明,混合注意力機制顯著壓縮KVCache體積,使其適配跨數(shù)據(jù)中心以太網(wǎng)傳輸。這一突破為未來算力網(wǎng)絡(luò)構(gòu)建提供了關(guān)鍵工程路徑,標(biāo)志著大模型推理正邁向更高效的工業(yè)化應(yīng)用階段。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.