近日,記憶張量聯(lián)合商湯大裝置宣布,在國(guó)產(chǎn)GPGPU上率先跑通業(yè)內(nèi)首個(gè)以“記憶—計(jì)算—調(diào)度”一體化為核心的PD分離商用推理集群。相比傳統(tǒng)僅依賴(lài)硬件隔離的方案,本次落地將PD分離與記憶張量旗下核心產(chǎn)品MemOS(以下簡(jiǎn)稱(chēng) MemOS)的激活記憶體系深度耦合,使Prefill批量化可調(diào)度、Decode前臺(tái)低抖動(dòng)成為可能。
集群在真實(shí)C端負(fù)載下實(shí)現(xiàn)單卡并發(fā)效率提升20%、吞吐提升75%,綜合推理性?xún)r(jià)比達(dá)到同代NVIDIAA100的150%。這一成果標(biāo)志著國(guó)產(chǎn)算力體系在大模型商業(yè)化路徑上首次具備“體系級(jí)”競(jìng)爭(zhēng)力,為高性能模型的大規(guī)模落地打開(kāi)了全新的降本增效空間。
![]()
MemOS與PD分離深度耦合,打破性能上線
過(guò)去一年中,“PD分離”幾乎成了大模型推理優(yōu)化里最熱的技術(shù)關(guān)鍵詞之一,但一個(gè)被反復(fù)忽略的現(xiàn)實(shí)是:如果只在算力層面做PD分離,而不去重構(gòu)上層業(yè)務(wù)路徑,那么它能帶來(lái)的收益其實(shí)是有天然上限的。
隨著DeepSeek-R1等高性能模型從B端試水走向C端大規(guī)模落地,“記憶”已經(jīng)成為C端產(chǎn)品體驗(yàn)與成本結(jié)構(gòu)的核心變量。只有當(dāng)PD分離與記憶結(jié)構(gòu)深度耦合,重構(gòu)“記憶—計(jì)算—調(diào)度”整體體系,它才有機(jī)會(huì)真正超越傳統(tǒng)意義上的性能上限。
MemOS作為業(yè)內(nèi)唯一一個(gè)以記憶為中心,覆蓋從底層推理、到記憶模型,再到應(yīng)用工程進(jìn)行系統(tǒng)設(shè)計(jì)的記憶基礎(chǔ)設(shè)施,它將大模型的認(rèn)知結(jié)構(gòu)劃分為三類(lèi)記憶:參數(shù)記憶、激活記憶、明文記憶。這三類(lèi)記憶形成了一條跨時(shí)間尺度的調(diào)度鏈路,可以進(jìn)行精細(xì)地決策:哪些計(jì)算應(yīng)該前移到Prefill,哪些必須留在Decode,以及任務(wù)的保留、降級(jí)或淘汰等。
顯然,MemOS更適合和PD分離進(jìn)行結(jié)合——它擁有一整套可以“決定如何用這條通道”的調(diào)度邏輯,從而把PD分離原本有限的收益空間盡可能壓榨到極致。
正因此,本次記憶張量與商湯大裝置在某國(guó)產(chǎn)GPGPU上的解決方案,真正跑出一版帶完整業(yè)務(wù)語(yǔ)境的R1滿血推理集群——不僅在單機(jī)和小規(guī)模集群實(shí)驗(yàn)中有效,而且在嚴(yán)格SLA約束下,可以在12臺(tái)4P8D架構(gòu)的商用集群上穩(wěn)定運(yùn)行,將PD分離變成“可以被商業(yè)化復(fù)現(xiàn)的工程范式”。
結(jié)構(gòu)共振,讓 PD 分離從優(yōu)化技巧走向推理范式
在本次聯(lián)合方案中,商湯大裝置提供了讓 MemOS 三層記憶結(jié)構(gòu)擁有物理載體的頂層系統(tǒng)級(jí)基礎(chǔ)設(shè)施。依托大裝置IaaS的高效算力池、智能算力調(diào)度等為模型推理提供穩(wěn)定的基礎(chǔ)設(shè)施支撐;并借助Ignite框架提供多后端推理適配、KVCache管理優(yōu)化、關(guān)鍵算子加速、跨節(jié)點(diǎn)通信調(diào)優(yōu)等性能增強(qiáng),形成體系化的推理優(yōu)化鏈路;同時(shí),商湯萬(wàn)象MaaS平臺(tái)的統(tǒng)一調(diào)度策略確保Prefill與Decode服務(wù)在高并發(fā)場(chǎng)景下始終穩(wěn)定運(yùn)行。
集群的底層算力方面, 則由算豐信息提供核心支撐,算豐信息在此次集群中承接管理了所有高性 GPGPU 計(jì)算資源、大規(guī)模文件對(duì)象存儲(chǔ)以及高速互聯(lián)網(wǎng)絡(luò)服務(wù),為 PD 分離架構(gòu)的高效穩(wěn)定運(yùn)行提供了不可或缺的鼎力支持。
在商湯大裝置的某國(guó)產(chǎn)GPGPU集群上,MemOS的記憶結(jié)構(gòu)被映射成了非常清晰的物理分工:
![]()
- P域(Prefill Domain)變成真正的“記憶工廠”,集中承載影子上下文的預(yù)測(cè)與KV Cache的批量預(yù)生成,這些任務(wù)通常對(duì)吞吐敏感、對(duì)時(shí)延容忍度高,因此可以在P域以高并行、高利用率的方式運(yùn)行,而不再與前臺(tái)交互搶占資源;
- D域(Decode Domain)則被打造為純粹的“實(shí)時(shí)交互前臺(tái)”,專(zhuān)注處理真實(shí)用戶(hù)請(qǐng)求的解碼過(guò)程,在保持超低TTFT的前提下,承擔(dān)起R1這一類(lèi)大模型在C端場(chǎng)景的連續(xù)輸出與穩(wěn)定響應(yīng);
- 跨節(jié)點(diǎn)KV Cache則通過(guò)高帶寬互聯(lián)與零拷路徑實(shí)現(xiàn)“即產(chǎn)即用”,MemOS的激活記憶機(jī)制與商湯大裝置在某國(guó)產(chǎn)GPGPU上打磨出的通信能力形成天然互補(bǔ),使Prefill產(chǎn)生的KV Cache不再成為傳輸瓶頸,而是以極低開(kāi)銷(xiāo)進(jìn)入D域的解碼流程中。
這次合作是一次體系級(jí)的結(jié)構(gòu)共振:PD分離為MemOS打開(kāi)了一條真正意義上的高速算力通道,而MemOS則為PD分離提供了精細(xì)到記憶單元級(jí)別的調(diào)度邏輯和業(yè)務(wù)上下文,基于此,PD分離第一次從一個(gè)工程團(tuán)隊(duì)內(nèi)部的“性能小技巧”,變成一套可以被完整描述、完整度量、并在生產(chǎn)環(huán)境中長(zhǎng)期運(yùn)行的新推理范式。
綜合推理性?xún)r(jià)比達(dá)到同代NVIDIA A100的150%左右
在嚴(yán)格的生產(chǎn)級(jí)評(píng)測(cè)口徑下——包括2k輸入、1k輸出、TTFT<2s 的SLA約束、72小時(shí)以上穩(wěn)態(tài)運(yùn)行、統(tǒng)一的限流與負(fù)載生成策略——記憶張量與商湯大裝置聯(lián)合打造的國(guó)產(chǎn)GPGPU集群交出了這樣一張答卷:
- 集群整體吞吐量提升超過(guò)75%,從Naive部署下的107.85 tokens/s提升到189.23 tokens/s,不是因?yàn)椤翱ǜ鼜?qiáng)了”,而是Prefill與Decode真正做到了算/存解耦,流水線氣泡被有效壓縮,影子上下文的批量預(yù)計(jì)算也不再造成資源浪費(fèi);
- 單卡并發(fā)能力提升約20%,從25.00并發(fā)/卡提升至29.42并發(fā)/卡,這在C端場(chǎng)景下尤為關(guān)鍵,意味著在同等硬件規(guī)模下,集群能穩(wěn)態(tài)承載更高的實(shí)時(shí)會(huì)話數(shù),高峰期排隊(duì)與溢出的風(fēng)險(xiǎn)明顯降低;
- TTFT全程穩(wěn)定小于2秒,得益于Prefill全量前移和D域職責(zé)的“單一化”,Decode不再被一些突發(fā)的重Prefill任務(wù)搶占資源,首字延遲因此從系統(tǒng)層面得到了保障;
- KV Cache在熱門(mén)場(chǎng)景中的命中率顯著提升,可達(dá)70%+,這使得諸如MemOS-Chat這一類(lèi)需要高頻、多輪交互的C端應(yīng)用,在熱點(diǎn)話題和常見(jiàn)任務(wù)上具備了極高的預(yù)計(jì)算復(fù)用率,推理成本被進(jìn)一步攤薄;
- 在統(tǒng)一財(cái)務(wù)與技術(shù)口徑下,綜合推理性?xún)r(jià)比達(dá)到同代NVIDIA A100的150%左右,在嚴(yán)格SLA與相同負(fù)載結(jié)構(gòu)下,某國(guó)產(chǎn)GPGPU在這一套“記憶原生×PD分離×業(yè)務(wù)調(diào)度”的框架中,第一次實(shí)現(xiàn)了對(duì)A100的體系級(jí)正面超越。
這些數(shù)字代表著:“國(guó)產(chǎn)GPU不再只是一個(gè)“可以跑大模型”的選項(xiàng),而是真正具備了承載R1級(jí)C端業(yè)務(wù)的體系能力。”
行業(yè)意義:下一代推理范式被點(diǎn)亮
從行業(yè)視角來(lái)看,這次聯(lián)合實(shí)踐更重要的價(jià)值在于清晰地描繪出了一條未來(lái)大模型推理架構(gòu)的可行路線。
首先,PD分離從“硬件層的算存優(yōu)化”,升級(jí)為“圍繞記憶的推理范式設(shè)計(jì)”:在MemOS這樣以記憶為核心組織推理流程的系統(tǒng)里,PD分離可以延伸到行為預(yù)測(cè)、上下文規(guī)劃、激活記憶布局等更高維度,從而變成整體架構(gòu)的一部分,而不再是孤立的工程優(yōu)化。
其次,C端場(chǎng)景走向Memory推理:現(xiàn)在我們更關(guān)注的是:系統(tǒng)在多長(zhǎng)時(shí)間尺度內(nèi)能保持一致的人設(shè)、風(fēng)格和偏好;它是否能記住用戶(hù)的歷史行為,并以此給出更智慧、更個(gè)性化的反應(yīng)。在這個(gè)意義上,記憶不再是推理鏈路的外掛,而正在成為推理本身的中心。
未來(lái),國(guó)產(chǎn)GPU不必也不應(yīng)該只是在“算力參數(shù)”上做對(duì)標(biāo),而是有機(jī)會(huì)在體系結(jié)構(gòu)上形成差異化領(lǐng)先:通過(guò)MemOS×商湯大裝置的聯(lián)合探索,我們可以看到:當(dāng)?shù)讓蛹軜?gòu)與上層系統(tǒng)“共同為記憶和Agent這種新形態(tài)服務(wù)”時(shí),國(guó)產(chǎn)生態(tài)完全可以定義自己的技術(shù)話語(yǔ)體系,而不是永遠(yuǎn)追隨“通用加速器+通用框架”的舊范式。
打造記憶原生時(shí)代的國(guó)產(chǎn)AI基礎(chǔ)設(shè)施新范式
未來(lái),記憶張量與商湯將在這一范式之上繼續(xù)深化合作:
- 一方面,圍繞更大規(guī)模的國(guó)產(chǎn)GPGPU集群,構(gòu)建真正意義上的記憶驅(qū)動(dòng)流水線推理底座,讓“影子上下文—激活記憶—PD分離—多級(jí)緩存—AIOps”成為一套可觀測(cè)、可回滾、可演進(jìn)的基礎(chǔ)設(shè)施能力;
- 另一方面,在Prefill行為預(yù)測(cè)自治化、多級(jí)激活記憶管理、跨任務(wù)長(zhǎng)時(shí)記憶一致性、面向Agent的軌跡記憶等方向上持續(xù)打磨,讓這套范式更能承載未來(lái)的伴隨式AI、具身智能體以及更復(fù)雜的長(zhǎng)周期任務(wù)編排。
從更長(zhǎng)遠(yuǎn)的視角看,這次聯(lián)合實(shí)踐帶來(lái)的最大改變是:國(guó)產(chǎn)算力體系第一次擁有了另一條面向未來(lái)智能形態(tài)的可能“結(jié)構(gòu)性路線”:從參數(shù)計(jì)算走向記憶計(jì)算,從靜態(tài)推理走向動(dòng)態(tài)流水線,從模型中心走向記憶中心。
可以預(yù)見(jiàn),未來(lái)國(guó)產(chǎn)GPGPU不再只是“跟上來(lái)”的參與者,而完全有機(jī)會(huì)成為下一代推理范式的定義者之一。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.