網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

記憶張量 × 商湯大裝置：國(guó)產(chǎn) GPGPU 推理成本反超 A100！

2025-12-04 10:56:41　來(lái)源: 量子位

美國(guó),內(nèi)華達(dá)州舉報(bào)

分享至

近日，記憶張量聯(lián)合商湯大裝置宣布，在國(guó)產(chǎn)GPGPU上率先跑通業(yè)內(nèi)首個(gè)以“記憶—計(jì)算—調(diào)度”一體化為核心的PD分離商用推理集群。相比傳統(tǒng)僅依賴(lài)硬件隔離的方案，本次落地將PD分離與記憶張量旗下核心產(chǎn)品MemOS（以下簡(jiǎn)稱(chēng) MemOS）的激活記憶體系深度耦合，使Prefill批量化可調(diào)度、Decode前臺(tái)低抖動(dòng)成為可能。

集群在真實(shí)C端負(fù)載下實(shí)現(xiàn)單卡并發(fā)效率提升20%、吞吐提升75%，綜合推理性?xún)r(jià)比達(dá)到同代NVIDIAA100的150%。這一成果標(biāo)志著國(guó)產(chǎn)算力體系在大模型商業(yè)化路徑上首次具備“體系級(jí)”競(jìng)爭(zhēng)力，為高性能模型的大規(guī)模落地打開(kāi)了全新的降本增效空間。

MemOS與PD分離深度耦合，打破性能上線

過(guò)去一年中，“PD分離”幾乎成了大模型推理優(yōu)化里最熱的技術(shù)關(guān)鍵詞之一，但一個(gè)被反復(fù)忽略的現(xiàn)實(shí)是：如果只在算力層面做PD分離，而不去重構(gòu)上層業(yè)務(wù)路徑，那么它能帶來(lái)的收益其實(shí)是有天然上限的。

隨著DeepSeek-R1等高性能模型從B端試水走向C端大規(guī)模落地，“記憶”已經(jīng)成為C端產(chǎn)品體驗(yàn)與成本結(jié)構(gòu)的核心變量。只有當(dāng)PD分離與記憶結(jié)構(gòu)深度耦合，重構(gòu)“記憶—計(jì)算—調(diào)度”整體體系，它才有機(jī)會(huì)真正超越傳統(tǒng)意義上的性能上限。

MemOS作為業(yè)內(nèi)唯一一個(gè)以記憶為中心，覆蓋從底層推理、到記憶模型，再到應(yīng)用工程進(jìn)行系統(tǒng)設(shè)計(jì)的記憶基礎(chǔ)設(shè)施，它將大模型的認(rèn)知結(jié)構(gòu)劃分為三類(lèi)記憶：參數(shù)記憶、激活記憶、明文記憶。這三類(lèi)記憶形成了一條跨時(shí)間尺度的調(diào)度鏈路，可以進(jìn)行精細(xì)地決策：哪些計(jì)算應(yīng)該前移到Prefill，哪些必須留在Decode，以及任務(wù)的保留、降級(jí)或淘汰等。

顯然，MemOS更適合和PD分離進(jìn)行結(jié)合——它擁有一整套可以“決定如何用這條通道”的調(diào)度邏輯，從而把PD分離原本有限的收益空間盡可能壓榨到極致。

正因此，本次記憶張量與商湯大裝置在某國(guó)產(chǎn)GPGPU上的解決方案，真正跑出一版帶完整業(yè)務(wù)語(yǔ)境的R1滿血推理集群——不僅在單機(jī)和小規(guī)模集群實(shí)驗(yàn)中有效，而且在嚴(yán)格SLA約束下，可以在12臺(tái)4P8D架構(gòu)的商用集群上穩(wěn)定運(yùn)行，將PD分離變成“可以被商業(yè)化復(fù)現(xiàn)的工程范式”。

結(jié)構(gòu)共振，讓 PD 分離從優(yōu)化技巧走向推理范式

在本次聯(lián)合方案中，商湯大裝置提供了讓 MemOS 三層記憶結(jié)構(gòu)擁有物理載體的頂層系統(tǒng)級(jí)基礎(chǔ)設(shè)施。依托大裝置IaaS的高效算力池、智能算力調(diào)度等為模型推理提供穩(wěn)定的基礎(chǔ)設(shè)施支撐；并借助Ignite框架提供多后端推理適配、KVCache管理優(yōu)化、關(guān)鍵算子加速、跨節(jié)點(diǎn)通信調(diào)優(yōu)等性能增強(qiáng)，形成體系化的推理優(yōu)化鏈路；同時(shí)，商湯萬(wàn)象MaaS平臺(tái)的統(tǒng)一調(diào)度策略確保Prefill與Decode服務(wù)在高并發(fā)場(chǎng)景下始終穩(wěn)定運(yùn)行。

集群的底層算力方面，則由算豐信息提供核心支撐，算豐信息在此次集群中承接管理了所有高性 GPGPU 計(jì)算資源、大規(guī)模文件對(duì)象存儲(chǔ)以及高速互聯(lián)網(wǎng)絡(luò)服務(wù)，為 PD 分離架構(gòu)的高效穩(wěn)定運(yùn)行提供了不可或缺的鼎力支持。

在商湯大裝置的某國(guó)產(chǎn)GPGPU集群上，MemOS的記憶結(jié)構(gòu)被映射成了非常清晰的物理分工：

P域（Prefill Domain）變成真正的“記憶工廠”，集中承載影子上下文的預(yù)測(cè)與KV Cache的批量預(yù)生成，這些任務(wù)通常對(duì)吞吐敏感、對(duì)時(shí)延容忍度高，因此可以在P域以高并行、高利用率的方式運(yùn)行，而不再與前臺(tái)交互搶占資源；
D域（Decode Domain）則被打造為純粹的“實(shí)時(shí)交互前臺(tái)”，專(zhuān)注處理真實(shí)用戶(hù)請(qǐng)求的解碼過(guò)程，在保持超低TTFT的前提下，承擔(dān)起R1這一類(lèi)大模型在C端場(chǎng)景的連續(xù)輸出與穩(wěn)定響應(yīng)；
跨節(jié)點(diǎn)KV Cache則通過(guò)高帶寬互聯(lián)與零拷路徑實(shí)現(xiàn)“即產(chǎn)即用”，MemOS的激活記憶機(jī)制與商湯大裝置在某國(guó)產(chǎn)GPGPU上打磨出的通信能力形成天然互補(bǔ)，使Prefill產(chǎn)生的KV Cache不再成為傳輸瓶頸，而是以極低開(kāi)銷(xiāo)進(jìn)入D域的解碼流程中。

這次合作是一次體系級(jí)的結(jié)構(gòu)共振：PD分離為MemOS打開(kāi)了一條真正意義上的高速算力通道，而MemOS則為PD分離提供了精細(xì)到記憶單元級(jí)別的調(diào)度邏輯和業(yè)務(wù)上下文，基于此，PD分離第一次從一個(gè)工程團(tuán)隊(duì)內(nèi)部的“性能小技巧”，變成一套可以被完整描述、完整度量、并在生產(chǎn)環(huán)境中長(zhǎng)期運(yùn)行的新推理范式。

綜合推理性?xún)r(jià)比達(dá)到同代NVIDIA A100的150%左右

在嚴(yán)格的生產(chǎn)級(jí)評(píng)測(cè)口徑下——包括2k輸入、1k輸出、TTFT＜2s 的SLA約束、72小時(shí)以上穩(wěn)態(tài)運(yùn)行、統(tǒng)一的限流與負(fù)載生成策略——記憶張量與商湯大裝置聯(lián)合打造的國(guó)產(chǎn)GPGPU集群交出了這樣一張答卷：

集群整體吞吐量提升超過(guò)75%，從Naive部署下的107.85 tokens/s提升到189.23 tokens/s，不是因?yàn)椤翱ǜ鼜?qiáng)了”，而是Prefill與Decode真正做到了算/存解耦，流水線氣泡被有效壓縮，影子上下文的批量預(yù)計(jì)算也不再造成資源浪費(fèi)；
單卡并發(fā)能力提升約20%，從25.00并發(fā)/卡提升至29.42并發(fā)/卡，這在C端場(chǎng)景下尤為關(guān)鍵，意味著在同等硬件規(guī)模下，集群能穩(wěn)態(tài)承載更高的實(shí)時(shí)會(huì)話數(shù)，高峰期排隊(duì)與溢出的風(fēng)險(xiǎn)明顯降低；
TTFT全程穩(wěn)定小于2秒，得益于Prefill全量前移和D域職責(zé)的“單一化”，Decode不再被一些突發(fā)的重Prefill任務(wù)搶占資源，首字延遲因此從系統(tǒng)層面得到了保障；
KV Cache在熱門(mén)場(chǎng)景中的命中率顯著提升，可達(dá)70%+，這使得諸如MemOS-Chat這一類(lèi)需要高頻、多輪交互的C端應(yīng)用，在熱點(diǎn)話題和常見(jiàn)任務(wù)上具備了極高的預(yù)計(jì)算復(fù)用率，推理成本被進(jìn)一步攤薄；
在統(tǒng)一財(cái)務(wù)與技術(shù)口徑下，綜合推理性?xún)r(jià)比達(dá)到同代NVIDIA A100的150%左右，在嚴(yán)格SLA與相同負(fù)載結(jié)構(gòu)下，某國(guó)產(chǎn)GPGPU在這一套“記憶原生×PD分離×業(yè)務(wù)調(diào)度”的框架中，第一次實(shí)現(xiàn)了對(duì)A100的體系級(jí)正面超越。

這些數(shù)字代表著：“國(guó)產(chǎn)GPU不再只是一個(gè)“可以跑大模型”的選項(xiàng)，而是真正具備了承載R1級(jí)C端業(yè)務(wù)的體系能力。”

行業(yè)意義：下一代推理范式被點(diǎn)亮

從行業(yè)視角來(lái)看，這次聯(lián)合實(shí)踐更重要的價(jià)值在于清晰地描繪出了一條未來(lái)大模型推理架構(gòu)的可行路線。

首先，PD分離從“硬件層的算存優(yōu)化”，升級(jí)為“圍繞記憶的推理范式設(shè)計(jì)”：在MemOS這樣以記憶為核心組織推理流程的系統(tǒng)里，PD分離可以延伸到行為預(yù)測(cè)、上下文規(guī)劃、激活記憶布局等更高維度，從而變成整體架構(gòu)的一部分，而不再是孤立的工程優(yōu)化。

其次，C端場(chǎng)景走向Memory推理：現(xiàn)在我們更關(guān)注的是：系統(tǒng)在多長(zhǎng)時(shí)間尺度內(nèi)能保持一致的人設(shè)、風(fēng)格和偏好；它是否能記住用戶(hù)的歷史行為，并以此給出更智慧、更個(gè)性化的反應(yīng)。在這個(gè)意義上，記憶不再是推理鏈路的外掛，而正在成為推理本身的中心。

未來(lái)，國(guó)產(chǎn)GPU不必也不應(yīng)該只是在“算力參數(shù)”上做對(duì)標(biāo)，而是有機(jī)會(huì)在體系結(jié)構(gòu)上形成差異化領(lǐng)先：通過(guò)MemOS×商湯大裝置的聯(lián)合探索，我們可以看到：當(dāng)?shù)讓蛹軜?gòu)與上層系統(tǒng)“共同為記憶和Agent這種新形態(tài)服務(wù)”時(shí)，國(guó)產(chǎn)生態(tài)完全可以定義自己的技術(shù)話語(yǔ)體系，而不是永遠(yuǎn)追隨“通用加速器+通用框架”的舊范式。

打造記憶原生時(shí)代的國(guó)產(chǎn)AI基礎(chǔ)設(shè)施新范式

未來(lái)，記憶張量與商湯將在這一范式之上繼續(xù)深化合作：

一方面，圍繞更大規(guī)模的國(guó)產(chǎn)GPGPU集群，構(gòu)建真正意義上的記憶驅(qū)動(dòng)流水線推理底座，讓“影子上下文—激活記憶—PD分離—多級(jí)緩存—AIOps”成為一套可觀測(cè)、可回滾、可演進(jìn)的基礎(chǔ)設(shè)施能力；
另一方面，在Prefill行為預(yù)測(cè)自治化、多級(jí)激活記憶管理、跨任務(wù)長(zhǎng)時(shí)記憶一致性、面向Agent的軌跡記憶等方向上持續(xù)打磨，讓這套范式更能承載未來(lái)的伴隨式AI、具身智能體以及更復(fù)雜的長(zhǎng)周期任務(wù)編排。

從更長(zhǎng)遠(yuǎn)的視角看，這次聯(lián)合實(shí)踐帶來(lái)的最大改變是：國(guó)產(chǎn)算力體系第一次擁有了另一條面向未來(lái)智能形態(tài)的可能“結(jié)構(gòu)性路線”：從參數(shù)計(jì)算走向記憶計(jì)算，從靜態(tài)推理走向動(dòng)態(tài)流水線，從模型中心走向記憶中心。

可以預(yù)見(jiàn)，未來(lái)國(guó)產(chǎn)GPGPU不再只是“跟上來(lái)”的參與者，而完全有機(jī)會(huì)成為下一代推理范式的定義者之一。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.