<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Kimi新論文:把KVCache玩成新商業(yè)模式了

      0
      分享至

      衡宇 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      把長上下文做到極致的Kimi又發(fā)新成果!

      這一次瞄準(zhǔn)的是大模型推理架構(gòu)跨機(jī)房調(diào)度沉疴。

      他們提出了一套全新范式,Prefill-as-a-Service(簡稱PrFaaS),預(yù)填充即服務(wù)。

      其核心突破是讓KV Cache可以跨數(shù)據(jù)中心傳輸,把Prefill和Decode徹底解耦到不同的異構(gòu)集群。

      有了PrFaaS,Prefill和Decode之間可以跨越城市、跨地域調(diào)度。

      而且,面對長文本場景,上下文越長,它的優(yōu)勢越明顯。

      可以說是長上下文場景天生圣體(doge)!



      這項工作由月之暗面和清華大學(xué)清華大學(xué)鄭緯民院士、武永衛(wèi)教授團(tuán)隊聯(lián)合推出

      在內(nèi)部1T參數(shù)混合注意力模型的實測驗證下,這套PrFaaS-PD架構(gòu)交出了極具說服力的數(shù)據(jù)。

      相比傳統(tǒng)同構(gòu)PD部署,吞吐量提升54%,P90延遲大幅降低64%;即便對比未做智能調(diào)度的樸素異構(gòu)方案,吞吐量依然提升32%。

      而跨數(shù)據(jù)中心傳輸僅占用13Gbps帶寬,遠(yuǎn)低于100Gbps的以太網(wǎng)上限,也就是說普通商用以太網(wǎng)即可穩(wěn)定承載

      這背后是怎么做到的?

      為什么必須跨數(shù)據(jù)中心?

      Prefill-Decode分離是大模型推理服務(wù)的行業(yè)標(biāo)配。

      但這讓KV Cache傳輸高度依賴RDMA網(wǎng)絡(luò),牢牢地把Prefill和Decode兩個階段強(qiáng)行綁定在單一集群內(nèi)

      解綁單飛不了,壓根兒解綁單飛不了。

      于是,如果最適合做Prefill的算力芯片和最適合做Decode的帶寬芯片不在一個機(jī)房,是異地戀的狀態(tài),就根本沒辦法一起用。

      但強(qiáng)行把異構(gòu)硬件塞到一起,必然導(dǎo)致資源配比完全僵死。

      大家都知道流量是波動的。配比如果定死,很容易出現(xiàn)一邊忙到飛起,一邊閑成狗的情況出現(xiàn),算力利用率大打折扣。

      導(dǎo)致這個情況的“病灶”,就是就是KV Cache的帶寬墻

      研究團(tuán)隊在這項工作中給出了量化數(shù)據(jù)。

      以MiniMax-M2.5這款典型的dense GQA架構(gòu)模型為例——

      在32K上下文時,單實例產(chǎn)生KV Cache的速率達(dá)到60Gbps,而跨數(shù)據(jù)中心以太網(wǎng)帶寬通常只有10-100Gbps,相當(dāng)于后者試圖用家用小水管來扛消防水帶的流量,根本帶不動。



      因此,為了保證推理不被卡住、不出現(xiàn)等待延遲,Prefill與Decode 之間必須使用高帶寬、低時延的RDMA網(wǎng)絡(luò)進(jìn)行通信。

      這就是傳統(tǒng)PD分離架構(gòu)只能被限制在RDMA域內(nèi)的根本原因。

      不過,新一代混合注意力架構(gòu)帶來了轉(zhuǎn)機(jī)

      近期,Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5等模型齊刷刷用上 了線性注意力+全注意力混合架構(gòu)。

      在這種混合架構(gòu)下,線性層只產(chǎn)出固定大小的循環(huán)狀態(tài),不隨上下文變長而膨脹;只有全注意力層才會生成和長度相關(guān)的KV Cache。

      它帶來了喜人的效果。在32K上下文下:

      • MiMo-V2-Flash的KV吞吐量僅4.66Gbps,比起MiniMax-M2.5來降了13倍;
      • Qwen3.5-397B的8.25Gbps相比同規(guī)dense模型的33.35Gbps,降低4倍;
      • Ring-2.5-1T的MLA壓縮疊加7:1混合比例,整體KV內(nèi)存節(jié)省約36倍。

      “線性注意力+全注意力”混合架構(gòu)把KV吞吐量從RDMA級別降到了以太網(wǎng)級別。

      跨數(shù)據(jù)中心做PD分離,終于從不可能變成了可能。

      推出破局方案“PrFaaS ”

      光有模型架構(gòu)還不夠,想真正落地跨數(shù)據(jù)中心推理,還需要一套能把 “有可能” 變成 “能用” 的系統(tǒng)架構(gòu)。

      針對這一點,清華聯(lián)合月之暗面團(tuán)隊推出了PrFaas

      PrFaaS即Prefill-as-a-Service,翻譯過來叫預(yù)填充即服務(wù)。

      它是一種跨數(shù)據(jù)中心的大模型推理服務(wù)架構(gòu),核心是將長上下文請求的Prefill計算,選擇性卸載到獨立的、算力密集型的專用集群完成,再把生成的KV Cache通過普通以太網(wǎng)傳輸?shù)奖镜豍D集群執(zhí)行Decode。



      具體來說,系統(tǒng)會設(shè)一個動態(tài)長度閾值t。

      如果是短請求(未緩存長度≤t),就老老實實留在本地PD集群跑完整個流程。

      只有長請求(未緩存長度 > t)才會被送到專門的PrFaaS集群做Prefill,生成的KV Cache再通過以太網(wǎng)傳回本地做 Decode。

      值得注意的是,閾值t會跟著實時帶寬、請求長度分布自動調(diào)整。



      整套架構(gòu)由三大子系統(tǒng)緊密配合。

      第一,計算層。

      PrFaaS集群上,H200這類高端芯片,只啃長上下文Prefill硬骨頭;而本地PD集群去用H20這類帶寬優(yōu)化芯片,專心做Decode、處理短請求。

      術(shù)業(yè)有專攻,兩類硬件各自獨立擴(kuò)容,不再強(qiáng)行配對。

      第二,網(wǎng)絡(luò)層。

      集群內(nèi)部用RDMA保證低延遲,跨數(shù)據(jù)中心就用VPC或?qū)>€,走通用以太網(wǎng)傳KV Cache,以此大幅降低部署難度和成本。

      研究人員表示實測環(huán)境是100Gbps VPC。這雖然遠(yuǎn)低于RDMA的800Gbps,但足夠用了。

      第三,存儲層,這也是最有意思的子系統(tǒng)。

      團(tuán)隊設(shè)計了一個混合前綴緩存池,把KV Cache分成兩類。

      一類是prefix-cache塊,另一類是transfer-cache塊。

      prefix-cache塊在集群內(nèi)復(fù)用,必須塊對齊才能命中;transfer-cache塊則專門用于跨集群傳輸,傳完即棄,不占用長期存儲。



      為什么這樣設(shè)計?

      因為混合模型的KV Cache是heterogeneous的。

      線性層的recurrent state是request-level,大小固定,必須完全匹配才能復(fù)用;全注意力層的KV Cache是block-level,支持部分前綴匹配。

      而統(tǒng)一池化管理,既能高效復(fù)用本地緩存,又能靈活支持跨集群傳輸。

      此外,為了穩(wěn)住生產(chǎn)環(huán)境,PrFaaS還設(shè)計了雙時間尺度調(diào)度算法

      簡單理解一下,就是短期毫秒級做帶寬+緩存感知路由,長期分鐘級做流量驅(qū)動的資源重分配。

      短期調(diào)度監(jiān)控PrFaaS出口利用率,接近閾值時提高t、減少跨中心流量。

      對于帶前綴緩存的請求,調(diào)度器會權(quán)衡緩存命中位置和帶寬可用性。如果帶寬緊張,優(yōu)先用本地緩存;如果帶寬充裕,可以從遠(yuǎn)程集群拉緩存來減少重復(fù)計算。

      長期調(diào)度觀察各階段的隊列深度和利用率。

      當(dāng)Prefill成為瓶頸時,把PD集群的節(jié)點從Decode角色轉(zhuǎn)為Prefill角色;當(dāng)Decode成為瓶頸時,反向調(diào)整。

      這種動態(tài)重分配讓系統(tǒng)能適應(yīng)流量模式的緩慢變化。

      理論可行,同時工程可用

      為了驗證跨數(shù)據(jù)中心 KV Cache傳輸與PrFaaS架構(gòu)的真實落地能力,研究團(tuán)隊基于生產(chǎn)級配置開展了嚴(yán)格的對照實驗,完整還原了異構(gòu)硬件、跨域網(wǎng)絡(luò)與真實長上下文流量的組合場景,讓方案從架構(gòu)設(shè)想變?yōu)榭闪炕⒖蓮?fù)用的工程實踐。

      實驗選用團(tuán)隊內(nèi)部自研的1T參數(shù)混合注意力架構(gòu)模型,整體設(shè)計對齊Kimi Linear架構(gòu),采用線性注意力層與全注意力層7:1的混合配比。

      此外,在保持模型能力的同時實現(xiàn)KV Cache的高效壓縮,為跨數(shù)據(jù)中心傳輸?shù)於ɑA(chǔ)。



      硬件層面,團(tuán)隊采用了典型異構(gòu)組合。

      專門負(fù)責(zé)長上下文Prefill的PrFaaS集群配備32張H200,憑借更強(qiáng)算力吞吐處理高負(fù)載計算;本地PD集群配備64張H20 GPU,面向Decode階段優(yōu)化內(nèi)存帶寬,兼顧短請求Prefill與全流程推理。

      網(wǎng)絡(luò)層面,團(tuán)隊采用跨數(shù)據(jù)中心通用方案,通過VPC對等連接提供約100Gbps的跨集群帶寬,完全貼合主流云廠商與多數(shù)據(jù)中心部署環(huán)境。

      實驗workload采用截斷對數(shù)正態(tài)分布的請求長度,均值約27K tokens,高度貼近線上長上下文服務(wù)的真實流量特征。



      實驗結(jié)果證明了PrFaaS-PD架構(gòu)的工程有效性。

      在核心性能指標(biāo)上,相比同等硬件規(guī)模的同構(gòu)PD集群,PrFaaS-PD架構(gòu)將服務(wù)吞吐量提升54%;相比未做智能調(diào)度的簡單異構(gòu)部署,吞吐量仍有32%的提升。

      在端到端延遲上,PrFaaS-PD架構(gòu)帶來的優(yōu)化效果更為顯著,P90 TTFT(首詞時延)降低幅度達(dá)64%,長請求不再與短請求爭搶本地Prefill資源,排隊阻塞與計算擁堵問題大幅緩解。

      更關(guān)鍵的是工程可行性指標(biāo)。

      PrFaaS集群的平均出口帶寬僅13Gbps,在100Gbps的跨集群鏈路中占比僅13%,留有充足的帶寬冗余,完全不會出現(xiàn)擁塞與鏈路搶占。

      實驗結(jié)果證實,在混合模型與PrFaaS調(diào)度的協(xié)同下,KV Cache傳輸可以不再依賴 RDMA,普通商用以太網(wǎng)即可穩(wěn)定支撐。

      論文團(tuán)隊成員介紹

      這項研究由月之暗面與清華大學(xué)聯(lián)合完成

      作者包括Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang(通訊作者)。



      其中,研究團(tuán)隊成員中來自月之暗面的,有Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu五位。

      一作Ruoyu Qin(秦若愚),是清華大學(xué)計算機(jī)科學(xué)與技術(shù)系MADSys實驗室在讀博士生,師從本文通訊作者、清華大學(xué)計算機(jī)系副教授Mingxing Zhang(章明星),后者長期面向KV Cache架構(gòu)與分布式推理。

      同時,Qin也在月之暗面工作,還是Mooncake分布式推理系統(tǒng)的一作。



      月之暗面工程副總裁Xinran Xu(許欣然)也在作者名單之列。

      量子位發(fā)現(xiàn),作者名單中月之暗面的五位,同樣也是Mooncake架構(gòu)的核心貢獻(xiàn)者。

      除上述的教授章明星外,研究團(tuán)隊中來自清華大學(xué)的作者還有Yongwei Wu和Weimin Zheng。

      Weimin Zheng(鄭緯民),中國工程院院士,清華大學(xué)計算機(jī)系教授,長期從事并行/分布處理、大規(guī)模數(shù)據(jù)存儲系統(tǒng)領(lǐng)域的科研與教學(xué)工作。



      Yongwei Wu(武永衛(wèi))是清華大學(xué)計算機(jī)科學(xué)與技術(shù)系副主任、教授、博士生導(dǎo)師,此外還擔(dān)任AI Infra公司趨境科技的首席科學(xué)家。

      此前,月之暗面與清華大學(xué)MADSys實驗室聯(lián)合主導(dǎo)研發(fā)并開源了Mooncake項目,趨境科技是該項目核心共建單位與深度貢獻(xiàn)者。

      參考鏈接:
      [1]
      https://arxiv.org/abs/2604.15039
      [2]
      https://madsys.cs.tsinghua.edu.cn/people/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      僅播4集就口碑大爆,評分高達(dá)9.5,這才是黑馬古裝劇該有的樣子

      僅播4集就口碑大爆,評分高達(dá)9.5,這才是黑馬古裝劇該有的樣子

      糊咖娛樂
      2026-04-25 16:58:09
      20年代,林徽因與冰心郊游的唯一合影,這是他們的真實容顏

      20年代,林徽因與冰心郊游的唯一合影,這是他們的真實容顏

      以茶帶書
      2026-04-25 19:22:44
      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      蝴蝶花雨話教育
      2026-04-25 00:45:03
      全院6部門指認(rèn)院長王行環(huán),長期大搞權(quán)色交易、錢色交易

      全院6部門指認(rèn)院長王行環(huán),長期大搞權(quán)色交易、錢色交易

      雪中風(fēng)車
      2026-04-26 19:32:33
      1969年張治中住院,病重時聯(lián)系中央:讓我的女婿來看看我,好嗎?

      1969年張治中住院,病重時聯(lián)系中央:讓我的女婿來看看我,好嗎?

      銅臭的歷史味
      2026-04-26 07:53:51
      一個收入不高的人,可以偽精致到什么程度?網(wǎng)友:天天為賬單發(fā)愁

      一個收入不高的人,可以偽精致到什么程度?網(wǎng)友:天天為賬單發(fā)愁

      另子維愛讀史
      2026-04-20 09:36:56
      記者:為爭取休息時間,津門虎隊在京津德比賽后連夜驅(qū)車返津

      記者:為爭取休息時間,津門虎隊在京津德比賽后連夜驅(qū)車返津

      懂球帝
      2026-04-26 10:17:07
      陳思誠怎么也沒想到,自己籌備的新片首映禮,被10歲兒子搶了風(fēng)頭

      陳思誠怎么也沒想到,自己籌備的新片首映禮,被10歲兒子搶了風(fēng)頭

      草莓解說體育
      2026-04-26 09:11:29
      42歲,傅首爾徹底變樣了!瘦成標(biāo)準(zhǔn)美女,網(wǎng)友:和麥琳像親姐妹

      42歲,傅首爾徹底變樣了!瘦成標(biāo)準(zhǔn)美女,網(wǎng)友:和麥琳像親姐妹

      娛樂皮皮醬
      2026-04-24 17:33:27
      臺高層悄然抵達(dá)非洲,大陸徹底看清:特朗普的最壞打算是什么

      臺高層悄然抵達(dá)非洲,大陸徹底看清:特朗普的最壞打算是什么

      冷峻視角下的世界
      2026-04-26 22:06:02
      商務(wù)部新聞發(fā)言人就歐盟第20輪對俄制裁列單中國企業(yè)答記者問

      商務(wù)部新聞發(fā)言人就歐盟第20輪對俄制裁列單中國企業(yè)答記者問

      新京報
      2026-04-25 19:54:28
      南昌起義中唯一叛變副軍長:歷經(jīng)22年回歸組織,終成副國級領(lǐng)導(dǎo)人

      南昌起義中唯一叛變副軍長:歷經(jīng)22年回歸組織,終成副國級領(lǐng)導(dǎo)人

      鑒史錄
      2026-04-26 06:02:06
      海牙做出審判,老杜回國無望,人民日報一錘定音:中國不救菲律賓

      海牙做出審判,老杜回國無望,人民日報一錘定音:中國不救菲律賓

      泠泠說史
      2026-04-25 20:05:47
      48歲羽協(xié)主席被查,何濟(jì)霆如愿,劉李平安

      48歲羽協(xié)主席被查,何濟(jì)霆如愿,劉李平安

      最美的巧合
      2026-04-25 17:18:56
      最新:烏克蘭收復(fù)扎波羅熱要塞并構(gòu)建立足點!再推進(jìn)15公里

      最新:烏克蘭收復(fù)扎波羅熱要塞并構(gòu)建立足點!再推進(jìn)15公里

      項鵬飛
      2026-04-25 22:56:08
      慣子如殺子!孩子這4種表現(xiàn)說明已經(jīng)被慣壞了,再不改就來不及了

      慣子如殺子!孩子這4種表現(xiàn)說明已經(jīng)被慣壞了,再不改就來不及了

      新東方家庭教育
      2026-04-22 16:10:46
      趙心童13-9勝丁俊暉,二度闖進(jìn)世錦賽八強(qiáng),吳宜澤4-3反超四冠王

      趙心童13-9勝丁俊暉,二度闖進(jìn)世錦賽八強(qiáng),吳宜澤4-3反超四冠王

      天涯遠(yuǎn)行人
      2026-04-26 20:17:01
      年度真香款!亞瑟士溯溪鞋,“水陸兩棲”清涼透風(fēng),一雙封神!

      年度真香款!亞瑟士溯溪鞋,“水陸兩棲”清涼透風(fēng),一雙封神!

      日本通
      2026-04-26 10:34:30
      “真假開市客”牽扯出的皮省川,曾被渣打銀行與華潤打假

      “真假開市客”牽扯出的皮省川,曾被渣打銀行與華潤打假

      金融界
      2026-04-25 22:02:49
      快訊!烏克蘭傳來消息!

      快訊!烏克蘭傳來消息!

      達(dá)文西看世界
      2026-04-26 16:37:03
      2026-04-26 23:31:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12536文章數(shù) 176458關(guān)注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

      頭條要聞

      以色列政壇重大變局 內(nèi)塔尼亞胡迎來勁敵

      頭條要聞

      以色列政壇重大變局 內(nèi)塔尼亞胡迎來勁敵

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環(huán)王》的美劇,有第二季

      財經(jīng)要聞

      事關(guān)新就業(yè)群體,中辦、國辦發(fā)文

      汽車要聞

      預(yù)售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態(tài)度原創(chuàng)

      手機(jī)
      游戲
      教育
      健康
      旅游

      手機(jī)要聞

      鴻蒙6,玻璃,光,和我

      3D區(qū)女神淪陷!蒂法胸口被加布料 玩家直呼失望

      教育要聞

      加速社會與數(shù)字?jǐn)噙B:為了“上岸”身不由己

      干細(xì)胞如何讓燒燙傷皮膚"再生"?

      旅游要聞

      東阿文旅煥新升級:東阿阿膠城牽手開心麻花開啟文旅融合新征程

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 人人做人人妻人人精| 欧美日韩一卡二卡| 131美女爱做视频| 久久婷婷成人综合色| 亚洲欧美人成电影在线观看| 一个人看的www视频在线播放| 久久综合色之久久综合色 | 国产特级毛片aaaaaa毛片| 99国产精品无码| 玖玖精品| 南投县| 色性av| 国产精品一品二区三区的使用体验| 亚洲激情+五月| 国产传媒| 成人性做爰aaa片免费看| 欧美国产日韩久久mv| 18禁成人网站免费观看| 日本精品极品视频在线| 久久免费少妇高潮久久精品99| 德江县| 日韩精品一区二区三区四区五区六 | 国产99久久久久久免费看| 亚洲一卡一卡| 99热这里有精品| 蜜臂AV| 国产永久免费高清在线观看| 国产精品伊人| 欧美喷潮最猛视频| 亚洲日韩第三页| 亚洲欧美v国产蜜芽tv| 亚洲中文字幕无码一区日日添 | 性无码专区无码| 91视频播放| 性人久久久久| chinese性内射高清国产| 我和亲妺妺乱的性视频| 亚洲 制服 丝袜 无码| 汉中市| 欧美日本亚洲| 色噜噜狠狠一区二区三区果冻 |