<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      跨數(shù)據(jù)中心PrfaaS,Kimi探索國(guó)產(chǎn)AI算力新生態(tài) | 筆記

      0
      分享至

      從并不先進(jìn)的芯片系統(tǒng)中榨取算力,月之暗面成為DeepSeek之后新的狂魔。它提出了一套新的商業(yè)模式,Prefill-as-a-Service(PrfaaS,預(yù)填充即服務(wù))。


      如果這一模式成立,國(guó)內(nèi)規(guī)模捉襟見肘的高性能AI芯片,未來(lái)將可以集中部署于PrfaaS集群中,為更多采用稍低性能的國(guó)產(chǎn)AI芯片的推理集群,提供遠(yuǎn)程預(yù)填充能力,從而在系統(tǒng)層面實(shí)現(xiàn)算力結(jié)構(gòu)的重新分配。

      它的核心邏輯在于,讓KV緩存(KV cache)在一定條件下跨數(shù)據(jù)中心傳輸,使得預(yù)填充(Prefill)和解碼(Decode)這兩大環(huán)節(jié),有望解耦并部署到不同的異構(gòu)計(jì)算集群中。這兩個(gè)階段,對(duì)硬件資源的需求存在顯著差異,前者是“算力密集”的,后者是“內(nèi)存密集”的。中國(guó)在大規(guī)模高端算力芯片供給上仍處于追趕階段。

      基于Transformer架構(gòu)的AI基礎(chǔ)設(shè)施,針對(duì)PD環(huán)節(jié)的硬件解耦,已經(jīng)是大勢(shì)所趨。英偉達(dá)先后提出了面向長(zhǎng)上下文高吞吐預(yù)填充的Rubin CPX,以及更偏向解碼優(yōu)化、強(qiáng)調(diào)高內(nèi)存帶寬利用的Groq 3 LPU。

      2026/03/18 完整閱讀 >

      然而,PD解耦的關(guān)鍵挑戰(zhàn)在于,需要將KV緩存從預(yù)填充節(jié)點(diǎn)傳輸至解碼節(jié)點(diǎn)。這一傳輸效率取決于KV緩存的大小,以及網(wǎng)絡(luò)的速度。在傳統(tǒng)架構(gòu)中,由于KV緩存體量較大,該過(guò)程通常依賴高帶寬、低時(shí)延的RDMA網(wǎng)絡(luò),僅適用于機(jī)房級(jí)部署,無(wú)法輕易跨集群擴(kuò)展。

      讓這些專用芯片停留在同一個(gè)數(shù)據(jù)中心的局限,在于盡管專用芯片能夠顯著提升單一計(jì)算階段的效率,但當(dāng)它們被鎖死在一個(gè)固定配比的集群里時(shí),系統(tǒng)就失去了靈活性。它們不像通用芯片,可以隨時(shí)動(dòng)態(tài)調(diào)整用途。這往往導(dǎo)致一側(cè)資源過(guò)度配置,而另一側(cè)形成性能瓶頸。

      然而,隨著新一代混合注意力架構(gòu)成為國(guó)內(nèi)開源模型的主流選擇,KV緩存規(guī)模正在顯著下降。這為跨數(shù)據(jù)中心的PD解耦,提供了工程落地的可能性。

      2025/09/13 完整閱讀 >

      無(wú)論是Kimi Linear的KDA(Kimi Delta注意力)疊加MLA(多頭潛在注意力)機(jī)制,還是MiMo-V2-Flash的SWA(稀疏窗口注意力)疊加GQA(分組查詢注意力),等等,都在將少量的全注意力層,與大量線性復(fù)雜度或有限狀態(tài)層混合起來(lái),交替排列,在保證質(zhì)量的基礎(chǔ)上,盡可能地減少“記憶”的開銷。


      跨數(shù)據(jù)中心的PD解耦,其基礎(chǔ)設(shè)施的核心架構(gòu),在于將長(zhǎng)上下文請(qǐng)求的Prefill需求,選擇性卸載到獨(dú)立的、算力密集型的專用PrfaaS集群完成;而“讀出來(lái)”的KV緩存,則通過(guò)通用的以太網(wǎng),傳輸?shù)奖镜豍D集群來(lái)解碼。該架構(gòu)可以由多個(gè)PrfaaS集群與多個(gè)本地PD集群共同組成,形成分布式協(xié)同拓?fù)洹?/p>

      當(dāng)然,并非所有的Prefill需求,都會(huì)被路由轉(zhuǎn)發(fā)給PrfaaS集群。那些小于動(dòng)態(tài)閾值的短請(qǐng)求,仍然留給本地集群解決;如果帶寬緊張,也會(huì)優(yōu)先使用本地集群。針對(duì)智能體時(shí)代KV緩存高度命中導(dǎo)致重復(fù)計(jì)算的問(wèn)題,月之暗面提出了全局KV緩存管理機(jī)制,以減少冗余傳輸,僅傳遞增量信息。

      2026/02/27 完整閱讀 >

      如此一來(lái),計(jì)算密集型的PrfaaS集群,和內(nèi)存密集型的本地PD集群,可以各自獨(dú)立擴(kuò)展。這種靈活性意味著,不同地點(diǎn)、不同類型、甚至臨時(shí)空閑的GPU資源,都可以被統(tǒng)一利用起來(lái)參與模型推理,而不再需要它們必須在同一個(gè)高性能集群中協(xié)同工作。算力真正從“設(shè)備”,變成了“流動(dòng)資源”。

      月之暗面實(shí)際驗(yàn)證了這套方案。團(tuán)隊(duì)采用的是一款混合注意力架構(gòu)的內(nèi)部自研模型,總參數(shù)規(guī)模高達(dá)1T。測(cè)試用的PrfaaS集群,由32張H200構(gòu)成,代表當(dāng)前國(guó)內(nèi)合規(guī)可用的高端算力;本地PD集群則由64張H20構(gòu)成,代表規(guī)模量產(chǎn)的國(guó)產(chǎn)AI芯片的平均水平。兩類集群通過(guò)100Gbps網(wǎng)絡(luò)連接,這也是當(dāng)前較為常見的工程部署配置。

      實(shí)驗(yàn)結(jié)果顯示,相較于等規(guī)模同構(gòu)PD集群(96張H20),該方案整體吞吐量提升約54%,平均TTFT(首token延遲)降低約50%,其中90分位延遲下降約64%。同時(shí),總網(wǎng)絡(luò)出站帶寬約13Gbps,遠(yuǎn)低于上限,說(shuō)明系統(tǒng)仍具備進(jìn)一步擴(kuò)展空間。

      在相同硬件成本條件下,該架構(gòu)的綜合吞吐效率提升約15%。論文指出,成本效益更高的預(yù)填充專用芯片,可以進(jìn)一步降低部署成本。

      在獲取國(guó)外先進(jìn)制程算力芯片受限,國(guó)產(chǎn)AI芯片研發(fā)仍處于代際落后,良率與產(chǎn)能也仍在爬坡的背景下,通過(guò)將高性能算力從單一集群中解耦出來(lái),專門承擔(dān)PrfaaS預(yù)填充任務(wù),從而優(yōu)化整體系統(tǒng)資源配置結(jié)構(gòu),對(duì)于中國(guó)AI生態(tài)而言,具有現(xiàn)實(shí)意義。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      不愧是Netflix!這部黃暴美劇,值得一看

      不愧是Netflix!這部黃暴美劇,值得一看

      來(lái)看美劇
      2026-04-27 19:10:35
      iOS 27 即將發(fā)布!這四款 iPhone 將無(wú)法升級(jí)新系統(tǒng)

      iOS 27 即將發(fā)布!這四款 iPhone 將無(wú)法升級(jí)新系統(tǒng)

      XCiOS俱樂(lè)部
      2026-04-26 21:46:48
      這跟不穿有啥區(qū)別??jī)?nèi)褲外露、開叉開到腰,有錢人的時(shí)尚真看不懂

      這跟不穿有啥區(qū)別??jī)?nèi)褲外露、開叉開到腰,有錢人的時(shí)尚真看不懂

      潮鹿逐夢(mèng)
      2026-03-02 17:19:02
      高通美股盤前股價(jià)漲幅擴(kuò)大至10%

      高通美股盤前股價(jià)漲幅擴(kuò)大至10%

      每日經(jīng)濟(jì)新聞
      2026-04-27 17:19:09
      CBA最新消息!廣東男籃球票滯銷,張慶鵬帥位不穩(wěn),上海兩將復(fù)出

      CBA最新消息!廣東男籃球票滯銷,張慶鵬帥位不穩(wěn),上海兩將復(fù)出

      中國(guó)籃壇快訊
      2026-04-27 16:23:20
      東方甄選 “剩者為王”!YOYO 熬走所有對(duì)手,終成獨(dú)苗主播

      東方甄選 “剩者為王”!YOYO 熬走所有對(duì)手,終成獨(dú)苗主播

      南萬(wàn)說(shuō)娛26
      2026-04-26 10:54:10
      開始清算,不許3件事發(fā)生!30國(guó)代表離開東京,中方開打反擊戰(zhàn)

      開始清算,不許3件事發(fā)生!30國(guó)代表離開東京,中方開打反擊戰(zhàn)

      藍(lán)色海邊
      2026-04-27 17:32:45
      普京將赴美出席G20峰會(huì),中方是否參加引特朗普表態(tài)

      普京將赴美出席G20峰會(huì),中方是否參加引特朗普表態(tài)

      飄逸的云朵
      2026-04-27 21:44:20
      戚薇帶3歲兒子逛泡泡瑪特樂(lè)園,41歲的她不戴假發(fā)片,發(fā)量好少

      戚薇帶3歲兒子逛泡泡瑪特樂(lè)園,41歲的她不戴假發(fā)片,發(fā)量好少

      柒佰娛
      2026-04-27 11:09:18
      “見過(guò)最廉價(jià)的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

      “見過(guò)最廉價(jià)的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

      妍妍教育日記
      2026-04-15 09:30:09
      扎心!15年全職太太討生活費(fèi),被丈夫辱罵“沒出息”“只會(huì)要錢”

      扎心!15年全職太太討生活費(fèi),被丈夫辱罵“沒出息”“只會(huì)要錢”

      火山詩(shī)話
      2026-04-26 07:54:24
      瓜迪奧拉暗示他下賽季會(huì)重返曼城!

      瓜迪奧拉暗示他下賽季會(huì)重返曼城!

      夜白侃球
      2026-04-27 10:01:14
      中央明確了!社保最低繳費(fèi)年限要提高,70、80后得早做準(zhǔn)備

      中央明確了!社保最低繳費(fèi)年限要提高,70、80后得早做準(zhǔn)備

      云鵬敘事
      2026-04-12 16:36:39
      太瘆人!男子曬小區(qū)電梯圖,網(wǎng)友調(diào)侃豪華火化爐,評(píng)論區(qū)毛骨悚然

      太瘆人!男子曬小區(qū)電梯圖,網(wǎng)友調(diào)侃豪華火化爐,評(píng)論區(qū)毛骨悚然

      譚談社會(huì)
      2026-04-23 01:58:02
      34個(gè)低估龍頭暴雷,中國(guó)建筑,中國(guó)鐵建都暴雷,看準(zhǔn)4條不踩雷

      34個(gè)低估龍頭暴雷,中國(guó)建筑,中國(guó)鐵建都暴雷,看準(zhǔn)4條不踩雷

      鵬哥投研
      2026-04-27 11:28:44
      傳音控股2026年一季度凈利潤(rùn)7億元,同比增長(zhǎng)42.90%

      傳音控股2026年一季度凈利潤(rùn)7億元,同比增長(zhǎng)42.90%

      IT之家
      2026-04-27 16:28:18
      蔡正元談及蔣介石安葬問(wèn)題:大陸嚴(yán)格遵循墓制不允中山陵同眠

      蔡正元談及蔣介石安葬問(wèn)題:大陸嚴(yán)格遵循墓制不允中山陵同眠

      今天說(shuō)故事
      2026-04-27 17:46:55
      上海地鐵32歲女子與66歲老太互毆后續(xù):央媒發(fā)聲,拘留只是開始!

      上海地鐵32歲女子與66歲老太互毆后續(xù):央媒發(fā)聲,拘留只是開始!

      閱微札記
      2026-04-27 17:06:42
      一年賣出6億元,“童年的噩夢(mèng)”背背佳,又殺回來(lái)了

      一年賣出6億元,“童年的噩夢(mèng)”背背佳,又殺回來(lái)了

      毒sir財(cái)經(jīng)
      2026-04-26 21:07:05
      嗜賭成性只是冰山一角,婚內(nèi)出軌、睡有婦之夫,體壇丑聞毀三觀

      嗜賭成性只是冰山一角,婚內(nèi)出軌、睡有婦之夫,體壇丑聞毀三觀

      阿訊說(shuō)天下
      2026-04-25 11:15:04
      2026-04-27 23:11:00
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      365文章數(shù) 63關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek V4上線三天,第一批實(shí)測(cè)出來(lái)了

      頭條要聞

      水庫(kù)放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險(xiǎn)

      頭條要聞

      水庫(kù)放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險(xiǎn)

      體育要聞

      最抽象的天才,正在改變瓜迪奧拉

      娛樂(lè)要聞

      黃楊鈿甜為“耳環(huán)風(fēng)波”出鏡道歉:謠言已澄清

      財(cái)經(jīng)要聞

      Meta 140億收購(gòu)Manus遭中國(guó)發(fā)改委否決

      汽車要聞

      不那么小眾也可以 smart的路會(huì)越走越寬

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      手機(jī)
      游戲
      親子

      家居要聞

      江景風(fēng)格 流動(dòng)的秩序

      房產(chǎn)要聞

      信號(hào)!海南商業(yè)版圖,迎來(lái)大變局!

      手機(jī)要聞

      性能最激進(jìn)的安卓旗艦!一加16已在路上:首批搭載滿血版驍龍8E6 Pro

      寶可夢(mèng)新作Switch2版強(qiáng)鎖30幀!官方回應(yīng):我們太難了

      親子要聞

      教孩子防侵犯誤區(qū):對(duì)熟悉的壞人孩子不會(huì)害怕和恐懼!

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产女人水真多18毛片18精品| 国产成人麻豆亚洲综合无码精品| 亚洲女同精品久久女同| 国产精品天天干| 久久精品亚洲精品毛片| 在线看片免费人成视频久网下载| 白嫩人妻成人精品久久| 精品人妻无码| 熟女Www亚洲国产W| 91在线观看免费高清| 精品在免费线中文字幕久久| 江陵县| 瑞金市| 国产午夜免费啪视频观看视频| 99热线精品大全在线观看| 衡阳市| 校花人妻老师双飞| 综合天天久久| 邻居少妇张开双腿让我爽一夜| 久久亚洲欧美日本精品| 安康市| 国产一区二区三区不卡视频| 国产亚洲成人网站| 午夜免费国产体验区免费的| 舒城县| 日韩中文字幕高清有码| 国产jizz| 亚洲精品在线少妇内射| 中文字幕av在线一二三区| 免费观看的av在线播放| 高尔夫| 久久第九九| 黑人一级片| 人妻va精品va欧美va| 中文在线8资源库| 国产一卡二卡在线| 无码欧美日韩二区三区蜜桃| 广安市| 在线精品视频一区二区| 日韩欧美2| 国产96在线 | 欧美|