<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      小米給KV Cache減負80%!MiMo團隊推出混合稀疏注意力架構

      0
      分享至

      小米Mimo大模型團隊投稿
      量子位 | 公眾號 QbitAI

      小米MiMo大模型團隊,加入AI拜年戰(zhàn)場——

      推出HySparse,一種面向Agent時代的混合稀疏注意力架構

      HySparse創(chuàng)新使用極少的全注意力(Full Attention)層提供“token選擇+KV Cache”,其余稀疏注意力(Sparse Attention)層直接復用這些信息,實現(xiàn)高效精準的長上下文建模。

      在總共49層的80B-A3BMoE模型實驗中,僅保留5層Full Attention仍能保持甚至提升模型能力,同時顯著降低KVCache存儲與計算開銷,實現(xiàn)效果與效率的兼顧,展示出混合稀疏注意力在超長上下文建模中的巨大潛力。



      HySparse的設計靈感來源于學術界已有研究工作的經(jīng)驗和觀察之上。

      一部分是顯著token在相鄰層之間相對穩(wěn)定。

      已有工作如TidalDecode等,觀察到連續(xù)層的 “重要 token” 會高度重合,因此可以在某層識別重要token并在后續(xù)層復用。

      HySparse將這一觀察提升用于模型結構設計并直接訓練。

      還有部分受啟發(fā)于跨層KV Cache共享能顯著省顯存且不顯著傷性能,YOCO、Gemma3n等架構層面工作已經(jīng)證明了跨層共享KV的可行性。

      HySparse將共享直接落在“Full Attention層 → 其后Sparse Attention層” 的hybrid block內(nèi)共享上。

      背景:Sparse Attention的 “兩朵烏云”

      多數(shù)Sparse Attention方法都遵循同一基本范式:先選擇,再計算。

      在真正計算注意力之前,先用一個“選擇器” 決定哪些重要token是值得注意的,只在這些位置上進行注意力計算。

      這一范式降低了計算量,但始終繞不開兩個根本問題。

      一個問題是重要 Token 的選擇依賴代理(Proxy)

      Sparse Attention的核心在于 “選哪些重要token”。

      但現(xiàn)實中,這一選擇往往依賴proxy信號:固定模式、啟發(fā)式規(guī)則、近似估計,或額外的輕量化選擇模塊。

      這些proxy本質(zhì)上都是對真實注意力分布的近似,無法保證能完全精準地識別最重要的token;在長上下文、持續(xù)生成的場景下,這種近似誤差還會不可避免地累積。

      即便是可訓練的Sparse Attention方法,往往也只是將人工設計的選擇規(guī)則替換為可學習的輕量化選擇代理模塊,通過訓練來對齊選擇行為。

      這在一定程度上緩解了選擇誤差,但同時顯著增加了訓練復雜度,難以從根本上擺脫這一“代理瓶頸”。

      第二個問題是計算量降低,但KV Cache存儲未減

      目前,主流的動態(tài)Sparse Attention注意力方法主要減少的是計算開銷。

      這類做法不再對所有token執(zhí)行注意力計算;但為了避免在生成過程中不可逆地錯誤丟棄KV Cache(因為token的重要性會隨生成動態(tài)變化),推理階段通常仍需保留全量KV Cache。

      帶來的結果就是計算量確實下降了,但顯存與帶寬這一主要瓶頸依然存在。

      HySparse:把 “選擇” 和 “緩存”交給Full Attention

      HySparse做的事是把 “選擇” 和 “緩存” 這兩件對Sparse Attention來說最難的事,交給Full Attention來做

      為此,HySparse采用hybrid block結構。

      每個hybrid block由1層Full Attention+N層Sparse Attention組成。

      Hybrid block內(nèi)部的Sparse Attention層并不再獨立做token選擇和維護全量KV,而是直接復用前置Full Attention層產(chǎn)生的重要token索引和 KV Cache。

      這背后的動機是Full Attention在完成自身計算的同時,已經(jīng)生成了KV Cache,并且計算出了最準確的token重要性信息,自然可以供后續(xù)N個Sparse Attention層直接復用。



      這一設計表面上非常簡潔,卻巧妙地同時解決了上述 Sparse Attention 的兩大核心問題,

      • 選擇不再依賴proxy;
      • Sparse層不引入額外KV Cache開銷。

      同時,HySparse稀疏層不是單一路徑,稀疏層內(nèi)部也做了一次 “全局稀疏 + 局部窗口” 的混合結構。

      HySparse 的每一層 Sparse Attention 包含兩條分支:

      • 塊級稀疏注意力分支(全局):在TopK索引對應的共享KV Cache上進行全局Sparse Attention計算;
      • 滑動窗口注意力分支(局部):維護一個很小的本地窗口KV Cache(默認窗口大小為128)以保證局部建模能力。

      兩分支輸出通過輕量門控(sigmoid gate)進行融合。

      直觀地看,HySparse并不是用Sparse Attention取代Full Attention ,而是將全局信息通路拆解為 “少量昂貴但可靠的全注意力”+“多次廉價而高效的全局稀疏檢索與局部建模”。

      實驗結果:整體更優(yōu)

      為了驗證HySparse的有效性,研究團隊將其與兩類主流架構進行對比:

      • Full-Attn:所有層均為Full Attention;
      • Hybrid SWA:按比例混合Full Attention和Sliding Window Attention;
      • HySparse:采用與Hybrid SWA相同的Full Attention比例,但將滑動窗口層升級為“全局稀疏 + 局部窗口”的Sparse Attention。

      研究人員分別在7B的Dense模型和80B的MoE模型上進行了實驗。

      結果顯示,7B模型共有36層,其中9層是Full Attention;80B MoE模型共有49層,只有5層是Full Attention,這為HySparse帶來了接近10×的KV Cache存儲降低。

      在多項通用、數(shù)學、代碼和中文評測中,HySparse在7B Dense和80B MoE兩種規(guī)模均帶來穩(wěn)定提升。

      特別是在80B MoE的激進混合比例下,HySparse通過全局稀疏檢索通路有效保持長距離信息訪問,維持了全局推理能力,還在部分任務上超越了全注意力基線,充分體現(xiàn)了全局稀疏通路的重要作用。



      RULER長文測試表明,HySparse即便將Full Attention層壓到極少,也能穩(wěn)定保持長距離關鍵信息訪問,充分展現(xiàn)了其混合稀疏結構的優(yōu)勢。



      小米MiMo表示,計劃在更大規(guī)模模型上進一步驗證HySparse的極限和潛力,并持續(xù)探索降低Full Attention層數(shù)量的可能性,讓超長上下文更高效。

      arXiv鏈接:
      https://arxiv.org/abs/2602.03560

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美軍企創(chuàng)始人用卷尺量“殲-35A”發(fā)文詆毀 專家:行為藝術,極不專業(yè)

      美軍企創(chuàng)始人用卷尺量“殲-35A”發(fā)文詆毀 專家:行為藝術,極不專業(yè)

      環(huán)球網(wǎng)資訊
      2026-02-06 22:39:17
      廣西壯族自治區(qū)河池市人大常委會原黨組書記、主任潘育偉接受審查調(diào)查

      廣西壯族自治區(qū)河池市人大常委會原黨組書記、主任潘育偉接受審查調(diào)查

      界面新聞
      2026-02-07 17:07:32
      我國成功發(fā)射可重復使用試驗航天器

      我國成功發(fā)射可重復使用試驗航天器

      界面新聞
      2026-02-07 12:38:37
      特朗普:預計到我本屆任期結束時 道指將站上10萬點

      特朗普:預計到我本屆任期結束時 道指將站上10萬點

      財聯(lián)社
      2026-02-07 13:40:26
      懷胎7月孕婦與婆婆慘遭殺害,只因一條評論!行兇者:感覺受侮辱……多方發(fā)聲

      懷胎7月孕婦與婆婆慘遭殺害,只因一條評論!行兇者:感覺受侮辱……多方發(fā)聲

      上觀新聞
      2026-02-07 20:10:08
      因與人產(chǎn)生矛盾,持雙管獵槍射擊致對方1死1傷,山東菏澤69歲“黑老大”段效靈被執(zhí)行死刑,其組織和領導黑社會性質(zhì)多次故意殺人,犯罪69次

      因與人產(chǎn)生矛盾,持雙管獵槍射擊致對方1死1傷,山東菏澤69歲“黑老大”段效靈被執(zhí)行死刑,其組織和領導黑社會性質(zhì)多次故意殺人,犯罪69次

      大風新聞
      2026-02-07 18:17:28
      難以置信!成都一小區(qū)拉出橫幅:這里都是黑旅館,入住安全無保障

      難以置信!成都一小區(qū)拉出橫幅:這里都是黑旅館,入住安全無保障

      火山詩話
      2026-02-07 16:21:22
      米蘭冬奧會開幕式爭議:烏克蘭獲熱烈歡呼!以色列亮相遭巨大噓聲

      米蘭冬奧會開幕式爭議:烏克蘭獲熱烈歡呼!以色列亮相遭巨大噓聲

      念洲
      2026-02-07 07:46:06
      中國股市——2026年極具翻倍潛力的牛股名單!

      中國股市——2026年極具翻倍潛力的牛股名單!

      道說有財
      2026-02-07 14:59:37
      特朗普想搞“五國集團”:由美國、中國、俄羅斯、印度和日本組成,取代七國集團

      特朗普想搞“五國集團”:由美國、中國、俄羅斯、印度和日本組成,取代七國集團

      揚子晚報
      2026-02-07 15:20:27
      年會蘋果機變瓷磚后續(xù)!同事曝主任早有預謀,公司處罰結果曝光

      年會蘋果機變瓷磚后續(xù)!同事曝主任早有預謀,公司處罰結果曝光

      離離言幾許
      2026-02-07 10:00:08
      太突然了!臺積電董事長會見高市早苗,臺國民黨:“硅盾”沒了!

      太突然了!臺積電董事長會見高市早苗,臺國民黨:“硅盾”沒了!

      青青子衿
      2026-02-06 02:49:02
      萬斯抵達米蘭參加冬奧會之際 當?shù)孛癖娍棺h示威

      萬斯抵達米蘭參加冬奧會之際 當?shù)孛癖娍棺h示威

      看看新聞Knews
      2026-02-07 11:11:38
      許家印害慘3位女人:1個虧百億、1個被全球追債,白珊珊最冤

      許家印害慘3位女人:1個虧百億、1個被全球追債,白珊珊最冤

      社會日日鮮
      2026-02-07 13:01:20
      打虎!徐一丁被查

      打虎!徐一丁被查

      新京報
      2026-02-07 20:18:09
      蘋果變瓷磚后續(xù):同事曝內(nèi)幕,提前調(diào)包早有預謀,涉事人恐遭重罰

      蘋果變瓷磚后續(xù):同事曝內(nèi)幕,提前調(diào)包早有預謀,涉事人恐遭重罰

      離離言幾許
      2026-02-07 13:30:06
      徐彬留洋處子秀首發(fā)!迎戰(zhàn)伊普斯維奇U21,獲教練組認可

      徐彬留洋處子秀首發(fā)!迎戰(zhàn)伊普斯維奇U21,獲教練組認可

      奧拜爾
      2026-02-07 19:32:46
      震驚!網(wǎng)傳扶著橋上燈桿的僧人還是跳下去了,事件真相浮出水面…

      震驚!網(wǎng)傳扶著橋上燈桿的僧人還是跳下去了,事件真相浮出水面…

      火山詩話
      2026-02-07 15:03:47
      臺媒曝趙薇離婚內(nèi)幕:前夫出軌女兒老師 生私子要她凈身出戶

      臺媒曝趙薇離婚內(nèi)幕:前夫出軌女兒老師 生私子要她凈身出戶

      議紀史
      2026-02-06 19:05:03
      6天虧光90萬,我勸普通人別做夢

      6天虧光90萬,我勸普通人別做夢

      最人物
      2026-02-06 15:53:05
      2026-02-07 20:44:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12131文章數(shù) 176373關注度
      往期回顧 全部

      科技要聞

      小米千匹馬力新車亮相!問界M6雙動力齊報

      頭條要聞

      日媒狠批特朗普干涉日本內(nèi)政:前所未有 不可容忍

      頭條要聞

      日媒狠批特朗普干涉日本內(nèi)政:前所未有 不可容忍

      體育要聞

      主隊球迷唯一愛將,說自己不該在NBA打球

      娛樂要聞

      何超欣說和何猷君沒競爭,實力遭質(zhì)疑

      財經(jīng)要聞

      金價高波動時代來了

      汽車要聞

      工信部公告落地 全新騰勢Z9GT煥新升級

      態(tài)度原創(chuàng)

      本地
      親子
      時尚
      藝術
      公開課

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      親子要聞

      萌娃暖心表白外婆,還不忘在貓眼和外婆告狀,太可愛了

      今日熱點:《驚蟄無聲》終極預告;韓國翻拍《解憂雜貨店》……

      藝術要聞

      沉默的鋼鐵巨人!河南用2.2萬噸鋼,為你豎起一座“天空之城”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版