![]()
智東西
作者 王涵
編輯 漠影
智東西2月7日?qǐng)?bào)道,昨天,小米MiMo大模型團(tuán)隊(duì)宣布推出HySparse,一種面向Agent時(shí)代的混合稀疏注意力架構(gòu),使用“極少的全注意力(Full Attention)+ 稀疏注意力(Sparse Attention)”核心設(shè)計(jì)。
![]()
隨著Agent模型與應(yīng)用的爆發(fā)式發(fā)展,精準(zhǔn)高效處理超長文本正在成為模型必不可少的基礎(chǔ)能力。Agent不僅需要在超長上下文中完成穩(wěn)定檢索、推理與多輪規(guī)劃,還必須在推理階段保持足夠快的響應(yīng)速度,目前最大的挑戰(zhàn)已經(jīng)不只是“能不能算”,而是“算不算得起”。
為此,小米MiMo提出了HySparse架構(gòu)。在多項(xiàng)通用、數(shù)學(xué)、代碼和中文評(píng)測中,HySparse在7B Dense和80B MoE兩種規(guī)模均帶來提升。
其中,在總共49層的80B-A3B MoE模型實(shí)驗(yàn)中,HySparse僅保留5層Full Attention仍能保持或提升模型能力,KV Cache存儲(chǔ)降低至原來的1/11,實(shí)現(xiàn)效果與效率的兼顧。
![]()
RULER長文測試表明,HySparse即便將Full Attention層壓到極少,也能穩(wěn)定保持長距離關(guān)鍵信息訪問,展現(xiàn)了其混合稀疏結(jié)構(gòu)的優(yōu)勢(shì)。
![]()
HySparse采用hybrid block結(jié)構(gòu):每個(gè)hybrid block由1層Full Attention+N層Sparse Attention組成。Hybrid block內(nèi)部的Sparse Attention層并不再獨(dú)立做token選擇和維護(hù)全量KV,而是直接復(fù)用前置Full Attention層產(chǎn)生的重要token索引和KV Cache。
這背后的動(dòng)機(jī)是Full Attention在完成自身計(jì)算的同時(shí),已經(jīng)生成了KV Cache,并且計(jì)算出了最準(zhǔn)確的 token重要性信息,自然可以供后續(xù)N個(gè)Sparse Attention層直接復(fù)用。
HySparse可以視為是在MiMo-V2-Flash的Hybrid SWA結(jié)構(gòu)的基礎(chǔ)上,為SWA增加了全局的、更重要的token信息補(bǔ)充。這一改進(jìn)不僅提升了性能,還沒有增加KV Cache存儲(chǔ),也沒有顯著增加計(jì)算開銷。
![]()
HySparse結(jié)構(gòu)為Agent時(shí)代的超長文本處理提供了高效精準(zhǔn)的技術(shù)解決方案,也為大模型高效注意力結(jié)構(gòu)的研究與落地提供了全新參考。
小米MiMo透露,團(tuán)隊(duì)計(jì)劃在更大規(guī)模模型上進(jìn)一步驗(yàn)證HySparse的極限和潛力,并持續(xù)探索降低Full Attention層數(shù)量的可能性,讓超長上下文更高效。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.