聞樂(lè) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
256K文本預(yù)加載提速超50%,還解鎖了1M上下文窗口。
美團(tuán)龍貓LongCat系列新年出招,發(fā)布全新稀疏注意力機(jī)制LoZA(LongCat ZigZag Attention)
新技術(shù)集中火力,重點(diǎn)解決長(zhǎng)文本任務(wù)的理解、算力難題。
![]()
相比于LongCat系列之前的全注意力MLA機(jī)制,LoZA只改了一半的核心模塊。
但模型長(zhǎng)文本能力從256K擴(kuò)展到1M,解碼速度還快了不少。
甚至比同類型的Qwen-3模型表現(xiàn)還要好。
接下來(lái)看具體方案。
如何做到 “只算關(guān)鍵部分” ?
全注意力機(jī)制的算力瓶頸在于平方級(jí)的計(jì)算復(fù)雜度O (L2),這導(dǎo)致模型在處理長(zhǎng)文本任務(wù)時(shí)對(duì)顯卡要求高,還會(huì)出現(xiàn)推理延遲問(wèn)題。
LoZA的核心思路是專注于處理重要的內(nèi)容,不重要的部分少花力氣。
![]()
作為L(zhǎng)ongCat系列的核心技術(shù)升級(jí),LoZA主要是在原來(lái)的MLA機(jī)制上做改造。
具體分兩步。
首先,給模型里的多頭潛在注意力模塊MLA做一個(gè)全局“篩查”,找出哪些模塊可以被改造。
在原來(lái)的MLA架構(gòu)中,每個(gè)MLA模塊都是處理注意力的核心單元,現(xiàn)在的新方案是給每個(gè)模塊配一個(gè)可學(xué)習(xí)權(quán)重α。
α值越高,說(shuō)明該模塊額全注意力計(jì)算越關(guān)鍵,一旦簡(jiǎn)化就容易丟性能;α值越低就意味著模塊的可替代性強(qiáng),即便換成更輕量的計(jì)算方式,對(duì)整體的理解能力影響也不大。
在訓(xùn)練過(guò)程中,團(tuán)隊(duì)凍結(jié)模型其他參數(shù),只更新α的梯度,通過(guò)這種專門(mén)的校準(zhǔn)訓(xùn)練讓模型自主學(xué)習(xí)α值,然后按α值從小到大排序,找出那些稀疏化后不影響性能的MLA模塊,也就是后續(xù)的優(yōu)化目標(biāo)。
隨后,將找出的50%低性能模塊換成更輕巧的流式稀疏注意力SSA
這樣就形成了一種交錯(cuò)結(jié)構(gòu),團(tuán)隊(duì)將這種結(jié)構(gòu)稱為ZigZag
SSA的計(jì)算復(fù)雜度是線性的O (L·S)(S為稀疏窗口大小,固定為1024Token),遠(yuǎn)低于全注意力的O (L2)。
所以這種交錯(cuò)結(jié)構(gòu)讓模型既不會(huì)因?yàn)檫^(guò)度簡(jiǎn)化而變笨,又能把計(jì)算復(fù)雜度降到線性級(jí)別,省不少算力。
![]()
為了讓模型在關(guān)注局部細(xì)節(jié)的基礎(chǔ)上不忽略整體邏輯,LoZA還設(shè)計(jì)了一個(gè)1024Token稀疏窗口
每個(gè)窗口里有1個(gè)負(fù)責(zé)抓整體關(guān)聯(lián)的“全局塊”和7個(gè)負(fù)責(zé)盯附近內(nèi)容的“局部塊”,單塊大小為128Token。
這樣的改造也不需要從頭訓(xùn)練,在中期訓(xùn)練階段就能完成,成本也比較低。
從測(cè)試數(shù)據(jù)來(lái)看,LoZA的表現(xiàn)也不錯(cuò),主要是“更快”的同時(shí)“沒(méi)變笨”
速度上,要是處理128K上下文,解碼速度直接比原來(lái)快10倍;
256K上下文,模型預(yù)加載(讀文本過(guò)程)速度快了50%,后續(xù)解碼階段生成內(nèi)容時(shí)還能省30%的算力,相當(dāng)于同樣的硬件,現(xiàn)在能同時(shí)處理兩倍多的長(zhǎng)文本任務(wù)。
這也讓LongCat-Flash-Exp解鎖了1M上下文窗口。
![]()
性能上,LoZA也沒(méi)因?yàn)楹?jiǎn)化而縮水。
處理回答問(wèn)題、寫(xiě)代碼這類日常任務(wù)時(shí),和原版LongCat-Flash持平;處理長(zhǎng)文本任務(wù)時(shí),表現(xiàn)反而更好。
![]()
比如在MRCR測(cè)試?yán)铮闯送瑯幽芴幚?M長(zhǎng)文本的Qwen-3模型,還更穩(wěn)定。
![]()
接下來(lái),團(tuán)隊(duì)還計(jì)劃讓LoZA支持動(dòng)態(tài)稀疏比例
短文本場(chǎng)景自動(dòng)多用全注意力保證精度,長(zhǎng)文本場(chǎng)景自動(dòng)增加稀疏模塊提升效率,甚至適配多模態(tài)模型處理長(zhǎng)視頻、長(zhǎng)圖文內(nèi)容。
好一個(gè)新年新氣象!
論文地址:https://www.alphaxiv.org/abs/2512.23966
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.