最近一個(gè)火爆AI圈的一個(gè)線性時(shí)間序列模型框架Mamba引起了大家的討論,由于其性能在相關(guān)的實(shí)驗(yàn)上超越了transformer模型,讓人不禁討論注意力機(jī)制是否是大模型唯一的出路。transformer模型與mamba模型的大戰(zhàn)也是一觸即發(fā),很多小伙伴們已經(jīng)開始嘗試把項(xiàng)目轉(zhuǎn)移到mamba框架上。且mamba的開源代碼已經(jīng)上傳到GitHub上,小伙伴們可以運(yùn)行代碼嘗試。
![]()
目前幾乎所有的大語(yǔ)言模型都是基于transformer模型框架。許多二次時(shí)間序列架構(gòu)(例如線性注意力、門控卷積和循環(huán)模型以及結(jié)構(gòu)化狀態(tài)空間模型(SSM))已被開發(fā)來解決 Transformers 在長(zhǎng)序列上的計(jì)算效率低下問題,但它們?cè)谥匾B(tài)上的表現(xiàn)并不好。
![]()
Mamba 是一種新的狀態(tài)空間模型架構(gòu),在語(yǔ)言建模等信息密集數(shù)據(jù)上顯示出良好的性能,而以前的二次模型在 Transformers 方面存在不足。Mamba基于結(jié)構(gòu)化狀態(tài)空間模型的,并使用FlashAttention進(jìn)行高效的硬件設(shè)計(jì)和實(shí)現(xiàn)。
![]()
Mamba 享有快速推理(吞吐量比 Transformer 高 5 倍)和序列長(zhǎng)度線性縮放,并且其性能在高達(dá)百萬(wàn)長(zhǎng)度序列的實(shí)際數(shù)據(jù)上得到了很多的提高。 作為通用序列模型骨干,Mamba 在語(yǔ)言、音頻和基因組學(xué)等多種任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能。 在語(yǔ)言建模方面, Mamba-3B 模型在預(yù)訓(xùn)練和下游任務(wù)方面都優(yōu)于相同大小的 Transformer模型,并且與兩倍大小的 Transformer 相匹配。
![]()
Mamba模型采用門控MLP單元,并與歸一化殘差連接組成新的Mamba基礎(chǔ)模型,并使用此模型搭建整體的Mamba模型,整個(gè)模型框架并未采用transformer模型的注意力機(jī)制。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.