![]()
![]()
出品|搜狐科技
作者|常博碩
編輯| 楊 錦
V4發(fā)布前夕,DeepSeek的更新真是一個(gè)比一個(gè)重磅。
元旦前,DeepSeek發(fā)了新架構(gòu)mHC,對(duì)深度學(xué)習(xí)的地基Resnet進(jìn)行了優(yōu)化,上周又把那篇R1的論文擴(kuò)寫(xiě)了64頁(yè),詳細(xì)公開(kāi)了訓(xùn)練路徑,這次發(fā)的新論文還準(zhǔn)備修一修Transformer,順便在硬件上再省一筆。
![]()
今天凌晨,DeepSeek在Github上甩出了一篇名為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》的論文,直指Transformer架構(gòu)讓模型反復(fù)思考,浪費(fèi)算力資源的缺陷,同時(shí)開(kāi)源了論文中的“記憶模塊”Engram。
![]()
這篇論文是DeepSeek和北京大學(xué)合作完成的,作者欄依然有梁文鋒本人署名。
![]()
直擊Transformer缺陷
2017年,谷歌一篇名為《Attention Is All You Need》的論文正式將Transformer這種深度學(xué)習(xí)架構(gòu)呈現(xiàn)在了大家眼前,證明了完全基于自注意力機(jī)制(Self-Attention)的模型在機(jī)器翻譯任務(wù)上優(yōu)于當(dāng)時(shí)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
這篇論文是深度學(xué)習(xí)領(lǐng)域,尤其是自然語(yǔ)言處理(NLP)的重要轉(zhuǎn)折點(diǎn),也被看作是現(xiàn)代人工智能的奠基性論文,甚至成為了21世紀(jì)NLP領(lǐng)域被引用次數(shù)最多的論文之一。今天,我們能看到的絕大多數(shù)大語(yǔ)言模型也都是以Transformer作為核心架構(gòu)的。
然而,DeepSeek他們發(fā)現(xiàn)Transformer并不是神,它有一個(gè)非常反人類的缺陷。它沒(méi)有真正的記憶模塊,它的記憶全是靠“算”出來(lái)的。
在標(biāo)準(zhǔn)的Transformer架構(gòu)中,無(wú)論一句話多么常見(jiàn)、結(jié)構(gòu)多么固定,模型都會(huì)在每一層里反復(fù)計(jì)算token之間的關(guān)系。其實(shí)在人的語(yǔ)言和思維里,“固定搭配”這件事是很常見(jiàn)的,比如“中國(guó)四大…”后面就得接“發(fā)明”,英語(yǔ)里by the后面基本接的就是way。
可是Transformer不是這么思考問(wèn)題的,四大發(fā)明、by the way這種在人類看來(lái)固定搭配的詞組,在模型內(nèi)部,仍然被拆成多個(gè)token(詞元),即使這種組合關(guān)系在訓(xùn)練語(yǔ)料里已經(jīng)被見(jiàn)過(guò)成千上萬(wàn)次,但模型還是每次都重新組合和理解。
再?gòu)?fù)雜一點(diǎn)來(lái)說(shuō),比如你問(wèn)大模型一個(gè)很簡(jiǎn)單的問(wèn)題:東漢末年的張仲景是誰(shuí)?在現(xiàn)在的Transformer架構(gòu)下,模型的神經(jīng)網(wǎng)絡(luò)大腦就會(huì)開(kāi)始動(dòng)用幾百億參數(shù),再經(jīng)過(guò)幾十層的向量計(jì)算,最后說(shuō):“是醫(yī)圣”。
DeepSeek團(tuán)隊(duì)就覺(jué)得,這太浪費(fèi)算力了,其實(shí)“張仲景是醫(yī)圣”這件事背下來(lái)就行。因?yàn)橹灰婕坝?jì)算,那肯定就是非常費(fèi)腦子的事,對(duì)于AI來(lái)說(shuō),費(fèi)的就是顯存。換句話說(shuō)就是,太費(fèi)錢(qián)了!
這次的論文提出的記憶模塊Engram解決的就是這個(gè)事,大模型并不是每一步都需要“算”。
如今,為了更好地節(jié)省資源,MoE成為大模型主流架構(gòu),但MoE最核心、最本質(zhì)的架構(gòu)組件仍然是Transformer,缺少“查表”的能力。
Engram很像是給大模型裝了一個(gè)外接的大字典,他們把“醫(yī)圣張仲景”“四大發(fā)明”這些固定的知識(shí)點(diǎn),通過(guò)N-gram機(jī)制做成了一個(gè)巨大的索引表。以后遇到新問(wèn)題,能查表的查表,需要算的再算,兩件事分開(kāi)干。
![]()
DeepSeek設(shè)計(jì)了一個(gè)精妙的“門(mén)控機(jī)制”(Context-aware Gating)。模型會(huì)自己判斷,遇到“四大發(fā)明”“勾股定理”這種死知識(shí),Engram模塊直接查表給答案,省時(shí)省力。
遇到復(fù)雜的邏輯推理或閱讀理解,Engram就退后,讓Transformer的核心計(jì)算層(MoE)去深度思考。
結(jié)果就是不僅省力,還變強(qiáng)了。論文中的實(shí)驗(yàn)數(shù)據(jù)顯示,這種“查表+推理”的混合模式,比純粹靠堆參數(shù)的MoE模型更強(qiáng)。Engram在知識(shí)問(wèn)答、代碼、數(shù)學(xué)和邏輯推理的能力都有提升。
具體是怎么做到的呢?Engram有一些關(guān)鍵的設(shè)計(jì)點(diǎn)。
Engram的核心邏輯是構(gòu)建一個(gè)巨大的、外掛式的N-gram嵌入表,并通過(guò)精細(xì)的機(jī)制將其無(wú)縫融合到Transformer主干中。
首先是詞表壓縮,標(biāo)準(zhǔn)的分詞器往往會(huì)將語(yǔ)義相同但寫(xiě)法微異的詞分配不同的ID,比如 “Apple”和“apple”,這就導(dǎo)致N-gram空間極其稀疏且存在冗余。Engram就把tokenizer的id做了壓縮,把同義詞合并,論文里提到128k詞表下能壓縮近23%。這就顯著提高了語(yǔ)義密度,使得N-gram查表更高效。
Engram還采用了多頭哈希的方法。因?yàn)橹苯哟鎯?chǔ)所有可能的N-gram組合是不現(xiàn)實(shí)的,那么為了解決哈希沖突,Engram對(duì)每個(gè)N-gram階數(shù)n使用K個(gè)不同的哈希頭。每個(gè)頭使用獨(dú)立的哈希函數(shù)將N-gram映射到嵌入表的一個(gè)索引位置。
![]()
最終的記憶向量是所有n階、所有K個(gè)頭檢索出的向量的拼接。
由于查表得到的向量e是靜態(tài)的,且可能包含哈希沖突帶來(lái)的噪聲。如果直接加到模型里,會(huì)干擾上下文。所以Engram還設(shè)計(jì)了一套門(mén)控機(jī)制來(lái)“過(guò)濾”和“融合”這些信息。
![]()
想掀硬件廠商的桌?
傳統(tǒng)大模型有一個(gè)硬約束,參數(shù)要參與計(jì)算,得在GPU顯存里。過(guò)去幾年,大模型的發(fā)展默認(rèn)接受了一條前提:參數(shù)越多,模型越大越好,顯存就必須越大。
現(xiàn)在的AI軍備競(jìng)賽,本質(zhì)上是在拼HBM,也就是高帶寬顯存。
無(wú)論是H100還是H200,最貴的往往是那塊容量有限且速度極快的HBM。所以,為了塞下幾千億參數(shù)的大模型,科技公司不得不買(mǎi)成千上萬(wàn)張顯卡。
同時(shí)受地緣政治與出口管制影響,中國(guó)市場(chǎng)能夠穩(wěn)定獲得的HBM資源愈發(fā)有限,價(jià)格也水漲船高。其實(shí)英偉達(dá)H20等對(duì)中國(guó)特供版的GPU,最關(guān)鍵的限制基本都落在HBM上,算力反而是次要被約束的。
HBM目前產(chǎn)能基本和SK海力士、三星和美光鎖死,已經(jīng)是供不應(yīng)求,同時(shí)價(jià)格也非常昂貴,平均是普通內(nèi)存價(jià)格的7倍左右。
在這樣的背景下,把模型全塞進(jìn)顯存這條路線,就越來(lái)越不可持續(xù)了。DeepSeek這篇論文證明了,其實(shí)不需要把所有參數(shù)都塞進(jìn)昂貴的顯存里。
可以說(shuō),DeepSeek這次其實(shí)就是想要正面翻過(guò)這道墻。
具體是怎么做到的呢?首先,Engram的記憶訪問(wèn)是可預(yù)測(cè)的,它不像MoE那樣,必須算完這一層才知道下一層要去哪,數(shù)據(jù)必須都在GPU上待命。Engram的索引只由輸入token決定,在推理開(kāi)始前就可以計(jì)算出來(lái)。
這意味著系統(tǒng)可以提前把即將用到的記憶,從主機(jī)內(nèi)存異步搬到GPU。
第二,大部分參數(shù)其實(shí)是“冷的”。自然語(yǔ)言天然遵循 Zipf 分布,極少數(shù)短語(yǔ)被反復(fù)使用,而絕大多數(shù)組合幾乎從不出現(xiàn)。Engram正好利用了這一點(diǎn),將高頻記憶放在顯存或主內(nèi)存,低頻記憶放在更便宜、更大的存儲(chǔ)中。
在論文中,DeepSeek甚至把一個(gè)1000億參數(shù)規(guī)模的Engram記憶表,完整放在CPU里,僅在需要時(shí)預(yù)取,結(jié)果整個(gè)推理速度的損耗甚至低于3%。
在算力和顯存都越來(lái)越貴、越來(lái)越稀缺的當(dāng)下,Engram給行業(yè)提供了一條比較現(xiàn)實(shí)的路徑,不是所有性能提升都必須用更貴的硬件來(lái)?yè)Q。
至此,稀疏化模型也進(jìn)入了計(jì)算+記憶的時(shí)代,如果即將推出的DeepSeek-V4真的把此前發(fā)布的mHC和這次發(fā)布的Engram落地,那將又是一次架構(gòu)范式的躍遷,讓我們拭目以待吧!
![]()
![]()
運(yùn)營(yíng)編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.