★ 設(shè)為星標(biāo) | 只講人話,帶你玩轉(zhuǎn)AIGC。
DeepSeek 真的不打算讓人休息啊。
最近圈子里瘋傳:DeepSeek V4 即將在未來幾周(春節(jié)前后)發(fā)布。
雖然官方?jīng)]說話,但看這架勢(shì),大概率是真的。你們看這幾周 DeepSeek 有多“反常”:
元旦當(dāng)天: 剛?cè)映?mHC 論文,試圖拆掉 ResNet 的地基。
上周: 悄悄更新了那篇著名的 DeepSeek-R1 論文。
今天: 還沒等大家消化完,又是一篇重磅論文——Engram。
這密集的動(dòng)作,顯然是在為后面的大招清掃障礙。
這種“暴風(fēng)雨前的狂歡”,讓我對(duì)傳說中的 V4 更加期待了。
這篇論文又是 CEO 梁文鋒親自署名,看樣子,這事兒又不簡(jiǎn)單。
![]()
如果說上一篇 mHC 是在動(dòng)深度學(xué)習(xí)的“地基”,那這一篇 Engram,就是在試圖繞開英偉達(dá)昂貴的“硬件壁壘”。
01|英偉達(dá)的無奈:算力夠了,但腦子裝不下了
要看懂 DeepSeek 這次有多狠,我們得先看一眼英偉達(dá)(NVIDIA) 最近的動(dòng)作。
前不久,老黃發(fā)布了下一代核彈顯卡 Rubin。
參數(shù)確實(shí)炸裂:推理算力提升了 5 倍,帶寬提升了 2.8 倍。
但請(qǐng)注意一個(gè)極其尷尬的數(shù)據(jù):HBM(高帶寬顯存)的容量,僅僅提升了 1.5 倍。
![]()
圖:英偉達(dá) Rubin NVL72 參數(shù)提升表
這就是目前 AI 行業(yè)的死穴:“顯存墻”。
HBM 顯存不僅產(chǎn)能被海力士和三星鎖死,價(jià)格更是貴得離譜(是普通內(nèi)存的 6-8 倍),關(guān)鍵是容量增長(zhǎng)完全跟不上模型變大的速度。
你想把模型做大?不好意思,你得買更多昂貴的顯卡,不是因?yàn)槟阈枰懔Γ瑑H僅是因?yàn)槟阈枰涯P腿M(jìn)去。
這時(shí)候,DeepSeek 的“摳門”天賦又爆發(fā)了。
他們提出了一個(gè)靈魂拷問:誰(shuí)說大模型的記憶必須塞在昂貴的 HBM 里?我們能不能用便宜的內(nèi)存條解決問題?
02|明人的“笨功夫”:復(fù)活 N-gram
為了省錢,哦不,為了高效,DeepSeek 的工程師把目光投向了二十年前那個(gè)被淘汰的“笨小孩”——N-gram(N元語(yǔ)法)。
在深度學(xué)習(xí)還沒火的“遠(yuǎn)古時(shí)代”,N-gram 是統(tǒng)治 NLP 屆的王者。
這玩意兒的原理,說白了就是“成語(yǔ)接龍”加上“死記硬背”。
想象一下,你給電腦看了一萬本中文書,然后問它:“白日依山盡”后面是什么?
N-gram 不懂什么叫詩(shī)情畫意,它只會(huì)去它的小本本里查統(tǒng)計(jì)概率:“哦,以前這五個(gè)字后面 99% 跟著‘黃河入海流’。”
它的優(yōu)點(diǎn)是: 查得飛快,不需要?jiǎng)幽X子算。
它的缺點(diǎn)是: 沒腦子,只能看眼前,不懂邏輯。
后來,聰明的 Transformer 出現(xiàn)了,N-gram 就被掃進(jìn)了歷史的垃圾堆。
但今天,DeepSeek 又把它撿回來了。
03|給 AI 掛個(gè)“外掛硬盤”
DeepSeek 發(fā)現(xiàn),現(xiàn)在的 Transformer 雖然聰明,但也得了一種“富貴病”。
比如你問它:“東漢末年的張仲景是誰(shuí)?”
模型那昂貴的神經(jīng)網(wǎng)絡(luò)大腦開始瘋狂運(yùn)轉(zhuǎn),動(dòng)用幾百億參數(shù),經(jīng)過幾十層的向量計(jì)算,最后告訴你:“他是醫(yī)圣”。
這太浪費(fèi)了! 這就像你雇了一個(gè)年薪百萬的數(shù)學(xué)天才,結(jié)果你天天讓他背誦《新華字典》。
DeepSeek 的 Engram 架構(gòu),就是給大模型裝了一個(gè)“超級(jí)外掛字典”:
![]()
圖:DeepSeek 的 Engram 架構(gòu),右側(cè)那個(gè)黃色的支路就是傳說中的“外掛字典”
移花接木: 他們把“張仲景”、“四大發(fā)明”這些固定的知識(shí)點(diǎn),通過 N-gram 機(jī)制做成了一個(gè)巨大的索引表。
降維打擊:重點(diǎn)來了! 因?yàn)椴楸磉@個(gè)動(dòng)作非常簡(jiǎn)單確定的,DeepSeek 直接把這個(gè)巨大的表(幾百億甚至上千億參數(shù))丟到了便宜量大的 CPU 內(nèi)存(RAM)里。
![]()
圖:紅得發(fā)紫的地方,就是模型在讀到“四大發(fā)明”時(shí),正在瘋狂翻字典(查表),而不是在動(dòng)腦子計(jì)算
當(dāng)模型需要用到這些知識(shí)時(shí),CPU 會(huì)悄悄把數(shù)據(jù)預(yù)取過來,喂給 GPU。
結(jié)果炸裂:即使掛載了一個(gè) 1000億參數(shù) 的超級(jí)字典在 CPU 內(nèi)存里,利用 DeepSeek 極致的工程優(yōu)化,整個(gè)推理速度的損耗竟然不到 3%。
這意味著,在 HBM 價(jià)格上天的今天,DeepSeek 搞出了一種“用白菜價(jià)的內(nèi)存條,干黃金價(jià)的顯存活兒”的黑科技。
04|不止是省錢,智商還漲了
如果只是省錢,那也就是個(gè)工程優(yōu)化。
但 DeepSeek 最可怕的地方在于:它還順便把模型變聰明了。
實(shí)驗(yàn)數(shù)據(jù)非常不講道理:這個(gè)裝了“外掛硬盤”的模型,不僅記性好了,邏輯推理能力也暴漲。
數(shù)學(xué)能力(MATH): 提升了 2.4 分。
邏輯推理(BBH): 竟然暴漲了 5.0 分!
![]()
為什么?
這就回到了我們剛才的那個(gè)比喻。
因?yàn)?Engram 把那些死記硬背的“臟活累活”都攬走了,模型深層的神經(jīng)網(wǎng)絡(luò)就被解放出來了。
那個(gè)“數(shù)學(xué)天才”終于不用背字典了,可以全心全意地去思考復(fù)雜的微積分和邏輯推理題了。
寫在最后:算力經(jīng)濟(jì)學(xué)的新解法
看完這篇論文,我最大的感觸是:DeepSeek 正在試圖重寫大模型的“解剖學(xué)”。
在過去的一年里,整個(gè) AI 行業(yè)都被 HBM 的產(chǎn)能危機(jī)掐住了脖子。
為了搶那幾塊顯存,大廠們不惜溢價(jià) 30% 甚至更多。
而 DeepSeek 卻冷靜地走了一條“少有人走的路”:與其被硬件廠商收“過路費(fèi)”,不如用算法重新定義硬件。
Engram 的出現(xiàn)證明了,通過極致的算法設(shè)計(jì),廉價(jià)的 CPU 內(nèi)存完全可以成為大模型算力的一部分。
這不僅是技術(shù)的勝利,更是“算力經(jīng)濟(jì)學(xué)”的勝利。
如果春節(jié)前后發(fā)布的 DeepSeek V4 真的集成了 mHC 的高速通路和 Engram 的外掛記憶,那它對(duì)行業(yè)的沖擊,恐怕比我們想象的還要大。
對(duì)于這種“反向操作”的技術(shù)創(chuàng)新,你怎么看?歡迎在評(píng)論區(qū)聊聊。
(覺得文章有啟發(fā)?點(diǎn)個(gè)“贊”,點(diǎn)個(gè)??,假裝自己看懂了)
論文地址:https://github.com/deepseek-ai/Engram
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.