突發(fā)！DeepSeek梁文鋒新論文開源，Engram模塊亮相V4架構雛形初現(xiàn)

2026-01-14 14:22:07　來源: 魏家東

北京舉報

分享至

當大模型行業(yè)還在為參數(shù)規(guī)模突破爭論不休時，一場關于“效率革命”的變革已悄然來臨。2026年初，以技術深耕著稱的DeepSeek再度發(fā)力，在GitHub開源全新Engram模塊及配套論文，梁文鋒團隊提出的“查—算分離”創(chuàng)新機制，直接打破了傳統(tǒng)大模型的架構桎梏。這一技術不僅讓模型在同等參數(shù)、同等算力下，知識調(diào)用、邏輯推理、代碼生成等核心任務表現(xiàn)大幅提升，更標志著大模型發(fā)展正式告別“盲目堆參數(shù)”的粗放模式，邁入“智能分工”的精細化新階段。對于技術研究者而言，這是架構創(chuàng)新的全新參照；對于行業(yè)應用者來說，這意味著大模型落地的成本門檻有望進一步降低，高效普惠的AI應用場景正加速到來。

困局所在：大模型為何總做“無用功”？

現(xiàn)在我們常用的大語言模型，不管是傳統(tǒng)的“全參激活”稠密模型，還是主流的混合專家模型（MoE），都藏著一個致命問題：把“記東西”和“算東西”這兩件事混在一起做，導致算力被大量浪費。其實我們可以很簡單地理解大模型的核心工作：一種是“死記硬背”的事實性記憶，比如回答“法國首都是巴黎”“珠穆朗瑪峰是世界最高峰”，本質(zhì)上就像查字典一樣，找到對應的信息就行；另一種是“費腦思考”的邏輯計算，比如找代碼里的Bug、理解復雜的哲學觀點，這需要模型一層層拆解分析，靠精密的神經(jīng)網(wǎng)絡運算完成。

但在傳統(tǒng)架構里，這兩個任務被強行綁在一塊。想讓模型多記點知識？那就得增加參數(shù)量。可參數(shù)量一漲，稠密模型的計算量就會跟著爆炸，推理成本高得嚇人；就算是MoE架構靠“只激活部分專家”解決了“算力隨參數(shù)暴漲”的問題，DeepSeek的研究也發(fā)現(xiàn)，MoE處理“死記硬背”的任務時依然很笨拙。要知道，神經(jīng)網(wǎng)絡的核心是連續(xù)的數(shù)學變換，用這種高成本的矩陣運算去模擬簡單的“查表”，就像用超級計算機算1+1等于幾一樣，完全是小題大做。更麻煩的是，這種“記算不分”還會讓模型出現(xiàn)“記不住、算不準”的問題——長文本對話里丟關鍵信息、多輪推理中邏輯斷鏈，這些都是大模型落地醫(yī)療、金融等垂直領域的攔路虎。

核心解法：Engram給大模型配“專屬記憶抽屜”

DeepSeek推出的Engram模塊，就是專門來解決“記算不分”這個痛點的。“Engram”這個詞源自神經(jīng)科學，意思是“記憶痕跡”，說白了，這就是給大模型量身定做的“可擴容、快查找的記憶抽屜”。它的核心創(chuàng)新的就是“查—算分離”的雙系統(tǒng)設計：讓Engram專門管“找記憶”，讓原來的MoE專門管“做計算”，兩者各司其職、協(xié)同配合，徹底告別“用復雜計算代替簡單查找”的低效模式。

Engram之所以能快速找到記憶，靠的是“現(xiàn)代化的哈希N-Gram嵌入”技術。用大白話解釋就是：它會先把輸入的文字切成一段一段的連續(xù)詞（比如“人工智能”“技術突破”這樣的詞片段，也就是N-Gram），再通過哈希算法給每個片段分配一個唯一的“地址”，存到一個巨大的可學習查找表里。這種哈希索引的好處特別明顯——“確定性且O(1)時間復雜度”，不管這個查找表里存了幾萬億個記憶片段，找到目標信息的速度都幾乎一樣快，而且消耗的算力少得可憐。這就像我們家里的抽屜式收納，每個物品都有固定的格子，不管收納柜多大，只要知道格子位置，一拉就找著，不用翻來翻去。

更聰明的是，Engram的記憶不是“死的”，而是“有條件的”。它不是一個簡單的靜態(tài)查找表，而是能根據(jù)當前對話的上下文，精準判斷該提取哪些記憶。從架構位置來看，Engram模塊裝在Transformer層的最前面，相當于MoE這些“計算部門”開工前，先由Engram把相關的背景知識、歷史對話模式都檢索出來，當成“素材”遞過去，讓后續(xù)的計算更有針對性。論文里的實驗數(shù)據(jù)也證明了它的優(yōu)勢：在27B規(guī)模的模型中，Engram可以占用大量參數(shù)來存記憶，但實際推理時的算力消耗卻特別少，參數(shù)的利用效率大大提升。

協(xié)同增效：Engram與MoE的“分工藝術”

很多人會問：Engram和MoE都是“稀疏技術”，難道不是重復發(fā)明嗎？其實不然，Engram開辟了和MoE完全不同的“稀疏性新賽道”——MoE是“條件計算”，靠少激活一些專家來減少計算量；Engram是“條件查找”，靠快速檢索記憶來避免重復勞動，兩者是互補關系，不是替代關系。

從目標、計算方式、優(yōu)化方向和工作位置四個方面，就能清楚看清它們的分工：MoE的目標是“按需激活神經(jīng)專家”，用部分密集計算處理深層推理；Engram的目標是“按需觸發(fā)記憶查找”，用O(1)的快速查表完成早期的模式重建。這種分工讓MoE徹底擺脫了“既要計算又要記知識”的沉重負擔，能專心搞復雜的邏輯推理；而Engram則專注于高效檢索固定知識，避免重復重建已經(jīng)知道的模式。實驗發(fā)現(xiàn)，當把20%-25%的稀疏參數(shù)分給Engram，剩下的留給MoE時，模型性能最好。比如在32k長上下文的檢索任務中，Engram-27B模型的準確率比傳統(tǒng)MoE高不少：多查詢?nèi)蝿盏臏蚀_率從84.2%升到了97.0%，變量追蹤任務從77.0%升到了89.0%，實打?qū)嵶C明了“分工合作”的優(yōu)勢。

業(yè)界熱議：從技術認可到V4架構猜想

Engram一開源，就立刻在Reddit、X等技術社區(qū)引發(fā)了熱議。不少網(wǎng)友一眼就看到了它的核心價值：“現(xiàn)在大多數(shù)模型都只靠MoE擴展能力，Engram加了靜態(tài)記憶這個稀疏性補充，O(1)的查找速度太關鍵了！”有資深開發(fā)者評價，這種設計其實是傳統(tǒng)NLP技術的“現(xiàn)代化升級”，把高效的尋址機制和神經(jīng)推理模塊結合起來，既可行又實用，落地前景很好。

更讓行業(yè)關注的是，很多網(wǎng)友都猜測Engram會成為DeepSeek V4模型的核心技術。有Reddit用戶分析：“確定性尋址能把嵌入表放到主機內(nèi)存里，不會增加太多推理開銷，這很可能就是V4的關鍵升級點。”還有網(wǎng)友開玩笑說：“本來打算抄谷歌的技術，現(xiàn)在決定改抄DeepSeek了，因為這個方案更高效、更好用。”甚至有觀點認為，給大模型加靜態(tài)記憶查找是行業(yè)發(fā)展的“必然趨勢”，這標志著整個行業(yè)從“比誰的參數(shù)多”的內(nèi)卷，轉(zhuǎn)向了“比誰的架構更智能”的理性競爭。對于普通開發(fā)者來說，Engram的O(1)查找機制就算沒有GPU也能實現(xiàn)，這讓大模型的本地部署變得更現(xiàn)實，進一步降低了AI技術落地的門檻。

結語：大模型高效時代的序幕已拉開

DeepSeek Engram的發(fā)布，不只是一次簡單的技術突破，更預示著大模型發(fā)展的全新方向。當參數(shù)競賽走到盡頭，架構創(chuàng)新已經(jīng)成為提升效率的核心密碼。Engram的“查—算分離”機制，讓大模型第一次有了“專屬記憶庫”，實現(xiàn)了記憶與計算的高效協(xié)同。這種創(chuàng)新不僅能降低大模型的推理成本，還能提升核心任務的表現(xiàn)，為大模型在企業(yè)客服、醫(yī)療問診、代碼生成等垂直領域的深度落地掃清了關鍵障礙。

隨著Engram代碼和論文的開源，相信會有更多研究者加入到這一架構的創(chuàng)新中來。如果網(wǎng)友的猜測屬實，DeepSeek V4采用這一架構，很可能會帶來大模型能力的又一次飛躍。未來，大模型的競爭不再是“參數(shù)規(guī)模的比拼”，而是“架構智能度和效率的較量”，而Engram，無疑已經(jīng)為這場效率革命拉開了序幕。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.