日前,DeepSeek 和北京大學一起發布了 2026 年第一篇重磅論文《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度》
該論文給大模型領域又帶來了一個全新思路:讓模型該“記”的記,該“算”的算,別用復雜計算浪費資源做“查表”的事。
現在大模型的痛點是,不管是普通 dense 模型還是熱門的 MoE 模型,都有個通病——沒有專門的“記憶庫”。
比如要識別“戴安娜王妃”這個名字,模型得調動好幾層網絡,一步步拼湊特征,前幾層還在糾結“Wales是英國地區”“Princess是頭銜”,直到第6層才能確認身份。
這就像有人問你公司地址,你不直接查通訊錄,反而從頭開始推理,完全是浪費精力。
DeepSeek 的解決方案很直接:給模型裝一個可快速查詢的“外接記憶庫”,也就是 Engram 模塊。
這個模塊的核心思路來自經典的 N-gram 方法。簡單說就是,把常見的詞組、固定表達提前存在一個超大表格里,模型需要時通過哈希查找瞬間提取,速度恒定且不耗算力。
為了避免傳統記憶模型的缺陷,Engram 做了三個關鍵優化:一是壓縮詞表,把 Apple、apple 這類語義相同但形式不同的詞匯合并,減少23%的冗余存儲;二是用多頭哈希解決存儲爆炸問題,不管多少詞組都能映射到固定大小的表格里;三是加了上下文感知門控,避免查找到的內容和當前語境不匹配,比如能區分單獨的“張”和固定人名“張仲景”。
論文最關鍵的發現是一條“U型曲線”。
在固定參數和算力預算下,把所有資源都給 MoE 不是最優解,75%-80% 給 MoE 負責推理,20%-25% 給 Engram 負責記憶時,模型效果最好。全靠 MoE 會浪費算力重建靜態知識,全靠記憶又會失去推理能力,兩者互補才是王道。
實驗結果更是超出預期。270億參數的 Engram 模型,不僅在知識類任務(比如MMLU)上提升明顯,在需要深度思考的推理、代碼、數學任務上進步更顯著——BBH 推理任務提分5.0,HumanEval 代碼任務提分3.0,就連長文本理解這類難題也大幅突破。
原因很簡單。記憶模塊幫早期網絡省了力,讓模型能把更多資源用在復雜推理上。
更難得的是,這個記憶庫還特別“省硬件”。1000億參數的記憶表放在CPU上,推理延遲幾乎沒影響,訓練時還能跨GPU擴展容量。
這意味著不用升級昂貴的GPU,就能讓模型性能再上一個臺階。
這篇論文的意義遠不止一個模塊的創新,它提出了“條件記憶”這個新方向,這和 MoE 的“條件計算”剛好形成互補。
未來,大模型可能都會具備“記憶+計算”雙系統。記憶模塊負責快速調取常識和固定知識,推理模塊專注解決復雜問題。
或許這就是 DeepSeek V4 架構的核心雛形,即可能是一個融合了條件計算(MoE)、條件記憶(Engram)和穩定訓練(mHC)的下一代稀疏架構。
同時,這也為大模型的高效化發展指明了新的路徑。
以下為論文的主體部分:
《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度
摘要
混合專家模型(MoE)通過條件計算實現了模型容量的高效擴展,已成為大型語言模型(LLM)稀疏化的主流范式。然而,Transformer架構本質上缺乏原生的知識檢索機制,迫使模型通過低效的神經計算來模擬檢索過程,造成大量計算資源浪費。為解決這一問題,本文提出“條件記憶”作為與條件計算互補的新型稀疏性維度,并設計Engram模塊作為該維度的具體實現。Engram對經典的N-gram嵌入進行現代化改造,通過確定性哈希機制實現常數級(O(1))的知識查找效率,可高效存儲語言中穩定重復的局部模式。
為優化神經計算與靜態記憶的資源分配,本文構建了稀疏性分配問題的理論框架,并通過實證發現了一條U型縮放定律(U-shaped Scaling Law):在固定參數總量與計算量約束下,過度偏向MoE(純計算)或過度偏向Engram(純記憶)均無法達到最優性能,兩者的合理配比是實現性能突破的關鍵。基于此定律,我們將Engram模塊擴展至270億參數規模,在嚴格等參數、等計算量(FLOPs)的實驗設置下,其性能顯著優于純MoE基準模型。
實驗結果顯示,盡管Engram的設計初衷是提升知識檢索類任務性能(如MMLU提升3.4分、CMMLU提升4.0分),但在通用推理(BBH提升5.0分、ARC-Challenge提升3.7分)、代碼生成(HumanEval提升3.0分)及數學推理(MATH提升2.4分)等復雜任務上的提升更為顯著。機制分析表明,Engram通過承擔靜態模式的重建負擔,解放了Transformer主干網絡的早期層,等效于“加深”網絡以應對復雜推理需求;同時,將局部依賴建模委托給查找操作后,注意力機制的容量被釋放,可更專注于全局上下文建模,使長上下文檢索性能大幅提升(如Multi-Query NIAH任務從84.2分提升至97.0分)。
此外,Engram具備硬件感知的效率優化特性:其確定性尋址機制支持從主機內存進行運行時預取,額外開銷可忽略不計。訓練階段可通過模型并行策略將大規模嵌入表分片存儲于多個GPU,推理階段則可利用CPU內存擴展記憶容量而不影響延遲。本文認為,條件記憶將成為下一代稀疏語言模型不可或缺的建模原語。相關代碼與模型已開源:https://github.com/deepseek-ai/Engram
1 引言
近年來,大型語言模型的性能提升高度依賴于參數規模的擴張,但稠密模型的參數增長受限于硬件算力與內存容量的約束。混合專家模型(MoE)通過“條件計算”范式打破了這一限制——每個輸入token僅激活少量專家網絡,在控制計算量(FLOPs)的同時實現了參數規模的指數級增長,已成為當前大模型稀疏化的主流方案。從AI21 Labs的Jurassic-X到Google的Switch Transformer,再到DeepSeek-MoE,一系列研究均驗證了MoE在提升模型容量與性能上的有效性。
然而,MoE本質上仍延續了Transformer的核心架構,而Transformer架構存在一個被長期忽視的關鍵缺陷:缺乏原生的知識檢索機制。語言建模任務可拆解為兩類本質不同的子任務:一類是需要動態組合與邏輯推理的復雜任務(如下文語境關聯、長程依賴建模、鏈式推理);另一類是可通過靜態模式匹配完成的簡單任務(如實體識別、固定短語理解、語法片段匹配)。對于后一類任務,理想的解決方式是“檢索式查找”,而現有Transformer架構只能通過多層注意力與前饋網絡的迭代計算來“模擬檢索”,這一過程效率低下且浪費計算資源。
例如,為識別“戴安娜,威爾士王妃(Diana, Princess of Wales)”這一命名實體,現有LLM需要調動6層以上的注意力機制與前饋網絡,逐步組合“Diana”“Princess”“of Wales”等token的特征,才能完成實體身份的確認。而從信息處理的本質來看,這類靜態實體的識別完全可通過一次知識查找操作完成,無需消耗大量神經計算資源。這種“用計算模擬檢索”的模式,不僅增加了訓練與推理成本,還會擠占主干網絡的表達空間,影響復雜推理任務的性能。
針對上述問題,本文提出一個核心觀點:稀疏化不僅可服務于“計算”(如MoE的條件計算),還可服務于“記憶”。基于此,我們引入“條件記憶”作為新的稀疏性維度,與MoE的條件計算形成互補。條件記憶的核心思想是:將語言中穩定、重復的靜態模式存儲于可擴展的記憶模塊中,通過高效查找為模型提供先驗知識,再由上下文門控機制決定是否采納該知識,實現“記憶-計算”的協同建模。
為實現條件記憶,本文設計了Engram模塊——命名源于神經科學中的“記憶痕跡(Engram)”,指代可存儲、可檢索的記憶單元。Engram本質上是對經典N-gram嵌入的現代化改造,通過分詞器壓縮、多頭哈希、上下文感知門控三大核心優化,解決了傳統記憶模型的存儲爆炸、哈希沖突、多義性干擾等關鍵問題,實現了可擴展、高精度的記憶檢索。
本文的主要貢獻可總結為四點:(1)提出“條件記憶”新范式,構建了稀疏性分配的理論框架,填補了現有稀疏模型在記憶維度的空白;(2)設計Engram模塊作為條件記憶的實現載體,通過三大優化策略實現了高效、可擴展的知識查找;(3)發現并驗證了MoE與Engram之間的U型縮放定律,為資源分配提供了量化指導;(4)通過大量實驗與機制分析,驗證了條件記憶在提升模型性能、優化資源效率上的有效性,尤其在復雜推理任務上的意外突破為后續研究提供了新方向。
![]()
2 相關工作
2.1 混合專家模型與條件計算 MoE的核心思想可追溯至早期的“稀疏激活”研究,其通過將大網絡拆解為多個小專家網絡,利用門控機制為每個輸入選擇適配的專家,實現“參數規模擴張而計算量可控”的目標。Shazeer等人提出的Switch Transformer首次將MoE規模擴展至萬億參數級,驗證了其在語言建模任務上的有效性;隨后,DeepSeek-MoE通過動態專家選擇策略進一步提升了參數利用率,在多個基準任務上取得SOTA性能。現有MoE研究主要聚焦于專家結構設計、門控機制優化、負載均衡等方向,均屬于“條件計算”的范疇,未涉及記憶維度的稀疏化。
2.2 記憶增強型神經網絡 記憶增強型神經網絡(MANN)旨在通過外部記憶單元擴展模型的知識存儲能力,典型代表包括神經圖靈機(NTM)、Differentiable Neural Computer(DNC)等。這類模型通過可微分的讀寫操作與外部記憶交互,但復雜的讀寫機制導致計算效率低下,難以擴展至大模型規模。近年來,部分研究嘗試將靜態嵌入與Transformer結合,如Retrieval-augmented Generation(RAG)通過檢索外部知識庫為模型提供補充信息,但RAG依賴于離線知識庫構建,且檢索過程與模型訓練存在脫節,難以適配動態語言場景。與現有工作相比,Engram的核心優勢在于:確定性的查找機制實現了高效推理,上下文門控機制保證了記憶與語境的適配性,且可與MoE無縫融合實現端到端訓練。
2.3 N-gram語言模型 N-gram模型是傳統統計語言模型的核心技術,通過統計連續N個token的共現概率進行文本預測,具備高效的模式匹配能力。但傳統N-gram模型存在兩大缺陷:一是存儲量隨N增大呈指數級增長,難以處理長序列;二是缺乏上下文適配能力,無法解決多義性問題。隨著深度學習的發展,N-gram模型逐漸被神經網絡模型取代。本文的Engram模塊重拾N-gram的核心優勢,通過分詞器壓縮、多頭哈希等優化策略解決了其固有缺陷,實現了傳統方法與現代Transformer的有機融合。
![]()
3 方法
3.1 問題定義 給定輸入token序列X=(x?, x?, ..., x_T),Transformer模型通過多層編碼得到隱藏狀態序列H=(h?, h?, ..., h_T),其中h_t∈?^d為第t個位置在某一層的隱藏狀態。本文旨在引入條件記憶模塊Engram,通過對局部上下文的檢索獲取靜態模式信息,與隱藏狀態融合后輸出增強特征h'_t,即:h'_t = Engram(h_t, X_{t-K:t}),其中X_{t-K:t}為第t個位置的局部上下文窗口(K為窗口大小)。
3.2 Engram模塊設計 Engram模塊的核心流程分為“檢索”與“融合”兩個階段,整體結構如圖1所示(原文圖1)。檢索階段負責從記憶庫中提取與局部上下文匹配的靜態模式嵌入;融合階段通過上下文門控機制將檢索到的記憶嵌入與主干網絡的隱藏狀態融合,生成增強特征。
3.2.1 檢索階段:基于哈希N-gram的稀疏檢索 檢索階段的核心目標是高效獲取局部上下文對應的靜態模式嵌入,主要通過分詞器壓縮、多頭哈希兩大優化策略實現。
(1)分詞器壓縮 不同形式的同一語義token(如“Apple”與“apple”、“2023”與“二零二三”)會導致記憶庫冗余。為解決這一問題,我們引入詞表投影層P: V→V',通過NFKC歸一化、小寫化等文本等價性處理,將原始token ID坍縮為規范標識符。實驗表明,該操作可使128k大小的分詞器有效詞表規模減少23%,顯著降低了記憶庫的存儲壓力。
(2)多頭哈希 直接參數化所有可能的N-gram組合會導致存儲爆炸(如N=3時,128k詞表的組合數可達1.6e15)。本文采用基于哈希的稀疏檢索方案:為每個N-gram階數n(本文取n=2,3)分配K個不同的哈希頭,每個哈希頭通過確定性哈希函數φ?,?將壓縮后的局部上下文映射到嵌入表E?,?的索引。具體而言,對于局部上下文窗口內的token序列(x_{t-K+1}, ..., x_t),先通過分詞器壓縮得到規范序列(y_{t-K+1}, ..., y_t),再對每個n∈{2,3}生成所有可能的n-gram子序列,通過K個哈希頭分別檢索得到K個嵌入向量,最后通過平均池化得到該階數的聚合嵌入e?,t。不同階數的嵌入通過拼接得到最終的檢索嵌入e_t = [e?,t; e?,t]。
多頭哈希策略可有效降低哈希沖突概率:當單個哈希頭出現沖突時,其他哈希頭的檢索結果可提供互補信息,通過平均池化削弱沖突帶來的噪聲干擾。實驗驗證,當K=4時,哈希沖突率可降低至0.3%以下,滿足實際應用需求。
3.2.2 融合階段:上下文感知門控機制 檢索得到的嵌入e_t是上下文無關的靜態先驗信息,可能存在多義性干擾(如“張”既可能是姓氏,也可能是動詞)。為解決這一問題,本文設計了上下文感知門控機制,利用主干網絡的隱藏狀態h_t動態調節記憶嵌入的權重。
具體而言,將隱藏狀態h_t作為Query,記憶嵌入e_t分別通過可學習矩陣W_K、W_V投影為Key和Value,通過注意力打分計算門控權重α_t:α_t = σ(RMSNorm(h_t)·W_K·RMSNorm(e_t)^T),其中σ為sigmoid函數,RMSNorm為Root Mean Square Normalization,用于保證梯度穩定性。最終的增強特征h'_t通過門控加權得到:h'_t = h_t + α_t · (e_t · W_V)。
門控機制的核心作用是實現“條件記憶激活”:當局部上下文存在穩定靜態模式(如命名實體、固定短語)時,α_t趨近于1,記憶嵌入被充分利用;當局部上下文為動態語義組合時,α_t趨近于0,模型主要依賴主干網絡的計算結果。可視化實驗表明,Engram的門控機制在多語言場景下均具備良好的選擇性:在英文中,對“Alexander the Great”“the Milky Way”等命名實體和固定短語激活強烈;在中文中,可精準識別“四大發明”“張仲景”等習語與歷史實體。
3.3 稀疏性分配與U型縮放定律 Engram與MoE分別代表稀疏性的兩個維度(條件記憶與條件計算),如何在有限的參數與算力預算下優化兩者的資源分配,是提升模型性能的關鍵。本文通過定義三個核心參數指標構建稀疏性分配框架:(1)P_tot:總可訓練參數(不含詞表嵌入與語言模型頭);(2)P_act:每個token的激活參數(決定訓練與推理的計算量);(3)P_sparse = P_tot - P_act:非激活參數(即稀疏參數,MoE的未激活專家與Engram的記憶表均屬于此類)。
在固定P_tot與P_act的約束下,我們通過改變Engram記憶表參數占比(從0%到100%)進行實證研究,發現模型性能隨記憶占比呈現明顯的U型曲線:當記憶占比為0%(純MoE)或100%(純記憶)時,性能處于低谷;當記憶占比為20%-25%、MoE占比為75%-80%時,性能達到最優。這一U型縮放定律揭示了靜態記憶與動態計算的互補關系:純MoE會浪費算力重建靜態知識,純記憶則缺乏動態推理能力,兩者的合理配比可實現資源利用效率的最大化。
3.4 硬件感知的效率優化 為解決大規模記憶表的存儲與訪問效率問題,Engram設計了硬件友好的實現方案:(1)訓練階段,采用模型并行策略將記憶表分片存儲于多個GPU,通過哈希路由保證同一N-gram的檢索請求指向同一GPU,避免跨設備通信開銷;(2)推理階段,利用確定性尋址的可預測性,將大規模記憶表存儲于CPU內存,通過運行時預取機制將所需記憶條目提前加載至GPU緩存,額外延遲可忽略不計(實驗測得延遲增加小于0.5%)。這一設計使模型可在不升級GPU硬件的前提下,通過擴展CPU內存提升記憶容量,顯著降低了部署成本。
![]()
4 實驗
4.1 實驗設置 本文以DeepSeek-MoE為基準模型,構建了不同參數規模的Engram模型(13B、27B、67B),所有模型均采用相同的訓練數據(1.4萬億token的多語言語料)、訓練步數(1.2M步)與優化器配置(AdamW,學習率2e-4)。實驗任務涵蓋五大類:知識檢索(MMLU、CMMLU)、通用推理(BBH、ARC-Challenge)、代碼生成(HumanEval)、數學推理(MATH)、長上下文檢索(Multi-Query NIAH)。評估指標采用標準準確率(Accuracy)或通過率(Pass@1)。
4.2 主要結果 表1(原文表1)展示了27B參數模型在各任務上的性能對比:Engram模型在所有任務上均顯著優于純MoE基準模型,其中BBH任務提升5.0分,ARC-Challenge提升3.7分,Multi-Query NIAH提升12.8分,表現最為突出。值得注意的是,盡管Engram的設計初衷是優化知識檢索任務,但在復雜推理任務上的提升幅度更大,這驗證了“記憶解放計算”的核心假設。
參數規模縮放實驗表明(原文圖2),隨著參數總量增加,Engram與純MoE的性能差距逐漸擴大:67B Engram模型在MMLU任務上達到68.7分,較同規模MoE提升4.2分;在MATH任務上達到42.3分,提升2.8分。這一結果說明,條件記憶的優勢在大規模模型上更為顯著,為超大模型的稀疏化設計提供了新方向。
稀疏性分配實驗驗證了U型縮放定律的有效性(原文圖3):27B模型在記憶占比22%、MoE占比78%時,綜合性能達到最優(平均得分提升4.5分);當記憶占比低于10%或高于40%時,性能均出現明顯下降。這一結論為不同任務場景下的資源分配提供了量化指導(如知識密集型任務可適當提高記憶占比至25%,推理密集型任務可維持20%左右)。
4.3 消融實驗 為驗證各核心組件的作用,本文進行了消融實驗:(1)移除分詞器壓縮:詞表冗余增加23%,MMLU性能下降1.8分;(2)移除多頭哈希:哈希沖突率提升至8.3%,CMMLU性能下降2.1分;(3)移除上下文門控:多義性干擾增加,BBH性能下降3.5分;(4)關閉CPU內存擴展:記憶容量受限,長上下文任務性能下降9.6分。消融實驗結果表明,三大核心優化策略與硬件感知設計均對模型性能有重要貢獻,缺一不可。
4.4 效率分析 訓練效率方面,Engram模型的每步訓練時間與純MoE基本持平(27B模型每步訓練時間增加0.8%),這得益于模型并行策略的優化;推理效率方面,Engram模型在CPU內存擴展模式下,吞吐量較純MoE提升12%(相同GPU配置下),因為記憶查找的計算開銷遠低于神經計算。這一結果證明,Engram在提升性能的同時,未犧牲效率,具備實際部署價值。
5 機制分析
為探究Engram提升模型性能的內在機制,本文從網絡激活、注意力分布、層功能分化三個維度進行分析。
網絡激活分析表明,Engram模型的主干網絡早期層(1-4層)激活強度較純MoE降低35%,而中晚期層(5-12層)激活強度提升28%。這說明Engram承擔了早期層的靜態模式重建任務,使主干網絡可將更多資源投入到中晚期的復雜推理中,等效于“加深”了網絡的有效推理深度。
注意力分布可視化顯示(原文圖4),Engram模型的注意力權重更集中于長程依賴關系(跨句、跨段落的語義關聯),而純MoE模型的注意力權重大量分布于局部token對(如相鄰詞的搭配)。這驗證了“記憶釋放注意力容量”的假設:Engram通過查找處理局部依賴后,注意力機制可更專注于全局上下文建模,從而提升長文本理解能力。
層功能分化實驗表明,Engram模型的各層功能定位更清晰:早期層主要負責語義編碼的初始化,中晚期層則專注于邏輯推理與上下文整合;而純MoE模型的各層功能存在大量重疊,導致資源浪費。這一功能分化使模型的計算效率與推理精度同時提升。
![]()
6 結論與未來工作
![]()
本文提出“條件記憶”作為大型語言模型稀疏化的新維度,通過Engram模塊實現了高效的知識查找與上下文融合,與MoE的條件計算形成互補。實驗驗證了U型縮放定律的有效性,證明20%-25%的記憶參數與75%-80%的計算參數配比可實現最優性能。Engram不僅提升了知識檢索任務的效率,還在復雜推理、長上下文理解等任務上取得顯著突破,其硬件感知設計降低了部署成本。
未來工作可從三個方向展開:(1)動態調整記憶窗口大小與N-gram階數,適配不同類型的輸入文本;(2)引入動態記憶更新機制,使記憶庫可學習新的語言模式,提升模型的泛化能力;(3)將條件記憶范式擴展至多模態語言模型,實現圖像、語音等模態的靜態特征檢索與動態融合。
論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
參考文獻(節選
[1] Shazeer, N., Mirhoseini, M., Maziarz, K., et al. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. TACL, 2020.
[2] Fedus, W., Zoph, B., Borgeaud, S., et al. Switch transformers are scalable and efficient for language modeling. NeurIPS, 2021.
[3] DeepSeek Team. DeepSeek-MoE: Scaling mixture-of-experts language models with dynamic routing. arXiv preprint arXiv:2401.04088, 2024.
[4] Graves, A., Wayne, G., Danihelka, I. Neural turing machines. NeurIPS, 2014.
[5] Lewis, P., Perez, E., Piktus, A., et al. Retrieval-augmented generation for knowledge-intensive NLP tasks. NeurIPS, 2020.
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.