
作者 | 冬梅
今天凌晨,喜歡悶聲做大事的 DeepSeek 再次發布重大技術成果,在其 GitHub 官方倉庫開源了新論文與模塊Engram,論文題為 “
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”, 梁文鋒再次出現在合著者名單中。
![]()
與傳統的大模型架構相比,該方法提出了一種新的“查—算分離”機制,通過引入可擴展的查找記憶結構,在等參數、等算力條件下顯著提升模型在知識調用、推理、代碼、數學等任務上的表現。代碼與論文全文均已開源。
論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
代碼地址:https://github.com/deepseek-ai/Engram
這種查和算分離的 Engram 新方法的整體架構如下圖所示:
![]()
1 為什么需要 Engram?
那么,我們為什么需要 Engram ?
目前主流的大語言模型架構依然基于 Transformer 和Mixture-of-Experts(MoE)結構。MoE 是目前推進參數規模和能力擴展的關鍵技術之一,通過動態路由機制,只激活部分參數以降低計算成本,同時在任務容量方面實現大規模擴展。DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也采用了先進的 MoE 方法進行擴展訓練。
但在這些傳統的 Transformer 架構(無論是 Dense 還是 MoE)中,模型的參數實際上承擔著兩種截然不同的角色:
事實性記憶(Memorization):存儲海量的知識事實。例如,“巴黎的首都是哪里?”、“世界最高的山脈是哪座”等。這類信息相對死板,更多依賴于“查表”式的檢索。
邏輯推理與計算(Calculation):負責復雜的邏輯鏈條、多步推理和情境理解。例如,“根據這段代碼的邏輯推導可能的 Bug”、“解析一段復雜的哲學論證”。
目前的大語言模型傾向于將這兩者混在一起。當你試圖讓模型記住更多知識時,你不得不增加參數量。而在傳統的 Dense 模型中,參數量增加意味著前向傳播時的計算量(FLOPs)也會同步激增。MoE 架構雖然通過稀疏激活解決了“算力隨參數同步爆炸”的問題,但 DeepSeek 研究發現,MoE 專家在處理“死記硬背”的任務時依然不夠高效。
神經網絡本質上是連續的數學變換,用高昂的矩陣運算去模擬簡單的“查表檢索”,本身就是一種極大的浪費。DeepSeek 的 Engram 正是為了打破這一困境——“該查表的查表,該算的算”。
2 Engram 的核心思想與架構
聚焦到問題本身,Engram 方法為什么能解決上述問題?
![]()
“Engram”一詞源自神經科學,意為“記憶痕跡”,它是一個可擴展、可查找的記憶模塊,用于語言模型在推理過程中過去可能已經見過的模式或片段。
Engram 的核心技術之一是現代化的哈希 N-Gram 嵌入(Modernized Hashed N-gram Embeddings)。
傳統方式:模型通過多層自注意力(Self-Attention)和 MLP 層的非線性變換,反復提取輸入文本中的特征。
Engram 方式:它對輸入的 Token 序列進行 N-Gram(連續 N 個詞)切片,并利用哈希算法將這些片段映射到一個巨大的、可學習的查找表(Lookup Table)中。
由于采用哈希索引,這種查找是確定性且 O(1) 時間復雜度的。這意味著無論模型存儲了多少萬億個記憶片段,檢索的速度幾乎是恒定的,且算力消耗極低。
O (1) 的含義是: 一次查找的耗時是常數級的,與 N-gram 表的規模無關。
也就是說,這種設計本質上將一部分“記憶職責”從深度神經計算中卸載出來(例如序列模式、固定知識段的識別與回填),使得模型既擁有活躍神經通道(例如 Transformer + MoE)處理復雜計算,也有靜態記憶通道高效處理固定模式,這就是所謂的“稀疏性的新軸”(a new axis of sparsity)。
簡單來說就是 MoE 負責:“計算密集”神經推理與復雜組合功能、Engram 負責:“記憶查找”固定模式以及模式重建,兩者協同構成一個更高效的整體架構。
此外,它還具備條件記憶(Conditional Memory)。與簡單的靜態查找表不同,Engram 是“條件化”的。它會根據當前上下文的隱向量(Hidden States)來決定提取哪些記憶。
在架構設計上,Engram 模塊位于 Transformer 層的早期階段。它負責“模式重構(Pattern Reconstruction)”,即在計算層(MoE 或 Dense)開始干活之前,先把相關的背景事實和歷史模式檢索出來,作為“素材”喂給后續的邏輯層。
它與 MoE(Mixture of Experts)的關系是怎樣的?
論文特別指出:Engram 提供了一個新的稀疏性軸,與 MoE 的條件計算不同,它通過條件查找提供靜態記憶容量。下面圖表中從目標、計算方式、優化方向和作用位置四個維度解釋了 Engram 和 MoE 的區別。
維度MoEEngram
目標
條件激活神經專家
條件觸發靜態記憶查找
計算方式
無極 dense 計算 / 激活部分專家
O(1) 查表
優化方向
降低活躍神經計算量
減少神經計算重建已知模式
作用位置
深層推理
早期模式重建 / 記憶檢索
最后,DeepSeek 將 Engram 與 MoE 結合,形成了一個雙系統:
Engram 模塊:負責海量知識點的“存儲與快速檢索”。
MoE 專家:擺脫了沉重的記憶負擔,全身心投入到“邏輯推理與合成”中。
這種分工極大地優化了參數效率。在 27B 的實驗模型中,Engram 模塊可以占用大量的參數用于記憶,但在實際推理時,它只消耗極少的計算量(FLOPs)。
![]()
3 網友:V4 將采用這種架構
在 Reddit、X 和其他平臺的相關帖子中,Engram 的技術核心受到了不少用戶的肯定和技術肯定。眾多網友認為這個模塊的特點在于讓模型架構處理“記憶模式查找”和“神經計算推理”兩塊職責分離,從而開啟了新的稀疏性方向。
在 Reddit 平臺有用戶評論說:
“Engram 嵌入方法很有意思。大多數模型僅通過 MoE 進行擴展,但 Engram 增加了靜態記憶作為補充的稀疏性軸,查找復雜度為 O(1)。他們發現 MoE 和 Engram 之間存在 U 形縮放規律,這指導著如何在兩者之間分配容量。分析表明,這減輕了早期層級靜態模式重建的壓力,從而保留了用于復雜推理的深度。確定性尋址意味著它們可以將嵌入表卸載到主機內存中,而不會增加太多推理開銷。”
![]()
同時,有用戶對這種基于 n-gram lookup 的機制表達了直觀興趣,他評論道:
即便是在不依賴 GPU 的環境下也能實現這種 O(1) 查找方式,讓不少開發者對本地部署這樣的大模型功能有了更實際的期待。
![]()
在部分技術性評論中,有人指出:
從已有技術邏輯來看,在 LLM 中加入靜態記憶查找似乎是“順理成章”的發展方向。
這類觀點反映了一個重要觀點:專家群體開始從純參數擴張思維轉向更“智能”的架構設計,包括查表式模塊和神經網絡的協同。
不少高級開發者在討論中進一步提到,這種設計在理念上類似于對傳統 NLP 技術(如 n-gram embedding)的現代化轉換,結合了高效尋址機制(deterministic addressing)和神經推理模塊,這種組合在紙面上看具有較高的可行性和實用性(這一點正是 Engram 的核心貢獻)。
另一條社區評論指出,Engram 很可能是DeepSeek 即將發布的 V4 模型的核心技術基礎:
Engram 模塊可能會成為 DeepSeek V4 的重要組成部分,并預示 DeepSeek 下一代模型會在記憶和推理協同上實現架構級提升。
在 X 平臺,也有網友表達了同樣的猜測,認為 V4 也將采用這種架構。
![]()
還有網友調侃,原本想抄襲下谷歌的技術,但現在要抄襲 DeepSeek 了,因為它比谷歌更好!
![]()
還有網友表示,其實 Meta 之前也有過類似想法,但用到的技術不同。
![]()
https://www.reddit.com/r/LocalLLaMA/comments/1qb034t/github_deepseekaiengram_conditional_memory_via/?utm_source=chatgpt.com
https://x.com/scaling01/status/2010748516788777445
https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
會議推薦
InfoQ 2026 全年會議規劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業落地,從技術前沿到行業應用,全面覆蓋 AI 與軟件開發核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業落地痛點,探索前沿領域、聚焦產業賦能,獲取實戰落地方案與前瞻產業洞察,高效實現技術價值轉化。把握行業變革關鍵節點,搶占 2026 智能升級發展先機!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.