網易首頁 > 網易號 > 正文申請入駐

DeepSeek 凌晨開源：給 Transformer 加個「查字典」的能力

2026-01-13 01:34:40　來源: 賽博禪心

北京舉報

分享至

對于問題「北京是中國的首都」，需要推理嗎？
應該是不需要，地球人都知道

但現在，Transformer 只有一種處理方式：全靠算

DeepSeek 大半夜的，發布了一篇新論文
Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models

https://github.com/deepseek-ai/Engram

這篇論文中，做了一個新方法 Engram，并給到觀點：
該查表的查表，該算的算，兩件事分開處理

對此，他們 Engram 的模塊，專門負責「查」，和負責「算」的 MoE 配合使用

結果就是，Engram-27B 在等參數、等算力條件下，全面超越純 MoE baseline

代碼已開源：
https://github.com/deepseek-ai/Engram

一個具體的例子

論文里有個很直觀的案例

模型處理「Diana, Princess of Wales」這個實體時，內部發生了什么：

層數

模型此時「認為」這是什么

第 1-2 層

Wales，一個國家

第 3 層

Wales，歐洲的一個國家

第 4 層

Princess of Wales，一個頭銜

第 5 層

Princess of Wales，威爾士親王的妻子

第 6 層

Diana, Princess of Wales，戴安娜王妃

六層網絡，才把這個實體識別出來

但「戴安娜王妃」這個知識是固定的，不會因為上下文變化而變化。模型花六層來「算」出這個結果，本質上是在用計算重建一個靜態的查找表

這六層深度，本可以用來處理更復雜的推理任務

Engram 怎么做

技術方案不復雜：用連續幾個 token（N-gram）作為「查詢詞」，從一個大表里查出對應的向量，融合到模型的中間狀態里

幾個關鍵設計：

詞表壓縮

標準分詞器會給「Apple」和「apple」分配不同的 ID，但它們語義上是同一個東西。Engram 先做一層歸并，把這類 token 映射到同一個規范化 ID

實測 128k 詞表壓縮了 23%

多頭哈希

不可能真的存下所有 N-gram 組合，那是天文數字。用哈希函數把 N-gram 映射到有限大小的表里，犧牲一點精度換存儲空間

上下文門控

查出來的向量是「靜態先驗」，可能和當前上下文不匹配。比如「蘋果」在討論水果時和討論手機時含義不同

解決方案：用當前位置的隱藏狀態（已經通過 Attention 聚合了上下文信息）作為「裁判」，給查出來的向量打分。語義不匹配時，把這個向量的權重壓低

放在哪一層

Engram 不是每層都加。放太淺，隱藏狀態還沒積累足夠上下文，「裁判」不準；放太深，錯過了分擔早期層負擔的時機

實驗發現：放在第 2 層效果最好。如果要放兩個，第 2 層和第 15 層的組合最優

參數怎么分配

這里有個核心問題：給定固定的參數預算，多少給 MoE，多少給 Engram？

論文定義了一個分配比例 ρ

? ρ = 100%：全給 MoE，沒有 Engram
? ρ = 0%：全給 Engram，沒有 MoE 的路由專家

實驗掃了一遍，結果是 U 型曲線：

這兩個極端，都不好

全給 MoE（ρ = 100%）：沒有專門的記憶模塊，模型被迫用計算來重建靜態知識

全給 Engram（ρ → 0%）：失去了動態計算能力，復雜推理做不了

最優點在 75%-80%

也就是說，把 20-25% 的稀疏參數從 MoE 轉給 Engram，效果最好

這個比例在不同的計算預算下都穩定，有一定的普適性

效果數據

四個模型對比：

? Dense-4B：稠密模型，基線
? MoE-27B：純 MoE 架構
? Engram-27B：把 MoE-27B 的 72 個路由專家減到 55 個，省出的參數給 5.7B 的 Engram
? Engram-40B：進一步擴大 Engram 到 18.5B

全部訓練 262B tokens，激活參數都是 3.8B（等算力）

挑幾個關鍵數據：

任務類型

具體任務

MoE-27B

Engram-27B

提升

知識

MMLU

57.4

60.4

+3.0

知識

CMMLU（中文）

57.9

61.9

+4.0

推理

BBH

50.9

55.9

+5.0

推理

ARC-Challenge

70.1

73.8

+3.7

代碼

HumanEval

37.8

40.8

+3.0

數學

MATH

28.3

30.7

+2.4

知識類任務提升在預期內，畢竟加了個「記憶」模塊

但推理類任務提升更大，這就有意思了

一個「記憶」模塊，怎么讓「推理」能力變強？

為什么推理也變強了

這是論文最有價值的部分

他們用了兩個分析工具

LogitLens：看每一層輸出的預測置信度

結果：Engram 模型在早期層就達到了高置信度，預測收斂速度明顯更快

CKA：看不同層之間的表示相似度

結果：Engram 模型第 5 層的表示，和 MoE 模型第 12 層的表示最相似

這說明什么？

Engram 等效于增加了網絡的有效深度

邏輯是這樣的：有了 Engram 分擔靜態知識的檢索，早期層不用再花深度做這件事。省出來的深度，可以用于更復雜的推理

Attention 的容量也被釋放了。本來要處理局部依賴（比如識別「張仲景」是一個人名）的注意力頭，現在可以專注于全局上下文

長上下文任務上這個效果更明顯：

任務

MoE-27B

Engram-27B

Multi-Query NIAH

84.2

97.0

Variable Tracking

77.0

89.0

Engram 到底存了什么

做了個消融實驗：把 Engram 的輸出完全屏蔽，看各類任務的性能保留多少

? 事實問答（TriviaQA）：只剩 29%
? 閱讀理解（C3）：保留 93%
? 推理任務：居中

結論很清晰：

事實知識主要存在 Engram 里，屏蔽后崩得厲害

閱讀理解依賴上下文，答案就在文章里，Engram 幫不上忙

推理任務的提升是間接的，來自 Engram 釋放的網絡深度，而不是 Engram 直接提供推理能力

門控可視化

紅色表示門控激活（采納了查表結果），顏色越深激活越強

規律很明顯：

? 多 token 實體觸發高激活：「Alexander the Great」「Milky Way」「Princess of Wales」
? 固定搭配觸發高激活：「By the way」
? 中文也能識別：「四大發明」「張仲景」「醫圣」「傷寒雜病論」

需要結合上下文理解的 token，門控會壓低

工程：offload 效率

這部分對開發者有參考價值

Engram 的查表索引是確定的。知道輸入是什么 token，就知道要查哪些行，不依賴中間計算結果

MoE 不一樣，路由決策要等隱藏狀態算出來才能做

這個區別讓 Engram 可以做預取：模型在計算前幾層的時候，同時從主機內存異步加載 Engram 需要的數據，兩邊并行

實測結果：

配置

吞吐量

Dense-4B

9,031 tok/s

Dense-4B + 100B

Engram（CPU offload）

8,858 tok/s

Dense-8B

6,315 tok/s

Dense-8B + 100B

Engram（CPU offload）

6,140 tok/s

100B 參數的 Engram 表完全放主機內存，吞吐量下降不到 3%

N-gram 的訪問還符合 Zipf 分布，少數高頻模式占了絕大多數訪問量。可以做多級緩存：熱門的放 GPU 顯存，長尾的放主機內存甚至 SSD

組件消融

哪些設計貢獻最大：

? 多分支集成：重要
? 上下文門控：重要
? Tokenizer 壓縮：重要
? 輕量卷積：影響不大
? 4-gram：在當前參數預算下不如 2-gram + 3-gram 組合

Engram 放在第 2 層效果最好，越往深層放效果越差

跑起來

                                                           pip install torch numpy transformers sympy
python engram_demo_v1.py

GitHub 上的 demo 是演示版，mock 了 Attention/MoE 等標準組件，用于展示 Engram 的數據流

總結一下：
MoE 管算，Engram 管查，兩種機制處理兩類任務

代碼：
https://github.com/deepseek-ai/Engram

論文：
https://raw.githubusercontent.com/deepseek-ai/Engram/refs/heads/main/Engram_paper.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

美媒發出感慨：美國過時了中國出乎意料成了熱門

環球時報 2026-02-15 12:00:05
14700 跟貼 14700
大逆轉！最低溫-1℃！冷空氣即將抵達廣西

環球網資訊 2026-02-15 15:34:20
39 跟貼 39

海南封關后首個春運：瓊州海峽過海車票售罄，官方提示“黃牛”陷阱

澎湃新聞 2026-02-15 11:39:08
52 跟貼 52

神二十乘組談舷窗裂紋發現過程:通過40倍顯微鏡看清楚

央視新聞客戶端 2026-02-15 22:52:38
586 跟貼 586
重慶兩套法拍房以192萬余元起拍，物業欠費卻達108萬余元，物業方回應：實際欠費28萬余元，80萬余元滯納金可協商處理

極目新聞 2026-02-15 14:37:25
4312 跟貼 4312

張之臻布里斯班奪冠！

揚子晚報 2026-02-15 14:23:22
97 跟貼 97

夜班保安深夜果斷辭職：我是來看門的不是干搬運，戳中打工人的痛

搗蛋窩 2026-02-16 02:49:51
3 跟貼 3
上海二手房交易中心烏泱泱擠滿人，感受樓市“小陽春”｜新春走基層

每日經濟新聞 2026-02-15 09:23:08
491 跟貼 491

國投瑞銀LOF出臺補償方案：1000元以下損失全額補償

界面新聞 2026-02-15 21:28:21
443 跟貼 443
眼鏡布不是用來擦眼鏡的？原來這么多年，一直用錯了

環球網資訊 2026-02-15 12:46:03
70 跟貼 70
跨大西洋關系裂痕加劇歐洲高調提“戰略自主”

國際在線 2026-02-15 10:07:34
157 跟貼 157
有游客在胖東來買到搬不動了：買了5000多元的年貨，還花了500多元的快遞費

極目新聞 2026-02-15 14:37:25
753 跟貼 753
反向過年新潮流：老外扎堆來中國，單日飛三亞外國游客大增3倍

每日經濟新聞 2026-02-15 11:30:33
1320 跟貼 1320
最高可得2888元！剛剛，千問APP宣布發放口令紅包

大象新聞 2026-02-15 17:59:05
46 跟貼 46
Seedance一騎絕塵背后：中國AI春節前為何“殺瘋了”？

澎湃新聞 2026-02-15 07:50:28
118 跟貼 118
被英國選手犯規撞倒，孫龍、劉少昂無緣短道1500米獎牌，孫龍還被冰刀劃傷膝蓋，滲出鮮血

都市快報橙柿互動 2026-02-15 07:37:26
325 跟貼 325
中方決定對加拿大、英國持普通護照人員免簽

每日經濟新聞 2026-02-15 18:33:18
57 跟貼 57
汽車要有實體操縱件新國標征求意見

新華社 2026-02-15 14:49:05
218 跟貼 218
汕頭宣布：春節假期，機關事業單位615個床位對外開放

南方都市報 2026-02-15 12:27:34
146 跟貼 146
新疆賽乃姆斗舞廣東英歌舞

中國青年報 2026-02-15 20:26:16
1 跟貼 1
詹姆斯退役你是否會流淚？文班：說實話不會但那肯定會很奇怪

北青網-北京青年報 2026-02-15 07:48:03
244 跟貼 244
8歲女孩拿到6張獎狀在母親墳前哭訴“沒有意義你看不到”，40歲姑姑安慰“我獎勵你”，渦陽縣民政：正核實跟進

極目新聞 2026-02-15 21:02:32
0 跟貼 0

杠上了！“誰說歐洲文明要完？加拿大還想加入呢”

觀察者網

2026-02-15 22:54:13

高市沒想到，日本剛扣押中國漁船，抓走船長，中方就迅速出手了！

歲暮的歸南山

2026-02-16 00:18:08

拉夫羅夫公開說“看不懂”，西方政客集體沉默這事真有那么難解釋

西莫的藝術宮殿

2026-02-16 03:44:59

俄媒：一旦開戰，中方只靠解放軍難以取勝，必須調動另一股力量！

勇士軍武閑談

2026-02-13 11:54:35

新加坡急了，外長幾乎是拍著桌子，讓中國“尊重”馬六甲的地位。

南權先生

2026-01-26 15:41:26

網速更快！華為公布支持5A通信機型：覆蓋Mate、Pura、nova等系列

快科技

2026-02-14 12:13:04

最高可得2888元！剛剛，千問APP宣布發放口令紅包

大象新聞

2026-02-15 17:59:05

好慘烈的身高對比差距，中越邊境上的一張軍人合影突然火了起來

我心縱橫天地間

2026-01-30 22:17:29

回顧探花大神：害人害己，多位女主被親戚認出當場“社死”

就一點

2025-10-09 12:19:42

樊振東3-1逆轉賈哈！后三局拿捏關鍵分，為薩爾布呂肯奪首勝！

籃球資訊達人

2026-02-15 20:50:48

德國那位軍事專家說得夠直白：美國不是怕中國，是怕打了也白打

扶蘇聊歷史

2026-01-28 18:04:09

氣笑了！李家誠告周秀娜，不到半天就被打臉，好在周秀娜早有預防

離離言幾許

2026-02-13 18:34:28

貝克漢姆家劇情更新，小七情人節曬與大布合照，貝嫂回應但沒人理

手工制作阿殲

2026-02-16 02:42:05

你無意之中撞見過什么秘密？網友：我婆婆和公公外面各自有人

帶你感受人間冷暖

2026-02-12 00:05:09

他8次上春晚，作死被捕入獄，如今56歲無人問津，淪落到四處走穴

小熊侃史

2026-01-06 11:17:00

中央電視臺直播錄播2026年2月16日至22日乒乓球比賽

乒乓球球

2026-02-16 00:27:52

前勇士、湖人冠軍中鋒麥基：我將加入北京首鋼

懂球帝

2026-02-15 09:17:17

這種飲料正在摧毀你的胰島細胞！很多糖尿病，都和這種飲料有關！

蜉蝣說

2026-01-29 14:46:50

從5260萬降到600萬，還準備退役巡演么？奪冠熱門似乎不太需要你

老梁體育漫談

2026-02-15 00:03:47

2026央視春晚最新動態！節目單曝光，重量級嘉賓登場

夢在深巷qw

2026-02-16 03:42:26

賽博禪心

拜AI古佛，修賽博禪心

293文章數 36關注度

往期回顧全部

科技要聞

發春節紅包的大廠都被約談了

頭條要聞

大學生寒假為媽媽店鋪當中老年服裝模特撞臉明星

頭條要聞

大學生寒假為媽媽店鋪當中老年服裝模特撞臉明星

體育要聞

NBA三分大賽:利拉德帶傷第三次奪冠

娛樂要聞

2026央視春晚最新劇透重量級嘉賓登場

財經要聞

誰在掌控你的胃？起底百億"飄香劑"江湖

汽車要聞

奔馳中國換帥：段建軍離任，李德思接棒

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

藝術

房產

本地

公開課

親子要聞

從小“吃零食”和“不吃零食”的孩子，離了父母的嚴管，差距拉大

藝術要聞

168米！廣州“翠竹”摩天大樓復工？

房產要聞

三亞新機場，又傳出新消息！

本地新聞

春花齊放2026：《駿馬奔騰迎新歲》

公開課

手機 / 數碼

房產 / 家居

DeepSeek 凌晨開源 ：給 Transformer 加個「查字典」的能力

發春節紅包的大廠都被約談了

大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

NBA三分大賽:利拉德帶傷第三次奪冠

2026央視春晚最新劇透 重量級嘉賓登場

誰在掌控你的胃？起底百億"飄香劑"江湖

奔馳中國換帥：段建軍離任，李德思接棒

態度原創

從小“吃零食”和“不吃零食”的孩子，離了父母的嚴管，差距拉大

168米！廣州“翠竹”摩天大樓復工？

三亞新機場，又傳出新消息！

春花齊放2026：《駿馬奔騰迎新歲》

DeepSeek 凌晨開源：給 Transformer 加個「查字典」的能力

大學生寒假為媽媽店鋪當中老年服裝模特撞臉明星

大學生寒假為媽媽店鋪當中老年服裝模特撞臉明星

2026央視春晚最新劇透重量級嘉賓登場