【梁文鋒署名】DeepSeek再發(fā)新論文：75%思考+25%記憶，這是他們算出來的最優(yōu)解

2026-01-13 12:21:35　來源: AI進化論花生

北京舉報

分享至

DeepSeek又發(fā)論文了。

這次的主題有點意思：他們發(fā)現(xiàn)，現(xiàn)在的大模型在浪費大量算力做一件很傻的事——用計算來模擬查字典。

論文叫《Conditional Memory via Scalable Lookup》，核心是一個叫Engram的模塊。

這個名字有點意思。Engram是神經(jīng)科學(xué)術(shù)語，最早由德國生物學(xué)家Richard Semon在1904年提出，指的是大腦中存儲記憶痕跡的物理結(jié)構(gòu)——當(dāng)你記住"巴黎是法國首都"這個事實時，這條信息就以某種物理形式（可能是特定的神經(jīng)連接模式）存儲在你的大腦里，這個物理痕跡就叫engram。

DeepSeek用這個名字，顯然是想說：我們要給大模型裝上真正的"記憶"。

說實話，看完之后我挺興奮的——這篇論文的思路非常優(yōu)雅，而且解決的是一個很根本的問題。更重要的是，它觸及了一個認(rèn)知科學(xué)的經(jīng)典命題：記憶和思考是什么關(guān)系？

先說問題：大模型在浪費算力做"背書"

你有沒有想過，當(dāng)大模型看到"Diana, Princess of Wales"（戴安娜王妃）這個詞的時候，它內(nèi)部發(fā)生了什么？

DeepSeek在論文里引用了一個很有意思的研究（PatchScope）：模型需要消耗多層Attention和FFN，才能逐步把這個實體識別出來。

具體來說，模型處理"Wales"這個詞時的內(nèi)部狀態(tài)演變：

層數(shù)

模型內(nèi)部理解

1-2層

"威爾士"（當(dāng)成英國的一個地區(qū)）

3層

"歐洲的一個國家"

4層

"女性君主持有的頭銜"（開始識別Princess）

5層

"威爾士王儲的妻子"

6層

"戴安娜王妃（1961-1997），查爾斯王子的前妻"

看到?jīng)]？模型用了6層計算，才把一個固定的歷史人物識別出來。

問題在于：這個信息是靜態(tài)的、固定的，根本不需要每次都"計算"出來。

"亞歷山大大帝"就是"亞歷山大大帝"，"四大發(fā)明"就是"四大發(fā)明"，"張仲景"就是"張仲景"。這些固定搭配、命名實體、慣用表達(dá)，每次都用神經(jīng)網(wǎng)絡(luò)重新計算一遍，是不是有點傻？

這就像你每次需要查"中國首都是哪"的時候，不是直接查字典，而是從頭推理一遍——中國是個國家，國家有首都，中國的政治中心在...

DeepSeek的核心觀點是：大模型浪費了大量的"網(wǎng)絡(luò)深度"在做這種重復(fù)性的靜態(tài)知識重建。這些算力本來可以用來做更有價值的事——比如推理。

Engram的核心思想：給模型發(fā)一本字典

想象你在考試。

以前的規(guī)則是：什么都不能帶，全靠腦子現(xiàn)場推。"亞歷山大大帝是誰？"你得從頭想——亞歷山大，希臘名字，大帝說明是君主，歷史上有名的希臘君主...

現(xiàn)在新規(guī)則：允許帶一本字典進考場。字典里寫著"亞歷山大大帝 = 馬其頓國王，公元前356-323年，征服了波斯帝國"。你直接翻到這一頁，抄上去，省下來的時間做后面的推理題。

Engram就是這本字典。

具體怎么查？很簡單：

模型看到"Alexander the Great"這三個詞連在一起，就像看到字典的索引詞條。它用一個很快的方法（哈希）定位到字典里對應(yīng)的那一頁，直接把預(yù)先存好的信息拿出來用。

整個過程不需要"思考"，只需要"翻頁"。

但這里有個問題：同一個詞在不同場合意思不一樣。

比如"蘋果"，可能是水果，也可能是那家科技公司。字典里存的是哪個意思？

Engram的解決方案很聰明：查完字典之后，先看看上下文，再決定用不用。

如果前面在聊水果，字典里查出來的"蘋果公司"就不太對勁，模型會自動忽略這個查表結(jié)果，繼續(xù)用自己的推理。如果前面在聊手機，那字典里的信息就很有用，直接采納。

這就像一個聰明的學(xué)生：帶了字典進考場，但不是無腦抄，而是先判斷字典里的答案和題目對不對得上。

關(guān)鍵發(fā)現(xiàn)：U型縮放定律

這里是論文最有意思的部分。

DeepSeek研究了一個問題：如果總參數(shù)量固定，應(yīng)該把多少參數(shù)分配給MoE專家，多少分配給Engram記憶？

他們定義了一個"分配比例"ρ：

ρ = 100% 表示純MoE（所有稀疏參數(shù)都給專家）
ρ < 100% 表示把部分參數(shù)從專家轉(zhuǎn)移到Engram

實驗結(jié)果讓人驚訝：

驗證損失呈現(xiàn)U型分布：

純MoE（ρ=100%）不是最優(yōu)的
分配約20-25%給Engram（ρ≈75-80%）效果最好
把太多參數(shù)給Engram（ρ<50%）效果又變差

這個U型曲線說明了什么？

MoE和Engram是互補的：

MoE擅長動態(tài)的、需要上下文推理的任務(wù)
Engram擅長靜態(tài)的、固定模式的識別

兩者缺一不可。純MoE缺少記憶能力，純Engram缺少推理能力。

插一段：博爾赫斯早就寫過這個

看到這個U型曲線的時候，我突然想起博爾赫斯的一個短篇：**《博聞強記的富內(nèi)斯》**（Funes the Memorious）。

故事講的是一個叫富內(nèi)斯的阿根廷青年，從馬上摔下來之后，獲得了"完美記憶"的能力——他能記住一切。每一片葉子的形狀，每一朵云的變化，甚至能記住1882年4月30日黎明時分南方天空的云彩排列。

但博爾赫斯寫道：富內(nèi)斯無法思考。

"思考就是忘記差異，就是概括，就是抽象。在富內(nèi)斯塞滿了東西的世界里，只有細(xì)節(jié)，幾乎是直接感知的細(xì)節(jié)。"

富內(nèi)斯能記住三個不同時刻看到的同一條狗，但他無法理解"狗"這個概念——因為每一條狗、每一個瞬間的狗，對他來說都是完全不同的東西。他記住了一切，卻失去了抽象的能力。

這不就是論文里U型曲線的左端嗎？

當(dāng)ρ趨近于0（全是Engram，沒有MoE）時，模型有無限的記憶，但失去了推理能力。它能記住"亞歷山大大帝"是誰，但無法用這些知識進行推理。

反過來，當(dāng)ρ=100%（全是MoE，沒有Engram）時，模型有強大的推理能力，但要浪費大量算力重建那些本可以直接記住的東西。

博爾赫斯在1942年就洞察到了這一點：記憶和思考是互補的，但也是對立的。完美的記憶會殺死思考，而純粹的思考則需要不斷重新發(fā)明輪子。

最優(yōu)解在中間——既有記憶，又有思考。

DeepSeek的實驗數(shù)據(jù)給出了一個驚人精確的答案：大約75-80%給思考，20-25%給記憶。

這讓我想到另一個認(rèn)知心理學(xué)的經(jīng)典概念：**組塊（Chunking）**。

1956年，心理學(xué)家George Miller發(fā)表了著名的論文《神奇的數(shù)字7±2》，指出人類工作記憶的容量是有限的，但我們可以通過"組塊"來擴展它。比如記電話號碼138-8888-6666，你不是記11個數(shù)字，而是記3個組塊。

N-gram本質(zhì)上就是語言的組塊。"亞歷山大大帝"不是5個字，而是1個組塊。Engram做的事情，就是把這些組塊預(yù)先存好，省得每次都要重新計算。

人腦早就在這么干了。DeepSeek只是讓大模型學(xué)會了同樣的技巧。

實驗結(jié)果：推理能力提升比知識提升更大

這是讓我最驚訝的部分。

你可能會想：Engram是個"記憶模塊"，應(yīng)該主要提升知識類任務(wù)吧？

確實，知識任務(wù)有提升：

MMLU：+3.4
CMMLU：+4.0
MMLU-Pro：+1.8

但推理任務(wù)的提升更大：

BBH：+5.0
ARC-Challenge：+3.7
DROP：+3.3

甚至代碼和數(shù)學(xué)也有顯著提升：

HumanEval：+3.0
MATH：+2.4
GSM8K：+2.2

等等，一個"記憶模塊"為什么能提升推理能力？

機制分析：為什么"記憶模塊"能提升推理？

這是我最想搞明白的問題。

DeepSeek做了一個很有意思的實驗：他們"偷看"模型每一層在想什么。

具體方法是：把每一層的中間結(jié)果拿出來，問它"你現(xiàn)在覺得下一個詞是什么？"。如果這一層已經(jīng)很接近最終答案，說明模型在這一層就基本"想明白了"。

結(jié)果很直觀：

有Engram的模型，在很早的層就"想明白了"；沒有Engram的模型，要到很深的層才行。

為什么？

因為沒有字典的模型，前面幾層都在忙著做一件事：搞清楚"亞歷山大大帝"是誰。它得一層一層地拼湊——這是個人名，是個歷史人物，是個國王，是馬其頓的國王...

等它終于搞清楚這是誰了，已經(jīng)用掉了5、6層。剩下的層才能開始真正的推理。

但有字典的模型不一樣。第2層的時候，Engram直接告訴它："亞歷山大大帝 = 馬其頓國王，征服者"。好了，搞定，后面20多層全部用來推理。

這就像兩個學(xué)生做同一張卷子：

一個學(xué)生得先花20分鐘背公式，再用40分鐘做題。

另一個學(xué)生帶了公式表，60分鐘全用來做題。

誰的推理題做得更好？顯然是第二個。

DeepSeek還做了一個更精確的測量：Engram模型第5層的"思考深度"，相當(dāng)于普通模型第12層的水平。

換句話說，Engram相當(dāng)于免費給模型加了7層深度。

這就解釋了為什么推理能力提升這么大——不是Engram本身能推理，而是它把推理的空間讓出來了。

長上下文能力也炸了

還有個意外收獲：處理長文章的能力暴漲。

有個測試叫"大海撈針"——在一篇很長的文章里藏一句關(guān)鍵信息，看模型能不能找到。

任務(wù)

沒有字典

有字典

多問題大海撈針

84.2%

97.0%

變量追蹤

77.0%

89.0%

為什么字典能幫助處理長文章？

想象你在讀一本很長的小說。如果你每次看到"福爾摩斯"都要停下來想"這是誰來著..."，讀到后面肯定記不住前面的劇情。

但如果"福爾摩斯 = 偵探，住貝克街221B"這個信息已經(jīng)存在字典里，你的注意力就可以全部用來追蹤劇情——誰殺了誰，線索在哪，兇手是誰。

Engram處理了"這是誰"的問題，Attention就可以專注于"發(fā)生了什么"的問題。

相當(dāng)于給大腦減負(fù)了。

系統(tǒng)設(shè)計：字典可以放在抽屜里

這里體現(xiàn)了DeepSeek一貫的風(fēng)格：理論創(chuàng)新和工程落地并重。

繼續(xù)用考試的比喻。

MoE（專家模型）的問題是：每道題都要"現(xiàn)場"決定找哪個專家來答，這個決定本身就要花時間。

但字典不一樣。你看到"亞歷山大大帝"，就知道要翻到A開頭那一頁。你不需要先讀完整道題，才知道去查哪個詞條。

這意味著什么？

意味著字典可以提前準(zhǔn)備好。

模型還在處理第1層的時候，系統(tǒng)就已經(jīng)知道第2層要查什么詞條了。所以可以提前把那一頁準(zhǔn)備好，等模型算到第2層的時候，字典已經(jīng)翻開擺在那兒了。

更妙的是：字典不需要放在桌上，放在抽屜里也行。

GPU顯存很貴，就像桌面空間有限。但CPU內(nèi)存便宜得多，就像抽屜容量大得多。

既然可以提前知道要查什么，那就提前從抽屜里把那一頁拿出來，等用的時候已經(jīng)在桌上了。

DeepSeek做了個實驗：把一本1000億參數(shù)的"字典"放在抽屜里（CPU內(nèi)存），結(jié)果：

配置

速度

不帶字典

9,031 字/秒

帶1000億參數(shù)字典（放抽屜里）

8,858 字/秒

只慢了2% ，但多了1000億參數(shù)的知識。

這就是為什么Engram可以做得很大——字典放抽屜里就行，不占桌面。

門控可視化：確實在識別固定模式

論文最后有個很直觀的可視化：

紅色表示門控值高（Engram被激活），白色表示門控值低（Engram被忽略）。

可以看到，門控在這些地方激活：

"Alexander the Great"（亞歷山大大帝）
"the Milky Way"（銀河系）
"Princess of Wales"（威爾士王妃）
"四大發(fā)明"
"張仲景"
"傷寒雜病論"

全是命名實體和固定搭配。Engram確實在做它該做的事：識別靜態(tài)模式。

往大了說：DeepSeek在開一條新路

回到開頭的問題：這篇論文的意義是什么？

過去幾年，大家都在一個方向上卷：怎么讓模型算得更聰明。MoE讓不同的專家處理不同的問題，Attention讓模型看到更遠(yuǎn)的上下文，更深的網(wǎng)絡(luò)讓推理更復(fù)雜。

但不管怎么卷，本質(zhì)上都是在優(yōu)化"計算"。

DeepSeek說：等等，有些問題根本不需要算，查一下就行了。

這個思路其實很符合直覺：人腦也不是什么都靠推理，很多時候就是直接調(diào)用記憶。你看到"1+1"不需要推理，直接輸出"2"就行。

論文最后一句話很有意思：

"We envision conditional memory as an indispensable modeling primitive for next-generation sparse models."

翻譯過來：我們認(rèn)為條件記憶會成為下一代稀疏模型的基礎(chǔ)組件。

DeepSeek在押注一個新的架構(gòu)方向。

最后：記憶與思考的平衡

回到開頭的問題：記憶和思考是什么關(guān)系？

博爾赫斯用富內(nèi)斯告訴我們：完美的記憶會殺死思考。認(rèn)知心理學(xué)告訴我們：人腦用組塊來平衡記憶和思考的負(fù)擔(dān)。

現(xiàn)在DeepSeek用實驗數(shù)據(jù)告訴我們：最優(yōu)的比例大約是75%計算 + 25%記憶。

這個數(shù)字讓我覺得很有意思。它意味著，即使是"智能"系統(tǒng)，也不能全靠"聰明"——你得記住一些東西，才能把腦力用在更值得思考的地方。

這篇論文給我最大的啟發(fā)是：有時候最好的優(yōu)化不是讓計算更快，而是把計算變成查表。

O(1)的查表永遠(yuǎn)比O(n)的計算快。如果一個問題的答案是固定的、可以預(yù)先算好存起來的，那就沒必要每次都重新算。

這個道理在計算機科學(xué)里叫"空間換時間"。但在大模型領(lǐng)域，過去幾年大家都在卷MoE、卷Attention、卷更深的網(wǎng)絡(luò)，似乎忘了還有"記憶"這條路。

DeepSeek的Engram提醒我們：大模型不是越大越好、也不是越深越好，關(guān)鍵是把合適的任務(wù)分配給合適的模塊。

靜態(tài)知識 → 查表（Engram）

動態(tài)推理 → 計算（MoE）

就像人腦一樣：你不需要每次看到"1+1"都重新推導(dǎo)，直接從記憶里調(diào)出"2"就行了。省下來的腦力，用來思考更有價值的問題。

富內(nèi)斯記住了一切，卻無法思考。

純MoE模型能夠思考，卻要浪費算力重建記憶。

最聰明的系統(tǒng)，是知道什么該記住、什么該思考的系統(tǒng)。

參考資料：

Engram論文：https://github.com/deepseek-ai/Engram
DeepSeek-V3技術(shù)報告：https://arxiv.org/abs/2412.19437
mHC論文：https://arxiv.org/abs/2512.24880

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.