網易首頁 > 網易號 > 正文申請入駐

DeepSeek-V4核心公開？梁文鋒署名新論文發布，實習生挑大梁

2026-01-13 11:58:17　來源: 智東西

北京舉報

分享至

智東西
作者駿達王涵
編輯心緣

智東西1月13日報道，昨晚，DeepSeek又開源了，還發布一篇新論文。這次，他們提出了一種全新的“條件記憶”機制——Engram，旨在讓MoE模型在保持巨量參數的同時，更高效地處理語言信息。

DeepSeek創始人兼CEO梁文鋒、北大王選計算機研究所的趙東巖和張輝帥教授都在論文中署名。

Engram架構的核心優勢在于以更低成本實現更優性能。訓練計算量較MoE減少18%的情況下，在32768個token的長上下文任務中，Engram在RULER基準測試中反超同參數量MoE模型。

并且，其淺層部署的記憶模塊接管局部依賴與靜態知識存儲，為注意力機制騰出容量以專注全局推理，1000億參數記憶表卸載后使H800推理吞吐量降幅不足3%。

DeepSeek還觀察到，增加記憶槽位數量能持續、穩定地降低驗證損失，這意味著Engram提供了一個可預測的Scaling新手段：增大記憶容量持續帶來收益，而無需增加計算量。

那這種效果究竟是如何實現的呢？如今的MoE模型雖然在計算層面做到了稀疏化，但是它處理信息的方式仍然很費勁：有些老生常談的事實性內容，比如常見的名字、公式或固定表達，模型卻要重復計算，非常耗時間。

DeepSeek的做法是，把這些“固定知識”提前整理成一個可以快速查詢的表格，這樣就能把更多精力放在真正需要深度思考的任務上，比如復雜推理或者理解長段文本。

值得一提的是，論文的第一作者Xin Cheng（程信）目前在北京大學智能學院攻讀博士學位，主要研究大模型的高效參數化方法和機制。他同時也在DeepSeek工作，R1、V3的研究都參與了，很有可能是實習生。

在論文摘要中，DeepSeek提出，條件記憶（conditional memory）將成為下一代稀疏模型中不可或缺的建模原語。這或許意味著DeepSeek-V4有望整合條件記憶機制，實現知識高效檢索與推理能力的飛躍。

論文鏈接：

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

項目鏈接：

https://github.com/deepseek-ai/Engram

一、Transformer缺乏知識檢索機制，經典-gram架構提供啟發

在正式介紹新型記憶機制前，DeepSeek團隊首先提出了一項重要的觀察。

稀疏性已經成為了智能系統的核心設計原則，在大模型領域，其具體實現就是MoE（混合專家模型）。但是，現有的標準Transformer本質上沒有真正的知識檢索機制，導致現有大模型不得不在早期層中通過昂貴計算來“重建”靜態知識，浪費了寶貴的模型深度。

因此，DeepSeek認為有必須要提出第二個與條件計算互補的稀疏維度：條件記憶。條件記憶則依賴稀疏的查找操作，為固定知識檢索靜態嵌入表示，適合命名實體、固定表達等靜態且高度模式化的語言表示。

DeepSeek他們向經典的-gram結構引入了現代化的條件記憶模塊，包括分詞器壓縮、多頭哈希、上下文化門控以及多分支集成等，最終提出了Engram。

下圖是Engram的基本架構，通俗地說，Engram就是給Transformer加個外接記憶庫，并把當前token附近的一小段內容，用快速、省參數的方式，去一個超大的靜態記憶表里查到對應內容。

二、多管齊下打造新型記憶機制，天然支持參數存儲與計算資源解耦

這個記憶庫該如何具體實現呢？

首先，DeepSeek團隊對分詞器（tokenizer）進行了壓縮。普通的分詞器會把Apple、apple、APPLE這些單詞當成完全不同的東西，但是對人來說其實差別不大。

Engram先把詞表清洗了一遍，全部轉小寫，Unicode規范化（NFKC）。最后，一個原本128k的詞表，實際只剩下77%，有23%的token ID被合并了。這讓N-gram記憶的密度明顯提升了。

不過，直接對所有-gram進行建模是不可行的，參數會指數級增長。DeepSeek團隊引入了多頭哈希記憶（Multi-Head Hashing），在固定參數預算下近似大規模-gram表，降低哈希碰撞引入的語義噪聲。

上述檢索機制提供的記憶是靜態的，缺乏上下文適應性，易受歧義與沖突的影響，這一問題可通過上下文感知門控（Context-aware Gating）來解決。為進一步擴大感受野并增強非線性建模能力，模型還引入了一個深度可分離因果卷積。

DeepSeek團隊采用多分支架構作為默認主干網絡，而非標準的單流殘差連接（這是何愷明此前的研究成果）。多分支架構把殘差流擴展為M個并行分支，但共享記憶表和輸出映射。這樣設計的好處是，它可以一次性用矩陣乘法搞定多條分支的計算，GPU用得非常高效。

Engram的核心優勢在于記憶檢索完全依賴輸入token，而非運行時的隱藏狀態。這種確定性機制實現了參數存儲與計算資源的解耦，支持訓練和推理階段采取專門的優化策略：

▲Engram訓練和推理階段可采用不同優化策略

訓練優化：通過將超大嵌入表分片至多張GPU，利用All-to-All通信按需收集對應行，使總記憶容量隨GPU數量線性擴展。

推理優化：由于可提前確定待查詢記憶，系統可從主機內存異步預取，同時在前幾層計算期間隱藏通信延遲，實現預取與計算的重疊，避免GPU停頓。

硬件-算法協同設計：Engram在模型中的放置位置需平衡建模性能與系統延遲。較早引入有助于局部模式重建，較深放置則延長延遲隱藏窗口，需兼顧二者優化。

層次化存儲：基于自然語言-gram的Zipf分布特性，可采用多級緩存策略，高頻嵌入存放于GPU HBM或主機DRAM，低頻嵌入置于SSD。這使Engram能擴展至超大規模記憶，同時保持低延遲與高效率。

三、兩個模塊資源二八分成，互補性獲驗證

接下來，DeepSeek團隊研究了另一個關鍵問題——條件計算和條件記憶這兩種稀疏模式該怎么配合，才能發揮最佳效果？

實驗發現，在有限資源下，把所有空閑參數都給MoE（也就是純MoE模型）不是最優解，最好的效果是大約75%-80%給MoE，其余20%-25%給Engram。

如果完全由MoE主導，模型缺乏靜態模式的專用記憶，只能靠計算反復重建，效率低。而如果完全由Engram主導，模型失去了動態計算能力，無法應對需要上下文理解的任務。

這條U型曲線，驗證了兩個模塊的結構互補性：

前面這一實驗探索的是在固定參數參數預算下的分配優化，那么如果把記憶大幅度擴展，會發生什么？

實驗發現，在MoE主干網絡不變的情況下，附加Engram表。結果顯示，增加記憶槽位數量能持續、穩定地降低驗證損失。

在探索范圍內，曲線嚴格遵循冪律（對數空間線性）。DeepSeek認為，這意味著Engram提供了一個可預測的Scaling新手段：增大記憶持續帶來收益，而無需增加計算量。

同時，相比別的只做簡單平均的記憶方法（比如OverEncoding），Engram的Scaling潛力更大，性能提升更明顯。

這些結果驗證了條件記憶作為稀疏容量的獨立可擴展維度，與MoE的條件計算形成互補。

四、架構訓練計算量少18%，性能反超MoE

驗證了架構、技術路徑的可行性，DeepSeek團隊的下一步就是進行大規模的Scale，驗證這種方式在實際語言模型預訓練中的有效性。

具體而言，DeepSeek訓練了四個模型：Dense-4B、MoE-27B、Engram-27B、Engram-40B。訓練時的語料庫、分詞器都使用了相同的設置，而后兩個模型引入了Engram機制，用于研究在模型大小不變和Engram進一步擴展后的特性。

結果顯示，在相同算力和參數量的情況下，Engram-27B能在MoE-27B的基線上去取得持續提升，并且這些增益并不僅限于知識密集型任務。通用推理任務、代碼與數學推理任務從中得到的提升甚至更為顯著，

這些結果支持了DeepSeek的假設：引入專門的知識查找原語（knowledge lookup primitive）能夠提升表示效率，這超出了僅將整個稀疏預算用于條件計算所能達到的效果。

最后，將模型擴展到Engram-40B進一步降低了預訓練損失，并在大多數基準上提升了性能。雖然它尚未在每個任務上嚴格優于Engram-27B，但這很可能是訓練不足的結果。

DeepSeek團隊觀察到，在訓練結束時，Engram-40B與基線模型之間的訓練損失差距仍在擴大，這表明在當前的token預算下，擴展的記憶容量尚未完全發揮其潛力。

接著，DeepSeek團隊用MoE-27B與Engram-27B作為對照組，均使用了5000步（約300億token）的高質量長上下文數據進行微調，然后他們采用DeepSeek-V3中的YaRN技術，將模型的上下文窗口擴展到32768個token。

實驗結果顯示，由于Engram模塊接管了局部依賴的建模，它為模型的注意力機制騰出了容量，使其能更專注于處理全局上下文。因此，Engram架構在處理超長文本和長程推理任務上比傳統架構表現更好，具體表現如下：

在架構方面，在排除了基礎模型能力差異的情況下，Engram-27B依然顯著優于MoE-27B。

在復雜的檢索任務RULER基準測試中，Engram表現出了更強的長程依賴處理能力。例如在多查詢Multi-Query NIAH任務中，Engram準確率大幅領先。

▲長上下文性能比較基準測試

計算效率方面，即使只用了82%的預訓練計算量，Engram-27B的表現依然能與完全訓練的MoE-27B基線模型持平，甚至在RULER基準上實現超越。

這證明了Engram架構具有極高的訓練效率，能用更少的計算資源達到同等或更好的長上下文性能。

五、Engram淺層效果更好，對事實性知識影響較大

而后，DeepSeek團隊對Engram模型進行了深入的機制分析和消融實驗。核心目的是回答“Engram到底是如何工作的？它的各個組件有什么用？”這兩個問題。

首先是模型深度與表征分析，DeepSeek團隊通過LogitLens分析顯示，Engram模型在早期層就能更快地收斂到最終預測結果，因為它通過查表直接獲取了靜態知識，不需要像傳統模型那樣通過多層計算來重組基礎特征。

▲表征對齊和收斂速度分析

中心核對齊分析發現，Engram的淺層在表征上與純MoE模型的深層高度相似。這意味著Engram讓模型在更少的層數內完成了同等復雜的特征提取，在功能上等同于增加了模型的有效深度。

在架構消融實驗中，研究人員發現將Engram模塊放在較淺的層，如第2層，效果最好。這樣可以盡早卸載模型背負的局部模式重建任務，讓后面的深層網絡專注于復雜的全局推理。

▲結構消融實驗結果

研究人員還發現，分支特定融合、上下文感知門控和分詞器壓縮對性能影響最大，去掉任何一個都會導致驗證損失顯著上升，而次要組件輕量級卷積層的影響則較小。

如果把Engram“關掉”，模型在哪些任務上會崩潰？為回答這個問題，DeepSeek團隊進行了功能敏感性分析。他們測試在推理時強制屏蔽Engram模塊的輸出，觀察性能下降情況。

結果顯示，在事實性知識方面，模型性能災難性下降，僅保留約29-44%的性能。這證明Engram是模型存儲參數化知識的主要倉庫。

?但在閱讀理解方面，模型性能幾乎不受影響，保留約81-93%。這證明涉及上下文推理的任務主要由Transformer的骨干網絡處理，而非記憶模塊。

▲功能敏感性分析結果

在系統效率與推理吞吐上，由于Engram的訪問模式是預先可知的，不像MoE需要根據隱藏狀態動態路由，系統可以提前從內存中預取數據。

即使將一個1000億參數的Engram表卸載到主機內存，其在H800硬件上的推理吞吐量下降也不到3%，這證明了Engram能以極低的代價實現參數量的大幅擴展。

此外，Engram的門控機制會在遇到靜態模式時被激活，即變紅。具體表現為當模型遇到多詞實體、固定短語或中文成語以及歷史名詞時，Engram會被激活進行檢索；而在處理需要動態推理的文本時，其門控則保持關閉。

▲門控機制激活

六、Engram內化記憶，與Attention機制互補

最后，DeepSeek團隊將Engram與MoE、外部記憶與檢索增強、長上下文建模以及表征學習與知識蒸餾進行了對比。

傳統MoE是Engram的“前輩”，它通過稀疏激活來擴展模型容量。Engram解決了傳統MoE在超大規模下路由成本高、訓練不穩定的問題，提供了一種更高效的擴展路徑。

對比外部記憶與檢索增強（RAG）這類工作通常是在模型外部掛一個數據庫，在推理時實時檢索。而Engram是內化的記憶，它在預訓練階段就把海量知識消化并固化到了參數化的記憶表中，這使得它比傳統RAG具有更低的延遲和更強的知識一致性。

長上下文建模這一領域的研究則主要關注如何讓模型的注意力機制處理更長的序列。DeepSeek團隊強調，Engram并不是要取代注意力機制，而是與之互補。Engram負責處理局部的、靜態的上下文依賴，從而讓注意力機制能更專注于處理全局的、動態的長程依賴。

對于表征學習與知識蒸餾來說，Engram提供了一種新的視角——將模型的知識解耦為通用推理能力和特定知識庫。

這種解耦結構天然適合進行知識蒸餾，因為未來的研究團隊可以選擇只蒸餾輕量級的骨干網，而將龐大的知識庫作為可插拔的附件。

結語：Engram將實現低成本超大規模擴展，逼近AGI

Engram架構的核心思想就是通過解耦來實現效率與性能的平衡。

它成功地將“局部模式重建”從復雜的Transformer骨干網中剝離出來，交由專門的記憶模塊處理。這種設計使得模型在保持強大推理能力的同時，能夠以極低的成本擴展到超大規模。

DeepSeek團隊認為，Engram不僅僅是一個學術上的新模型，它具有很強的工程落地價值。

由于記憶模塊的訪問具有確定性，Engram可以進行高效的預取和硬件優化，非常適合大規模部署。

而且，既然知識集中在Engram表中，未來或許可以通過直接修改這個表來修正模型的知識錯誤，而無需進行昂貴的微調。

但目前的Engram是在預訓練時“固化”的。未來的一個重要方向是讓這個記憶模塊具備在線學習或動態更新的能力，讓模型能實時獲取新知識。

例如，未來的研究可以將Engram擴展到多模態領域，建立一個通用的多模態記憶庫。研究人員還可以繼續探索是否能將模型解耦為更多專用模塊，以進一步逼近AGI（通用人工智能）的效率。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

智東西

聚焦智能變革，服務產業升級。

11101文章數 116943關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

本地

手機

數碼

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最正宗的紋飾是什么？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

DeepSeek-V4核心公開？梁文鋒署名新論文發布，實習生挑大梁

給機器人做仿真訓練 這家創企年營收破億

中國球迷被指可免費入場看U23國足決賽 中使館回應

中國球迷被指可免費入場看U23國足決賽 中使館回應

只會防守反擊？不好意思，我們要踢決賽了

首位捐款的明星 苗圃現身嫣然醫院捐款

丹麥打響第一槍 歐洲用資本保衛格陵蘭島

2026款上汽大眾朗逸正式上市 售價12.09萬起

態度原創

不必跟風“殺豬宴”，鄉村旅游沒有“標準答案”｜新京報專欄

云游遼寧｜漫步千年小城晨昏，“康”復好心情

iPhone越貴越好賣！iPhone18沒有單打孔

微星首款610Hz顯示器“MPG 242R X60N”降至3999元

給機器人做仿真訓練這家創企年營收破億

中國球迷被指可免費入場看U23國足決賽中使館回應

中國球迷被指可免費入場看U23國足決賽中使館回應

首位捐款的明星苗圃現身嫣然醫院捐款

丹麥打響第一槍歐洲用資本保衛格陵蘭島

2026款上汽大眾朗逸正式上市售價12.09萬起