網易首頁 > 網易號 > 正文申請入駐

DeepSeek 新論文或「泄密」V4 殺手锏：一招突破瓶頸，居然把 CPU 當 GPU 用？

2026-01-13 16:56:17　來源: AppSo

廣東舉報

分享至

據稱 V4 在代碼任務上的表現已超越 Anthropic 的 Claude 系列以及 OpenAI 的 GPT 系列。

雖然官方仍保持神秘，但 DeepSeek 近期密集發布的論文或許已經初現端倪。

就在昨晚，DeepSeek 聯合北京大學發布了一篇名為《Conditional Memory via Scalable Lookup》的新論文，梁文鋒也再次署名。

Engram 或許是 V4 強大能力的「技術底牌」之一。

那它能否驗證傳聞：V4 在處理超長代碼項目和復雜邏輯推理上取得了重大突破，且解決了模型越練越「糊涂」的性能衰退難題？

論文傳送門：

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

你的大模型，其實一直在「笨拙」地計算

當你問 ChatGPT「莎士比亞的全名是什么」時，它并不是從某個知識庫里直接調取答案。相反，它需要動用多層神經網絡，通過復雜的矩陣運算，逐層「拼湊」出這個答案。

論文用了一個更具體的例子：當模型遇到「Diana, Princess of Wales」時，需要消耗前 6 層網絡才能完成識別。第 1 到 2 層只能理解這是「Wales」，第 3 層才意識到這是「Princess of Wales」，直到第 6 層才最終確認這是「戴安娜王妃」。

DeepSeek 的研究員在 Engram 論文中指出：這種靠「深度計算」來模擬「記憶檢索」的過程，極大地浪費了模型寶貴的腦力（推理能力）。

如果 V4 真如爆料所說「代碼能力吊打全場」，那么它一定解決了這個問題——因為代碼中包含大量固定的語法和套路，沒必要每次都去「推理」一遍。

給 AI 掛上「超級字典」

為了解決這個問題，DeepSeek 在論文中進行了一波「技術復古」。

既然有些知識是固定不變的，為什么不直接把它們存儲起來，需要時直接查詢，而不是每次都重新計算？

他們把 NLP 領域最古老的N-gram（N元語法）請了回來，并改造成了現代化的Engram 模塊。

它通過哈希函數將局部上下文映射到一個巨大的嵌入表中。當模型遇到「Alexander the Great」這樣的固定短語時，不再需要多層網絡逐步理解，而是直接從記憶庫中提取對應的語義向量。

為了處理「不同詞匯映射到同一位置」和「同一詞匯在不同語境下意義不同」帶來的干擾，團隊引入了上下文感知的門控機制（Context-aware Gating）。用當前的隱藏狀態作為查詢向量，對檢索結果進行動態調制。如果檢索到的內容與當前上下文不匹配，門控值會接近零，有效抑制噪聲。

在處理「Only Alexander the Great could tame the horse Bucephalus」這句話時，Engram 的門控激活熱力圖顯示，模型在遇到「the Great」和「Bucephalus」時出現明顯的激活峰值,說明它成功識別并檢索了這些固定實體的語義表示。

這或許解釋了為什么 V4 的代碼能力會大幅提升： Engram 就像是給程序員配了一個超級 IDE，自動補全了所有的固定語法，讓模型的大腦只需要專注于「如何解題」，而不是「怎么寫分號」。

把 CPU 內存條變成「顯存」

除了讓模型變聰明，Engram 這篇論文里最讓開發者和中小企業興奮的是：GPU顯存不再是模型規模瓶頸。DeepSeek 正在嘗試用便宜量大的CPU內存（DRAM），去替代昂貴稀缺的GPU顯存（HBM）。

傳統的 MoE 模型是動態路由的，模型必須算完這一層，算出結果數值，才能決定下一層該去哪個專家那里計算。這叫「走一步看一步」，數據根本來不及提前準備。

而 Engram 的檢索邏輯則完全由輸入 token 序列決定。一旦看到輸入文本，就能立即計算出需要訪問哪些嵌入向量，無需等待中間層的計算結果。

這種「計算與傳輸重疊（Overlap）」的技術，完美掩蓋了 CPU 內存讀取慢的缺陷。

實驗證明了這一策略的可行性。他們構建了一個 1000億參數（100B）的巨型 Engram 詞表，并且把這部分參數完全扔到了 CPU 內存里（注意，一點都不占用寶貴的顯存）。

在實際推理測試中，相比于純 GPU 運行，整體吞吐量的損耗竟然小于 3%，這在工業部署中幾乎可以忽略不計。

以前你想跑千億參數模型，可能需要幾張 A100 (80G)。現在，你可能只需要一張消費級顯卡負責計算，再插上幾根便宜的 64GB 內存條負責存知識，就能跑起來。

這下不用擔心英偉達、AMD 在 2026 年上調 GPU 價格了。

還想讓模型學會最新的法律條文或醫療數據？不需要重新訓練龐大的神經網絡，只需要在 CPU 內存里「外掛」一個新的 Engram 表。對于垂直行業應用，這意味著維護成本的指數級下降。

因為語言符合二八定律，常用的詞很少，未來的 DeepSeek 模型可能會這樣運行：熱知識放在 GPU 顯存光速響應，溫知識放在 CPU 內存毫秒級預取，冷知識甚至可以放在固態硬盤里。這意味著，原本只能存幾百億參數的硬件，理論上可以外掛幾萬億參數的超大知識庫，而且成本極低。

過去我們認為模型規模受限于 GPU 集群的顯存總量，Engram 證明了只要設計得當，廉價的主機內存也能成為模型容量的有效載體。這為未來的超大規模模型部署打開了新的可能性。

實驗數據驗證 V4 傳聞

回到 V4 的爆料，The Information 提到新模型在「長代碼處理」和「邏輯條理性」有質的飛躍。有趣的是，Engram 論文里的實驗數據印證了這個說法。

在知識密集型任務上，Engram-27B 相比 MoE-27B 在 MMLU 上提升 3.4 分，CMMLU 提升 4.0 分。這符合預期，畢竟 Engram 本就是為知識檢索設計的。

但真正出人意料的是推理能力的飛躍。在 BigBench Hard 上提升了 5.0 分，ARC-Challenge 提升 3.7 分，DROP 提升 3.3 分。代碼和數學領域同樣顯著，HumanEval 提升 3.0 分，MATH 提升 2.4 分，GSM8K 提升 2.2 分。

長文本能力的提升同樣驚人。在 32k 上下文窗口的 RULER 基準測試中，Engram-27B 在多查詢 Needle-in-a-Haystack 任務上的準確率從 84.2% 躍升至 97.0%，變量追蹤任務從 77.0% 提升到 89.0%。這是因為通過查詢處理局部依賴，注意力機制被解放出來專注于全局上下文建模。

通過對模型內部的「CT 掃描」，研究人員發現：因為 Engram 在淺層就搞定了死記硬背的工作，模型原本被占用的深層網絡被「解放」了。這就像把背書的時間省下來，全拿去刷奧數題，智商能不漲嗎？這與爆料中提到的「V4 回答更有條理、推理更強」不謀而合。

DeepSeek 的野心不止于「大」

從 R1 的 86 頁技術報告，到 mHC 架構，再到今天的 Engram 記憶模塊，DeepSeek 的節奏明顯加快。

如果說 OpenAI 在探索 Scale Law（規模定律）的極限，那么 DeepSeek 似乎正在瘋狂挖掘Architecture Efficiency（架構效率）的金礦。他們希望用更巧妙的結構讓模型「吃得少、干得多」。

春節將至，DeepSeek V4 是否會帶著這些「硬核技術」再次血洗榜單？

讓我們拭目以待。至少從這篇論文來看，他們的「軍火庫」里，確實還有不少好東西。

歡迎加入 APPSO AI 社群，一起暢聊 AI 產品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.