據稱 V4 在代碼任務上的表現已超越 Anthropic 的 Claude 系列以及 OpenAI 的 GPT 系列。
雖然官方仍保持神秘,但 DeepSeek 近期密集發布的論文或許已經初現端倪。
就在昨晚,DeepSeek 聯合北京大學 發布了一篇名為《Conditional Memory via Scalable Lookup》的新論文,梁文鋒也再次署名。
![]()
Engram 或許是 V4 強大能力的「技術底牌」之一。
那它能否驗證傳聞:V4 在處理超長代碼項目和復雜邏輯推理上取得了重大突破,且解決了模型越練越「糊涂」的性能衰退難題?
論文傳送門:
https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
你的大模型,其實一直在「笨拙」地計算
當你問 ChatGPT「莎士比亞的全名是什么」時,它并不是從某個知識庫里直接調取答案。相反,它需要動用多層神經網絡,通過復雜的矩陣運算,逐層「拼湊」出這個答案。
論文用了一個更具體的例子:當模型遇到「Diana, Princess of Wales」時,需要消耗前 6 層網絡才能完成識別。第 1 到 2 層只能理解這是「Wales」,第 3 層才意識到這是「Princess of Wales」,直到第 6 層才最終確認這是「戴安娜王妃」。
![]()
DeepSeek 的研究員在 Engram 論文中指出:這種靠「深度計算」來模擬「記憶檢索」的過程,極大地浪費了模型寶貴的腦力(推理能力)。
如果 V4 真如爆料所說「代碼能力吊打全場」,那么它一定解決了這個問題——因為代碼中包含大量固定的語法和套路,沒必要每次都去「推理」一遍。
給 AI 掛上「超級字典」
為了解決這個問題,DeepSeek 在論文中進行了一波「技術復古」。
既然有些知識是固定不變的,為什么不直接把它們存儲起來,需要時直接查詢,而不是每次都重新計算?
他們把 NLP 領域最古老的N-gram(N元語法)請了回來,并改造成了現代化的Engram 模塊。
![]()
它通過哈希函數將局部上下文映射到一個巨大的嵌入表中。當模型遇到「Alexander the Great」這樣的固定短語時,不再需要多層網絡逐步理解,而是直接從記憶庫中提取對應的語義向量。
![]()
為了處理「不同詞匯映射到同一位置」和「同一詞匯在不同語境下意義不同」帶來的干擾,團隊引入了上下文感知的門控機制(Context-aware Gating)。用當前的隱藏狀態作為查詢向量,對檢索結果進行動態調制。如果檢索到的內容與當前上下文不匹配,門控值會接近零,有效抑制噪聲。
在處理「Only Alexander the Great could tame the horse Bucephalus」這句話時,Engram 的門控激活熱力圖顯示,模型在遇到「the Great」和「Bucephalus」時出現明顯的激活峰值,說明它成功識別并檢索了這些固定實體的語義表示。
![]()
這或許解釋了為什么 V4 的代碼能力會大幅提升: Engram 就像是給程序員配了一個超級 IDE,自動補全了所有的固定語法,讓模型的大腦只需要專注于「如何解題」,而不是「怎么寫分號」。
把 CPU 內存條變成「顯存」
除了讓模型變聰明,Engram 這篇論文里最讓開發者和中小企業興奮的是:GPU顯存不再是模型規模瓶頸 。DeepSeek 正在嘗試用便宜量大的CPU內存(DRAM),去替代昂貴稀缺的GPU顯存(HBM)。
傳統的 MoE 模型是動態路由的,模型必須算完這一層,算出結果數值,才能決定下一層該去哪個專家那里計算。這叫「走一步看一步」,數據根本來不及提前準備。
而 Engram 的檢索邏輯則完全由輸入 token 序列決定。一旦看到輸入文本,就能立即計算出需要訪問哪些嵌入向量,無需等待中間層的計算結果。
這種「計算與傳輸重疊(Overlap)」的技術,完美掩蓋了 CPU 內存讀取慢的缺陷。
實驗證明了這一策略的可行性。他們構建了一個 1000億參數(100B) 的巨型 Engram 詞表,并且把這部分參數完全扔到了 CPU 內存里(注意,一點都不占用寶貴的顯存)。
在實際推理測試中,相比于純 GPU 運行,整體吞吐量的損耗竟然小于 3%,這在工業部署中幾乎可以忽略不計。
以前你想跑千億參數模型,可能需要幾張 A100 (80G)。現在,你可能只需要一張消費級顯卡負責計算,再插上幾根便宜的 64GB 內存條負責存知識,就能跑起來。
這下不用擔心英偉達、AMD 在 2026 年上調 GPU 價格了。
還想讓模型學會最新的法律條文或醫療數據?不需要重新訓練龐大的神經網絡,只需要在 CPU 內存里「外掛」一個新的 Engram 表。對于垂直行業應用,這意味著維護成本的指數級下降。
因為語言符合二八定律,常用的詞很少,未來的 DeepSeek 模型可能會這樣運行:熱知識放在 GPU 顯存光速響應,溫知識放在 CPU 內存毫秒級預取,冷知識甚至可以放在固態硬盤里。這意味著,原本只能存幾百億參數的硬件,理論上可以外掛幾萬億參數的超大知識庫,而且成本極低。
過去我們認為模型規模受限于 GPU 集群的顯存總量,Engram 證明了只要設計得當,廉價的主機內存也能成為模型容量的有效載體。這為未來的超大規模模型部署打開了新的可能性。
實驗數據驗證 V4 傳聞
回到 V4 的爆料,The Information 提到新模型在「長代碼處理」和「邏輯條理性」有質的飛躍。有趣的是,Engram 論文里的實驗數據印證了這個說法。
在知識密集型任務上,Engram-27B 相比 MoE-27B 在 MMLU 上提升 3.4 分,CMMLU 提升 4.0 分。這符合預期,畢竟 Engram 本就是為知識檢索設計的。
但真正出人意料的是推理能力的飛躍。在 BigBench Hard 上提升了 5.0 分,ARC-Challenge 提升 3.7 分,DROP 提升 3.3 分。代碼和數學領域同樣顯著,HumanEval 提升 3.0 分,MATH 提升 2.4 分,GSM8K 提升 2.2 分。
![]()
長文本能力的提升同樣驚人。在 32k 上下文窗口的 RULER 基準測試中,Engram-27B 在多查詢 Needle-in-a-Haystack 任務上的準確率從 84.2% 躍升至 97.0%,變量追蹤任務從 77.0% 提升到 89.0%。這是因為通過查詢處理局部依賴,注意力機制被解放出來專注于全局上下文建模。
![]()
通過對模型內部的「CT 掃描」,研究人員發現:因為 Engram 在淺層就搞定了死記硬背的工作,模型原本被占用的深層網絡被「解放」了。這就像把背書的時間省下來,全拿去刷奧數題,智商能不漲嗎?這與爆料中提到的「V4 回答更有條理、推理更強」不謀而合。
DeepSeek 的野心不止于「大」
從 R1 的 86 頁技術報告,到 mHC 架構,再到今天的 Engram 記憶模塊,DeepSeek 的節奏明顯加快。
如果說 OpenAI 在探索 Scale Law(規模定律)的極限,那么 DeepSeek 似乎正在瘋狂挖掘Architecture Efficiency(架構效率)的金礦。他們希望用更巧妙的結構讓模型「吃得少、干得多」。
春節將至,DeepSeek V4 是否會帶著這些「硬核技術」再次血洗榜單?
讓我們拭目以待。至少從這篇論文來看,他們的「軍火庫」里,確實還有不少好東西。
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.