![]()
當前主流大模型都走在MoE混合專家模型的路徑上,不管是GPT-4還是DeepSeek V3,核心思路都是通過稀疏激活讓模型“少算一點”,控制計算成本。
![]()
DeepSeek這次跳出了固有思路,指出Transformer架構天生缺少“知識查找”能力。很多像查字典一樣簡單的事,比如識別“戴安娜,威爾士王妃”這樣的命名實體,模型卻要動用多層注意力機制“硬算”,效率極低。Engram的設計邏輯很直接,就是把這些局部、固定、重復出現的模式,交給專門的查表模塊處理。
MoE負責動態推理和計算,Engram負責靜態知識和模式檢索。這一發現為稀疏化模型打開了“第二條賽道”,實現從計算稀疏到記憶稀疏的范式躍遷。
![]()
實驗數據極具說服力,在參數量和計算量相等的前提下,Engram-27B全面超越傳統MoE-27B基線。不僅知識密集型任務提升明顯,MMLU提升3分,CMMLU提升4分,推理、代碼、數學等領域也漲幅顯著,BBH提升5分,HumanEval提升3分,GSM8K提升2.2分。
![]()
這個門控機制會根據任務靈活切換,處理“Alexander the Great”“四大發明”這類固定實體時強烈激活,需要推理時則保持低激活,把主動權交還給Transformer主干。更關鍵的是,Engram的確定性檢索特性適合系統優化,檢索索引僅依賴輸入token序列,可提前預取、CPU卸載,把巨大的嵌入表存在便宜的內存里,為“更大參數、同等吞吐”提供了工程可行性。
![]()
![]()
全網都在猜測,春節檔推出的DeepSeek V4是否會集成Engram。回顧DeepSeek的技術路線,每一代都有標志性創新,V2引入MLA提升推理效率,V3優化MoE實現無損負載均衡。
![]()
DeepSeek的Engram模塊不僅解決了大模型的記憶痛點,更開辟了稀疏化的新路徑。這場記憶革命將推動大模型架構迭代升級,國產大模型在核心技術領域的突破,也讓行業未來發展更具想象力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.