![]()
![]()
Engram機制的核心思路是給大模型加一個“外接記憶庫”。傳統MoE模型處理信息時,會對常見名字、公式等靜態知識反復計算,既耗時又耗算力。
![]()
淺層部署的記憶模塊能接管局部依賴與靜態知識存儲,為注意力機制騰出容量專注全局推理。
即便將1000億參數的記憶表卸載,H800推理吞吐量降幅也不足3%。DeepSeek還發現,增加記憶槽位數量能持續降低驗證損失,這為大模型提供了無需增加計算量就能提升性能的可預測擴展路徑。
![]()
![]()
剛加入DeepSeek時,程信參與的是R1模型的參數優化工作。由于在高效參數化方法上有獨到見解,他被納入核心研發團隊。在Engram機制的研發初期,團隊曾因記憶模塊與主干網絡的適配問題陷入瓶頸。
這種校企協同的模式讓更多青年科研人員脫穎而出。目前DeepSeek的核心研發團隊中,有三成成員來自高校實習轉正的年輕人才。他們在學術研究與工程落地的結合中快速成長,成為國產大模型創新的重要力量。
![]()
Engram機制不僅有學術價值,更具備極強的工程落地潛力。其記憶檢索完全依賴輸入token,實現了參數存儲與計算資源的解耦,訓練時可將超大嵌入表分片至多張GPU,推理時能提前預取數據避免GPU停頓。
基于自然語言的Zipf分布特性,Engram還能采用多級緩存策略,高頻嵌入存于GPU或主機內存,低頻嵌入置于SSD,輕松擴展至超大規模記憶,
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.