網易首頁 > 網易號 > 正文申請入駐

從DSA到Engram，一年來DeepSeek層層勾勒V4架構創新

2026-01-14 23:34:44　來源: 未盡研究

上海舉報

分享至

隨著開年DeepSeek加快了技術分享的節奏，市場再次期待DeepSeek-V4的橫空出世。不少人推測，它可能會在春節前后亮相。但與推出的時間相比，更大的懸念是，它將以何種程度的創新，將中國與美國在前沿模型的差距縮短到什么程度？它是否會基于中國的算力基礎設施來實現這一跨越。

全球對前沿模型的探索，仍在尋找下一條行之有效的擴展路徑。DeepSeek也是如此。長期以來，它對此的探索主線，一直都是如何在有限的資源下通過架構創新，最大程度上地提升訓練與推理的效率。這既是一個數學問題，也是一個工程問題。

過往論文正在揭示它的大致模樣。從V3到V3.1再到V3.2，DeepSeek先后嘗試了UE8M0 FP8、DSA、上下文光學壓縮、mHC與Engram。它們的核心思路之一就是“稀疏化”，讓“專家”、“精度”、“注意力”與“記憶”變得更為稀疏。法國AI研究實驗室Pleias聯合創始人Alexander Doria認為，DeepSeek-V4將是死磕“層效率”的典范，讓每一層神經網絡在架構中發揮最大的效率。

DeepSeek最新的嘗試是Engram。它所要解決的正是“記憶”負擔的稀疏化，以推動模型規模繼續擴展。標準的Transformer架構缺乏原生的“記憶能力”，它根據概率預測下一個token，根據全局上下文進行復雜推理，消耗了多個早期注意力層和前饋網絡，浪費寶貴的資源去計算那些原本只需要簡單檢索的東西。

如果說MoE是“條件計算”，通過路由器選擇稀疏性的激活少數幾個專家，在不顯著增加計算成本的前提下，大幅增加模型規模；那么，Engram就是“條件記憶”，通過稀疏查表操作，為固定知識檢索靜態嵌入。DeepSeek的論文將MoE與Engram稱為“互補性稀疏維度”。

在Engram的幫助下，那些頻繁訪問的內容，可以緩存在HBM等更快的存儲層級中，而長尾的低頻內容則可以存放在SSD等速度較慢但容量更大的介質中。不過，與以往的RAG不同，Engram仍然是模型內部的參數化記憶，它必須參與預訓練，并直接集成到模型層中。當將1000億參數的Engram表，完全卸載到DRAM等內存中，端到端吞吐量下降不到3%。

于是，“內存”與“計算”解耦了。而且這卓有成效。DeepSeek團隊發現，當大約20%至25%的參數預算分配給Engram時，模型性能最佳。在相同的激活參數與訓練token數量等條件下，Engram-27B的整體性能就要明顯優于純粹的稀疏模型MoE-27B。

而且，研發團隊還發現，由于將大量計算資源“讓”給了復雜推理，它不僅在知識密集型任務上表現出色，而且在通用推理能力以及代碼與數學推理任務上同樣表現出色。同時，它釋放了注意力機制的容量，也提升了長上下文檢索能力。或許，法律、金融與醫療等“記憶密集”的垂直領域，將迎來更少幻覺與更強推理的模型應用。

這對于國產算力基礎設施而言，也是一個好消息。Engram有效繞過了GPU的HBM限制，為激進的參數擴展鋪平了道路。論文最后寫道，“條件記憶將成為下一代稀疏大模型中不可或缺的基礎建模范式”。

這已經不是DeepSeek第一次在論文中勾勒下一代模型的設計藍圖。幾乎其所有研究工作，都圍繞著架構層面的創新展開。許多問題也許早已被其他AI實驗室提出，甚至被反復嘗試卻無疾而終，而DeepSeek選擇將這些被擱置的方向重新拾起，在工程與數學層面加以重構與優化，借此持續縮小與美國前沿模型之間的差距。這些探索共同指向的是穩定而有效擴展的模型架構的實現路徑。

最近的一次是跨年期間發布的流形約束超連接（mHC）。盡管超級連接(Hyper-Connections）可以為大模型訓練帶來非常快的收斂速度，某些設置下提升接近80%。但它缺乏擴展的穩定性，模型越大、層數越多，問題越嚴重。mHC可以確保每一層的計算仍然能穩定地轉化為有效表示。DeepSeek在論文中寫道，它“為大模型基礎架構的演進指明有前景的方向”。

再一次則是去年10月，DeepSeek提出了DeepSeek-OCR模型，概念核心是“上下文光學壓縮”（Context Optical Compression），顯著提高了信息密度與計算效率，當時團隊就思考過通過逐級壓縮信息，直至邊際遺忘，或內化為更深層的表征。在論文的最后，DeepSeek團隊致辭說，這一思路“為構建一種理論上無限上下文長度的模型架構(unlimited context architectures)提供了新的可能”。

早更一點，DeepSeek-V3.2-Exp最核心的實驗則是引入了名為DSA的新架構，這是探索細粒度稀疏機制，成本更低的同時幾乎不影響模型的輸出效果。DeepSeek官方將DSA稱為邁向下一代架構的“中間步驟”。這似乎在暗示下一次更新可能直接出現在V4上。

要真正追平乃至超越Gemini-3，DeepSeek仍然需要提升模型的多模態能力。代碼與數學，多模態與自然語言本身，三者正是DeepSeek創始人梁文鋒押注的三個方向。在上一個跨年之交發布統一多模態理解與生成的自回歸框架Janus后，DeepSeek在這領域鮮少動作，它會成為下一代核心模型的一部分嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.