隨著開年DeepSeek加快了技術分享的節奏,市場再次期待DeepSeek-V4的橫空出世。不少人推測,它可能會在春節前后亮相。但與推出的時間相比,更大的懸念是,它將以何種程度的創新,將中國與美國在前沿模型的差距縮短到什么程度?它是否會基于中國的算力基礎設施來實現這一跨越。
全球對前沿模型的探索,仍在尋找下一條行之有效的擴展路徑。DeepSeek也是如此。長期以來,它對此的探索主線,一直都是如何在有限的資源下通過架構創新,最大程度上地提升訓練與推理的效率。這既是一個數學問題,也是一個工程問題。
過往論文正在揭示它的大致模樣。從V3到V3.1再到V3.2,DeepSeek先后嘗試了UE8M0 FP8、DSA、上下文光學壓縮、mHC與Engram。它們的核心思路之一就是“稀疏化”,讓“專家”、“精度”、“注意力”與“記憶”變得更為稀疏。法國AI研究實驗室Pleias聯合創始人Alexander Doria認為,DeepSeek-V4將是死磕“層效率”的典范,讓每一層神經網絡在架構中發揮最大的效率。
DeepSeek最新的嘗試是Engram。它所要解決的正是“記憶”負擔的稀疏化,以推動模型規模繼續擴展。標準的Transformer架構缺乏原生的“記憶能力”,它根據概率預測下一個token,根據全局上下文進行復雜推理,消耗了多個早期注意力層和前饋網絡,浪費寶貴的資源去計算那些原本只需要簡單檢索的東西。
![]()
如果說MoE是“條件計算”,通過路由器選擇稀疏性的激活少數幾個專家,在不顯著增加計算成本的前提下,大幅增加模型規模;那么,Engram就是“條件記憶”,通過稀疏查表操作,為固定知識檢索靜態嵌入。DeepSeek的論文將MoE與Engram稱為“互補性稀疏維度”。
在Engram的幫助下,那些頻繁訪問的內容,可以緩存在HBM等更快的存儲層級中,而長尾的低頻內容則可以存放在SSD等速度較慢但容量更大的介質中。不過,與以往的RAG不同,Engram仍然是模型內部的參數化記憶,它必須參與預訓練,并直接集成到模型層中。當將1000億參數的Engram表,完全卸載到DRAM等內存中,端到端吞吐量下降不到3%。
于是,“內存”與“計算”解耦了。而且這卓有成效。DeepSeek團隊發現,當大約20%至25%的參數預算分配給Engram時,模型性能最佳。在相同的激活參數與訓練token數量等條件下,Engram-27B的整體性能就要明顯優于純粹的稀疏模型MoE-27B。
而且,研發團隊還發現,由于將大量計算資源“讓”給了復雜推理,它不僅在知識密集型任務上表現出色,而且在通用推理能力以及代碼與數學推理任務上同樣表現出色。同時,它釋放了注意力機制的容量,也提升了長上下文檢索能力。或許,法律、金融與醫療等“記憶密集”的垂直領域,將迎來更少幻覺與更強推理的模型應用。
![]()
這對于國產算力基礎設施而言,也是一個好消息。Engram有效繞過了GPU的HBM限制,為激進的參數擴展鋪平了道路。論文最后寫道,“條件記憶將成為下一代稀疏大模型中不可或缺的基礎建模范式”。
這已經不是DeepSeek第一次在論文中勾勒下一代模型的設計藍圖。幾乎其所有研究工作,都圍繞著架構層面的創新展開。許多問題也許早已被其他AI實驗室提出,甚至被反復嘗試卻無疾而終,而DeepSeek選擇將這些被擱置的方向重新拾起,在工程與數學層面加以重構與優化,借此持續縮小與美國前沿模型之間的差距。這些探索共同指向的是穩定而有效擴展的模型架構的實現路徑。
最近的一次是跨年期間發布的流形約束超連接(mHC)。盡管超級連接(Hyper-Connections)可以為大模型訓練帶來非常快的收斂速度,某些設置下提升接近80%。但它缺乏擴展的穩定性,模型越大、層數越多,問題越嚴重。mHC可以確保每一層的計算仍然能穩定地轉化為有效表示。DeepSeek在論文中寫道,它“為大模型基礎架構的演進指明有前景的方向”。
再一次則是去年10月,DeepSeek提出了DeepSeek-OCR模型,概念核心是“上下文光學壓縮”(Context Optical Compression),顯著提高了信息密度與計算效率,當時團隊就思考過通過逐級壓縮信息,直至邊際遺忘,或內化為更深層的表征。在論文的最后,DeepSeek團隊致辭說,這一思路“為構建一種理論上無限上下文長度的模型架構(unlimited context architectures)提供了新的可能”。
早更一點,DeepSeek-V3.2-Exp最核心的實驗則是引入了名為DSA的新架構,這是探索細粒度稀疏機制,成本更低的同時幾乎不影響模型的輸出效果。DeepSeek官方將DSA稱為邁向下一代架構的“中間步驟”。這似乎在暗示下一次更新可能直接出現在V4上。
要真正追平乃至超越Gemini-3,DeepSeek仍然需要提升模型的多模態能力。代碼與數學,多模態與自然語言本身,三者正是DeepSeek創始人梁文鋒押注的三個方向。在上一個跨年之交發布統一多模態理解與生成的自回歸框架Janus后,DeepSeek在這領域鮮少動作,它會成為下一代核心模型的一部分嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.