網易首頁 > 網易號 > 正文申請入駐

剛剛，DeepSeek悄悄測試新模型：百萬token上下文、V4要來了？

2026-02-11 20:23:49　來源: DeepTech深科技

河南舉報

分享至

春節假期還沒到，DeepSeek 就先把禮物拆了一半。

2 月 11 日，多位用戶發現 DeepSeek 的 App 端和網頁端已經悄然開始灰度測試一項重大升級：上下文窗口長度從此前 V3.1 版本的 128K token 直接拉到了 1M（百萬）token。DeepTech 驗證后確認，無論 App 還是網頁端，模型自述的上下文長度均為“1M”。

與此同時，知識截止日期也從此前的版本更新到了 2025 年 5 月，在不聯網的情況下已經能夠準確回答 2025 年 4 月的新聞事件。不過，這個新版本目前仍然是一個純文本模型，不支持視覺輸入，也不具備多模態識別能力。

（來源：DeepTech）

以往 DeepSeek V3 系列僅 128K 的上下文容量是一個相當大的短板，本次提升至 1M 級別可謂進步巨大，此前，Google 的 Gemini 系列最先將上下文推至百萬級別。DeepSeek 此次直接對標 Gemini 的上下文長度，算是在這個維度上躋身第一梯隊。

值得注意的是，就在不到一個月前，DeepSeek 的 GitHub 倉庫 FlashMLA（其自研的多頭潛在注意力解碼核心庫）更新中，社區開發者發現了一個代號為“Model 1”的神秘模型標識，它在 114 個文件中出現了 28 次，作為獨立于當前 V3.2 架構的并行分支存在。

（來源：Github）

代碼層面的線索顯示，Model1 在 KV 緩存（Key-Value Cache）布局、稀疏性處理和 FP8 數據格式解碼等方面與 V3.2 存在明顯差異，指向了一次架構層面的重大重構，而非簡單的版本迭代。這一發現恰好出現在 DeepSeek-R1 發布一周年之際，更與此前媒體援引知情人士的報道，即 DeepSeek 計劃于 2 月中旬春節前后發布下一代旗艦模型 V4 這一消息相呼應。

那么，今天灰度測試的這個版本，是否就是傳說中 V4 的前奏？從技術邏輯上看，有一些拼圖已經擺上了桌面。過去一個多月里，DeepSeek 以罕見的密度連續發布了兩篇重要論文，創始人梁文鋒均署名參與。元旦當天發表的 mHC（Manifold-Constrained Hyper-Connections，流形約束超連接）解決了大規模模型訓練中的穩定性問題。

緊接著 1 月中旬開源的 Engram 模塊則提出了“條件記憶”（Conditional Memory）這一全新稀疏性維度，用 O(1) 復雜度的哈希查找取代昂貴的神經網絡計算來完成靜態知識檢索。Engram 論文中特別展示了將高達 100B 參數的嵌入表卸載到 CPU 內存、GPU 專注推理計算的能力，額外推理延遲低于 3%。

這種“查算分離”的架構天然適配超長上下文場景，當上下文窗口擴展到百萬級別時，傳統的全量注意力計算成本會急劇膨脹，而 Engram 結合去年 V3.2 中引入的 DSA（DeepSeek Sparse Attention）機制，理論上可以顯著降低長序列推理的計算開銷。

不過，灰度測試畢竟只是灰度測試，離正式發布還有距離。目前尚不清楚這個版本的具體參數規模（據測試，其反應速度似乎要明顯快于 671B 的 V3 系列，有人猜測或為 200B 模型）、是否已整合 Engram 和 mHC 等新架構組件，以及它在標準基準測試上的表現如何，這些信息 DeepSeek 均未披露。

去年 R1 在農歷新年前夕橫空出世，引發全球震動，英偉達市值單日蒸發 5930 億美元；而今年 DeepSeek 的故事還在慢慢展開。百萬 token 上下文的灰度測試可能只是小年夜的一道開胃菜。真正的年夜飯，或許還在后頭。

參考資料：

1.https://www.reddit.com/r/LocalLLaMA/comments/1qi06kp/one_of_the_deepseek_repositories_got_updated_with/

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.