DeepSeek啟動百萬token測試，部分用戶稱失去靈魂？

2026-02-12 18:02:04　來源: ZAKER新聞

廣東舉報

分享至

2月11日，DeepSeek在其App與網(wǎng)頁端悄然開啟新一輪灰度測試，將模型上下文窗口從V3.1版本的128K token，直接提升至1M（百萬）token。DeepSeek稱可以一次性處理《三體》三部曲，并理解和分析其內(nèi)容。

另外，升級了模型知識庫截至日期和增強的文件處理能力。模型知識庫更新至2025年5月，即便在離線狀態(tài)下，也能準確回應2025年上半年的各類新聞事件。支持上傳圖像、PDF、Word、Excel、PPT、TXT，能從文件中提取文字信息并深度分析。

這一系列密集升級，被業(yè)內(nèi)看作是其新一代旗艦模型V4即將亮相的重要信號。

此次測試版本仍為純文本形態(tài)，暫不支持視覺輸入及多模態(tài)識別功能，但成功補齊了長文本處理的核心短板，直接對標Google Gemini的百萬級上下文能力。

官方?jīng)]有正式公布更新，但有部分用戶在試用時吐槽，“丟掉了DeepSeek最有靈魂的東西”“現(xiàn)在這版本小說文筆巨差，以前的文筆我認為是業(yè)界巔峰，比什么gptgrok都強，就是2月11號后一切都變了。”“不知道的還以為在寫詩呢，一句話一段你知道我看得多崩潰嗎？”

也有用戶認為這只是新版本測試，后續(xù)會根據(jù)反饋優(yōu)化的。

DeepSeek的更新開年以來一直在鋪墊。

早在2025年下半年，受生態(tài)布局薄弱、產(chǎn)品能力偏科等因素影響，DeepSeek的用戶規(guī)模和活躍度均出現(xiàn)明顯下滑，外界對其發(fā)展前景一度提出質(zhì)疑。對此，DeepSeek團隊并未急于回應，而是選擇低調(diào)深耕技術，陸續(xù)發(fā)布V3.2系列模型、數(shù)學專用模型及OCR工具，為新一輪技術突破默默蓄力。

1月，DeepSeek以罕見的頻率連續(xù)發(fā)布兩篇關鍵技術論文，為這次灰度測試的順利推進筑牢了技術根基。其中，元旦當天發(fā)布的mHC流形約束超連接架構(gòu)，解決了大規(guī)模模型訓練過程中的穩(wěn)定性難題。

1月中旬，開源的Engram條件記憶模塊，則采用哈希查找替代高成本的神經(jīng)網(wǎng)絡計算，實現(xiàn)“查算分離”，可將超大參數(shù)表遷移至CPU內(nèi)存，推理延遲控制在3%以內(nèi)，天然適配百萬級長上下文場景，大幅降低了長序列推理的算力開銷。

不到一個月前，DeepSeek自研解碼核心庫FlashMLA更新時，社區(qū)開發(fā)者意外發(fā)現(xiàn)了代號為“Model 1”的全新模型標識。該標識獨立于現(xiàn)有V3.2架構(gòu)，在KV緩存布局、稀疏性處理以及FP8數(shù)據(jù)格式解碼等方面，都與V3.2版本存在明顯差異，這意味著DeepSeek正在進行一次底層架構(gòu)的全面重構(gòu)，而非簡單的版本迭代。

據(jù)悉，DeepSeek 下一代旗艦模型預計將是一款萬億參數(shù)級別的基礎模型，正因規(guī)模大幅躍升，訓練速度明顯放緩，導致發(fā)布進程有所延后。但野村證券2月10日發(fā)布的報告里提到，預測DeepSeek V4會在2月中旬發(fā)布。

DeepSeek將全面整合mHC與Engram兩項核心技術，摒棄盲目堆砌參數(shù)的行業(yè)慣性，重點提升模型的推理、編程以及長文本處理效率。

目前，DeepSeek并未對此次灰度測試作出回應。

來源：星河商業(yè)觀察

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.