2月11日,DeepSeek在其App與網(wǎng)頁端悄然開啟新一輪灰度測試,將模型上下文窗口從V3.1版本的128K token,直接提升至1M(百萬)token。DeepSeek稱可以一次性處理《三體》三部曲,并理解和分析其內(nèi)容。
![]()
另外,升級了模型知識庫截至日期和增強的文件處理能力。模型知識庫更新至2025年5月,即便在離線狀態(tài)下,也能準確回應2025年上半年的各類新聞事件。支持上傳圖像、PDF、Word、Excel、PPT、TXT,能從文件中提取文字信息并深度分析。
這一系列密集升級,被業(yè)內(nèi)看作是其新一代旗艦模型V4即將亮相的重要信號。
此次測試版本仍為純文本形態(tài),暫不支持視覺輸入及多模態(tài)識別功能,但成功補齊了長文本處理的核心短板,直接對標Google Gemini的百萬級上下文能力。
官方?jīng)]有正式公布更新,但有部分用戶在試用時吐槽,“丟掉了DeepSeek最有靈魂的東西”“現(xiàn)在這版本小說文筆巨差,以前的文筆我認為是業(yè)界巔峰,比什么gptgrok都強,就是2月11號后一切都變了。”“不知道的還以為在寫詩呢,一句話一段你知道我看得多崩潰嗎?”
![]()
![]()
也有用戶認為這只是新版本測試,后續(xù)會根據(jù)反饋優(yōu)化的。
![]()
DeepSeek的更新開年以來一直在鋪墊。
早在2025年下半年,受生態(tài)布局薄弱、產(chǎn)品能力偏科等因素影響,DeepSeek的用戶規(guī)模和活躍度均出現(xiàn)明顯下滑,外界對其發(fā)展前景一度提出質(zhì)疑。對此,DeepSeek團隊并未急于回應,而是選擇低調(diào)深耕技術,陸續(xù)發(fā)布V3.2系列模型、數(shù)學專用模型及OCR工具,為新一輪技術突破默默蓄力。
1月,DeepSeek以罕見的頻率連續(xù)發(fā)布兩篇關鍵技術論文,為這次灰度測試的順利推進筑牢了技術根基。其中,元旦當天發(fā)布的mHC流形約束超連接架構(gòu),解決了大規(guī)模模型訓練過程中的穩(wěn)定性難題。
1月中旬,開源的Engram條件記憶模塊,則采用哈希查找替代高成本的神經(jīng)網(wǎng)絡計算,實現(xiàn)“查算分離”,可將超大參數(shù)表遷移至CPU內(nèi)存,推理延遲控制在3%以內(nèi),天然適配百萬級長上下文場景,大幅降低了長序列推理的算力開銷。
不到一個月前,DeepSeek自研解碼核心庫FlashMLA更新時,社區(qū)開發(fā)者意外發(fā)現(xiàn)了代號為“Model 1”的全新模型標識。該標識獨立于現(xiàn)有V3.2架構(gòu),在KV緩存布局、稀疏性處理以及FP8數(shù)據(jù)格式解碼等方面,都與V3.2版本存在明顯差異,這意味著DeepSeek正在進行一次底層架構(gòu)的全面重構(gòu),而非簡單的版本迭代。
據(jù)悉,DeepSeek 下一代旗艦模型預計將是一款萬億參數(shù)級別的基礎模型,正因規(guī)模大幅躍升,訓練速度明顯放緩,導致發(fā)布進程有所延后。但野村證券2月10日發(fā)布的報告里提到,預測DeepSeek V4會在2月中旬發(fā)布。
DeepSeek將全面整合mHC與Engram兩項核心技術,摒棄盲目堆砌參數(shù)的行業(yè)慣性,重點提升模型的推理、編程以及長文本處理效率。
目前,DeepSeek并未對此次灰度測試作出回應。
來源:星河商業(yè)觀察
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.