近日,DeepSeek 團隊工程師在 GitHub 向其核心推理內核 FlashMLA 推送了一系列更新,而在這些提交中,一個此前從未公開亮相的模型命名“MODEL1”引發了社區的高度關注。
![]()
根據代碼上下文分析,“MODEL1”很可能代表一個不同于現有架構的新模型。
分析認為,“MODEL1”與“V32”(即 DeepSeek-V3.2)在關鍵技術上存在區別,主要體現在鍵值(KV)緩存的布局、稀疏性處理方式以及對 FP8 數據格式的解碼支持等方面。
這些差異表明新架構可能在內存優化和計算效率上進行了針對性設計。
不少開發者推測,“MODEL1”很可能正是 DeepSeek 內測中的 V3 終極版本(V4 模型),也有人猜測它可能代表一個完全獨立于 V 系列的新模型。
![]()
據介紹,DeepSeek 團隊工程師為 FlashMLA 提交更新的這一系列代碼橫跨 114 個文件,其中有 28 處都提到了未知的“MODEL1”大模型標識符。該標識符與已知的現有模型“V32”被并列或區別提及。
![]()
https://github.com/deepseek-ai/FlashMLA/commit/082094b793fcc7452977d0a71a00e266a2e3061e
這里有個小插曲:一名程序員在 FlashMLA 開源倉庫就“MODEL1”真誠地提出自己的分析和疑問后:
![]()
沒想到竟被 DeepSeek 工程師“點踩”,當場有點破防了:
![]()
https://github.com/deepseek-ai/FlashMLA/issues/155
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.