【太平洋科技快訊】1 月 21 日消息,據開發者近期在 GitHub 上的發現,DeepSeek 更新了一系列 FlashMLA 相關代碼。在涉及的 114 個文件中,有 28 處提到了未知的“MODEL1”大模型標識符,引發業界關注。
據悉,“MODEL1”標識符與已知的現有模型“V32”(即 DeepSeek-V3.2)被并列或區別提及。開發者分析認為,兩者在鍵值緩存布局、稀疏性處理方式以及對FP8數據格式的解碼支持等關鍵技術層面存在明顯區別,表明新架構可能在內存優化和計算效率上進行了針對性設計。
這一發現與近期的行業傳聞相互印證。The Information 本月早些時候爆料稱,DeepSeek 將在今年 2 月中旬農歷新年期間推出新一代旗艦 AI 模型——DeepSeek V4。據稱其代碼能力將顯著提升,內部測試顯示有望超越包括 GPT 和 Claude 在內的行業領先產品。
值得注意的是,DeepSeek 研究團隊此前陸續發表了兩篇重要技術論文:一篇介紹了名為“優化殘差連接(mHC)”的新訓練方法;另一篇提出了“條件記憶”新范式并開源相關記憶模塊 Engram。業界猜測,正在開發中的新模型很可能會整合這些研究成果。
打開APP,閱讀體驗更佳
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.