2026.01.21
![]()
本文字數:1454,閱讀時長大約2分鐘
作者 |第一財經 劉曉潔
題圖 |AI生成
在DeepSeek-R1發布一周年之際,新模型“MODEL1”的項目名在開源社區悄然出現。近日,DeepSeek官方在GitHub更新了一系列FlashMLA代碼,項目文件有數十處都提到了此前未公開的“MODEL1”大模型標識符。
![]()
在項目中,“MODEL1”標識符與已知的現有模型 “V32”(即 DeepSeek-V3.2)被并列提及。行業認為,根據代碼上下文,“MODEL1”很可能代表一個不同于現有架構的新模型。但是具體是V4模型還是推理模型R2行業有不同的看法,也有開發者認為可能是V3系列的終極版。
FlashMLA是DeepSeek獨創的、針對英偉達Hopper架構GPU深度優化的軟件工具,是DeepSeek模型實現低成本、高性能的關鍵技術之一,可以在模型架構層面減少內存占用,最大化地利用GPU硬件。
根據開發者的分析,“MODEL1”與 “V32”在關鍵技術上存在區別,主要體現在鍵值(KV)緩存的布局、稀疏性處理方式以及對 FP8 數據格式的解碼支持等方面。這些差異表明新架構可能在內存優化和計算效率上進行了針對性設計。
結合目前模型文件結構來看,“MODEL1”很可能已接近訓練完成或推理部署階段,正等待最終的權重凍結和測試驗證。這意味著,新模型的上線時間越來越近了。
![]()
“如果我們能再迎來像DeepSeek那樣的突破性時刻,那將是具有里程碑意義的。”有海外博主表示。也有網友期待DeepSeek的發布速度能夠更快,這對開源社區來說是個好事。
此前已有報道稱,DeepSeek將于2月發布新一代旗艦模型DeepSeek V4,且內部初步測試表明,V4在編程能力上超過了市場上的其他頂級模型。目前DeepSeek并未對此進行任何回應。但此次項目曝光或許也印證了傳聞。
在近一個月里DeepSeek團隊陸續發布了兩篇技術論文,介紹了名為“優化殘差連接(mHC)”的新訓練方法,以及一種受生物學啟發的 “AI記憶模塊(Engram)”。業內猜測,DeepSeek正在開發中的新模型有可能會整合這些最新的研究成果。
DeepSeek在2024年12月推出旗艦模型V3,憑借高效的MoE架構確立了強大的綜合性能基礎。此后,又在2025年1月發布了推理模型R1,基于強化學習,在解決數學問題、代碼編程等復雜推理任務上表現卓越。距離發布已經過去了一年,行業都在期待DeepSeek的下一代旗艦模型。
恰逢DeepSeek R1發布一周年,海外開源社區Hugging Face也發布了博客《“DeepSeek時刻”一周年》,回顧了中國AI力量在過去一年如何重塑全球開源生態。
![]()
文章指出,DeepSeek-R1是Hugging Face上獲贊最多的模型。R1模型的開源不僅降低了推理技術、生產部署與心理三個門檻,更推動了國內公司在開源方向上形成非協同但高度一致的戰略走向。
過去一年,百度、阿里巴巴、騰訊等巨頭及月之暗面等初創公司大幅增加開源投入,中國模型在Hugging Face上的下載量已超越美國。盡管西方尋求替代方案,但全球眾多初創企業和研究人員正逐漸依賴中國開發的開源模型作為基礎,中國AI已深度嵌入全球供應鏈。
微信編輯| 蘇小
第一財經持續追蹤財經熱點。若您掌握公司動態、行業趨勢、金融事件等有價值的線索,歡迎提供。專用郵箱:bianjibu@yicai.com
(注:我們會對線索進行核實。您的隱私將嚴格保密。)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.