DeepSeek悄悄更新神秘代碼，新模型細(xì)節(jié)曝光

DeepSeek新模型曝光

iPhoneFold模型曝光

2026-01-21 09:04:49　來源: AppSo

廣東舉報(bào)

分享至

在 DeepSeek-R1 發(fā)布一周年之際，官方 GitHub 代碼庫意外曝光了代號為「MODEL1」的全新模型線索。

在代碼邏輯結(jié)構(gòu)中，「MODEL1」是作為與「V32」（即 DeepSeek-V3.2）并列的獨(dú)立分支出現(xiàn)的，這一細(xì)節(jié)意味著「MODEL1」并不共享 V3 系列的參數(shù)配置或基礎(chǔ)架構(gòu)，而是一個(gè)全新的、獨(dú)立的技術(shù)路徑。

結(jié)合之前的爆料和泄露的代碼片段，我們梳理了「MODEL1」可能存在的技術(shù)特征：

·代碼顯示其采用了與現(xiàn)行模型完全不同的 KV Cache 布局策略，并在稀疏性（Sparsity）處理上引入了新機(jī)制。
·在 FP8 解碼路徑上有多處針對性的內(nèi)存優(yōu)化調(diào)整，預(yù)示著新模型在推理效率和顯存占用上可能有更好的表現(xiàn)。
·此前爆料稱，V4 的代碼表現(xiàn)已超越 Claude 和 GPT 系列，并且具備處理復(fù)雜項(xiàng)目架構(gòu)和大規(guī)模代碼庫的工程化能力。
·業(yè)界普遍推測，DeepSeek 近期發(fā)表的兩篇重磅論文——關(guān)于優(yōu)化殘差鏈接的「mHC」以及 AI 記憶模塊「Engram」，極有可能被整合進(jìn)「MODEL1」的架構(gòu)中，從而解決長上下文記憶和計(jì)算效率的核心痛點(diǎn)。

此前有傳聞稱，DeepSeek 計(jì)劃在 2 月中旬（春節(jié)前后）發(fā)布下一代旗艦?zāi)Ｐ?V4。此次 GitHub 代碼的提前部署，在時(shí)間線上與該傳聞高度吻合。如果屬實(shí)，這將是繼 R1 之后，DeepSeek 推出的第二個(gè)重要模型。

值得一提的是，全球最大的 AI 開源社區(qū) Hugging Face 最近也專門發(fā)文復(fù)盤了 R1 發(fā)布這一年的影響，核心觀點(diǎn)就是「中國 AI 真的站起來了」。

他們認(rèn)為 R1 的出現(xiàn)是個(gè)分水嶺，證明了哪怕算力受限，靠開源也能實(shí)現(xiàn)技術(shù)上的彎道超車，讓中國 AI 產(chǎn)業(yè)從封閉走向了開源爆發(fā)。在他們看來，R1 的真正價(jià)值在于降低了門檻：

·技術(shù)上：公開推理細(xì)節(jié)，讓高級能力可復(fù)用。
·應(yīng)用上：寬松協(xié)議（MIT）讓模型迅速融入商業(yè)落地。
·心理上：建立了中國 AI 從「追隨」到「引領(lǐng)」的自信。

2025 年，中國開源模型的下載量在全球都占據(jù)了主導(dǎo)地位，不僅國內(nèi)的大廠和創(chuàng)業(yè)公司都在全面擁抱開源，甚至國外現(xiàn)在很多所謂的新模型，實(shí)際上都建立在中國開源模型的基礎(chǔ)之上。

附上博客地址：https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.