在 DeepSeek-R1 發(fā)布一周年之際,官方 GitHub 代碼庫意外曝光了代號為「MODEL1」的全新模型線索。
在代碼邏輯結(jié)構(gòu)中,「MODEL1」是作為與「V32」(即 DeepSeek-V3.2)并列的獨(dú)立分支出現(xiàn)的,這一細(xì)節(jié)意味著「MODEL1」并不共享 V3 系列的參數(shù)配置或基礎(chǔ)架構(gòu),而是一個(gè)全新的、獨(dú)立的技術(shù)路徑。
結(jié)合之前的爆料和泄露的代碼片段,我們梳理了「MODEL1」可能存在的技術(shù)特征:
·代碼顯示其采用了與現(xiàn)行模型完全不同的 KV Cache 布局策略,并在稀疏性(Sparsity)處理上引入了新機(jī)制。
·在 FP8 解碼路徑上有多處針對性的內(nèi)存優(yōu)化調(diào)整,預(yù)示著新模型在推理效率和顯存占用上可能有更好的表現(xiàn)。
·此前爆料稱,V4 的代碼表現(xiàn)已超越 Claude 和 GPT 系列,并且具備處理復(fù)雜項(xiàng)目架構(gòu)和大規(guī)模代碼庫的工程化能力。
·業(yè)界普遍推測,DeepSeek 近期發(fā)表的兩篇重磅論文——關(guān)于優(yōu)化殘差鏈接的 「mHC」 以及 AI 記憶模塊 「Engram」,極有可能被整合進(jìn)「MODEL1」的架構(gòu)中,從而解決長上下文記憶和計(jì)算效率的核心痛點(diǎn)。
此前有傳聞稱,DeepSeek 計(jì)劃在 2 月中旬(春節(jié)前后) 發(fā)布下一代旗艦?zāi)P?V4。此次 GitHub 代碼的提前部署,在時(shí)間線上與該傳聞高度吻合。如果屬實(shí),這將是繼 R1 之后,DeepSeek 推出的第二個(gè)重要模型。
值得一提的是,全球最大的 AI 開源社區(qū) Hugging Face 最近也專門發(fā)文復(fù)盤了 R1 發(fā)布這一年的影響,核心觀點(diǎn)就是「中國 AI 真的站起來了」。
他們認(rèn)為 R1 的出現(xiàn)是個(gè)分水嶺,證明了哪怕算力受限,靠開源也能實(shí)現(xiàn)技術(shù)上的彎道超車,讓中國 AI 產(chǎn)業(yè)從封閉走向了開源爆發(fā)。在他們看來,R1 的真正價(jià)值在于降低了門檻:
·技術(shù)上: 公開推理細(xì)節(jié),讓高級能力可復(fù)用。
·應(yīng)用上: 寬松協(xié)議(MIT)讓模型迅速融入商業(yè)落地。
·心理上: 建立了中國 AI 從「追隨」到「引領(lǐng)」的自信。
2025 年,中國開源模型的下載量在全球都占據(jù)了主導(dǎo)地位,不僅國內(nèi)的大廠和創(chuàng)業(yè)公司都在全面擁抱開源,甚至國外現(xiàn)在很多所謂的新模型,實(shí)際上都建立在中國開源模型的基礎(chǔ)之上。
附上博客地址:https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.