網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

代碼泄密！DeepSeek下一代“王炸”模型架構(gòu)曝光

2026-01-21 13:06:16　來源: 智東西

北京舉報

分享至

智東西
作者江宇
編輯冰倩

智東西1月21日報道，DeepSeek-R1發(fā)布一周年之際，來自DeepSeek的神秘新模型“MODEL1”悄然現(xiàn)身GitHub代碼庫。

多位社區(qū)開發(fā)者推測，MODEL1很可能正是DeepSeek內(nèi)測中的V3終極版本（V4模型），也有人猜測它可能代表一個完全獨(dú)立于V系列的新模型。

▲海外開發(fā)者在X平臺討論MODEL1身份

近日，DeepSeek向其核心推理內(nèi)核FlashMLA推送了一系列更新，而在這些提交中，一個此前從未公開亮相的模型命名引發(fā)了社區(qū)的高度關(guān)注——MODEL1。

▲DeepSeek代碼庫出現(xiàn)MODEL1相關(guān)（圖源：X）

這一名稱不僅出現(xiàn)在SM90架構(gòu)相關(guān)的.cu內(nèi)核實例化文件中，還貫穿在多個針對FP8稀疏解碼路徑的模板定義與內(nèi)存布局注釋里。

更關(guān)鍵的是，據(jù)海外開發(fā)者推測，MODEL1的背后將是一整套新的推理機(jī)制、算子結(jié)構(gòu)與底層內(nèi)存配置，會與DeepSeek現(xiàn)有V3.2模型呈現(xiàn)出完全不同的技術(shù)路徑。

在相關(guān)代碼文件中可以看到，MODEL1被用于核心解碼函數(shù)的多個實例中，顯式適配了頭維度為64和128的場景，并專門部署在SM90和SM100架構(gòu)上。

▲DeepSeek FlashMLA源碼截圖（圖源：GItHub）

代碼中多處調(diào)用了“ModelType::MODEL1”，與其對應(yīng)的還有一套獨(dú)立的持久化內(nèi)核。這些文件與V32版本的持久化內(nèi)核文件并行存在，這顯示出DeepSeek或許已為該模型設(shè)計了與V3系列完全不同的編譯路徑與執(zhí)行邏輯。

▲DeepSeek FlashMLA源碼文件樹（圖源：GItHub）

更值得注意的是，在代碼中，有一條特別注釋寫道：對于F3架構(gòu)（即SM90平臺）下的MODEL1模型，其KV緩存的內(nèi)存stride必須是576B的整數(shù)倍。

▲海外網(wǎng)友推文截圖（目前該條注釋已于代碼庫內(nèi)刪除）

這一配置區(qū)別于V3.2的656B，暗示著MODEL1對底層內(nèi)存對齊和調(diào)度有更為嚴(yán)格的要求，可能與其更復(fù)雜的運(yùn)行時行為與動態(tài)緩存機(jī)制有關(guān)。

一位海外網(wǎng)友也對這部分代碼進(jìn)行了深入解讀，他認(rèn)為，MODEL1在整體結(jié)構(gòu)上展現(xiàn)出更強(qiáng)的實驗性特征，支持動態(tài)Top-K稀疏推理邏輯，還引入了額外的KV緩存區(qū)。

▲海外開發(fā)者的分析（圖源：X）

前者通過引入一個可變的topk_length指針，允許模型在推理時根據(jù)token或請求動態(tài)決定參與計算的key數(shù)量，提升了計算資源的精細(xì)調(diào)度能力；后者則通過extra_kv緩沖區(qū)，提供了將系統(tǒng)提示與用戶上下文分離存儲的可能，為Agent架構(gòu)或多段上下文場景提供支持。

據(jù)社區(qū)開發(fā)者分析，MODEL1在同步邏輯與邊界控制上可能比V3.2更加復(fù)雜。其中RoPE與NoPE維度在雙GEMM運(yùn)算中耦合更緊，可能意味著其在位置編碼與張量路徑調(diào)度上做出了顯著調(diào)整。

分析還提到，MODEL1引入了運(yùn)行時邊界檢查機(jī)制，旨在規(guī)避動態(tài)Top-K推理中潛在的非法內(nèi)存訪問。

此外，盡管官方注釋中標(biāo)明MODEL1的stride應(yīng)為576B，但據(jù)社區(qū)開發(fā)者基于代碼結(jié)構(gòu)估算，其實際內(nèi)存分配邏輯可能接近584B。這種細(xì)微差異被認(rèn)為反映出該分支仍處于調(diào)試或快速迭代階段。

在更早的1月9日，外媒援引知情人士稱，DeepSeek將于2月中旬，也就是春節(jié)前后發(fā)布其下一代模型，主打編程能力，并在內(nèi)部測試中已經(jīng)在多個基準(zhǔn)上超越了Claude與GPT系列。

結(jié)合目前模型文件結(jié)構(gòu)已覆蓋64和128兩個頭維度、FP8稀疏解碼路徑已完成適配、內(nèi)存規(guī)范已強(qiáng)制定義等跡象來看，MODEL1很可能已接近訓(xùn)練完成或推理部署階段，正等待最終的權(quán)重凍結(jié)和測試驗證。

在海外社交平臺上，不少用戶對MODEL1的曝光反應(yīng)熱烈。一位用戶調(diào)侃道：“我已經(jīng)能聽見‘新模型將帶來99.97%成本下降’了。”

而另一位開發(fā)者則認(rèn)為，如果DeepSeek再次開放權(quán)重，勢必將對閉源巨頭形成壓力，推動前沿模型進(jìn)一步走向開放。

恰逢DeepSeek R1發(fā)布一周年，Hugging Face官方博客也發(fā)布了特別文章《One Year Since the “DeepSeek Moment”》，系統(tǒng)回顧了過去一年中國開源社區(qū)的集體爆發(fā)，明確提及DeepSeek的開源策略已從一次事件演化為生態(tài)策略。

▲Hugging Face官方博客：One Year Since the “DeepSeek Moment”

文章稱，R1模型的開源不僅降低了推理技術(shù)、生產(chǎn)部署與心理三個門檻，更推動了國內(nèi)公司在開源方向上形成非協(xié)同但高度一致的戰(zhàn)略走向。

從百度、字節(jié)跳動到月之暗面、智譜AI，各大機(jī)構(gòu)在過去一年中陸續(xù)加入Hugging Face并發(fā)布高質(zhì)量模型，在社區(qū)下載、點(diǎn)贊與引用榜單上頻頻登頂。

與此同時，越來越多西方開源模型的底座也開始使用DeepSeek系列做微調(diào)，DeepSeek-V3更是成為Cogito v2.1等海外模型的底層基座。

結(jié)語：一年之后，DeepSeek再次站在開源演進(jìn)的起點(diǎn)

如今，距離R1發(fā)布僅一年，DeepSeek的“MODEL1”很有可能在系統(tǒng)架構(gòu)、執(zhí)行路徑與推理機(jī)制上展現(xiàn)出全面超越V3.2的能力。

如果接下來如傳聞所述在春節(jié)前后正式發(fā)布，DeepSeek或許將再次改寫國內(nèi)開源格局，也可能為全球前沿開源模型樹立新的標(biāo)桿。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.