![]()
智東西
作者 江宇
編輯 冰倩
智東西1月21日報道,DeepSeek-R1發(fā)布一周年之際,來自DeepSeek的神秘新模型“MODEL1”悄然現(xiàn)身GitHub代碼庫。
多位社區(qū)開發(fā)者推測,MODEL1很可能正是DeepSeek內(nèi)測中的V3終極版本(V4模型),也有人猜測它可能代表一個完全獨(dú)立于V系列的新模型。
![]()
▲海外開發(fā)者在X平臺討論MODEL1身份
近日,DeepSeek向其核心推理內(nèi)核FlashMLA推送了一系列更新,而在這些提交中,一個此前從未公開亮相的模型命名引發(fā)了社區(qū)的高度關(guān)注——MODEL1。
![]()
▲DeepSeek代碼庫出現(xiàn)MODEL1相關(guān)(圖源:X)
這一名稱不僅出現(xiàn)在SM90架構(gòu)相關(guān)的.cu內(nèi)核實例化文件中,還貫穿在多個針對FP8稀疏解碼路徑的模板定義與內(nèi)存布局注釋里。
更關(guān)鍵的是,據(jù)海外開發(fā)者推測,MODEL1的背后將是一整套新的推理機(jī)制、算子結(jié)構(gòu)與底層內(nèi)存配置,會與DeepSeek現(xiàn)有V3.2模型呈現(xiàn)出完全不同的技術(shù)路徑。
在相關(guān)代碼文件中可以看到,MODEL1被用于核心解碼函數(shù)的多個實例中,顯式適配了頭維度為64和128的場景,并專門部署在SM90和SM100架構(gòu)上。
![]()
▲DeepSeek FlashMLA源碼截圖(圖源:GItHub)
代碼中多處調(diào)用了“ModelType::MODEL1”,與其對應(yīng)的還有一套獨(dú)立的持久化內(nèi)核。這些文件與V32版本的持久化內(nèi)核文件并行存在,這顯示出DeepSeek或許已為該模型設(shè)計了與V3系列完全不同的編譯路徑與執(zhí)行邏輯。
![]()
▲DeepSeek FlashMLA源碼文件樹(圖源:GItHub)
更值得注意的是,在代碼中,有一條特別注釋寫道:對于F3架構(gòu)(即SM90平臺)下的MODEL1模型,其KV緩存的內(nèi)存stride必須是576B的整數(shù)倍。
![]()
▲海外網(wǎng)友推文截圖(目前該條注釋已于代碼庫內(nèi)刪除)
這一配置區(qū)別于V3.2的656B,暗示著MODEL1對底層內(nèi)存對齊和調(diào)度有更為嚴(yán)格的要求,可能與其更復(fù)雜的運(yùn)行時行為與動態(tài)緩存機(jī)制有關(guān)。
一位海外網(wǎng)友也對這部分代碼進(jìn)行了深入解讀,他認(rèn)為,MODEL1在整體結(jié)構(gòu)上展現(xiàn)出更強(qiáng)的實驗性特征,支持動態(tài)Top-K稀疏推理邏輯,還引入了額外的KV緩存區(qū)。
![]()
▲海外開發(fā)者的分析(圖源:X)
前者通過引入一個可變的topk_length指針,允許模型在推理時根據(jù)token或請求動態(tài)決定參與計算的key數(shù)量,提升了計算資源的精細(xì)調(diào)度能力;后者則通過extra_kv緩沖區(qū),提供了將系統(tǒng)提示與用戶上下文分離存儲的可能,為Agent架構(gòu)或多段上下文場景提供支持。
據(jù)社區(qū)開發(fā)者分析,MODEL1在同步邏輯與邊界控制上可能比V3.2更加復(fù)雜。其中RoPE與NoPE維度在雙GEMM運(yùn)算中耦合更緊,可能意味著其在位置編碼與張量路徑調(diào)度上做出了顯著調(diào)整。
分析還提到,MODEL1引入了運(yùn)行時邊界檢查機(jī)制,旨在規(guī)避動態(tài)Top-K推理中潛在的非法內(nèi)存訪問。
此外,盡管官方注釋中標(biāo)明MODEL1的stride應(yīng)為576B,但據(jù)社區(qū)開發(fā)者基于代碼結(jié)構(gòu)估算,其實際內(nèi)存分配邏輯可能接近584B。這種細(xì)微差異被認(rèn)為反映出該分支仍處于調(diào)試或快速迭代階段。
在更早的1月9日,外媒援引知情人士稱,DeepSeek將于2月中旬,也就是春節(jié)前后發(fā)布其下一代模型,主打編程能力,并在內(nèi)部測試中已經(jīng)在多個基準(zhǔn)上超越了Claude與GPT系列。
結(jié)合目前模型文件結(jié)構(gòu)已覆蓋64和128兩個頭維度、FP8稀疏解碼路徑已完成適配、內(nèi)存規(guī)范已強(qiáng)制定義等跡象來看,MODEL1很可能已接近訓(xùn)練完成或推理部署階段,正等待最終的權(quán)重凍結(jié)和測試驗證。
在海外社交平臺上,不少用戶對MODEL1的曝光反應(yīng)熱烈。一位用戶調(diào)侃道:“我已經(jīng)能聽見‘新模型將帶來99.97%成本下降’了。”
![]()
而另一位開發(fā)者則認(rèn)為,如果DeepSeek再次開放權(quán)重,勢必將對閉源巨頭形成壓力,推動前沿模型進(jìn)一步走向開放。
![]()
恰逢DeepSeek R1發(fā)布一周年,Hugging Face官方博客也發(fā)布了特別文章《One Year Since the “DeepSeek Moment”》,系統(tǒng)回顧了過去一年中國開源社區(qū)的集體爆發(fā),明確提及DeepSeek的開源策略已從一次事件演化為生態(tài)策略。
![]()
▲Hugging Face官方博客:One Year Since the “DeepSeek Moment”
文章稱,R1模型的開源不僅降低了推理技術(shù)、生產(chǎn)部署與心理三個門檻,更推動了國內(nèi)公司在開源方向上形成非協(xié)同但高度一致的戰(zhàn)略走向。
從百度、字節(jié)跳動到月之暗面、智譜AI,各大機(jī)構(gòu)在過去一年中陸續(xù)加入Hugging Face并發(fā)布高質(zhì)量模型,在社區(qū)下載、點(diǎn)贊與引用榜單上頻頻登頂。
與此同時,越來越多西方開源模型的底座也開始使用DeepSeek系列做微調(diào),DeepSeek-V3更是成為Cogito v2.1等海外模型的底層基座。
結(jié)語:一年之后,DeepSeek再次站在開源演進(jìn)的起點(diǎn)
如今,距離R1發(fā)布僅一年,DeepSeek的“MODEL1”很有可能在系統(tǒng)架構(gòu)、執(zhí)行路徑與推理機(jī)制上展現(xiàn)出全面超越V3.2的能力。
如果接下來如傳聞所述在春節(jié)前后正式發(fā)布,DeepSeek或許將再次改寫國內(nèi)開源格局,也可能為全球前沿開源模型樹立新的標(biāo)桿。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.