![]()
智東西
作者 江宇
編輯 冰倩
智東西1月21日報道,DeepSeek-R1發布一周年之際,來自DeepSeek的神秘新模型“MODEL1”悄然現身GitHub代碼庫。
多位社區開發者推測,MODEL1很可能正是DeepSeek內測中的V3終極版本(V4模型),也有人猜測它可能代表一個完全獨立于V系列的新模型。
![]()
▲海外開發者在X平臺討論MODEL1身份
近日,DeepSeek向其核心推理內核FlashMLA推送了一系列更新,而在這些提交中,一個此前從未公開亮相的模型命名引發了社區的高度關注——MODEL1。
![]()
▲DeepSeek代碼庫出現MODEL1相關(圖源:X)
這一名稱不僅出現在SM90架構相關的.cu內核實例化文件中,還貫穿在多個針對FP8稀疏解碼路徑的模板定義與內存布局注釋里。
更關鍵的是,據海外開發者推測,MODEL1的背后將是一整套新的推理機制、算子結構與底層內存配置,會與DeepSeek現有V3.2模型呈現出完全不同的技術路徑。
在相關代碼文件中可以看到,MODEL1被用于核心解碼函數的多個實例中,顯式適配了頭維度為64和128的場景,并專門部署在SM90和SM100架構上。
![]()
▲DeepSeek FlashMLA源碼截圖(圖源:GItHub)
代碼中多處調用了“ModelType::MODEL1”,與其對應的還有一套獨立的持久化內核。這些文件與V32版本的持久化內核文件并行存在,這顯示出DeepSeek或許已為該模型設計了與V3系列完全不同的編譯路徑與執行邏輯。
![]()
▲DeepSeek FlashMLA源碼文件樹(圖源:GItHub)
更值得注意的是,在代碼中,有一條特別注釋寫道:對于F3架構(即SM90平臺)下的MODEL1模型,其KV緩存的內存stride必須是576B的整數倍。
![]()
▲海外網友推文截圖(目前該條注釋已于代碼庫內刪除)
這一配置區別于V3.2的656B,暗示著MODEL1對底層內存對齊和調度有更為嚴格的要求,可能與其更復雜的運行時行為與動態緩存機制有關。
一位海外網友也對這部分代碼進行了深入解讀,他認為,MODEL1在整體結構上展現出更強的實驗性特征,支持動態Top-K稀疏推理邏輯,還引入了額外的KV緩存區。
![]()
▲海外開發者的分析(圖源:X)
前者通過引入一個可變的topk_length指針,允許模型在推理時根據token或請求動態決定參與計算的key數量,提升了計算資源的精細調度能力;后者則通過extra_kv緩沖區,提供了將系統提示與用戶上下文分離存儲的可能,為Agent架構或多段上下文場景提供支持。
據社區開發者分析,MODEL1在同步邏輯與邊界控制上可能比V3.2更加復雜。其中RoPE與NoPE維度在雙GEMM運算中耦合更緊,可能意味著其在位置編碼與張量路徑調度上做出了顯著調整。
分析還提到,MODEL1引入了運行時邊界檢查機制,旨在規避動態Top-K推理中潛在的非法內存訪問。
此外,盡管官方注釋中標明MODEL1的stride應為576B,但據社區開發者基于代碼結構估算,其實際內存分配邏輯可能接近584B。這種細微差異被認為反映出該分支仍處于調試或快速迭代階段。
在更早的1月9日,外媒援引知情人士稱,DeepSeek將于2月中旬,也就是春節前后發布其下一代模型,主打編程能力,并在內部測試中已經在多個基準上超越了Claude與GPT系列。
結合目前模型文件結構已覆蓋64和128兩個頭維度、FP8稀疏解碼路徑已完成適配、內存規范已強制定義等跡象來看,MODEL1很可能已接近訓練完成或推理部署階段,正等待最終的權重凍結和測試驗證。
在海外社交平臺上,不少用戶對MODEL1的曝光反應熱烈。一位用戶調侃道:“我已經能聽見‘新模型將帶來99.97%成本下降’了。”
![]()
而另一位開發者則認為,如果DeepSeek再次開放權重,勢必將對閉源巨頭形成壓力,推動前沿模型進一步走向開放。
![]()
恰逢DeepSeek R1發布一周年,Hugging Face官方博客也發布了特別文章《One Year Since the “DeepSeek Moment”》,系統回顧了過去一年中國開源社區的集體爆發,明確提及DeepSeek的開源策略已從一次事件演化為生態策略。
![]()
▲Hugging Face官方博客:One Year Since the “DeepSeek Moment”
文章稱,R1模型的開源不僅降低了推理技術、生產部署與心理三個門檻,更推動了國內公司在開源方向上形成非協同但高度一致的戰略走向。
從百度、字節跳動到月之暗面、智譜AI,各大機構在過去一年中陸續加入Hugging Face并發布高質量模型,在社區下載、點贊與引用榜單上頻頻登頂。
與此同時,越來越多西方開源模型的底座也開始使用DeepSeek系列做微調,DeepSeek-V3更是成為Cogito v2.1等海外模型的底層基座。
結語:一年之后,DeepSeek再次站在開源演進的起點
如今,距離R1發布僅一年,DeepSeek的“MODEL1”很有可能在系統架構、執行路徑與推理機制上展現出全面超越V3.2的能力。
如果接下來如傳聞所述在春節前后正式發布,DeepSeek或許將再次改寫國內開源格局,也可能為全球前沿開源模型樹立新的標桿。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.