1月21日消息,DeepSeek-R1在GitHub上通過代碼提交疑似劇透了DeepSeek的下一代模型。據開發者挖掘,DeepSeek旗下的FlashMLA優化庫近期迎來了一波密集更新。
![]()
在一堆C++代碼中,一個從未見過的代號“Model1”赫然在列。與以往的小修小補不同,代碼邏輯將Model1置于了與當前旗艦V3.2完全獨立的平行分支。
![]()
技術社區普遍解讀為下一代大模型DeepSeek-V4的內部開發代號。據技術社區對相關代碼提交的深度解讀,Model1 展示了 DeepSeek 下一代技術架構的幾個核心演進方向:
架構層面回歸512
DeepSeek V3曾以獨特的576維非對稱MLA驚艷四座,這在當時是為了極致壓縮KV Cache的非常規手段。然而在Model1中,head_dim參數被重新鎖定512維。
這一回歸標準的動作能更完美地對齊GPU的Tensor Core計算特性。DeepSeek可能已經找到了無需依賴非標維度也能實現高壓縮率的新方法,或許就是代碼中提及的Engram機制,從而換取更高的計算通用性。
接入下一代算力霸主
Model1的代碼庫中出現了大量針對 SM100,也就是英偉達最新算力硬件NVIDIA Blackwell B200的專用接口。
DeepSeek或許基本完成了對 2026 年旗艦顯卡的指令集適配。測試數據顯示,Model1 的稀疏算子在 B200 上的算力利用率已達 350 TFlops,這顯然是有備而來。
長文本推理的稀疏化
代碼中不僅出現了FP8格式的KV Cache支持,更引入了test_flash_mla_sparse_decoding測試腳本。
![]()
DeepSeek正在將MLA機制從“全量計算”進化為“Token級稀疏計算”。這種機制允許模型在處理超長上下文時,動態忽略不重要的Token,從而在顯存占用和推理速度上實現數量級的優化。
![]()
DeepSeek曾在2025年1月20日發布R1模型,由此開啟了新的開源LLM時代。今天剛好是R1發布一周年,Model1又會給AI領域帶來怎樣的變化呢?(轉載自AI普瑞斯)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.