網易首頁 > 網易號 > 正文申請入駐

架構徹底重構！DeepSeek新模型代碼曝光，要來的V4讓國內外都坐不住了？

2026-01-21 12:04:27　來源: InfoQ

北京舉報

分享至

整理 | 華衛

DeepSeek V4 馬上要來了？

正值 DeepSeek-R1 發布一周年之際，DeepSeek 的官方 GitHub 代碼庫意外曝光了代號為“MODEL1”的全新模型線索。

而綜合泄露代碼片段中呈現的架構調整、硬件優化與全新處理機制來看，“MODEL1”似乎絕非簡單的版本迭代，而是一次全方位的架構重構。

此次 DeepSeek 在 GitHub 代碼庫的提前部署，在時間線上與業內瘋傳的“其新模型再次在春節期間發布”的消息高度吻合。本月初，也有外媒爆料稱，DeepSeek 將在今年 2 月中旬農歷新年期間推出新一代旗艦 AI 模型 DeepSeek V4。

1 新模型曝光，代碼揭露全新架構能力

近日，DeepSeek 陸陸續續給其在 GitHub 上的 FlashMLA 代碼庫做了一系列更新。

而剛剛，有開發者發現，114 個文件中有 28 處都提到了未知的“MODEL1”大模型標識符。而且，在代碼邏輯結構中，該標識符與現有模型“V32”（即 DeepSeek-V3.2）是并列且作為獨立分支出現的。也就是說，“MODEL1”很可能代表一個不同于現有架構和技術路徑的全新模型。

網友們也紛紛猜測，這個“MODEL1”很可能就是 DeepSeek 即將發布的新模型 V4 的內部開發代號或首個工程版本。

根據代碼片段中披露的技術規格，這個新模型有重大架構變更，或在 KV Cache（鍵值緩存）布局、稀疏性處理及 FP8 解碼支持等方面改變了策略和機制，還包括參數維度切換至 512 維以及針對英偉達下一代 Blackwell GPU 架構的專項優化。

在 FP8 解碼路徑上，該模型有多處針對性的內存優化調整。測試腳本中同步新增了 test_flash_mla_sparse_decoding.py 與 test_flash_mla_dense_decoding.py 兩個文件，這一改動證實“MODEL1”具備稀疏與稠密計算并行處理的能力。在稀疏化實現方案中，鍵值緩存存儲采用 FP8 精度，而矩陣乘法運算則使用 bfloat16 精度，以此保障計算準確性。這種混合精度設計表明，“MODEL1”通過在推理階段對部分數據進行選擇性稀疏化處理，有效降低內存占用壓力，從而具備處理超長上下文窗口的能力。

在 csrc/api/common.h 文件內的代碼顯示，“MODEL1”的注意力頭參數維度被配置為 512 維，與上一代產品 DeepSeek V3.2 采用的 576 維參數設置形成顯著差異。這一架構調整意味著，DeepSeek 已對其多頭隱式注意力（MLA）結構進行了重新設計。此前的 V3 系列采用非對稱設計方案，將 128 維旋轉位置編碼（RoPE）與 448 維隱層維度相結合。此次轉向標準化的 512 維參數配置，或許是為了更好地適配硬件性能，也可能是在隱層壓縮率方面實現了技術突破。

代碼更新記錄還顯示，DeepSeek 研發團隊已圍繞英偉達 Blackwell 架構開展了大量優化工作，預示著 DeepSeek 正為“MODEL1”量身打造下一代硬件適配方案。代碼中新增了一批專門面向 Blackwell 指令集的接口，包括 FMHACutlassSM100FwdRun；相關文檔明確指出，該模型若要在 B200 GPU 上運行，需依賴 CUDA 12.9 版本環境；內嵌的性能指標數據顯示，即便在未完全優化的狀態下，稀疏化 MLA 算子在 B200 硬件平臺上的運算性能仍可達到 350 萬億次浮點運算每秒（TFLOPS）。在當前主流的 H800 GPU（基于 SM90a 架構）上，稠密型 MLA 算子的吞吐量則能達到 660 萬億次浮點運算每秒。

盡管本次代碼提交的內容主要聚焦于算子層面的實現，但調度邏輯中仍提及多項新增功能。從代碼倉庫的結構可以推斷，“MODEL1”集成了價值向量位置感知（VVPA）技術，這項技術有望解決傳統 MLA 架構在長文本處理場景下存在的位置信息衰減問題。代碼注釋中還提到了一種名為 “記憶印記（Engram）機制” 的技術，但在已公開的代碼提交記錄中，相關實現細節尚不完整。從該機制在分布式處理模塊中的部署位置推測，其功能大概率與分布式存儲優化或高級鍵值壓縮技術相關，旨在滿足“MODEL1”對高吞吐量的性能需求。

前不久，DeepSeek 研究團隊剛發布了 Engram 的技術論文。當時，就有業內觀察者認為，Engram 模塊可能會成為 DeepSeek V4 的重要組成部分，并預示 DeepSeek 下一代模型會在記憶和推理協同上實現架構級提升。

這些優化能夠表明，“MODEL1”在推理效率上可能有更好的表現。此前也有爆料稱，DeepSeek V4 的代碼表現已超越 Claude 和 GPT 系列，并且具備處理復雜項目架構和大規模代碼庫的工程化能力。

2 國內外萬眾期待，“中國 AI 站起來了”

“DeepSeek 剛剛泄露了一個模型，這可能會再次改變整個 AI 行業的格局。”在國內外的各大社交平臺及社區，針對 DeepSeek 新模型的上線猜測、能力預測的期待帖子已大量涌現。

“中國 AI 站起來了。”昨日，全球最大的 AI 開源社區 Hugging Face 以“距離 DeepSeek 時刻一周年”為題專門發文，復盤了 R1 發布這一年來對中國開源社區及其對整個 AI 生態系統的影響。

“這是中國研發的開源模型首次躋身全球主流榜單。此后一年間，每當有新模型發布時，R1 都會被當作重要的參照基準。該模型迅速登頂 Hugging Face 平臺歷史最受歡迎模型榜單，而這一平臺上最受青睞的模型，也不再以美國研發的產品為主導。”

在他們看來，R1 的真正價值在于降低先進 AI 能力的門檻或者說障礙，并提供了清晰的模式。

技術障礙。通過公開分享其推理路徑和訓練后的方法，R1 將此前被封閉 API 鎖定的高級推理轉變為可下載、提煉和微調的工程資產。許多團隊不再需要從零開始訓練龐大的模型來獲得強大的推理能力。
應用障礙。R1 以 MIT 許可證發布，使其使用、修改和再分發變得簡單。依賴封閉式模型的公司開始直接將 R1 投入生產。蒸餾、二次培訓和領域特定適應成為常規工程工作，而非專門項目。
心理層面。當問題從“我們能做到嗎？”轉變為“我們如何做好？”時，許多公司的決策發生了變化。對于中國 AI 社區來說，這也是罕見的持續全球關注時刻，對長期被視為追隨者的生態系統意義重大。

“在 R1 模型發布一年后的今天，我們看到的不僅是一大批新模型的涌現，更見證了一個富有生命力的中國 AI 開源生態的加速成型。”

https://github.com/deepseek-ai/FlashMLA?tab=readme-ov-file

https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment

https://chinabizinsider.com/deepseeks-mysterious-model-1-surfaces-in-github-code-sparking-speculation-about-next-generation-ai-system/

聲明：本文為 InfoQ 翻譯整理，不代表平臺觀點，未經許可禁止轉載。

會議推薦

InfoQ 2026 全年會議規劃已上線！從 AI Infra 到 Agentic AI，從 AI 工程化到產業落地，從技術前沿到行業應用，全面覆蓋 AI 與軟件開發核心賽道！集結全球技術先鋒，拆解真實生產案例、深挖技術與產業落地痛點，探索前沿領域、聚焦產業賦能，獲取實戰落地方案與前瞻產業洞察，高效實現技術價值轉化。把握行業變革關鍵節點，搶占 2026 智能升級發展先機！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.