網易首頁 > 網易號 > 正文申請入駐

DeepSeek V3到V3.2的進化之路，一文看全

2025-12-08 14:07:45　來源: 機器之心Pro

北京舉報

分享至

機器之心編譯

作者：Sebastian Raschka

12 月 1 日，DeepSeek 一口氣發布了兩款新模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

幾天過去，熱度依舊不減，解讀其技術報告的博客也正在不斷涌現。知名 AI 研究者和博主 Sebastian Raschka 發布這篇深度博客尤其值得一讀，其詳細梳理了 DeepSeek V3 到 V3.2 的進化歷程。

機器之心編譯了這篇深度技術博客，以饗讀者：

博客標題：A Technical Tour of the DeepSeek Models from V3 to V3.2
博客地址：https://sebastianraschka.com/blog/2025/technical-deepseek.html

與 DeepSeek V3 的發布策略如出一轍，DeepSeek 團隊再次選擇在一個美國主要節假日周末發布了他們的新旗艦模型。

鑒于 DeepSeek V3.2 展現出了極佳的性能水平（在基準測試中對標 GPT-5 和 Gemini 3.0 Pro），加之它本身也是一個開放權重模型，這無疑值得重點關注。

圖 1：DeepSeek V3.2 與專有旗艦模型之間的基準測試對比。來自 DeepSeek V3.2 報告并加上了注釋。

我曾在文章《大型 LLM 架構對比》的開篇介紹過它的前身 ——DeepSeek V3。隨著新架構的不斷涌現，我在過去幾個月里一直在持續更新那篇文章。

原本，我剛和家人度完感恩節假期回來，計劃「只是」在原文章中增加一個新章節來簡單介紹這次新發布的 DeepSeek V3.2。但隨后我意識到，這次更新包含太多有趣的信息和細節，僅僅一個章節無法涵蓋。因此，我決定將其寫成一篇篇幅較長的獨立文章。

他們的技術報告中涵蓋了大量有趣的領域和值得學習的知識，讓我們開始吧！

1. DeepSeek 發布時間線

2. 混合推理模型與專用推理模型

3. 從 DeepSeek V3 到 V3.1

3.1 DeepSeek V3 概覽與多頭潛在注意力 (MLA)

3.2 DeepSeek R1 概覽與帶可驗證獎勵的強化學習 (RLVR)

3.3 DeepSeek R1-0528 版本升級

3.4 DeepSeek V3.1 混合推理

4. DeepSeek V3.2-Exp 與稀疏注意力機制

5. 采用自我驗證與自我修正的 DeepSeekMath V2

5.1 自我驗證

5.2 自我修正

6. DeepSeek V3.2 (2025 年 12 月 1 日)

6.1 DeepSeek V3.2 架構

6.2 強化學習更新

6.3 GRPO 更新

6.4 DeepSeek V3.2-Speciale 與擴展思維

7. 總結

1. DeepSeek 發布時間線

雖然 DeepSeek V3 在 2024 年 12 月剛發布時并沒有立刻引起轟動，但隨后推出的 DeepSeek R1 推理模型（基于相同的架構，使用 DeepSeek V3 作為基礎模型）改變了局面。它幫助 DeepSeek 成為了最受歡迎的開放權重模型之一，并成為了 OpenAI、Google、xAI 和 Anthropic 等公司專有模型的有力替代方案。

圖 2：2024 年 12 月發布的 DeepSeek V3 和 R1 架構。我們將在稍后的章節中重溫并討論這些架構細節。

那么，自 V3/R1 以來有什么新變化嗎？我相信 DeepSeek 團隊今年一定非常忙碌。然而，自 DeepSeek R1 發布后的過去 10 到 11 個月里，并沒有出現重大的版本發布。

就我個人而言，我認為花大約一年的時間來發布一個主要的 LLM 版本是合理的，因為這涉及海量的工作。然而，我在各種社交媒體平臺上看到人們宣稱該團隊已經「涼了」。

最后，這并不代表他們什么都沒發布。今年其實陸續有一些較小的發布，例如 DeepSeek V3.1 和 V3.2-Exp。

圖 3：自去年以來的 DeepSeek 發布情況。主要模型以紅色顯示。

正如我在九月份所預測的那樣，DeepSeek V3.2-Exp 的發布旨在為托管剛剛發布的 V3.2 模型準備生態系統和推理基礎設施。

V3.2-Exp 和 V3.2 使用了一種非標準的稀疏注意力（Sparse Attention）變體，這需要定制代碼，我們稍后會詳細介紹這種機制。

2. 混合推理模型與專用推理模型

在進一步討論模型細節之前，有必要先探討一下整體的模型類型。最初，DeepSeek V3 是作為一個基礎模型發布的，而 DeepSeek R1 則增加了額外的后訓練，以開發成一個專用的推理模型。這一過程總結在下圖中。

圖 4：DeepSeek R1 訓練流程概覽

這里值得注意的是，DeepSeek V3 是基礎模型，而 DeepSeek R1 是專用的推理模型。

在 DeepSeek 推進的同時，其他團隊今年也發布了許多非常強大的開放權重推理模型。今年最強的開放權重模型之一是 Qwen3。最初，它是作為一個混合推理模型發布的，這意味著用戶可以在同一個模型中切換推理模式和非推理模式。（在 Qwen3 的案例中，這種切換是通過分詞器添加 / 省略標簽來實現的。）

從那時起，LLM 團隊發布了專用推理模型和指令 / 推理混合模型（有些團隊甚至在這兩者之間反復橫跳），如下圖的時間線所示。

圖 5：今年發布的部分推理模型和混合模型的時間線。

例如，Qwen3 最初是混合模型。但隨后，Qwen 團隊分別發布了獨立的指令（Instruct）模型和推理（Reasoning）模型，因為這兩種模型開發起來更容易，且在各自的用例中性能表現更好。

有些模型（如 OpenAI 的 gpt-oss）僅提供混合變體，用戶可以通過系統提示詞（System Prompt）選擇推理力度（我懷疑 GPT-5 和 GPT-5.1 也是類似的處理方式）。

而在 DeepSeek 的案例中，他們似乎反其道而行之，從專用推理模型（R1）轉向了混合模型（V3.1 和 V3.2）。不過，我懷疑 R1 主要是作為一個研究項目，旨在開發推理方法和驗證當時最好的推理模型。V3.2 的發布可能更多是為了開發針對不同用例的最佳整體模型。（在這里，R1 更像是一個測試平臺或原型模型。）

我也猜想，雖然 DeepSeek 團隊開發了具有推理能力的 V3.1 和 V3.2，但他們可能仍在開發專門的 R2 模型。

3. 從 DeepSeek V3 到 V3.1

在更詳細地討論新的 DeepSeek V3.2 發布之前，我認為先概述一下從 V3 到 V3.1 的主要變化會很有幫助。

3.1 DeepSeek V3 概覽與多頭潛在注意力 (MLA)

我已經在其他幾篇文章中非常詳細地討論了 DeepSeek V3 和 R1。

總結一下要點，DeepSeek V3 是一個基礎模型，它使用了兩個值得注意的架構特性：混合專家模型（MoE）多頭潛在注意力（MLA）

我想你此時可能已經對 MoE 非常熟悉了，所以我這里跳過介紹。

另一個值得注意的亮點是 MLA 的使用。MLA 已被用于 DeepSeek V2、V3 和 R1，它提供了一種節省內存的策略，特別適合與 KV 緩存搭配使用。MLA 的核心思想是在將鍵（Key）和值（Value）張量存儲到 KV 緩存之前，先將它們壓縮到一個低維空間中。

在推理時，這些壓縮的張量在使用前會被投影回其原始大小，如下圖所示。這雖然增加了一次額外的矩陣乘法，但顯著減少了內存使用。

（順便提一下，查詢 Query 也會被壓縮，但僅在訓練期間，推理期間不會。）

圖 6：DeepSeek V3 和 R1 中的多頭潛在注意力 (MLA)。為簡單起見，未顯示查詢向量的壓縮空間。

上圖闡述了 MLA 背后的主要思想：鍵和值首先被投影到一個潛在向量中，該向量可以存儲在 KV 緩存中以減少內存需求。這需要稍后進行向上投影（Up-projection）回到原始的鍵 - 值空間，但總體上它提高了效率（類比一下，你可以將其想象為 LoRA 中的降維和升維投影）。

順便說一句，正如前面提到的，MLA 在 DeepSeek V3 中并不是新事物，因為它的前身 DeepSeek V2 也使用了（甚至引入了）它。

3.2 DeepSeek R1 概覽與帶可驗證獎勵的強化學習 (RLVR)

DeepSeek R1 使用了與上述 DeepSeek V3 相同的架構。區別在于訓練配方。即，使用 DeepSeek V3 作為基礎模型，DeepSeek R1 專注于「帶可驗證獎勵的強化學習」（RLVR）方法，以提高模型的推理能力。

RLVR 的核心思想是讓模型從可以進行符號化或編程驗證的響應中學習，例如數學和代碼（但這當然也可以擴展到這兩個領域之外）。

圖 7：一個可驗證任務的示例。

GRPO算法，全稱「群相對策略優化」（Group Relative Policy Optimization），本質上是「近端策略優化」（PPO）算法的一個簡化變體。PPO 在用于 LLM 對齊的「帶人類反饋的強化學習」（RLHF）中非常流行。

圖 8：LLM 訓練中強化學習設置的比較。傳統的帶 PPO 的 RLHF 使用獎勵模型（基于人類偏好訓練）和評論家（價值模型）來指導學習。GRPO 取消了評論家模型。帶 GRPO 的 RLVR 更進一步，移除了獎勵模型，轉而依賴來自符號工具（如計算器或編譯器）的可驗證獎勵。

3.3 DeepSeek R1-0528 版本升級

正如 DeepSeek 團隊自己所述，DeepSeek R1-0528 基本上是一個「小版本升級」。

架構與 DeepSeek V3/R1 保持一致，改進主要在訓練方面，以使其達到當時 OpenAI o3 和 Gemini 2.5 Pro 的水平。

遺憾的是，DeepSeek 團隊沒有發布任何具體信息來描述這是如何實現的；然而，他們表示這部分源于后訓練流程的優化。此外，根據已分享的信息，我認為該模型的托管版本在推理時可能會使用更多的計算資源（即進行更長時間的推理）。

3.4 DeepSeek V3.1 混合推理

DeepSeek V3.1 是一個兼具通用聊天（指令）和推理能力的混合模型。也就是說，不再開發兩個獨立的模型，而是現在有一個模型，用戶可以通過聊天提示模板切換模式（類似于最初的 Qwen3 模型）。

DeepSeek V3.1 基于 DeepSeek V3.1-Base，而后者又基于 DeepSeek V3。它們都共享相同的架構。

4. DeepSeek V3.2-Exp 與稀疏注意力機制

DeepSeek V3.2-Exp (2025 年 9 月) 開始變得更有趣了。

最初，DeepSeek V3.2-Exp 在發布時并沒有霸榜基準測試，這也是為什么當時圍繞這個模型的興奮度不高的原因。然而，正如我在九月份推測的那樣，這很可能是一個早期的實驗性發布，旨在為更大規模的發布準備基礎設施（特別是推理和部署工具），因為 DeepSeek V3.2-Exp 中有一些架構上的變化。更大的發布是 DeepSeek V3.2（不是 V4），這一部分稍后會詳細介紹。

那么，DeepSeek V3.2-Exp 有什么新東西？首先，DeepSeek V3.2-Exp 是基于 DeepSeek V3.1-Terminus 作為基礎模型訓練的。什么是 DeepSeek V3.1-Terminus？它只是上一節提到的 DeepSeek V3.1 檢查點的一個小幅改進版。

技術報告指出：

DeepSeek-V3.2-Exp，一個實驗性的稀疏注意力模型，它通過持續訓練為 DeepSeek-V3.1-Terminus 配備了 DeepSeek 稀疏注意力 (DSA)。憑借由 Lightning Indexer 驅動的細粒度稀疏注意力機制 DSA，DeepSeek-V3.2-Exp 在訓練和推理方面都實現了顯著的效率提升，特別是在長上下文場景中。

如上段所述，這里的主要創新是他們在對 DeepSeek V3.1-Terminus 進行進一步訓練之前，添加了DeepSeek 稀疏注意力 (DSA)機制。

這個 DSA 由 (1) 一個 lightning indexer 和 (2) 一個 Token 選擇器（token-selector）組成，目標是有選擇地減少上下文以提高效率。

為了解釋它是如何工作的，讓我們從滑動窗口注意力開始。例如，滑動窗口注意力這種技術（最近被 Gemma 3 和 Olmo 3 使用）會將注意力窗口限制為固定大小，如下圖所示。

圖 9：在滑動窗口注意力中，當前的查詢 Token 不關注所有之前的 Token，而只關注一個子集。

DSA 基于與滑動窗口注意力相同的想法：只能關注一部分過去的 Token。然而，DSA 不是通過固定寬度的滑動窗口來選擇可關注的 Token，而是擁有一個索引器和 Token 選擇器來決定哪些過去的 Token 可以被關注。換句話說，可被關注的 Token 選擇更加隨機，如下圖所示。

圖 10：在 DSA 中，當前 Token 可以關注一組選定的過去 Token，而不是像常規因果注意力那樣關注所有過去 Token。

然而，雖然我上面說了「隨機」，但選擇哪些過去 Token 的模式實際上并不是隨機的，而是學習得到的。

實際上，DSA 使用其所謂的 lightning indexer 基于所有先前的 Token 為每個新的查詢 Token 計算相關性分數。對于此計算，lightning indexer 使用 DeepSeek 多頭潛在注意力 (MLA) 中的壓縮 Token 表示，并計算與其他 Token 的相似度。相似度分數基本上是通過 ReLU 函數的查詢向量和鍵向量之間的縮放點積。

如果你對數學細節感興趣，下面展示了（摘自論文的）該 lightning indexer 相似度分數的方程：

這里，w 是一個學習得到的每頭（per-head）加權系數，決定每個索引器頭對最終相似度分數的貢獻程度。q 指的是查詢向量，k 指的是鍵向量。下面是不同下標的列表：

t：當前查詢 Token 的位置；
s：序列中先前 Token 的位置 (0 ≤ s < t)；
j：不同索引器頭的索引（為了簡單起見，圖 10 僅顯示了一個頭），所以 q_{t,j} 意思是「索引器頭 j 中當前 Token t 的查詢向量」。

你可能會注意到索引器僅針對查詢，而不針對鍵。這是因為模型只需要決定每個新查詢應該考慮哪些過去的 Token。鍵已經被壓縮并存儲在 KV 緩存中，因此索引器不需要再次對它們進行評分或壓縮。

這里的 ReLU 函數，因為它是 f(x) = max(x, 0)，會將負的點積位置歸零，這理論上可以實現稀疏性。但由于存在對不同頭的求和，索引器分數實際上為 0 的可能性很小。稀疏性主要來自于單獨的 Token 選擇器。

單獨的 Token 選擇器僅保留少量高分 Token（例如，top-k 位置），并構建一個稀疏注意力掩碼，掩蓋掉未包含在選定子集中的其他 Token。（注意這里的 k 是 top-k 中的 k，不要與上面方程中用于鍵的 k 混淆，這是一個超參數，在 DeepSeek 團隊分享的模型代碼中設置為 2048。）

下圖以流程圖的形式說明了整個過程。

圖 11：DeepSeek V3.2 稀疏注意力機制的可視化總結。

總結一下，索引器和 Token 選擇器的結果是，每個 Token 只關注模型習得的認為最相關的幾個過去 Token，而不是所有 Token 或固定的局部窗口。

這里的目標不是為了超越 DeepSeek V3.1-Terminus 的性能，而是在減少性能衰減（由于稀疏注意力機制）的同時，受益于效率的提升。

總的來說，DSA 將注意力機制的計算復雜度從二次的 O(L2) 降低到了線性的 O(Lk)，其中 L 是序列長度，k 是選定 Token 的數量。

5. 采用自我驗證與自我修正的 DeepSeekMath V2

討論完 DeepSeek V3.2-Exp，我們越來越接近本文的主題：DeepSeek V3.2。然而，還有一個拼圖需要先討論。

2025 年 11 月 27 日（美國的感恩節），就在 DeepSeek V3.2 發布前 4 天，DeepSeek 團隊發布了基于DeepSeek V3.2-Exp-Base的 DeepSeekMath V2。

該模型是專門為數學開發的，并在多個數學競賽中獲得了金牌級的分數。本質上，我們可以將其視為 DeepSeek V3.2 的概念驗證模型，它引入了另一項技術。

這里的關鍵在于，推理模型（如 DeepSeek R1 和其他模型）是使用外部驗證器訓練的，模型學會了在得出最終答案之前自行編寫解釋。然而，這些解釋可能是不正確的。

正如 DeepSeek 團隊簡潔指出的那樣，常規 RLVR 的缺點是：

[…] 正確的答案并不保證正確的推理。
[…] 模型可能通過有缺陷的邏輯或幸運的錯誤得出正確的答案。

他們旨在解決的 DeepSeek R1 RLVR 方法的另一個局限性是：

[…] 許多數學任務（如定理證明）需要嚴格的逐步推導而不是數值答案，這使得最終答案獎勵并不適用。

因此，為了改善上述兩個缺點，他們訓練了兩個模型：

一個用于定理證明的基于 LLM 的驗證器（Verifier）。
主模型，一個證明生成器（Proof-Generator），它使用基于 LLM 的驗證器作為獎勵模型（而不是符號驗證器）。

除了上述通過 LLM 進行自我驗證外，他們還使用了自我修正，讓 LLM 迭代地改進其自己的答案。

5.1 自我驗證

擁有一個對中間步驟進行評分的 LLM 并不是什么新鮮事。有不少關于所謂「過程獎勵模型」（Process Reward Models）的研究專注于此。例子包括：Solving Math Word Problems With Process- and Outcome-based Feedback (2022) 或 Let’s Verify Step by Step (2023)，還有更多。

過程獎勵模型的挑戰在于，檢查中間獎勵是否正確并不容易，這也可能導致獎勵黑客攻擊（reward hacking）。

在 2025 年 1 月的 DeepSeek R1 論文中，他們沒有使用過程獎勵模型，因為他們發現：

在我們的實驗中，與其在大規模強化學習過程中引入的額外計算開銷相比，它的優勢是有限的。

在此文中，他們以自我驗證的形式成功地重新審視了這一點。其動機是，即使不存在參考答案，人類在閱讀證明和發現問題時也能進行自我糾正。

因此，為了開發一個更好的撰寫數學證明的模型（下圖中的 LLM 1），他們開發了一個證明驗證器（下圖中的 LLM 2），它可以用作「LLM 即裁判」（LLM-as-a-judge）來對證明者（LLM 1）的輸出進行評分。

圖 12：通用的數學證明生成器 (LLM 1) 和驗證器 (LLM 2) 設置。

驗證器 LLM (LLM 2) 接收一個評分標準來對生成的證明進行評分，分數規則如下：

「1 分：完整且嚴謹的證明，所有邏輯步驟都有清晰的論證；」
「0.5 分：證明整體邏輯合理，但有微小錯誤或遺漏細節；」
「0 分：證明存在根本性缺陷，包含致命的邏輯錯誤或關鍵缺失。」

對于證明驗證器模型，他們從 DeepSeek V3.2-Exp-SFT 開始，這是他們基于 DeepSeek V3.2-Exp 通過在推理數據（數學和代碼）上進行監督微調而創建的模型。然后，他們使用格式獎勵（檢查解決方案是否符合預期格式）和基于預測分數與實際分數（由人類數學專家標注）接近程度的分數獎勵，對該模型進行進一步的強化學習訓練。

證明驗證器 (LLM 2) 的目標是檢查生成的證明 (LLM 1)，但誰來檢查證明驗證器呢？為了使證明驗證器更加穩健并防止其產生幻覺問題，他們開發了第三個 LLM，即元驗證器（Meta-verifier）。

圖 13：元驗證器 (LLM 3) 檢查驗證器 (LLM 2) 是否正確評估了生成器 (LLM 1)。

元驗證器 (LLM 3) 也是通過強化學習開發的，類似于 LLM 2。雖然使用元驗證器不是必須的，但 DeepSeek 團隊報告稱：

由元驗證器評估的驗證器證明分析的平均質量得分從 0.85 提高到了 0.96，同時保持了相同的證明評分預測準確性。

這實際上是一個相當有趣的設置。如果你熟悉生成對抗網絡 (GAN)，你可能會在這里看到類比。例如，證明驗證器（將其視為 GAN 判別器）改進了證明生成器，而證明生成器生成了更好的證明，進一步推動了證明驗證器的進步。

元分數（Meta score）用于驗證器 (LLM 2) 和生成器 (LLM 1) 的訓練期間。它并不用于推理時的自我修正循環，我們將在下一節討論這一點。

5.2 自我修正

在上一節中，我們談到了自我驗證，即分析解決方案的質量。其目的是為了實現自我修正，這意味著 LLM 可以根據反饋采取行動并修改其答案。

傳統上，在自我修正這種成熟且流行的推理擴展技術中，我們會使用同一個 LLM 來生成解決方案并對其進行驗證，然后再進行修正。換句話說，在前面的圖 12 和 13 中，LLM 1 和 LLM 2 將是同一個 LLM。因此，傳統的自我修正過程如下所示：

圖 14：一個經典的自我修正迭代，同一個 LLM 生成初始響應（Output 1），對其進行評估（Eval），并生成修正后的答案（Output 2）。

然而，DeepSeek 團隊觀察到在實踐中使用同一個 LLM 既進行生成又進行驗證存在一個關鍵問題：

當被提示一次性生成并分析其自己的證明時，生成器往往會聲稱正確，即使外部驗證器很容易發現缺陷。換句話說，雖然生成器可以根據外部反饋修正證明，但它無法像專用驗證器那樣嚴謹地評估自己的工作。

作為邏輯推論，人們會假設他們使用獨立的證明生成器 (LLM 1) 和證明驗證器 (LLM 2)。因此，這里使用的自我修正循環變得類似于下圖所示。請注意，我們省略了 LLM 3，它僅在開發驗證器 (LLM 2) 期間使用。

圖 15：使用獨立驗證器 LLM (LLM 2) 的自我修正。

然而，在實踐中，與圖 15 不同的是，DeepSeek 團隊使用的生成器和驗證器 LLM 與圖 14 中的經典自我修正循環是同一個：

「所有實驗都使用了一個單一模型，即我們的最終證明生成器，它同時執行證明生成和驗證。」

換句話說，獨立的驗證器對于訓練是必不可少的——可用于改進生成器，但在生成器足夠強大之后，在推理期間就不再使用（或不需要）它了。與簡單的單模型自我修正的關鍵區別在于，最終的證明者是在更強大的驗證器和元驗證器的指導下訓練出來的，因此它學會了將這些評分標準應用于自己的輸出。

此外，在推理期間使用這種合二為一的 DeepSeekMath V2 驗證器在資源和成本方面也是有利的，因為它比運行第二個 LLM 進行證明驗證增加了更少的復雜性和計算需求。

回到圖 14 和 15 中展示的一般自我修正概念，這兩張圖都顯示了 2 次迭代的自我修正（初始迭代和修正后的答案）。當然，我們可以向此過程添加更多迭代。這是一個經典的推理擴展權衡：我們添加的迭代越多，生成答案的成本就越高，但整體準確性也會越高。

在論文中，DeepSeek 團隊使用了多達 8 次迭代，看起來準確性尚未飽和。

圖 16：額外的自我修正迭代提高了準確性。來自 DeepSeekMath V2 論文，并加上了注釋。Best@32 多數投票方法也被稱為自我一致性（Self-consistency）。

6. DeepSeek V3.2 (2025 年 12 月 1 日)

我們在上一節花了這么多時間討論 DeepSeekMath V2 的原因是：

它是一個非常有趣的概念驗證，通過自我驗證和自我修正技術進一步推動了「帶可驗證獎勵的強化學習」（RLVR）理念；
自我驗證和自我修正技術也被用于 DeepSeek V3.2 中。

但在我們進入這部分之前，先來看看 DeepSeek V3.2 的總體概況。這個模型之所以重要，是因為它與當前的旗艦模型相比表現非常出色。

圖 17：DeepSeek V3.2 與專有旗艦模型之間的基準測試對比。來自 DeepSeek V3.2 報告，并加上了注釋。

與 DeepSeek 的其他幾款模型類似，V3.2 也附帶了一份很棒的技術報告，我將在接下來的章節中進行討論。

6.1 DeepSeek V3.2 架構

當然，該模型的主要動機是提高整體模型性能。例如，像 DeepSeekMath V2 一樣，它在數學基準測試中獲得了金牌級的表現。然而，該模型在訓練時也考慮到了工具的使用，并且在其他任務（例如代碼和智能體任務）上也表現良好。

同時，DeepSeek 團隊將計算效率視為一個巨大的驅動因素。這就是為什么他們使用了 V2 和 V3 中的多頭潛在注意力 (MLA) 機制，以及他們在 V3.2 中添加的 DeepSeek 稀疏注意力 (DSA) 機制。事實上，論文中提到「DeepSeek-V3.2 使用了與 DeepSeek-V3.2-Exp 完全相同的架構」，這我們在前面的章節中已經討論過了。

圖 18：DeepSeek V3.2 架構。

正如我之前提到的，DeepSeek V3.2-Exp 的發布很可能是為了讓生態系統和推理基礎設施準備好托管剛剛發布的 V3.2 模型。

圖 19：由 DeepSeek 稀疏注意力 (DSA) 實現的推理成本節省。來自 DeepSeek V3.2 報告，并加上了帶注釋。

由于架構與 DeepSeek V3.2-Exp 相同，有趣的細節在于訓練方法，我們將在接下來的章節中討論。

6.2 強化學習更新

總的來說，DeepSeek 團隊采用了類似于 DeepSeek R1 的「帶可驗證獎勵的強化學習」（RLVR）程序，使用了群體相對策略優化（GRPO）算法。但是，有一些有趣的更新值得討論。

最初，DeepSeek R1 使用了：

格式獎勵（確保答案格式正確）；
語言一致性獎勵（確保模型在編寫回復時不會在不同語言之間切換）；
主要的驗證者獎勵（數學或代碼問題中的答案是否正確）。

對于 DeepSeek V3.2，他們更改了獎勵：

對于推理和智能體任務，我們采用基于規則的結果獎勵、長度懲罰和語言一致性獎勵。對于通用任務，我們采用生成式獎勵模型，其中每個提示都有自己的評估標準。

例如，他們移除了格式獎勵，但為智能體任務添加了長度懲罰。然后，對于沒有符號驗證器（數學）或代碼解釋器來驗證答案的通用任務，他們使用獎勵模型（另一個訓練用于輸出獎勵分數的 LLM）。

所以，聽起來這個流程不再是像 DeepSeek R1 那樣純粹的基于驗證器的 RLVR，而是 RLVR（用于可驗證領域）和更標準的「LLM 即裁判」獎勵建模（用于其他所有領域）的混合體。

對于數學領域，他們表示額外「整合了來自 DeepSeekMath-V2 的數據集和獎勵方法」，這我們在本文前面已經討論過了。

6.3 GRPO 更新

關于 RLVR 流程內部的學習算法 GRPO 本身，自 DeepSeek R1 論文中的原始版本以來，他們也做了一些更改。

在過去的幾個月里，數十篇論文提出了對 GRPO 的修改建議，以提高其穩定性和效率。

如果不深入 GRPO 的數學細節，簡單來說，DAPO 修改了 GRPO，采用了非對稱裁剪、動態采樣、Token 級損失和顯式的基于長度的獎勵整形。Dr. GRPO 更改了 GRPO 目標本身，以移除長度和標準差歸一化。

最近的 Olmo 3 論文也采用了類似的變更，我引用如下：

零梯度信號過濾：我們移除獎勵完全相同的實例組（即優勢標準差為零的批次），以避免在提供零梯度的樣本上進行訓練，類似于 DAPO (Yu et al., 2025)。[DAPO]
主動采樣：盡管進行了零梯度過濾，我們仍使用一種新穎、更高效的動態采樣版本維持一致的批次大小 (Yu et al., 2025)。詳見 OlmoRL Infra。[DAPO]
Token 級損失：我們使用 Token 級損失，通過批次中的 Token 總數進行歸一化 (Yu et al., 2025)，而不是按樣本歸一化，以避免長度偏差。[DAPO]
無 KL 損失：作為一種常見做法，我們移除了 KL 損失 (GLM-4.5 Team et al., 2025; Yu et al., 2025; Liu et al., 2025b)，因為它允許更少限制的策略更新，并且移除它不會導致過度優化或訓練不穩定。[DAPO 和 Dr. GRPO]
更高裁剪閾值：我們將損失中的上限裁剪項設置為比下限略高的值，以允許對 Token 進行更大的更新，正如 Yu et al. (2025) 提議的那樣。[DAPO]
截斷重要性采樣：為了調整推理引擎和訓練引擎之間對數概率的差異，我們將損失乘以截斷的重要性采樣比率，遵循 Yao et al. (2025)。
無標準差歸一化：在計算優勢時，我們不對組的標準差進行歸一化，遵循 Liu et al. (2025b)。這消除了難度偏差，即獎勵標準差低的問題（例如太難或太容易）其優勢會被歸一化項顯著放大。[Dr. GRPO]

DeepSeek V3.2 中的 GRPO 修改稍微不那么激進，我用類似于 Olmo 3 的風格總結如下：

特定領域的 KL 強度（包括數學為零）： DeepSeek V3.2 沒有像 DAPO 和 Dr. GRPO 那樣對數學類 RL 總是放棄 KL，而是在目標中保留 KL 項，但根據每個領域調整其權重。然而，他們也指出，非常弱甚至為零的 KL 通常對數學效果最好。（但不是完全移除它，而是變成了一個超參數。）
無偏 KL 估計：如上所述，DeepSeek V3.2 沒有移除 KL 懲罰。除了將其視為調節旋鈕外，他們還提出了對 GRPO 中 KL 懲罰估計方式的修正，即用用于主損失的相同重要性比率重新加權 KL 項，因此 KL 梯度實際上與樣本來自舊策略而不是當前策略的事實相匹配。
異策略序列掩碼（Off-policy sequence masking）：當他們在許多梯度步驟中重用 rollout 數據（rollout 只是模型生成的完整序列的術語）時，DeepSeek V3.2 測量當前策略在每個完整答案上偏離 rollout 策略的程度，并簡單地丟棄那些既具有負優勢又「過于偏離策略」的序列。因此，這防止了模型從過度偏離策略或陳舊的數據中學習。
保留 MoE 模型的路由：對于混合專家骨干網絡，他們記錄了 rollout 期間激活了哪些專家，并在訓練期間強制使用相同的路由模式，以便梯度更新針對那些產生采樣答案的專家。
保留 top-p /top-k 的采樣掩碼：當 rollout 使用 top-p 或 top-k 采樣時，DeepSeek V3.2 存儲選擇掩碼并在計算 GRPO 損失和 KL 時重新應用它，以便訓練時的動作空間與采樣期間實際可用的動作空間相匹配。
保留原始 GRPO 優勢歸一化： Dr. GRPO 表明 GRPO 的長度和每組標準差歸一化項會使優化偏向于過長的錯誤答案，并過度加權非常容易或非常難的問題。Dr. GRPO 通過移除這兩個項并回到無偏的 PPO 風格目標來解決這個問題。相比之下，DAPO 轉向 Token 級損失，這也改變了長答案與短答案的加權方式。然而，DeepSeek V3.2 保留了原始的 GRPO 歸一化，而是專注于其他修正，例如上面的那些。

所以，總的來說，DeepSeek V3.2 比最近的其他一些模型更接近原始的 GRPO 算法，但增加了一些邏輯上的微調。

6.4 DeepSeek V3.2-Speciale 與擴展思維

DeepSeek V3.2 還有一個極端的、擴展思維（extended-thinking）的變體，稱為DeepSeek V3.2-Speciale，它在 RL 階段僅在推理數據上進行訓練（更類似于 DeepSeek R1）。除了僅在推理數據上訓練外，他們還在 RL 期間減少了長度懲罰，允許模型輸出更長的響應。

生成更長的響應是一種推理擴展形式，為了獲得更好的結果，響應因長度增加而變得更加昂貴。

圖 20：擴展思維的 Speciale 模型實現了更高的準確性，但也生成了更多的 Token。

7. 總結

在這篇文章中，我沒有涵蓋 DeepSeek V3.2 訓練方法的所有細節，但我希望與之前的 DeepSeek 模型的比較有助于闡明主要觀點和創新。

簡而言之，有趣的要點是：

DeepSeek V3.2 使用了自 DeepSeek V3 以來與其所有前身相似的架構；
主要的架構調整是他們添加了來自 DeepSeek V3.2-Exp 的稀疏注意力機制以提高效率；
為了提高數學性能，他們采用了來自 DeepSeekMath V2 的自我驗證方法；
訓練流程有幾項改進，例如 GRPO 穩定性更新（注意論文還涉及圍繞蒸餾、長上下文訓練、集成類似于 gpt-oss 的工具使用等其他幾個方面，我們在本文中沒有涵蓋）。

無論 DeepSeek 模型與其他較小的開放權重模型或像 GPT-5.1 或 Gemini 3.0 Pro 這樣的專有模型相比的市場份額如何，有一件事是肯定的：DeepSeek 的發布總是很有趣，而且從隨開放權重模型檢查點一起發布的技術報告中總有很多值得學習的東西。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.