網易首頁 > 網易號 > 正文申請入駐

DeepSeek-V3.2｜技術報告解讀

2025-12-01 23:51:38　來源: 賽博禪心

北京舉報

分享至

這是一篇報告解讀，原文是《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》

DS-V3.2獲得這份報告

先說結論

DeepSeek-V3.2
在推理能力上追平 GPT-5-High，在部分指標上超越

DeepSeek-V3.2-Speciale（高算力版）
在 2025 年 IMO 和 IOI 拿了金牌，推理能力接近 Gemini-3.0-Pro

圖1｜核心基準對比。DeepSeek-V3.2-Speciale 在數學和編程上已經和 Gemini-3.0-Pro 打平怎么做到的？三件事

DSA（DeepSeek Sparse Attention）
一種稀疏注意力機制，大幅降低長上下文的計算成本

后訓練加碼
把后訓練的計算預算提到預訓練的 10% 以上

大規模合成數據
生成了 1,800 個環境、85,000 個任務，全是合成的

下面一個一個說

DSA：把注意力從 O(L2) 降到 O(Lk)

傳統的 Transformer 注意力機制是 O(L2) 復雜度，L 指的是序列長度

簡單說一下計算機領域，通常用 O(x) 來說明復雜度：比如 O(L) 的含義是隨著 L 增加，則復雜度線性增加；而 O(L2) 的意思是按長度的平方倍增加。文本長度翻 2 倍，計算量翻 4 倍；長度翻 10 倍，計算量翻 100 倍

這長上下文場景中，這個復雜度就成了大問題，推理慢，后訓練也很難做
所以你很少會見到超過 128k 的上下文（ GPT-3.5 最早默認 4k 上下文）

DeepSeek 的解決方案是 DSA，核心思路是：
并非每個 token 都看全部上下文，只看最相關的 k 個 token

這樣計算量就變成 O(Lk)，k 是個固定值（2048），不再隨文本長度爆炸式增長

圖2｜DSA 架構。Lightning Indexer 快速篩選，Top-k Selector 精選 2048 個 token 做注意力計算

具體實現分兩步：

第一步：Lightning Indexer

一個輕量級的打分器，給每個歷史 token 打分，決定哪些值得關注

這個打分器用 ReLU 激活函數，可以跑在 FP8 精度，算力開銷很小

第二步：Fine-grained Token Selection

根據 Lightning Indexer 的打分，只選 top-k 個 token 做真正的注意力計算

在 DeepSeek-V3.2 里，k =2048

雖然 Lightning Indexer 本身還是 O(L2)，但它比主注意力輕很多，整體效率大幅提升

DSA 訓練的兩個階段階段一：Dense Warm-up

先凍住主模型，只訓練 Lightning Indexer

訓練目標是讓 Indexer 的輸出分布對齊主注意力的分布

用 KL 散度做 loss

只訓練了 1000 步，共 2.1B tokens

階段二：Sparse Training

放開所有參數，讓模型適應稀疏注意力模式

繼續用 KL 散度對齊 Indexer 和主注意力

訓練了 15000 步，共 943.7B tokens

圖3｜推理成本對比。V3.2 在長序列場景下成本幾乎是平的，V3.1 是線性增長效果怎么樣？

在 128K 長度的 prefilling 階段，V3.2 的成本基本不隨位置增長，V3.1-Terminus 是線性增長

并且：性能沒降

在 ChatbotArena 的 Elo 評分上，V3.2-Exp 和 V3.1-Terminus 基本持平

在獨立的長上下文評測（AA-LCR、Fiction.liveBench）上，V3.2-Exp 甚至更好

后訓練加碼：預算超過預訓練的 10%

過去，開源模型的后訓練投入普遍不足，這限制了它們在難任務上的表現

DeepSeek 的做法是：大力出奇跡

具體數字是：后訓練的計算預算超過預訓練成本的 10%

這是很激進的配置

后訓練流程分兩步第一步：專家蒸餾（Specialist Distillation）

為每個任務領域訓練一個專門的「專家模型」
六個領域：數學、編程、通用邏輯推理、通用智能體、代碼智能體、搜索智能體

每個領域都支持 thinking 和 non-thinking 兩種模式
每個專家都用大規模 RL 訓練

訓練好之后，用專家模型生成領域數據，給最終模型用

第二步：混合 RL 訓練（Mixed RL Training）

把推理、智能體、人類對齊三類任務合并成一個 RL 階段

用 GRPO（Group Relative Policy Optimization）算法

這樣做的好處是：避免多階段訓練的災難性遺忘

GRPO 的幾個關鍵改進

論文詳細說了四個穩定化技巧：

1. Unbiased KL Estimate

原來的 K3 estimator 在某些情況下會給低概率 token 分配過大的梯度權重，導致訓練不穩定

DeepSeek 用重要性采樣修正了這個問題

Off-Policy Sequence Masking

把偏離當前策略太遠的負樣本 mask 掉

直覺是：從自己的錯誤里學比從不相關的錯誤里學更有效

Keep Routing

MoE 模型的專家路由在推理和訓練時可能不一致

DeepSeek 保存推理時的路由路徑，訓練時強制復用

Keep Sampling Mask

Top-p 采樣時的截斷 mask 也保存下來，訓練時復用

保證采樣策略和訓練策略一致

大規模智能體數據合成

泛化能力，是大模型在智能體場景的另一個短板

原因很簡單：沒有足夠多樣的訓練環境

DeepSeek 的解決方案是：自己合成

表1｜智能體任務分布。50275 個搜索任務、24667 個代碼任務、4417 個通用任務、5908 個代碼解釋任務

具體數據代碼智能體 24,667 個任務（真實環境，提取的提示）搜索智能體 50,275 個任務（真實環境，合成的提示）通用智能體 4,417 個任務（合成環境，合成提示）代碼解釋器 5,908 個任務（真實環境，提取的提示）

合成流程，很有意思

1. 給定一個任務類型（比如旅行規劃），agent 先用 bash 和搜索工具從網上拉數據，存到沙箱數據庫
2. Agent 合成一套任務相關的工具函數
3. Agent 先提出一個簡單任務，寫好解決方案和驗證函數
4. 迭代增加任務難度，同時更新解決方案和驗證函數
5. 如果現有工具不夠用，agent 會自動擴展工具集

最終得到了1,827個環境，4,417個任務

合成任務示例：三天旅行規劃。約束條件復雜，驗證容易，搜索空間大——典型的「難解易驗」問題

有個 Trip Planning 的例子從杭州出發的三天旅行，要求不重復城市/酒店/餐廳/景點，第二天的預算有復雜的條件約束...

任務很難解，但驗證很簡單——只要檢查所有約束是否滿足

這類「難解易驗」的任務特別適合 RL

合成數據真的有用嗎？

論文做了消融實驗
用 V3.2-SFT 只在合成的通用智能體數據上做 RL，測試在Tau2Bench、MCP-Mark、MCP-Universe上的效果

結果是：顯著提升

作為對照，只在代碼和搜索環境上做 RL，這三個 benchmark 上沒有提升

簡而言之，這么做，確實帶來了泛化能力

圖5｜合成數據 RL 效果，藍線是 RL-Synthetic-Data Thinking in Tool-Use

讓推理和工具調用融合，是 v3.2 在工程上的關鍵設計

DeepSeek-R1 證明了「thinking」對解決復雜問題很有幫助

但 R1 的策略是：第二輪消息到來時，丟棄之前的推理內容

這在工具調用場景下很浪費——每次工具返回結果，模型都要重新推理一遍

圖4｜Thinking 保留機制。只有新用戶消息到來時才丟棄推理內容，工具結果不觸發丟棄

DeepSeek-V3.2 的設計是：

? 只有新的用戶消息到來時才丟棄推理內容
? 如果只是工具返回結果，保留推理內容
? 丟棄推理內容時，工具調用歷史保留

注意 Roo Code、Terminus 這類用「用戶消息」模擬工具交互的框架，無法享受這個優化；論文建議這類框架用 non-thinking 模式

Cold-Start

怎么讓模型學會「邊推理邊調工具」，這個能力需要教

DeepSeek 的做法是設計專門的 system prompt：

? 告訴模型可以在標簽內多次調用工具
? 最多 20 次
? 最終答案不能包含工具調用

雖然這樣訓練出來的模式一開始不太穩定，但偶爾能產生正確的軌跡

有了這些種子數據，后續的 RL 就能持續優化

結果對比

到這里，我們看一下模型的性能，自己看圖，不贅述了

這個是DeepSeek-V3.2的

表2｜完整基準對比。DeepSeek-V3.2-Thinking 與 GPT-5-High 基本持平，Speciale 版本在數學上超越

這個是DeepSeek-V3.2-Speciale的競賽成績

表4｜競賽成績。IOI 2025 第10名，ICPC WF 2025 第2名。這是通用模型，不是專門為競賽訓練的

需要說明的是：Token 效率，是 DeepSeek-V3.2 的一個短板

舉個例子，在 Codeforces 中，Gemini-3.0-Pro 用 22k tokens 拿 2708 分，DeepSeek-V3.2 用 42k tokens 才拿 2386 分，Speciale 版本用 77k tokens 拿 2701 分

Speciale 版本為了達到更高性能，輸出 token 數明顯更多

具體的看這張圖

表3｜各個模型的 token 效率其他：上下文管理策略

搜索智能體場景有個問題：經常撞到 128K 的上下文限制

DeepSeek 試了幾種策略：

1.Summary：超限后總結軌跡，重新開始
2.Discard-75%：丟棄前 75% 的工具調用歷史
3.Discard-all：丟棄所有工具調用歷史（類似 Anthropic 的 new context tool）
4.Parallel-fewest-step：并行采樣多個軌跡，選步數最少的

圖6｜上下文管理效果。Discard-all 簡單但效果最好，67.6% vs 基線 53.4%

結果有點反直覺：
最簡單的 Discard-all 效果最好，BrowseComp 從 53.4% 提升到 67.6%
Summary 效率最低，雖然也能提升性能

還差什么

DeepSeek 團隊坦誠說了三個局限：

1. 世界知識不夠豐富
訓練算力有限，知識廣度不如 Gemini-3.0-Pro
計劃未來擴大預訓練規模

2. Token 效率低
達到同樣輸出質量，需要生成更多 token
需要優化推理鏈的「智能密度」
這個上文提了

3. 最難的任務還有差距
在最頂尖的復雜任務上，和 Gemini-3.0-Pro 還有差距

我覺得吧，這三個局限其實指向同一個問題：算力
預訓練算力不夠，知識就不夠廣
后訓練算力不夠，token 效率就上不去
基礎模型能力不夠，最難的任務就做不好

但反過來說，DeepSeek 在有限算力下能做到這個程度，也或許說明...技術路線是對的？

總結

這篇論文，大致說了這三件事兒

?DSA 解決了效率問題，讓大規模后訓練成為可能
?大規模后訓練，帶來了更高的訓練回報
?大規模合成數據，讓智能體能力的泛化成為可能

三件事串起來，讓 DeepSeek v3.2，在推理能力上追平了 GPT-5

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
21 跟貼 21
架構解耦是統一多模態模型所必須的嗎？全新AIA損失：No

機器之心Pro 2025-12-02 14:25:38
0 跟貼 0

清華團隊：1.5B 模型新基線！用「最笨」的 RL 配方達到頂尖性能

機器之心Pro 2025-11-13 14:56:23
0 跟貼 0

Mamba作者團隊SonicMoE：一個Token舍入，讓MoE訓練速度提升近2倍

機器之心Pro 2025-12-19 14:51:44
0 跟貼 0
上市15天，摩爾線程劍指英偉達腹地

虎嗅APP 2025-12-21 06:37:08
35 跟貼 35

Snapchat提出Canvas-to-Image：一張畫布集成 ID、姿態與布局

機器之心Pro 2025-12-09 14:14:17
0 跟貼 0

智能體驅動：企業從“界面操作”到“智能助力”的必然路徑

鈦媒體APP 2025-10-20 16:40:12
0 跟貼 0
AI 大神 Karpathy 2025 年度總結刷屏：AI 既是天才也是智障，這 6 個轉折最關鍵

愛范兒 2025-12-20 12:52:18
3 跟貼 3

拆解CANN：當華為決定打開算力的「黑盒」

機器之心Pro 2025-12-19 14:45:00
0 跟貼 0
不愧是冠軍文本！何廣智開口就是核彈級別包袱，惹全場瘋狂爆燈！

阿笎評論哥 2025-12-21 01:20:21
2 跟貼 2
26歲鄭州小伙倫敦鬧市開店賣胡辣湯：一碗售價130元

極目新聞 2025-12-19 21:19:26
6014 跟貼 6014
豆包狂飆，字節AI再亮劍

華爾街見聞官方 2025-12-20 12:41:51
14 跟貼 14
SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

量子位 2025-12-21 22:22:13
0 跟貼 0
具身覺醒：AI 從感知到行動的能力躍遷

鈦媒體APP 2025-12-02 18:02:12
0 跟貼 0
當千億參數撞上5毫米芯片

鈦媒體APP 2025-12-10 11:10:12
0 跟貼 0
又揪出來一個巨貪，金額高達9.7億，首富夫人郝斌跨境逃亡失敗了

夢史 2025-12-19 15:16:22
2 跟貼 2
編程里的010和人體的010

熊貓在觀察 2025-12-20 08:06:35
0 跟貼 0
LeCun離職前的吐槽太猛了

量子位 2025-12-21 15:32:14
5 跟貼 5
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0
Codeforces難題不夠刷？謝賽寧等造了AI出題機，能生成原創編程題

機器之心Pro 2025-10-20 14:17:05
0 跟貼 0
【DeepSeek談藝】錢慧敏·水彩畫 | 水色氤氳處，亦有釋然之悟

文化視界網 2025-12-17 16:55:22
0 跟貼 0
為什么這篇谷歌論文被稱為「Attention is all you need」V2

量子位 2025-12-21 15:15:36
4 跟貼 4
2026馬年：順流年之勢，掌人生之舵

白龍王 2025-12-19 13:42:00
10 跟貼 10
暴力計算觸及極限，算力進入系統工程時代業內：基于生態的開放架構有望成為最優解

每日經濟新聞 2025-12-21 22:41:06
0 跟貼 0
中國印度算法對比，不到最后一刻不相信，印度妥妥的實力派

搞笑的科比 2025-12-17 17:35:47
1 跟貼 1
用iPhone級價格造出個人超算，清華博士創業拓展個人計算能力邊界

DeepTech深科技 2025-12-21 22:57:44
0 跟貼 0
AI生成操作系統新突破！上海交大提出文件系統開發新范式

量子位 2025-12-21 22:37:54
3 跟貼 3
ICT趨勢年會 | 王志勤：ICT邁入智能體新階段

通信世界 2025-12-19 20:08:35
0 跟貼 0
【DeepSeek談藝】孫文剛·油畫 | 柳梢風石徑影油彩里的素日雅韻

文化視界網 2025-12-20 17:43:50
1 跟貼 1
年度旅行家打卡"這么近那么美"的河北啦!超多照片全靠它幫我存著

LEO新視角 2025-12-17 21:41:00
0 跟貼 0
養個智能體豆芽是什么體驗

雙胞胎郞大郎二 2025-12-20 06:47:30
0 跟貼 0
智能體基礎設施是AI時代操作系統，真正的智能體要能思考、能分析，能行動

量子位 2025-12-11 03:38:22
0 跟貼 0
【DeepSeek談藝】林玉梅·書法 | 文墨融風骨楷行蘊雅懷

文化視界網 2025-12-18 14:56:10
0 跟貼 0
【DeepSeek談藝】彭柯·花鳥畫 | 一花一羽皆成趣，鮮活生動見天真

文化視界網 2025-12-19 16:34:26
0 跟貼 0
在自己的時區里綻放：告別比較，看見成長丨心理療愈小錦囊

上海黃浦 2025-12-20 18:11:21
0 跟貼 0
科技賦能成長

新浪財經 2025-12-19 17:49:10
0 跟貼 0
周受資內部信曝TikTok美國方案！字節跳動繼續擁有TikTok算法知識產權

每日經濟新聞 2025-12-19 11:50:33
0 跟貼 0
男子的車凌晨狂奔到外地 "好心人"收800元稱愿幫送回

環球網 2025-12-21 18:15:48
935 跟貼 935
小學生在家做編程，家里有條件的，建議給孩子測下智商！

笑到地老天荒號 2025-12-20 16:49:40
1 跟貼 1
SOLO Coder 在現有項目基礎上繼續完善功能、修復問題

機器之心Pro 2025-11-13 14:18:40
0 跟貼 0

女士內褲離譜到只剩幾根線，吹無痕自由，實則坑人不淺

初見音樂吧

2025-11-23 11:08:25

成毅，你真的很“爭氣”

溫柔娛公子

2025-12-21 18:40:07

婚外情，一般是怎么結束的？三個男女說了大實話

葉飛飛情感屋

2025-10-06 18:27:21

號稱鋼鐵女神！短發天花板，太驚艷了吧

伊人河畔

2025-12-21 21:37:50

經濟學人》2026年世界展望，沒有一條好消息

史政先鋒

2025-12-21 11:35:24

國產C919再獲2500億訂單，與27國簽訂適航，外媒：低估中國犯大錯

胖福的小木屋

2025-12-21 17:04:19

去沙特要謹慎！努涅斯坎塞洛身價狂跌，掙大錢與市場價值不兼容

里芃芃體育

2025-12-22 00:10:07

肥腸再次成為關注對象！醫生發現：常吃肥腸，身體會出現6大變化

看世界的人

2025-12-04 10:51:31

西蒙尼：每次看到皇馬和巴薩，我都會想我們付出100%是不夠的

懂球帝

2025-12-22 01:29:20

國安新帥基本確定！新總監下月到崗，副總抓內援引進，補強3位置

體壇鑒春秋

2025-12-21 20:39:59

南博事件升級！關鍵人物挖出，徐前院長使出“苦肉計”確實尷尬…

火山詩話

2025-12-20 16:28:41

爆大冷！湖人25分慘敗快船，詹姆斯空創79年NBA紀錄，前無古人

毒舌NBA

2025-12-21 14:11:01

董璇自爆全年都穿一次性內褲，一條100多塊，網友集體破防

星創文化

2025-12-01 22:54:08

CBA最新排名：京粵4連勝爭第1 遼寧領銜4隊緊隨 3隊一勝難求

狼叔評論

2025-12-22 00:54:05

臀大腰粗不用愁，粉色吊帶搭灰色瑜伽褲，透露著野性的時尚感

小喬古裝漢服

2025-12-21 12:10:43

魏建軍再開炮！推出購車防忽悠指南，有些車企瑟瑟發抖

象視汽車

2025-12-19 07:00:05

定了！西南地區又一座大型高鐵站即將開工，工程總投資150億元

興史興談

2025-12-21 14:05:11

俄羅斯最新民調：顯示思變的危險跡象，給普京本人敲響了警鐘

娛樂小可愛蛙

2025-12-22 00:37:15

踹掉費翔，和林子祥結婚卻分房睡的葉倩文，如今已走上了另一條路

東方不敗然多多

2025-12-22 01:22:36

女子醉駕找人“擺平”被騙7萬后跳樓身亡，詐騙者獲刑家屬起訴中間“介紹人”索賠23萬

紅星新聞

2025-12-21 13:39:17

賽博禪心

拜AI古佛，修賽博禪心

218文章數 12關注度

往期回顧全部

科技要聞

生態適配已超95% 鴻蒙下一關：十萬個應用

頭條要聞

必勝客牛排口感奇怪遭質疑"到底用的什么肉" 官方介入

頭條要聞

必勝客牛排口感奇怪遭質疑"到底用的什么肉" 官方介入

體育要聞

勇士火箭贏球：王牌之外的答案？

娛樂要聞

星光大賞太尷尬！搶話擋鏡頭，場地還小

財經要聞

老房子“強制體檢”，政府出手了

汽車要聞

-30℃，標致508L&凡爾賽C5 X冰雪"大考"

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

時尚

家居

房產

教育

數碼要聞

OPPO Watch X3智能手表入網，預計和OPPO Find N6一起發布

紅色不流行了?今年最火的穿搭居然是它

家居要聞

手機 / 數碼

房產 / 家居

DeepSeek-V3.2｜技術報告解讀

生態適配已超95% 鴻蒙下一關：十萬個應用

必勝客牛排口感奇怪遭質疑"到底用的什么肉" 官方介入

必勝客牛排口感奇怪遭質疑"到底用的什么肉" 官方介入

勇士火箭贏球：王牌之外的答案？

星光大賞太尷尬！搶話擋鏡頭，場地還小

老房子“強制體檢”，政府出手了

-30℃，標致508L&凡爾賽C5 X冰雪"大考"

態度原創

OPPO Watch X3智能手表入網，預計和OPPO Find N6一起發布

紅色不流行了?今年最火的穿搭居然是它

高端私宅 理想隱居圣地

中交·藍色港灣一周年暨藍調生活沙龍圓滿舉行

高考地理中的球狀風化

高端私宅理想隱居圣地