在大模型賽道逐漸從“參數競賽”走向“能力競賽”的當下,一個顯著的變化正在發生:開源模型開始在越來越多關鍵能力維度上逼近、甚至沖擊頂級閉源模型。
12月1日,DeepSeek同步發布兩款正式版模型——DeepSeek-V3.2DeepSeek-V3.2-Speciale,前者在推理測試中達到GPT-5水平,僅略低于Gemini-3.0-Pro,而后者在IMO 2025等四項國際頂級競賽中斬獲金牌。
V3.2在工具調用能力上達到當前開源模型最高水平,大幅縮小了開源模型與閉源模型的差距。
據官方介紹,V3.2是DeepSeek首個將思考融入工具使用的模型,在“思考模式”下仍然支持工具調用。該公司通過大規模Agent訓練數據合成方法,構造了1800多個環境、85000多條復雜指令的強化學習任務,大幅提升了模型在智能體評測中的表現。
V3.2證明了一件事:通過正確的架構+數據策略+工具融合設計,開源模型完全有能力成為世界級選手。Deepseek研究員茍志斌在社交平臺X上發帖稱:
如果說Gemini-3證明了持續擴大預訓練規模依然有效,那么DeepSeek-V3.2-Speciale則證明了在超大上下文下進行強化學習擴展是可行的
我們花了一年時間把DeepSeek-V3推到極限。得到的經驗是:后訓練的瓶頸,是靠優化方法和數據而不是靠等待一個更強的基礎模型來解決的
![]()
DSA突破性能瓶頸,“思考+工具調用”策略帶來質的飛躍
這次的核心飛躍,來自兩大底層創新。
第一個是DeepSeek Sparse Attention(DSA)稀疏注意力機制,DeepSeek兩個月前在實驗版(V3.2-Exp)中引入的一項關鍵結構。
該稀疏注意力機制有效解決了傳統注意力機制在長序列處理中的效率瓶頸,將注意力復雜度從O(L2)降低至O(Lk),同時保持模型性能。
在架構層面,DSA采用閃電索引器和細粒度Token選擇機制兩大組件。閃電索引器計算查詢Token與歷史Token之間的索引分數,決定哪些Token被選中;細粒度Token選擇機制則基于索引分數檢索對應的鍵值條目。該機制基于MLA的MQA模式實現,確保計算效率的同時維持模型表現。
在大量用戶對比測試中發現:V3.2-Exp在任何場景中都沒有明顯弱于 V3.1,稀疏注意力不僅沒有損失能力,反而大幅提升了效率和響應質量。這意味著,模型可以:看得更“遠”、想得更“深”、卻用更少的計算資源。
![]()
第二,DeepSeek-V3.2提升顯著的關鍵在于訓練策略的根本性改變。以往版本采用"直接調工具"的簡單模式,而V3.2創新性地實現了"思考+調工具"(Thinking in Tool-use)的融合機制。
DeepSeek-V3.2 成為首個在“思考模式”下仍然支持工具調用的模型。也就是說,它不再是一看到問題馬上用工具,而是變成:先分析、再規劃、再調用工具、再驗證、再修正。
這種表現更接近人類的“思考-行動-反思”閉環,為復雜任務(如搜索、寫代碼、修 Bug、規劃項目)帶來了指數級的能力上升。
數據策略的改變:1800+環境+8.5萬條復雜指令
至于模型為什么突然變強這么多?本質上,是訓練策略徹底升級了。
DeepSeek搭建了一條全新的大規模數據合成流水線,生成1800多個環境和85000多條高難度指令,專門用于強化學習。
這種“冷啟動+大規模合成數據RL”的訓練方法,讓模型在復雜任務如代碼修復、搜索等場景中的泛化能力大幅提升。通過構造“難解答、易驗證”的強化學習任務,模型學會了在推理過程中有機融合工具調用。
![]()
這種方式的核心價值在于:不再依賴真實人類標注,而是構造“極限題庫”錘煉模型能力。
結果也非常清晰:在代碼修復、搜索路徑規劃、多步驟任務中,V3.2 的泛化能力大幅領先過往版本,甚至接近閉源商業模型。
在思考上下文管理方面,V3.2采用專門針對工具調用場景的優化策略。歷史推理內容僅在新用戶消息引入時被丟棄,而在工具相關消息(如工具輸出)添加時保持推理內容,避免了模型為每次工具調用重復推理整個問題的低效行為。
強化學習規模化顯著增強模型能力,后訓練算力超過預訓練的10%
DeepSeek-V3.2采用可擴展的強化學習框架,后訓練計算預算超過預訓練成本的10%,這一資源投入為高級能力的釋放奠定了基礎。
![]()
該公司在GRPO(Group Relative Policy Optimization)算法基礎上引入多項穩定性改進,包括無偏KL估計、離策略序列掩碼、保持路由等機制。
在專家蒸餾階段,該公司為每個任務領域開發專門的模型,涵蓋數學、編程、通用邏輯推理、智能體任務等六個專業領域,均支持思考和非思考模式。這些專家模型通過大規模強化學習訓練,隨后用于產生領域特定數據供最終檢查點使用。
混合RL訓練將推理、智能體和人類對齊訓練合并為單一RL階段,有效平衡了不同領域的性能表現,同時規避了多階段訓練常見的災難性遺忘問題。對于推理和智能體任務,采用基于規則的結果獎勵、長度懲罰和語言一致性獎勵;對于通用任務,則使用生成式獎勵模型進行評估。
大模型“權力結構”正在改變!
在與海外幾大模型的對比中,DeepSeek-V3.2展現出顯著的性能優勢。在推理能力方面,V3.2在AIME 2025測試中達到93.1%的通過率,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0%。在HMMT 2025測試中,V3.2得分92.5%,與頂級閉源模型差距進一步縮小。
在智能體能力評測中,V3.2的表現尤為突出。在代碼智能體任務SWE-Verified中獲得73.1%的解決率,在Terminal Bench 2.0中達到46.4%的準確率,顯著超越現有開源模型。在搜索智能體評估BrowseComp中,通過上下文管理技術,V3.2從51.4%提升至67.6%的通過率。
在工具使用基準測試中,V3.2在τ2-Bench中獲得80.3%的通過率,在MCP-Universe中達到45.9%的成功率。值得注意的是,V3.2并未針對這些測試集的工具進行特殊訓練,顯示出強大的泛化能力。相比之下,同期開源模型如MiniMax-M2-Thinking在多項測試中的表現明顯落后。
![]()
DeepSeek-V3.2 的發布背后,其實是一個更大的信號:閉源模型的絕對技術壟斷正在被打破,開源模型開始具備一線競爭力。
這具有三層意義:
對開發者:成本更低、可定制性更強的高性能模型已出現;對企業:不必再完全依賴海外 API,也能構建強大 AI 系統;對產業:大模型軍備競賽從“誰參數大”,升級為“誰方法強”。
而DeepSeek,此時站在了最前排。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.