網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek-V3.2正式發(fā)布，推理性能逼近GPT-5

2025-12-01 23:17:02　來(lái)源: 問(wèn)芯

北京舉報(bào)

分享至

ChatGPT三歲生日這天，DeepSeek正式發(fā)布了V3.2及其增強(qiáng)版V3.2-Speciale，新版本在架構(gòu)效率、推理能力和智能體性能三個(gè)維度實(shí)現(xiàn)突破，同時(shí)API價(jià)格維持了此前的大幅降價(jià)，輸入token降至每百萬(wàn)1元，輸出token降至2元。

相比DeepSeek-V3.1，DeepSeek-V3.2唯一的架構(gòu)修改是通過(guò)繼續(xù)訓(xùn)練引入了DeepSeek Sparse Attention（DSA）。傳統(tǒng)Transformer的注意力計(jì)算復(fù)雜度為O（L2），DSA通過(guò)“閃電索引器”和細(xì)粒度token選擇，將復(fù)雜度降至O（Lk），其中k為2048。在H800集群實(shí)測(cè)中，處理128K上下文時(shí)，V3.2的推理成本僅為V3.1-Terminus的三分之一左右。關(guān)鍵是這種效率提升幾乎沒(méi)有損失性能，在MMLU-Pro、GPQA Diamond等標(biāo)準(zhǔn)測(cè)試中，兩者得分基本持平。

推理能力方面，V3.2通過(guò)超過(guò)預(yù)訓(xùn)練成本10%的強(qiáng)化學(xué)習(xí)投入，在AIME 2025數(shù)學(xué)競(jìng)賽中達(dá)到93.1%通過(guò)率，HMMT二月賽92.5%，Codeforces編程評(píng)級(jí)2386分，整體水平與GPT-5相當(dāng)。相比Kimi K2 Thinking，V3.2在保持相近準(zhǔn)確率的同時(shí)，平均輸出長(zhǎng)度減少約30%，顯著降低了實(shí)際使用成本。強(qiáng)化學(xué)習(xí)框架引入了“無(wú)偏KL估計(jì)”和“離策略序列掩碼”等技術(shù)，有效解決了大規(guī)模RL訓(xùn)練的穩(wěn)定性問(wèn)題。

V3.2-Speciale則專(zhuān)注于極限推理能力。該版本在2025年國(guó)際數(shù)學(xué)奧林匹克（IMO）中解決六題中的五題獲得金牌，在國(guó)際信息學(xué)奧林匹克（IOI）得分492分（滿分600）同樣獲得金牌，在ICPC世界總決賽中解決12題中的10題排名第二。這是首個(gè)在多項(xiàng)國(guó)際頂級(jí)競(jìng)賽中達(dá)到金牌水平的開(kāi)源通用模型。

智能體能力是另一大亮點(diǎn)。DeepSeek開(kāi)發(fā)了大規(guī)模任務(wù)合成系統(tǒng)，自動(dòng)生成1827個(gè)環(huán)境和85000個(gè)任務(wù)，涵蓋代碼工程、搜索增強(qiáng)、通用問(wèn)題解決等場(chǎng)景。在SWE-Verified代碼修復(fù)測(cè)試中，V3.2解決了73.1%的真實(shí)GitHub問(wèn)題；在Tool-Decathlon工具使用測(cè)試中達(dá)到35.2%通過(guò)率，領(lǐng)先于其他開(kāi)源模型。特別設(shè)計(jì)的上下文管理策略，讓模型在工具調(diào)用過(guò)程中保留推理歷史，避免重復(fù)計(jì)算。

目前，相關(guān)模型權(quán)重、推理代碼等已在社區(qū)開(kāi)源。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.