ChatGPT三歲生日這天,DeepSeek正式發(fā)布了V3.2及其增強(qiáng)版V3.2-Speciale,新版本在架構(gòu)效率、推理能力和智能體性能三個(gè)維度實(shí)現(xiàn)突破,同時(shí)API價(jià)格維持了此前的大幅降價(jià),輸入token降至每百萬(wàn)1元,輸出token降至2元。
相比DeepSeek-V3.1,DeepSeek-V3.2唯一的架構(gòu)修改是通過(guò)繼續(xù)訓(xùn)練引入了DeepSeek Sparse Attention(DSA)。傳統(tǒng)Transformer的注意力計(jì)算復(fù)雜度為O(L2),DSA通過(guò)“閃電索引器”和細(xì)粒度token選擇,將復(fù)雜度降至O(Lk),其中k為2048。在H800集群實(shí)測(cè)中,處理128K上下文時(shí),V3.2的推理成本僅為V3.1-Terminus的三分之一左右。關(guān)鍵是這種效率提升幾乎沒(méi)有損失性能,在MMLU-Pro、GPQA Diamond等標(biāo)準(zhǔn)測(cè)試中,兩者得分基本持平。
推理能力方面,V3.2通過(guò)超過(guò)預(yù)訓(xùn)練成本10%的強(qiáng)化學(xué)習(xí)投入,在AIME 2025數(shù)學(xué)競(jìng)賽中達(dá)到93.1%通過(guò)率,HMMT二月賽92.5%,Codeforces編程評(píng)級(jí)2386分,整體水平與GPT-5相當(dāng)。相比Kimi K2 Thinking,V3.2在保持相近準(zhǔn)確率的同時(shí),平均輸出長(zhǎng)度減少約30%,顯著降低了實(shí)際使用成本。強(qiáng)化學(xué)習(xí)框架引入了“無(wú)偏KL估計(jì)”和“離策略序列掩碼”等技術(shù),有效解決了大規(guī)模RL訓(xùn)練的穩(wěn)定性問(wèn)題。
V3.2-Speciale則專(zhuān)注于極限推理能力。該版本在2025年國(guó)際數(shù)學(xué)奧林匹克(IMO)中解決六題中的五題獲得金牌,在國(guó)際信息學(xué)奧林匹克(IOI)得分492分(滿分600)同樣獲得金牌,在ICPC世界總決賽中解決12題中的10題排名第二。這是首個(gè)在多項(xiàng)國(guó)際頂級(jí)競(jìng)賽中達(dá)到金牌水平的開(kāi)源通用模型。
智能體能力是另一大亮點(diǎn)。DeepSeek開(kāi)發(fā)了大規(guī)模任務(wù)合成系統(tǒng),自動(dòng)生成1827個(gè)環(huán)境和85000個(gè)任務(wù),涵蓋代碼工程、搜索增強(qiáng)、通用問(wèn)題解決等場(chǎng)景。在SWE-Verified代碼修復(fù)測(cè)試中,V3.2解決了73.1%的真實(shí)GitHub問(wèn)題;在Tool-Decathlon工具使用測(cè)試中達(dá)到35.2%通過(guò)率,領(lǐng)先于其他開(kāi)源模型。特別設(shè)計(jì)的上下文管理策略,讓模型在工具調(diào)用過(guò)程中保留推理歷史,避免重復(fù)計(jì)算。
目前,相關(guān)模型權(quán)重、推理代碼等已在社區(qū)開(kāi)源。
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.