![]()
開源大模型首次在IMO等頂級(jí)賽事反超。
日前,DeepSeek 正式推出兩款全新模型,分別是DeepSeek-V3.2 與 DeepSeek-V3.2-Speciale,憑借領(lǐng)先的推理性能引發(fā)行業(yè)關(guān)注。這兩款模型在技術(shù)迭代中實(shí)現(xiàn)了能力升級(jí),同時(shí)針對(duì)不同使用場(chǎng)景明確了差異化定位,成為開源大模型領(lǐng)域的重要突破。
![]()
其中,DeepSeek-V3.2 以“平衡推理能力與輸出長(zhǎng)度”為核心目標(biāo),適配日常問(wèn)答、通用智能體等主流應(yīng)用場(chǎng)景。該模型并非全新研發(fā),而是9月底發(fā)布的實(shí)驗(yàn)版V3.2-Exp的正式迭代版本。在公開推理基準(zhǔn)測(cè)試中,其性能已達(dá)到GPT-5水平,僅略遜于谷歌旗艦?zāi)P虶emini3 Pro,展現(xiàn)出強(qiáng)勁的通用推理實(shí)力。
此次發(fā)布的重頭戲當(dāng)屬DeepSeek-V3.2-Speciale,其核心使命是“將開源模型的推理能力推向極致,探索技術(shù)邊界”。作為 V3.2 的長(zhǎng)思考增強(qiáng)版本,該模型融合了DeepSeek-Math-V2 的定理證明能力,在指令跟隨、數(shù)學(xué)嚴(yán)謹(jǐn)推導(dǎo)及邏輯驗(yàn)證方面表現(xiàn)突出。數(shù)據(jù)顯示,Speciale 在多項(xiàng)權(quán)威測(cè)試中實(shí)現(xiàn)對(duì) Gemini3 Pro 的超越:不僅在美國(guó)數(shù)學(xué)邀請(qǐng)賽、哈佛 MIT 數(shù)學(xué)競(jìng)賽、國(guó)際奧林匹克數(shù)學(xué)競(jìng)賽(IMO)等賽事級(jí)測(cè)試中奪冠,更斬獲ICPC世界總決賽(國(guó)際大學(xué)生程序設(shè)計(jì)競(jìng)賽)、IOI(國(guó)際信息學(xué)奧林匹克)金牌,其中ICPC成績(jī)達(dá)到人類選手第二名水平,IOI位列第十名。不過(guò)在編程任務(wù)與理工科博士生水平測(cè)試中,該模型仍略低于谷歌Gemini3 Pro。
![]()
盡管成績(jī)亮眼,DeepSeek 在技術(shù)報(bào)告中也坦誠(chéng)了模型的局限性:其一,V3.2 系列的世界知識(shí)覆蓋廣度仍落后于頂尖閉源專有模型;其二,令牌(Token)效率不足,需消耗更多令牌才能達(dá)到 Gemini3 Pro 同等輸出質(zhì)量;其三,復(fù)雜任務(wù)處理能力與前沿模型存在差距。針對(duì)這些問(wèn)題,DeepSeek 團(tuán)隊(duì)明確了未來(lái)優(yōu)化方向:通過(guò)增加預(yù)訓(xùn)練計(jì)算量填補(bǔ)知識(shí)空白,聚焦推理鏈智能密度優(yōu)化以提升效率,同時(shí)持續(xù)改進(jìn)基礎(chǔ)模型架構(gòu)與訓(xùn)練后優(yōu)化方案。
值得關(guān)注的是,此次發(fā)布還折射出開源與閉源大模型領(lǐng)域的發(fā)展分化。DeepSeek 在技術(shù)報(bào)告中指出,自推理模型成為行業(yè)發(fā)展關(guān)鍵轉(zhuǎn)折點(diǎn)后,大模型整體性能飛速提升,但近幾個(gè)月來(lái)閉源與開源模型的差距正持續(xù)拉大,谷歌、OpenAI、Anthropic 等企業(yè)的閉源模型性能增長(zhǎng)速度顯著快于開源陣營(yíng),在復(fù)雜任務(wù)中優(yōu)勢(shì)愈發(fā)明顯。DeepSeek 分析認(rèn)為,這一差距源于三大核心瓶頸:架構(gòu)上過(guò)度依賴標(biāo)準(zhǔn)注意力機(jī)制,制約長(zhǎng)序列處理效率;資源分配上開源模型后訓(xùn)練階段計(jì)算投入不足;AI 智能體領(lǐng)域的泛化能力與指令遵循能力不及專業(yè)模型,影響實(shí)際部署效果。
為突破這些限制,DeepSeek在9月底的V3.2-Exp 實(shí)驗(yàn)版中首次引入稀疏注意力機(jī)制(DSA),旨在降低計(jì)算復(fù)雜度。經(jīng)過(guò)兩個(gè)月的驗(yàn)證,該機(jī)制被證實(shí)可在不犧牲長(zhǎng)上下文性能的前提下,解決核心計(jì)算效率問(wèn)題。此次發(fā)布的兩款模型均搭載了這一關(guān)鍵技術(shù),不僅讓 V3.2 在推理基準(zhǔn)測(cè)試中性能大幅提升,更使其在智能體場(chǎng)景中成為高性價(jià)比替代方案,既縮小了與前沿閉源模型的性能差距,又顯著降低了使用成本。
目前,DeepSeek 的官方網(wǎng)頁(yè)端、App及API已完成DeepSeek-V3.2 正式版的全面更新;而性能更強(qiáng)的 Speciale版本暫以臨時(shí)API服務(wù)形式開放,僅供社區(qū)進(jìn)行評(píng)測(cè)與學(xué)術(shù)研究使用。
在業(yè)內(nèi)看來(lái),DeepSeek 此次雙模型發(fā)布,堪稱開源陣營(yíng)向谷歌、OpenAI 等海外巨頭閉源模型發(fā)起的強(qiáng)勢(shì)沖鋒。憑借稀疏注意力機(jī)制的技術(shù)突破與精準(zhǔn)的場(chǎng)景定位,用實(shí)打?qū)嵉某煽?jī)打破了海外前沿模型的性能壟斷。在中美AI模型差距持續(xù)縮小、開源與閉源差距收窄的行業(yè)背景下,DeepSeek 沒有畏懼閉源模型的資源優(yōu)勢(shì),反而以工程創(chuàng)新突破架構(gòu)與成本瓶頸,既為開源生態(tài)樹立了“不依賴參數(shù)規(guī)模也能硬剛頂尖模型” 的標(biāo)桿,更彰顯了中國(guó)AI企業(yè)在全球大模型競(jìng)爭(zhēng)中敢打敢拼、突圍破局的硬核實(shí)力。
整理:李洪力
編輯:洪力
指導(dǎo):新文
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.