DeepSeek全年壓軸的來了。
今天,它同時發(fā)布了兩個正式版模型:DeepSeek-V3.2 ,與GPT-5有得一拼;和 DeepSeek-V3.2-Speciale,勝過GPT-5,推理熟練程度達到了Gemini-3.0-Pro的水平 ,在國際奧數(shù)等比賽中達到金牌水準。
經(jīng)過整整一年,DeepSeek從年初以最快的速度和最低的成本復(fù)刻出推理模型o1,到年底追上OpenAI,號稱推理模型全球領(lǐng)先。不過,它以后需要對標更強的Gemini、對標它長期學(xué)習(xí)的DeepMind了。而且,算力正在限制中國開源模型進一步追趕的后勁,在預(yù)訓(xùn)練和后訓(xùn)練方面已經(jīng)表現(xiàn)出來。
今年,雖然沒有發(fā)布期待中的V4,但是,DeepSeek用V3一直打到年底,也基本完成了使命。正如它所說:“DeepSeek-V3.2 模型在智能體評測中達到了當前開源模型的最高水平,大幅縮小了開源模型與閉源模型的差距。”在公開的推理類基準測試中,DeepSeek-V3.2 達到了 GPT-5的水平,僅略低于 Gemini-3.0-Pro。
![]()
DeepSeek-V 3.2-Speciale,要展示出它才是2025年真正的學(xué)霸。在Gemini和OpenAI先后都達到了奧數(shù)等一系列中學(xué)生頂級競賽冠軍水平之后,Speciale也迅速展示出,它在國際、中國、美國一系列最頂級的競賽中,都可以達到最高水平。
![]()
中國的開源模型,以往與美國先進閉源模型相比,在回答相同難度的問題時,耗費的token。
這一次,它部分改掉了“啰嗦”的毛病。大家以后日常使用的V3.2 ,在問答和通用智能體任務(wù)中,可以平衡推理能力與輸出長度。相比 Kimi-K2-Thinking,V3.2的輸出長度大幅降低,顯著減少了計算開銷與用戶等待時間。
不過它也提醒,在高度復(fù)雜任務(wù)上,Speciale模型大幅優(yōu)于標準版本,但消耗的Tokens也顯著更多,成本更高。目前,DeepSeek-V3.2-Speciale僅供研究使用,不支持工具調(diào)用,暫未針對日常對話與寫作任務(wù)進行專項優(yōu)化。
好在通過DSA(DeepSeek稀疏注意力)機制,DeepSeek能控制住推理中的每百萬token成本。結(jié)合優(yōu)化實現(xiàn),DSA在長上下文場景中實現(xiàn)了端到端的顯著加速。下圖展示了DeepSeek-V3.1-Terminus 與 DeepSeek-V3.2 的 token 計算成本隨序列中 token 位置的變化關(guān)系。這些成本數(shù)據(jù)來自H800GPU真實部署服務(wù)的基準測試估算,租賃價格為每GPU小時2美元。
![]()
DeepSeek指出,盡管中國正在主導(dǎo)的開源社區(qū)很熱鬧,如 MiniMax、月之暗面、智譜等,仍在持續(xù)推進研究和模型能力,但美國的閉源的專有大模型(Anthropic、DeepMind、OpenAI)的性能曲線“在近幾個月以更陡峭的速度加速攀升。”
人們一直以為,開源模型將逐步逼近并最終追平閉源模型,但實際上,開源模型與閉源模型之間的性能差距并沒有收斂,反而呈現(xiàn)出擴大的趨勢。DeepSeek警告中國開源模型:“在越來越復(fù)雜的任務(wù)中,專有閉源系統(tǒng)展現(xiàn)出了顯著更強的能力優(yōu)勢,并在處理高復(fù)雜、多步驟、交互式問題時體現(xiàn)出的領(lǐng)先幅度在擴大。”
DeepSeek分析了開源模型的三項關(guān)鍵缺陷:第一,在架構(gòu)層面,開源模型對原版注意力機制(vanilla attention mechanisms)的主要依賴,極大地限制了其在處理長序列任務(wù)中的效率。這種低效性成為可擴展部署和有效后訓(xùn)練的重大障礙。第二,在資源配置方面,開源模型在后訓(xùn)練階段缺乏足夠的計算資源投入,從而限制了其在高難任務(wù)上的表現(xiàn)。最后,在AI智能體方面,開源模型在泛化能力和指令追隨能力上明顯落后于閉源的專有模型,這阻礙了其在真實部署中的實際效果。
為了解決這些關(guān)鍵的局限,DeepSeek首先提出了DSA,大幅降低計算復(fù)雜度,有效緩解了效率瓶頸,即便在長上下文場景中也能保持模型性能。第二,開發(fā)了一套穩(wěn)定且可擴展的強化學(xué)習(xí)協(xié)議,使得在后訓(xùn)練階段可以大幅擴展計算投入。值得注意的是,該框架分配的后訓(xùn)練計算預(yù)算超過了預(yù)訓(xùn)練成本的10%,從而解鎖了更高級的能力。
但更重要的是,V3.2首次將思考融入工具使用,并且同時支持思考模式與非思考模式的工具調(diào)用。“我們提出了一種大規(guī)模Agent訓(xùn)練數(shù)據(jù)合成方法,構(gòu)造了大量「難解答,易驗證」的強化學(xué)習(xí)任務(wù)(1800+ 環(huán)境,85,000+ 復(fù)雜指令),大幅提高了模型的泛化能力。”
如下表所示,V3.2 在智能體評測中達到了當前開源模型的最高水平。值得說明的是,它并沒有針對這些測試集的工具進行特殊訓(xùn)練,所以“我們相信,V3.2 在真實應(yīng)用場景中能夠展現(xiàn)出較強的泛化性。”
![]()
智能體能力,光當學(xué)霸拼考分不行,還要看下實際解決問題的能力。V3.2還特意演示了一個旅行助手提供的杭州西溪濕地的旅游攻略生成過程。那些動不動能解奧數(shù)題的智能體,目前面對的最大挑戰(zhàn),其實是能不能讓外賣小哥送上一杯奶茶。智能體完成真實世界里真實任務(wù)的能力,正在日益變得比獲得高分更重要。
DeepSeek也承認了自己的不足,尤其是與Gemini-3.0-Pro等前沿閉源模型相比,仍然存在一些局限。
第一,由于總體訓(xùn)練FLOPs更少,V3.2在世界知識的覆蓋廣度上仍落后于領(lǐng)先的專有閉源模型。我們計劃在后續(xù)迭代中通過擴大預(yù)訓(xùn)練算力規(guī)模來彌補這一知識差距。
第二,token效率仍然是一項挑戰(zhàn)。V3.2通常需要更長的生成軌跡(即更多tokens)才能達到像Gemini-3.0-Pro這樣的模型所具備的輸出質(zhì)量。未來的工作將聚焦于提升模型推理鏈的智能密度,以改善效率。
第三,在解決復(fù)雜任務(wù)的能力上,它的表現(xiàn)仍不及前沿模型,這驅(qū)使我們繼續(xù)改進基礎(chǔ)模型并優(yōu)化后訓(xùn)練方法。
參考:
V3.2技術(shù)報告
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.