![]()
12月2日,DeepSeek 發(fā)布了 V3.2 技術(shù)報告。在這篇論文里,他們做了一件罕見的事:明確指出開源大模型與閉源模型的性能差距不是在縮小,而是在擴(kuò)大。
這是基于大量實(shí)測數(shù)據(jù)的冷靜判斷。
1
差距正在拉大,這是事實(shí)
2024年,當(dāng) DeepSeek、Qwen、GLM 等開源模型接連發(fā)布時,社區(qū)充滿樂觀情緒。"8個月時間差"的說法廣為流傳,許多人相信開源正在追上閉源。但進(jìn)入2025年,情況發(fā)生了變化。
DeepSeek 在論文引言部分直言不諱地寫道:“過去幾個月出現(xiàn)了明顯的分化。雖然開源社區(qū)持續(xù)進(jìn)步,但閉源專有模型的性能提升速度顯著更快。結(jié)果是,兩者的差距非但沒有縮小,反而在擴(kuò)大,閉源系統(tǒng)在復(fù)雜任務(wù)上展現(xiàn)出越來越強(qiáng)的優(yōu)勢。”
這個觀察有數(shù)據(jù)支撐。論文對比了 DeepSeek V3.2 與 GPT-5、Gemini 3.0 Pro 在多個基準(zhǔn)測試上的表現(xiàn)。在 MMLU-Pro(多學(xué)科知識測試)中,DeepSeek V3.2 得分 85.0,GPT-5 是 87.5,而 Gemini 3.0 Pro 達(dá)到了 90.1。在 GPQA Diamond(研究生級別科學(xué)問題)測試中,三者的得分分別是 82.4、85.7 和 91.9。
![]()
更明顯的差距體現(xiàn)在 HLE(Human Last Exam,極難的文本推理測試)中。DeepSeek V3.2 的得分是 25.1,GPT-5 是 26.3,而 Gemini 3.0 Pro 高達(dá) 37.7——這個差距已經(jīng)不是"接近"能形容的了。
值得注意的是,DeepSeek V3.2 已經(jīng)是目前最強(qiáng)的開源模型,在大部分開源模型的對比中都處于領(lǐng)先位置。但即便如此,它與頂級閉源模型之間仍然存在明顯差距,尤其是在需要深度推理和復(fù)雜任務(wù)處理的場景中。
1
差距為何在拉大?三個結(jié)構(gòu)性問題
論文通過系統(tǒng)分析,識別出限制開源模型在復(fù)雜任務(wù)上能力的三個關(guān)鍵缺陷。這些不是表面問題,而是深層次的結(jié)構(gòu)性困境。
第一個問題在于架構(gòu)層面。
開源模型普遍依賴傳統(tǒng)的 vanilla attention 機(jī)制,這種機(jī)制在處理長序列時效率極低。
論文指出,這種架構(gòu)上的依賴"嚴(yán)重限制了長序列的效率,對可擴(kuò)展部署和有效的后訓(xùn)練構(gòu)成了實(shí)質(zhì)性障礙"。當(dāng)閉源模型已經(jīng)在探索更高效的注意力機(jī)制時,開源模型還在用五年前的技術(shù)架構(gòu),這本身就是一個巨大的劣勢。
第二個問題是資源投入的鴻溝,尤其體現(xiàn)在后訓(xùn)練階段。
后訓(xùn)練是讓模型從"會說話"變成"會思考"的關(guān)鍵環(huán)節(jié),需要通過強(qiáng)化學(xué)習(xí)讓模型學(xué)會推理、工具使用和遵循復(fù)雜指令。論文透露,DeepSeek V3.2 的后訓(xùn)練計算預(yù)算超過了預(yù)訓(xùn)練成本的 10%。要知道,預(yù)訓(xùn)練本身就是天價投入,而大部分開源模型的后訓(xùn)練預(yù)算可能連 1% 都不到。這種資源投入上的差距,直接導(dǎo)致了性能上的代際差異。
第三個問題是 AI Agent 能力的滯后。
在真實(shí)應(yīng)用場景中,開源模型的泛化能力和指令理解能力明顯落后。論文引用了三個關(guān)鍵的 Agent 測評基準(zhǔn):在 MCP-Mark 中,DeepSeek V3.2 得分 45.9,Gemini 3.0 Pro 是 51.0;在 MCP-Universe 中,前者是 80.3,后者是 87.9;在 Tool-Decathlon 中,差距更加明顯。這些數(shù)字背后反映的是開源模型在復(fù)雜多輪交互、工具調(diào)用、長期規(guī)劃等場景下的能力不足。
論文總結(jié)道:"開源模型在泛化能力和指令跟隨能力方面展現(xiàn)出明顯滯后,這阻礙了它們在實(shí)際部署中的有效性。"這是一個誠實(shí)且殘酷的判斷。
1
DeepSeek 的應(yīng)對:技術(shù)路線的根本性改變
認(rèn)識到問題后,DeepSeek 沒有選擇簡單地堆砌參數(shù)或增加數(shù)據(jù)量,而是在三個核心維度上進(jìn)行了根本性的技術(shù)創(chuàng)新。
在架構(gòu)層面,DeepSeek 引入了 DSA(DeepSeek Sparse Attention)機(jī)制。
傳統(tǒng)注意力機(jī)制的計算復(fù)雜度是 O(L2),序列長度翻倍,計算量就要翻四倍。DSA 通過"閃電索引器"(Lightning Indexer)快速計算每個 token 的重要性評分,然后只選擇 top-k 個最重要的 token 參與注意力計算(論文中 k=2048),將復(fù)雜度從 O(L2) 降至 O(L×k)。
這個改進(jìn)不僅僅是理論上的優(yōu)化。論文通過實(shí)測數(shù)據(jù)表明,在 128K 上下文長度下,DSA 大幅降低了推理成本,而性能幾乎沒有損失。更令人意外的是,在 AA-LCR(長文本推理基準(zhǔn))和 Fiction.liveBench(小說理解測試)中,V3.2 的表現(xiàn)甚至優(yōu)于使用傳統(tǒng)注意力機(jī)制的 V3.1。這證明 DSA 不僅更快,在某些場景下質(zhì)量還更好。
![]()
在資源投入層面,DeepSeek 做出了超常規(guī)的決定。
論文明確寫道:"近幾個月來,性能提升與擴(kuò)展的 RL 訓(xùn)練預(yù)算持續(xù)相關(guān),該預(yù)算已超過預(yù)訓(xùn)練成本的 10%。"這個數(shù)字在開源界極為罕見。具體來說,DeepSeek 為數(shù)學(xué)、編程、推理、Agent 等六大領(lǐng)域分別訓(xùn)練了專家模型,每個都單獨(dú)進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。在持續(xù)預(yù)訓(xùn)練階段,模型經(jīng)歷了 943.7B tokens 的訓(xùn)練(在 128K 上下文長度下),然后采用 GRPO(Group Relative Policy Optimization)算法進(jìn)行混合訓(xùn)練,整合推理、Agent 和人類對齊三類任務(wù)。
在 Agent 能力強(qiáng)化方面,DeepSeek 開發(fā)了系統(tǒng)化的任務(wù)合成流程。
他們合成了超過 1800 個多樣化環(huán)境和 85,000 條復(fù)雜提示,涵蓋各種真實(shí)場景。具體包括 24,667 個代碼 Agent 任務(wù)、50,275 個搜索 Agent 任務(wù)、4,417 個通用 Agent 任務(wù)和 5,908 個代碼解釋器任務(wù)。這些合成數(shù)據(jù)不是隨機(jī)生成的,而是通過冷啟動階段學(xué)習(xí)推理與工具使用的統(tǒng)一模式,然后在規(guī)模化階段系統(tǒng)地生成高質(zhì)量訓(xùn)練場景。
效果是顯著的。在 Agent 相關(guān)的測試中,DeepSeek V3.2 顯著縮小了與閉源模型的差距,在 MCP-Universe 上達(dá)到了 80.3% 的成功率,雖然仍低于 Gemini 的 87.9%,但已經(jīng)是開源模型中的最佳表現(xiàn)。論文總結(jié)說:“DeepSeek V3.2 成為 Agent 場景中極具成本效益的選擇,顯著縮小了開源與前沿閉源模型之間的性能差距。”
論文最后寫了一句耐人尋味的話:"如果 Gemini 3.0 證明了持續(xù)擴(kuò)展預(yù)訓(xùn)練的潛力,DeepSeek V3.2-Speciale 則證明了在大規(guī)模上下文環(huán)境中強(qiáng)化學(xué)習(xí)的可擴(kuò)展性。"言下之意很明顯:閉源巨頭有資源堆預(yù)訓(xùn)練,但開源可以找到自己的路——通過更高效的架構(gòu)和更科學(xué)的后訓(xùn)練,用更少的資源實(shí)現(xiàn)接近的效果。
這或許是開源 AI 唯一的生存之道:不是硬碰硬拼資源,而是拼技術(shù)路線的創(chuàng)新。至少在這一次,DeepSeek 證明了這條路是走得通的。
論文鏈接:https://arxiv.org/html/2512.02556v1
整理:周華香
點(diǎn)個“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.