<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      開源和閉源模型的差距在拉大:這是 DeepSeek 論文揭示的殘酷真相

      0
      分享至


      12月2日,DeepSeek 發(fā)布了 V3.2 技術(shù)報告。在這篇論文里,他們做了一件罕見的事:明確指出開源大模型與閉源模型的性能差距不是在縮小,而是在擴(kuò)大。

      這是基于大量實(shí)測數(shù)據(jù)的冷靜判斷。

      1

      差距正在拉大,這是事實(shí)

      2024年,當(dāng) DeepSeek、Qwen、GLM 等開源模型接連發(fā)布時,社區(qū)充滿樂觀情緒。"8個月時間差"的說法廣為流傳,許多人相信開源正在追上閉源。但進(jìn)入2025年,情況發(fā)生了變化。

      DeepSeek 在論文引言部分直言不諱地寫道:“過去幾個月出現(xiàn)了明顯的分化。雖然開源社區(qū)持續(xù)進(jìn)步,但閉源專有模型的性能提升速度顯著更快。結(jié)果是,兩者的差距非但沒有縮小,反而在擴(kuò)大,閉源系統(tǒng)在復(fù)雜任務(wù)上展現(xiàn)出越來越強(qiáng)的優(yōu)勢。”

      這個觀察有數(shù)據(jù)支撐。論文對比了 DeepSeek V3.2 與 GPT-5、Gemini 3.0 Pro 在多個基準(zhǔn)測試上的表現(xiàn)。在 MMLU-Pro(多學(xué)科知識測試)中,DeepSeek V3.2 得分 85.0,GPT-5 是 87.5,而 Gemini 3.0 Pro 達(dá)到了 90.1。在 GPQA Diamond(研究生級別科學(xué)問題)測試中,三者的得分分別是 82.4、85.7 和 91.9。


      更明顯的差距體現(xiàn)在 HLE(Human Last Exam,極難的文本推理測試)中。DeepSeek V3.2 的得分是 25.1,GPT-5 是 26.3,而 Gemini 3.0 Pro 高達(dá) 37.7——這個差距已經(jīng)不是"接近"能形容的了。

      值得注意的是,DeepSeek V3.2 已經(jīng)是目前最強(qiáng)的開源模型,在大部分開源模型的對比中都處于領(lǐng)先位置。但即便如此,它與頂級閉源模型之間仍然存在明顯差距,尤其是在需要深度推理和復(fù)雜任務(wù)處理的場景中。

      1

      差距為何在拉大?三個結(jié)構(gòu)性問題

      論文通過系統(tǒng)分析,識別出限制開源模型在復(fù)雜任務(wù)上能力的三個關(guān)鍵缺陷。這些不是表面問題,而是深層次的結(jié)構(gòu)性困境。

      第一個問題在于架構(gòu)層面。

      開源模型普遍依賴傳統(tǒng)的 vanilla attention 機(jī)制,這種機(jī)制在處理長序列時效率極低。

      論文指出,這種架構(gòu)上的依賴"嚴(yán)重限制了長序列的效率,對可擴(kuò)展部署和有效的后訓(xùn)練構(gòu)成了實(shí)質(zhì)性障礙"。當(dāng)閉源模型已經(jīng)在探索更高效的注意力機(jī)制時,開源模型還在用五年前的技術(shù)架構(gòu),這本身就是一個巨大的劣勢。

      第二個問題是資源投入的鴻溝,尤其體現(xiàn)在后訓(xùn)練階段。

      后訓(xùn)練是讓模型從"會說話"變成"會思考"的關(guān)鍵環(huán)節(jié),需要通過強(qiáng)化學(xué)習(xí)讓模型學(xué)會推理、工具使用和遵循復(fù)雜指令。論文透露,DeepSeek V3.2 的后訓(xùn)練計算預(yù)算超過了預(yù)訓(xùn)練成本的 10%。要知道,預(yù)訓(xùn)練本身就是天價投入,而大部分開源模型的后訓(xùn)練預(yù)算可能連 1% 都不到。這種資源投入上的差距,直接導(dǎo)致了性能上的代際差異。

      第三個問題是 AI Agent 能力的滯后。

      在真實(shí)應(yīng)用場景中,開源模型的泛化能力和指令理解能力明顯落后。論文引用了三個關(guān)鍵的 Agent 測評基準(zhǔn):在 MCP-Mark 中,DeepSeek V3.2 得分 45.9,Gemini 3.0 Pro 是 51.0;在 MCP-Universe 中,前者是 80.3,后者是 87.9;在 Tool-Decathlon 中,差距更加明顯。這些數(shù)字背后反映的是開源模型在復(fù)雜多輪交互、工具調(diào)用、長期規(guī)劃等場景下的能力不足。

      論文總結(jié)道:"開源模型在泛化能力和指令跟隨能力方面展現(xiàn)出明顯滯后,這阻礙了它們在實(shí)際部署中的有效性。"這是一個誠實(shí)且殘酷的判斷。

      1

      DeepSeek 的應(yīng)對:技術(shù)路線的根本性改變

      認(rèn)識到問題后,DeepSeek 沒有選擇簡單地堆砌參數(shù)或增加數(shù)據(jù)量,而是在三個核心維度上進(jìn)行了根本性的技術(shù)創(chuàng)新。

      在架構(gòu)層面,DeepSeek 引入了 DSA(DeepSeek Sparse Attention)機(jī)制。

      傳統(tǒng)注意力機(jī)制的計算復(fù)雜度是 O(L2),序列長度翻倍,計算量就要翻四倍。DSA 通過"閃電索引器"(Lightning Indexer)快速計算每個 token 的重要性評分,然后只選擇 top-k 個最重要的 token 參與注意力計算(論文中 k=2048),將復(fù)雜度從 O(L2) 降至 O(L×k)。

      這個改進(jìn)不僅僅是理論上的優(yōu)化。論文通過實(shí)測數(shù)據(jù)表明,在 128K 上下文長度下,DSA 大幅降低了推理成本,而性能幾乎沒有損失。更令人意外的是,在 AA-LCR(長文本推理基準(zhǔn))和 Fiction.liveBench(小說理解測試)中,V3.2 的表現(xiàn)甚至優(yōu)于使用傳統(tǒng)注意力機(jī)制的 V3.1。這證明 DSA 不僅更快,在某些場景下質(zhì)量還更好。


      在資源投入層面,DeepSeek 做出了超常規(guī)的決定。

      論文明確寫道:"近幾個月來,性能提升與擴(kuò)展的 RL 訓(xùn)練預(yù)算持續(xù)相關(guān),該預(yù)算已超過預(yù)訓(xùn)練成本的 10%。"這個數(shù)字在開源界極為罕見。具體來說,DeepSeek 為數(shù)學(xué)、編程、推理、Agent 等六大領(lǐng)域分別訓(xùn)練了專家模型,每個都單獨(dú)進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。在持續(xù)預(yù)訓(xùn)練階段,模型經(jīng)歷了 943.7B tokens 的訓(xùn)練(在 128K 上下文長度下),然后采用 GRPO(Group Relative Policy Optimization)算法進(jìn)行混合訓(xùn)練,整合推理、Agent 和人類對齊三類任務(wù)。

      在 Agent 能力強(qiáng)化方面,DeepSeek 開發(fā)了系統(tǒng)化的任務(wù)合成流程。

      他們合成了超過 1800 個多樣化環(huán)境和 85,000 條復(fù)雜提示,涵蓋各種真實(shí)場景。具體包括 24,667 個代碼 Agent 任務(wù)、50,275 個搜索 Agent 任務(wù)、4,417 個通用 Agent 任務(wù)和 5,908 個代碼解釋器任務(wù)。這些合成數(shù)據(jù)不是隨機(jī)生成的,而是通過冷啟動階段學(xué)習(xí)推理與工具使用的統(tǒng)一模式,然后在規(guī)模化階段系統(tǒng)地生成高質(zhì)量訓(xùn)練場景。

      效果是顯著的。在 Agent 相關(guān)的測試中,DeepSeek V3.2 顯著縮小了與閉源模型的差距,在 MCP-Universe 上達(dá)到了 80.3% 的成功率,雖然仍低于 Gemini 的 87.9%,但已經(jīng)是開源模型中的最佳表現(xiàn)。論文總結(jié)說:“DeepSeek V3.2 成為 Agent 場景中極具成本效益的選擇,顯著縮小了開源與前沿閉源模型之間的性能差距。”

      論文最后寫了一句耐人尋味的話:"如果 Gemini 3.0 證明了持續(xù)擴(kuò)展預(yù)訓(xùn)練的潛力,DeepSeek V3.2-Speciale 則證明了在大規(guī)模上下文環(huán)境中強(qiáng)化學(xué)習(xí)的可擴(kuò)展性。"言下之意很明顯:閉源巨頭有資源堆預(yù)訓(xùn)練,但開源可以找到自己的路——通過更高效的架構(gòu)和更科學(xué)的后訓(xùn)練,用更少的資源實(shí)現(xiàn)接近的效果。

      這或許是開源 AI 唯一的生存之道:不是硬碰硬拼資源,而是拼技術(shù)路線的創(chuàng)新。至少在這一次,DeepSeek 證明了這條路是走得通的。


      論文鏈接:https://arxiv.org/html/2512.02556v1

      整理:周華香

      點(diǎn)個愛心,再走 吧

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      新國標(biāo)電動車上市被吐槽,舊車翻新成了香餑餑,消費(fèi)者:我買車就想圖個便利

      新國標(biāo)電動車上市被吐槽,舊車翻新成了香餑餑,消費(fèi)者:我買車就想圖個便利

      極目新聞
      2025-12-06 11:37:09
      亞冠成都蓉城VS神戶勝利船:周定洋坐鎮(zhèn) 韋世豪+德爾加多領(lǐng)銜進(jìn)攻

      亞冠成都蓉城VS神戶勝利船:周定洋坐鎮(zhèn) 韋世豪+德爾加多領(lǐng)銜進(jìn)攻

      零度眼看球
      2025-12-08 07:31:37
      家中風(fēng)水改變無察覺,風(fēng)水師透露:不怕蛤蟆進(jìn)家門,就怕三樹立門頭

      家中風(fēng)水改變無察覺,風(fēng)水師透露:不怕蛤蟆進(jìn)家門,就怕三樹立門頭

      古怪奇談錄
      2025-12-02 15:51:46
      力壓2大洲冠軍!國足手下敗將爆冷 3輪不敗頭名出線 改寫59年歷史

      力壓2大洲冠軍!國足手下敗將爆冷 3輪不敗頭名出線 改寫59年歷史

      侃球熊弟
      2025-12-08 09:23:36
      內(nèi)娛老戲骨們集體塌房!

      內(nèi)娛老戲骨們集體塌房!

      八卦瘋叔
      2025-12-02 11:24:10
      雞那么臟,那為啥雞巢幾乎沒有蟑螂?網(wǎng)友:你對雞的力量一無所知

      雞那么臟,那為啥雞巢幾乎沒有蟑螂?網(wǎng)友:你對雞的力量一無所知

      夜深愛雜談
      2025-11-24 20:11:21
      中北大學(xué)學(xué)生吐槽吹頭發(fā)還要付費(fèi):3分鐘0.5元!校方回應(yīng)

      中北大學(xué)學(xué)生吐槽吹頭發(fā)還要付費(fèi):3分鐘0.5元!校方回應(yīng)

      極目新聞
      2025-12-07 14:02:10
      賴斯:我就喜歡這種三天一賽,一周踢一場會打亂我的節(jié)奏

      賴斯:我就喜歡這種三天一賽,一周踢一場會打亂我的節(jié)奏

      懂球帝
      2025-12-08 01:09:10
      小酒窩尖叫之夜橫掃半個娛樂圈,帶禮物見白鹿,楊冪主動摟肩補(bǔ)拍

      小酒窩尖叫之夜橫掃半個娛樂圈,帶禮物見白鹿,楊冪主動摟肩補(bǔ)拍

      菲菲愛電影
      2025-12-08 08:10:19
      非洲傳奇總統(tǒng),46歲上臺,連任4屆讓國家走向強(qiáng)大,至今備受愛戴

      非洲傳奇總統(tǒng),46歲上臺,連任4屆讓國家走向強(qiáng)大,至今備受愛戴

      博覽歷史
      2025-12-05 18:33:49
      又一比賽獲獎名單復(fù)制百度人名大全,負(fù)責(zé)人:工作人員鉆空子

      又一比賽獲獎名單復(fù)制百度人名大全,負(fù)責(zé)人:工作人員鉆空子

      澎湃新聞
      2025-12-07 20:46:28
      谷歌將舉行AndroidXR特別發(fā)布會 端側(cè)AI有望迎重磅催化

      谷歌將舉行AndroidXR特別發(fā)布會 端側(cè)AI有望迎重磅催化

      財聯(lián)社
      2025-12-08 08:08:28
      國足何時重返世界杯?克勞琛:若無足協(xié)干擾,05國青至少能踢兩次世界杯!

      國足何時重返世界杯?克勞琛:若無足協(xié)干擾,05國青至少能踢兩次世界杯!

      隱于山海
      2025-12-07 08:51:25
      225單退款女后續(xù):鄰居爆料炸裂,全家都是“慣犯”,都不是善茬

      225單退款女后續(xù):鄰居爆料炸裂,全家都是“慣犯”,都不是善茬

      鋭娛之樂
      2025-12-08 08:48:31
      魔獸時光服:官方統(tǒng)計裝備排名,MC最貴裝備確定,213紫裝滯銷了

      魔獸時光服:官方統(tǒng)計裝備排名,MC最貴裝備確定,213紫裝滯銷了

      胖哥游戲說
      2025-12-07 20:09:01
      10-8!塞爾比英錦賽奪冠,集齊3套大滿貫!斯諾克世界排名更新了

      10-8!塞爾比英錦賽奪冠,集齊3套大滿貫!斯諾克世界排名更新了

      球場沒跑道
      2025-12-08 07:26:07
      “禁止入內(nèi)”,日韓商鋪貼滿中文告示,中國游客被拒,誰還去?

      “禁止入內(nèi)”,日韓商鋪貼滿中文告示,中國游客被拒,誰還去?

      歷史求知所
      2025-12-07 08:55:05
      十塊錢一包的煙,怎么就成了2025最真實(shí)的經(jīng)濟(jì)信號?

      十塊錢一包的煙,怎么就成了2025最真實(shí)的經(jīng)濟(jì)信號?

      牛鍋巴小釩
      2025-12-04 01:14:35
      壓軸王者!新機(jī)官宣:12月25日,即將發(fā)布上市!

      壓軸王者!新機(jī)官宣:12月25日,即將發(fā)布上市!

      科技堡壘
      2025-12-07 12:02:22
      醫(yī)學(xué)死于2025!中大附七網(wǎng)傳裁員,副高以下難保,4篇一區(qū)也被裁

      醫(yī)學(xué)死于2025!中大附七網(wǎng)傳裁員,副高以下難保,4篇一區(qū)也被裁

      東東趣談
      2025-12-06 15:12:25
      2025-12-08 10:59:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
      2693文章數(shù) 10414關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果核心人才"出逃"內(nèi)幕,庫克為何攔不住

      頭條要聞

      牛彈琴:對日斗爭突發(fā)新情況 中國軍方回應(yīng)火力全開

      頭條要聞

      牛彈琴:對日斗爭突發(fā)新情況 中國軍方回應(yīng)火力全開

      體育要聞

      厲害的后衛(wèi)何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經(jīng)要聞

      養(yǎng)牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰(zhàn)深圳地獄級路況 魏牌藍(lán)山VLA上車會思考聽得懂人話

      態(tài)度原創(chuàng)

      教育
      家居
      親子
      手機(jī)
      數(shù)碼

      教育要聞

      收藏:2025山東高考各段分?jǐn)?shù)及一分一段表!附:山東高考【大綠本+大藍(lán)本】下載

      家居要聞

      有限無界 打破慣有思維

      親子要聞

      家長帶孩子跑了很多家醫(yī)院,你是我們最后的希望

      手機(jī)要聞

      史上首款機(jī)器人手機(jī)!榮耀ROBOT PHONE明年上半年量產(chǎn)

      數(shù)碼要聞

      Caligra c100開發(fā)者終端亮相,配置強(qiáng)大外觀致敬經(jīng)典

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 天美传媒mv免费观看完整| 91啪在线| 丰满熟妇高潮一二三区| 日韩无码第2页| 日本va欧美va欧美va精品| 久艹视频免费看| 涩欲国产一区二区三区四区| 你懂的国产在线| 巴林右旗| 欧美人与性动交α欧美精品| 午夜性无码专区| 香港特级三A毛片免费观看| 亚洲AV成人无码电影网| 欧美视频亚洲| 亚洲成亚洲成网| 国产偷窥熟女精品视频大全 | 亚洲无码人妻| 温泉县| 国产精品久久久久免费观看| 韩国乱码片免费看| 亚洲国产精品成人网站| 南充市| 2021最新国产精品网站| 一本久久a久久精品综合| 久久久精品| 国产精品999999| 亚洲一本大道无码av天堂| 婷婷五月天丁香| youjizzjizz| 亚洲无码?成人| 丁香婷婷激情综合俺也去| 免费激情网址| 婷婷色六月| 乱人伦人妻中文字幕无码| 亚洲浮力影院久久久久久 | 狠狠躁天天躁中文字幕| 亚洲av无码片在线播放| 色天使av| 又爽又黄无遮挡高潮视频网站| 亚洲日韩欧美国产高清αv| 黑人VideOS特大粗暴|