<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek-V3.2系列開源,性能直接對標Gemini-3.0-Pro

      0
      分享至

      衡宇 發自 奧特賽德
      量子位 | 公眾號 QbitAI

      突襲!

      ChatGPT發布三周年,DeepSeek嚯一下發出兩個模型:

      • DeepSeek-V3.2
      • DeepSeek-V3.2-Speciale

      前者聚焦平衡實用,適用于日常問答、通用Agent任務、真實應用場景下的工具調用。

      推理達GPT-5水平,略低于Gemini-3.0-Pro。

      后者主打極致推理,推理基準性能媲美Gemini-3.0-Pro。

      還一把斬獲IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025金牌。

      劃重點,ICPC達到人類選手第二、IOI人類選手第十名水平。



      具體來說,DeepSeek-V3.2側重于平衡推理能力與輸出長度,降低計算開銷。

      DeepSeek官微推文中寫道,“DeepSeek-V3.2模型在Agent評測中達到了當前開源模型的最高水平”。

      該模型其他情況如下:

      • 推理能力比肩GPT-5;
      • 相比Kimi-K2-Thinking大幅縮短輸出長度,減少用戶等待時間;
      • DeepSeek旗下首個“思考融入工具調用” 的模型,支持思考/非思考雙模式工具調用;
      • 基于1800+環境、85000+復雜指令的大規模Agent訓練數據,泛化能力強。

      下圖展示的是DeepSeek-V3.2與其他模型在各類Agent工具調用評測集上的得分

      ——特別強調,DeepSeek-V3.2并沒有針對這些測試集的工具做特殊訓練。



      DeepSeek-V3.2-Speciale是DeepSeek-V3.2的長思考增強版,融合了DeepSeek-Math-V2的定理證明能力。

      在指令跟隨、數學證明、邏輯驗證方面,DeepSeek-V3.2-Speciale能力出眾,推薦用來完成高度復雜數學推理、編程競賽、學術研究類任務。

      特別注明!這個版本目前沒有針對日常對話與寫作做專項優化。

      而且僅供研究使用,不支持工具調用。

      在高度復雜任務上,Speciale模型大幅優于標準版本,但消耗的Tokens也顯著更多,成本更高。



      目前,DeepSeek的App和Web端,都已經更新為正式版DeepSeek-V3.2;Speciale版本目前僅供臨時API使用。

      模型發布同時,技術報告也已經掛出來了。

      論文里透露的技術細節相當硬核:

      新的稀疏注意力機制DSA大幅降低計算復雜度,強化學習訓練的計算量超過預訓練的10%,還有全新的大規模Agent任務合成管線……

      具體情況,我們詳細來看。

      提出DSA高效稀疏注意力機制,長文本不再是負擔

      DeepSeek-V3.2最大的架構創新是引入了DSA(DeepSeek Sparse Attention)機制。

      傳統的注意力機制在處理長序列時計算復雜度是O(L2),嚴重制約了模型的部署效率和后續訓練的可擴展性。

      DSA讓計算復雜度降低到O(L·k),k遠小于L。

      與此同時,DSA讓模型在長上下文任務中顯著加速推理,且無明顯性能損失。

      支持FP8精度,適配MLA(Multi-Query Attention)架構,訓練友好。



      怎么做到的?

      DSA主要包含兩個組件,一個叫lightning indexer(閃電索引器),另一個叫fine-grained token selection(細粒度token選擇)機制。

      閃電索引器負責快速計算查詢token和歷史token之間的相關性分數,然后只選擇top-k個最相關的token進行注意力計算。

      團隊特意選用了ReLU激活函數來提升吞吐量。

      DeepSeek-V3.1-Terminus開始繼續訓練時,團隊采用了兩階段策略。

      第一階段是Dense Warm-up,保持密集注意力,只訓練lightning indexer,讓它學會對齊主注意力的分布。

      這個階段只用了1000步,處理了21億個tokens。

      第二階段才引入稀疏機制,每個查詢token選擇2048個鍵值對,訓練了15000步,總共處理了9437億個tokens。

      實測效果相當給力——

      在128k長度的序列上,DeepSeek-V3.2的推理成本比V3.1-Terminus降低了好幾倍。

      H800集群上的測試顯示,當序列長度達到128K時,預填充階段每百萬token的成本從0.7美元降到了0.2美元左右,解碼階段從2.4美元降到了0.8美元。



      后訓練算力超過預訓練的10%

      值得注意的是,DeepSeek團隊這次在強化學習上下了血本。

      論文里明確提到,RL訓練的計算預算已經超過了預訓練成本的10%,這在開源模型里相當罕見。



      DeepSeek在技術報告中提到,開源模型在post-training階段的計算資源投入不足,限制了其在困難任務上的性能。

      為此,團隊開發了穩定、可擴展的RL協議,使訓練后階段的計算預算超過了預訓練成本的10%,從而解鎖了模型的先進能力。

      展開講講——

      為了穩定地擴展RL計算規模,團隊在GRPO(Group Relative Policy Optimization)算法基礎上做了好幾項改進。

      首先是無偏KL估計,修正了原始的K3估計器,消除了系統性誤差。

      原來的估計器在某些情況下會給出無界的梯度權重,導致訓練不穩定。

      其次是離線序列掩碼策略。

      在實際訓練中,為了提高效率通常會生成大批量的rollout數據,然后分成多個mini-batch進行梯度更新。這種做法本身就引入了off-policy行為。

      團隊通過計算數據采樣策略和當前策略之間的KL散度,把那些偏離太遠的負樣本序列給mask掉,避免它們干擾訓練。

      團隊還特別針對MoE模型設計了Keep Routing操作。

      推理框架和訓練框架的實現差異可能導致同樣的輸入激活不同的專家,這會造成參數空間的突變。通過保存推理時的路由路徑并在訓練時強制使用相同路徑,確保了參數優化的一致性。

      在具體訓練上,團隊采用了專家蒸餾的策略。

      先為每個任務訓練專門的模型,包括數學、編程、通用邏輯推理、通用Agent任務、Agent編程和Agent搜索這6個領域,每個領域都支持思考和非思考兩種模式。

      然后用這些專家模型生成特定領域的數據來訓練最終模型。



      Agent能力的突破

      此外,此次新模型在Agent任務上的突破也讓人眼前一亮。

      這次團隊找到了讓模型同時具備推理和工具使用能力的方法



      在思考上下文管理方面,團隊發現DeepSeek-R1那種每次開啟新對話就丟棄推理內容的策略,實在是太——浪費token了。

      于是設計了新的管理機制:

      只有在引入新的用戶消息時才丟棄歷史推理內容,如果只是添加工具相關消息,推理內容會被保留。即使推理痕跡被刪除,工具調用歷史和結果也會保留在上下文中。

      冷啟動階段,DeepSeek-V3.2團隊采用了巧妙的prompt設計。

      團隊通過精心設計的系統提示,讓模型學會在推理過程中自然地插入工具調用。

      比如在處理編程競賽題目時,系統會明確要求模型先思考再給出答案,并用特殊標簽標記推理路徑。

      最硬核的是團隊開發了一個自動環境合成pipeline,生成了1827個任務導向的環境和85000個復雜提示。

      以旅行規劃為例,模型需要在滿足各種約束條件下規劃三天的行程,包括不重復城市、根據酒店價格調整餐廳和景點預算等復雜邏輯。





      雖然在巨大的組合空間中找到滿足所有約束的方案很困難,但驗證給定方案是否滿足約束相對簡單,這種”難解易驗”的特性非常適合RL訓練。

      在代碼Agent方面,團隊從GitHub挖掘了數百萬個issue-PR對,經過嚴格篩選和自動環境構建,成功搭建了數萬個可執行的軟件問題解決環境,涵蓋Python、Java、JavaScript等多種語言。

      搜索Agent則采用多Agentpipeline生成訓練數據,先從大規模網絡語料中采樣長尾實體,再通過問題構建、答案生成和驗證等步驟產生高質量數據。

      評測結果顯示,DeepSeek-V3.2在SWE-Verified上達到73.1%的解決率,在Terminal Bench 2.0上準確率46.4%,都大幅超越了現有開源模型。

      在MCP-Universe和Tool-Decathlon等工具使用基準測試上,DeepSeek-V3.2也展現出了接近閉源模型的性能。

      這些提升,證明了模型能夠將推理策略泛化到訓練時未見過的Agent場景。



      One More Thing

      技術報告最后,研究人員坦誠地指出了一些局限性。

      由于總訓練FLOPs較少,DeepSeek-V3.2的世界知識廣度仍落后于領先的閉源模型。

      Token效率也是個挑戰。通常情況下,本次上新的兩個模型需要生成更長的軌跡,才能達到Gemini-3.0-Pro的輸出質量。

      但團隊發話了,這些都是未來版本的改進方向。

      不過——

      DeepSeek啊DeepSeek,我們心心念念的R2,什么時候給抬上來啊!!!!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      梁山一百零八將之中,絕世高手僅此一人,其武功之高足以震撼天下

      梁山一百零八將之中,絕世高手僅此一人,其武功之高足以震撼天下

      卡西莫多的故事
      2025-12-01 10:22:45
      摩爾線程IPO造富:CEO張建中財富曝光 多位高管躋身億萬富翁

      摩爾線程IPO造富:CEO張建中財富曝光 多位高管躋身億萬富翁

      鳳凰網科技
      2025-12-08 11:06:10
      杜鋒:王洪澤等年輕球員不能因表現好而定位錯誤,要踏實做好每一步

      杜鋒:王洪澤等年輕球員不能因表現好而定位錯誤,要踏實做好每一步

      懂球帝
      2025-12-08 08:37:14
      16歲讀博的神童張炘煬,如今無業躺平啃老,坦然承認:我不是神童

      16歲讀博的神童張炘煬,如今無業躺平啃老,坦然承認:我不是神童

      不寫散文詩
      2025-12-07 19:20:12
      三峽大壩還能撐多少年?美專家:已出現裂紋,一枚導彈直接瓦解?

      三峽大壩還能撐多少年?美專家:已出現裂紋,一枚導彈直接瓦解?

      顧史
      2025-12-05 19:57:35
      全智賢擠不動Lisa的C位!

      全智賢擠不動Lisa的C位!

      八卦瘋叔
      2025-12-08 11:25:47
      剛剛,湖北一彩民中了1028萬元

      剛剛,湖北一彩民中了1028萬元

      越喬
      2025-12-08 07:10:34
      殲15鎖定F15后,日本防衛省抗議:一個細節說明中方是想動真格的

      殲15鎖定F15后,日本防衛省抗議:一個細節說明中方是想動真格的

      安安說
      2025-12-07 18:06:52
      剛剛!詹姆斯29+搶斷+準絕殺,誰說我老了

      剛剛!詹姆斯29+搶斷+準絕殺,誰說我老了

      體育新角度
      2025-12-08 12:35:42
      父親術后46天離世,交大碩士怒扒60萬賬單:34次會陰清洗,撕開醫院醫保黑洞

      父親術后46天離世,交大碩士怒扒60萬賬單:34次會陰清洗,撕開醫院醫保黑洞

      犀利辣椒
      2025-12-08 06:23:07
      豬頭肉再次成為關注對象!醫生發現:常吃豬頭肉,或收獲5大好處

      豬頭肉再次成為關注對象!醫生發現:常吃豬頭肉,或收獲5大好處

      讀懂世界歷史
      2025-11-26 09:46:00
      笑暈,好的家政阿姨有多受歡迎!網友:雇主哭著不讓走!

      笑暈,好的家政阿姨有多受歡迎!網友:雇主哭著不讓走!

      夜深愛雜談
      2025-12-06 21:35:05
      云南一父親肝硬化晚期,兒子放棄治療,女兒卻驅車3000公里,為父親捐肝,婆家行為讓人淚目!

      云南一父親肝硬化晚期,兒子放棄治療,女兒卻驅車3000公里,為父親捐肝,婆家行為讓人淚目!

      神奇故事
      2025-12-07 23:01:14
      香港一場大火,要把深圳很多房企逼上絕路

      香港一場大火,要把深圳很多房企逼上絕路

      茶韻浮生
      2025-12-08 09:21:37
      伙食有肉,彈藥管夠!換裝美械的中國軍隊,如何暴打日軍王牌?

      伙食有肉,彈藥管夠!換裝美械的中國軍隊,如何暴打日軍王牌?

      勇哥讀史
      2025-12-07 17:26:06
      2026島內縣市選舉后,他們或許會消失,鄭麗文心情會不會好一點

      2026島內縣市選舉后,他們或許會消失,鄭麗文心情會不會好一點

      今墨緣
      2025-12-07 11:39:17
      南湖賓館之后,景俊海轉舵

      南湖賓館之后,景俊海轉舵

      貞觀108坊
      2025-12-08 07:39:10
      57歲黃慧頤公開與保劍鋒戀情,出軌只是冰山一角

      57歲黃慧頤公開與保劍鋒戀情,出軌只是冰山一角

      馬浵在解說
      2025-12-05 17:28:54
      你聽過的野史有多野?網友︰打了十年,只為一珠子?笑死人了

      你聽過的野史有多野?網友︰打了十年,只為一珠子?笑死人了

      另子維愛讀史
      2025-12-07 21:48:49
      8萬人前,21歲克星羞辱皇馬:將球帶進球門! 阿隆索已難逃下課?

      8萬人前,21歲克星羞辱皇馬:將球帶進球門! 阿隆索已難逃下課?

      風過鄉
      2025-12-08 07:08:45
      2025-12-08 13:12:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11820文章數 176340關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      媒體:臺日竟然還想夾擊解放軍 笑話

      頭條要聞

      媒體:臺日竟然還想夾擊解放軍 笑話

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      教育
      手機
      房產
      本地
      藝術

      教育要聞

      慈母多敗兒,到底是誰的錯

      手機要聞

      iPhone 18系列確認測試屏下Face ID:首發小號靈動島

      房產要聞

      碧桂園,開始甩賣海口家底!

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      藝術要聞

      專家指出:如車企進了傷亡率、事故率名單,車再漂亮、撒再多營銷費用也賣不出去!網友:那是國外

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲色欲在线播放一区| 永登县| 动漫av网站免费观看| av无码精品一区二区三区四区| 人人妻人人澡人人爽秒播| 精品无码人妻一区二区三区| 欧美顶级metart祼体全部自慰 | 日韩美女99精品| 91人妻精| 少妇人妻av无码专区| 69久久| 国产人妻| 昭觉县| 久久精品国产99久久久古代| 免费人成网上在线观看网址| 婷婷激情综合| 固安县| 久久精品国产久精国产| 成人做爰www网站视频| 日韩精品人妻中文字幕不卡乱码 | 蜜桃视频com.www| 龙州县| 亚洲18禁私人影院| 精品国产18久久久久久| jizzjizz视频| 达拉特旗| 免费人成无码大片在线观看| 成在线人午夜剧场免费无码| 成人网站免费观看永久视频下载| 超碰2025| 在线观看免费人成视频色9| 久久久噜噜噜久久熟女aa片| 性爱视频网址| 项城市| 亚洲国产长腿丝袜av天堂| 亚洲精品国产AV| 丁香花在线观看免费观看图片 | 91色色网| 国产色网站| 国产精品夜间视频香蕉| 精品无码一区二区三区的天堂|