<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<em id="d2kqf"><b id="d2kqf"><em id="d2kqf"></em></b></em>

<abbr id="d2kqf"><form id="d2kqf"><track id="d2kqf"></track></form></abbr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek的小更新，暴打了OpenAI，追上了Gemini。

釬城 Gemini

2025-12-03 00:05:01　來源: 差評XPIN

浙江舉報

0

分享至

壞消息，開源模型和閉源模型的差距越來越大了。

好消息，DeepSeek 又出手了。

12 月 1 日，DeepSeek 發布了兩款新模型 —— DeepSeek V3.2 和 DeepSeek-V3.2-Speciale。

前者和 GPT-5 能打的有來有回，后面的高性能版更是直接把 GPT 爆了，開始和閉源模型天花板 —— Gemini 打了個五五開。

還在IMO 2025（國際數學奧林匹克）、CMO 2025（中國數學奧林匹克）等一系列比賽中拿下金牌。

這是這家公司今年第九次發布模型，雖然大家期待的 R2 還沒有來。

所以，DeepSeek 是怎么用更小的數據，更少的顯卡，做出能和國際巨頭來抗衡的模型？

我們翻開了他們的論文，想把這件事給大家講清楚。

為了做到這個目標，DeepSeek 又整了不少新招：

先是把咱們的老朋友 DSA —— 稀疏注意力給轉正了。

這東西在之前的 V3.2-EXP 版本里出現過，當時只是測了一下 DSA 會不會影響模型的性能，現在是真的把這玩意給放到了主力模型上。

大家平時和大模型聊天的時候會發現，你在一個對話框里聊的越多，模型就越容易胡言亂語。

甚至聊的太多了，還會直接不讓你聊了。

這是因為大模型原生的注意力機制導致的問題，在這套老邏輯的影響下，每個 token 出來，都要和前面的每一個 token 互相算在一起做一次計算。

這就導致了句子增長一倍，模型的計算量就得增加到原來的四倍，如果邊長到原來的三倍，計算量就變成了原來的九倍，非常麻煩。

DeepSeek 想這樣不行啊，于是就給大模型里加了固定頁數的目錄（稀疏注意力），相當于幫模型劃重點了。

而在有了目錄之后，以后每次只需要計算這個 token 和這些目錄的關系就行了，相當于就是看書先讀目錄，看完目錄，對哪一章感興趣，再去仔細看這章的內容就好。

這樣一來，就能讓大模型讀長文的能力變的更強。

在下面這張圖里可以看到，隨著句子越來越長，傳統的 V3.1 的推理成本是越來越高。

但是用上了稀疏注意力的 3.2 則沒什么變化。。。

屬于是超級省錢冠軍了。

另一方面，DeepSeek 開始重視起了開源模型的后訓練工作。

大模型這一套從預訓練開始，到考試打分的過程，其實有點像是我們人類從小學開始，一路讀書讀到高考的過程。

前面的大規模預訓練，相當于從小學到高二，把所有課本、練習冊、卷子全過一遍，這一步大家都差不多，不管是閉源模型，還是開源模型，都在老老實實的念書。

但到了高考沖刺階段就不一樣了，在模型的后訓練階段，閉源模型一般都會請名師，猛刷題，開始搞起各種強化學習，最后讓模型來考一個不錯的成果。

但開源模型在這塊花的心思就比較少了，按照 DeepSeek 的說法，過去的開源模型在訓練后階段計算投入普遍偏低。

這就導致這些模型可能基礎能力是已經到位的了，但就是難題刷少了，結果導致考出來的成績不太好。

于是，DeepSeek 決定這次自己也要上名師輔導班，設計了一套新的強化學習協議，在預訓練結束后，花了超過總訓練算力的 10% 來給模型開小灶，把之前缺的這塊給補上。

同時還推出了個能思考超長時間的特殊版本 ——DeepSeek V3.2 Speciale。

這玩意的思路是這樣的：

過去的大模型因為上下文長度有限制，所以在訓練的時候都會做一些標注懲罰的工作，如果模型深度思考的內容太長了，那就會扣分。

而到了 DeepSeek V3.2 Speciale 這兒，所以 DeepSeek 干脆取消掉了這個扣分項，反而鼓勵模型想思考多久就思考多久，想怎么思考就怎么思考。

最終，讓這個全新的 DeepSeek V3.2 Speciale 成功的和前幾天爆火的 Gemini 3 打的有來有回。

此外DeepSeek 還很重視模型在智能體方面能力。

一方面，為了提高模型的基礎能力，DeepSeek 構建了一個虛擬環境，合成了成千上萬條數據來輔助訓練。

DeepSeek-V3.2 用 24667 個真實代碼環境任務、50275 個真實搜索任務、4417 個合成通用 agent 場景、5908 個真實的代碼解釋任務做后訓練。

另一方面，DeepSeek 還優化了模型使用各種工具的流程。

以前幾代 DeepSeek 的一個典型毛病是：會把思考和用工具給分開。

模型一旦去調用外部工具，前面那段思考基本就算寫完收工了，等工具查完結果再回來，它往往又要重新鋪一遍思路。

這就導致一種很蠢的體驗——哪怕只是去查一下“今天幾月幾號” 這種小事，模型也會從頭開始重建整套推理鏈，非常浪費時間。。。

在 V3.2 這里，DeepSeek 忍不了了，直接把這套邏輯推翻重做。

現在的規則變成：在一整串工具調用的過程中，模型的“思考過程”會一直保留下來，只有當用戶發來一條新的提問時，才會重置這一輪推理；而工具的調用記錄和結果，會像聊天記錄一樣一直留在上下文里。

通過這修改模型架構，重視后訓練，強化 Agent 能力的三板斧，DeepSeek 才終于讓自己的新模型，有了能和世界頂尖開源模型再次一戰的能力。

當然，即使做了這么多改進，DeepSeek 的表現也算不上完美。

但托尼最喜歡 DeepSeek 的一點，就是他們愿意承認自己的不足。

而且還會直接在論文里寫出來。

比如這次論文就提到了，這次的 DeepSeek V3.2 Speciale 雖然能和谷歌的 Gemini 3 Pro 來打的五五開。

但是要回答相同的問題，DeepSeek 需要花費更多的 token。

我自己也測試了一下，從“人類的最終考試” 的題庫里隨便抽了道題目，同時丟給 Gemini 3 Pro 和 DeepSeek V3.2 Speciale 這兩個模型。

題目是：蜂鳥類在足形目中獨特地擁有雙側成對的橢圓形骨，這是一種嵌入在膨脹的十字翼腱膜的尾狀骨中，嵌入壓低多粒骨的尾狀骨。這塊籽骨支撐著多少對對腱？請用數字回答。

結果發現 Gemini 只要 4972 個 Tokens 就能把問題給答出來。

而到了 DeepSeek 這邊，則用了 8077 個 Tokens 才把問題給搞明白。

光看用量的話，DeepSeek 的的 Tokens 消耗量高了快六成，確實是有不小的差距。

但是話又說回來了。

DeepSeek 雖然消耗的 token 多，但是人家價格便宜啊。。。

還是剛才那個問題，我回頭仔細看了眼賬單。

DeepSeek 8000 多個 tokens，花了我 0.0032 美元。

但谷歌這邊，5000 個 tokens 不到，給我干掉了 0.06 刀？這塊要比 DeepSeek 高了有 20 倍了。

從這個角度上來看，怎么感覺還是 DeepSeek 更香一些。。。

最后，讓我們回到論文的開頭。

正如 DeepSeek 所言，最近半年來，開源模型和閉源模型的差距正在不斷加大。

但他們還是用自己的方式，在不斷追趕這份差距。

而 DeepSeek 的各種節省算力，節約數據的操作，其實讓我想到了上個月，一場關于 Ilya Sutskever 的訪談。

這位 OpenAI 曾經的靈魂人物認為，只靠一味的給模型堆參數，是沒有未來的。

AlexNet只用了兩塊GPU。Transformer剛出現時的實驗規模，大多在8～64塊GPU范圍內。按今天的標準看，那甚至相當于幾塊GPU的規模，ResNet也一樣。沒有哪篇論文靠龐大的集群才能完成。

比起算力的堆砌，對算法的研究也一樣重要。

這正是 DeepSeek 在做的事情。

從 V2 的 MoE，到 V3 的多頭潛在注意力（MLA），再到如今 DeepSeek Math V2 的自驗證機制，V3.2 的稀疏注意力（DSA）。

DeepSeek 展現給我們進步，從來都不是單一的，依靠堆砌參數規模所帶來的提升。

而是在想辦法，如何用有限的數據，來堆積出更多的智能。

巧婦狂作無米之炊

所以，R2 什么時候來呢？

撰文：早起

編輯：江江 & 面線

美編：煥妍

圖片、資料來源：DeepSeek 官網、論文

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

預計下周二！OpenAI“緊急提前”發布GPT 5.2，應對Gemini 3的火爆

華爾街見聞官方 2025-12-06 09:09:35
127 跟貼 127
第二波DeepSeek沖擊：V3.2 改寫中國云生態與芯片生態

華爾街見聞官方 2025-12-06 15:30:07
7 跟貼 7

100萬億Token看懵硅谷！全球一半算力寫代碼，另一半在「搞顏色」？

新智元 2025-12-06 14:03:58
279 跟貼 279

字節Seed團隊發布循環語言模型Ouro，在預訓練階段直接「思考」

機器之心Pro 2025-11-04 11:58:36
0 跟貼 0
Ilya剛預言完，世界首個原生多模態架構就來了：視覺和語言被焊死

量子位 2025-12-06 21:40:40
16 跟貼 16

國產AI路由系統開源逆襲！僅用19%成本達到Gemini-2.5-Pro同性能

量子位 2025-08-20 15:41:20
69 跟貼 69

智能體驅動：企業從“界面操作”到“智能助力”的必然路徑

鈦媒體APP 2025-10-20 16:40:12
0 跟貼 0
英霸已老，谷王當立 | 財經峰評

鈦媒體APP 2025-12-07 22:30:21
19 跟貼 19

格斗冠軍機器人突然發瘋！嚇呆研究人員

量子位 2025-07-25 09:10:58
6 跟貼 6
華為新架構砍了Transformer大動脈！任意模型推理能力原地飆升

量子位 2025-12-06 21:41:29
0 跟貼 0
未來醫生摘得全球第一，臨床安全有效性評估新基準

量子位 2025-11-19 11:14:03
0 跟貼 0
靠一臺電腦和3D打印機，80后男子在杭州車庫手搓機器人

環球網資訊 2025-12-07 21:06:10
175 跟貼 175
AI重塑人機交互方式，下一代終端如何變革？

量子位 2025-09-24 20:17:01
0 跟貼 0
80%初創企業在用中國AI，網友：其他地區豈不是百分百？

量子位 2025-12-05 21:31:47
0 跟貼 0
全球唯一達到國際物理奧賽金牌線的開源AI來自上海AILab

量子位 2025-12-06 22:21:55
0 跟貼 0
大模型也會賭博上癮！理智出走！

量子位 2025-11-03 07:06:08
0 跟貼 0
模型不用微調，靠上下文就能自我進化？

機器之心Pro 2025-10-11 20:20:59
0 跟貼 0
李飛飛發起機器人家務挑戰賽，老黃第一時間批錢贊助

量子位 2025-10-13 09:30:54
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
一個叫高斯的AI，只用了三周完成強素數定理

量子位 2025-09-20 00:57:38
0 跟貼 0
機器人終于有自己的真機評測大考了

量子位 2025-10-15 20:05:44
0 跟貼 0
機器狗跳千手觀音，波士頓動力達人秀炸場

量子位 2025-06-13 15:55:52
0 跟貼 0
機器狗被鋸腿也能繼續走，Skild Brain估值45億美元

量子位 2025-09-27 17:49:32
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0
五八智能四足機器人平臺Q20A 不止跑跳整活還能維護公共安全

量子位 2025-09-30 10:01:00
0 跟貼 0
物流業deepseek時刻，中國無人車火爆全球

華商韜略 2025-06-17 10:58:23
0 跟貼 0
機器人疊衣，靈巧手抓萬物，超實用機器人組合來了

量子位 2025-07-29 03:31:41
0 跟貼 0
五八智能四足機器人平臺Q20A，適用于千行百業

量子位 2025-09-30 15:35:41
0 跟貼 0
波士頓機器狗練成“輕功”！連續七個后空翻

量子位 2025-09-07 01:03:18
0 跟貼 0
學術圈最強AI工具：6.9億專業文獻，“搜讀創編”全程輔助

量子位 2025-09-11 18:42:26
0 跟貼 0
中國AI Agent產業化參考范本：斑馬口語攻克的四大技術難關

機器之心Pro 2025-11-18 14:12:50
0 跟貼 0
大廠禁用Cursor，程序員回歸“手搓時代”？

鈦媒體APP 2025-12-08 09:19:13
0 跟貼 0
俄軍宣布攻克紅軍城！張延廷拆解戰場決勝邏輯

金日視界 2025-12-05 13:35:50
0 跟貼 0
英偉達巧用8B模型秒掉GPT-5，開源了

量子位 2025-12-06 14:07:18
7 跟貼 7
真是邏輯詭才啊，這么刁鉆的角度他是咋想到的

天才設計師 2025-12-06 23:22:23
3 跟貼 3
這是真的不把老板當人看啊！老板親身上陣體驗眾擎T800的實力！網友：看得出來旁邊的員工舉著手機笑得好

城市大眼睛 2025-12-07 12:40:35
0 跟貼 0
明朝最基層的治理體系縣衙的架構是怎樣的？

朝話熹史 2025-12-05 06:05:44
0 跟貼 0
向太看懂2條人性規則，幫你少走10年彎路！向太這番話太透徹了！

悅悅知識分享 2025-12-06 02:02:40
0 跟貼 0
為什么對罪犯“越狠”，可能害處越大？——刑罰計算的底層邏輯

周兆成律師 2025-12-06 10:00:00
26 跟貼 26
LLaVA-OneVision-1.5開源，8B模型預訓練只需4天、1.6萬美元

機器之心Pro 2025-10-13 18:37:02
0 跟貼 0

她每年采訪30-50位北大學生, 發現“超前學”的孩子長大后成這樣 ...

她每年采訪30-50位北大學生, 發現“超前學”的孩子長大后成這樣 ...

閱讀第一

2025-12-07 08:32:59

36年前陳寶國主演的盜墓恐怖片！尺度大到少兒不宜

36年前陳寶國主演的盜墓恐怖片！尺度大到少兒不宜

釋凡電影

2025-08-14 09:33:19

18年生涯最失敗賽季，漢密爾頓：我受夠了！

18年生涯最失敗賽季，漢密爾頓：我受夠了！

體育妞世界

2025-12-07 16:14:18

人民日報怒批，炫富、偷稅749萬、跑國外，現又來“割內地韭菜”

人民日報怒批，炫富、偷稅749萬、跑國外，現又來“割內地韭菜”

丁丁鯉史紀

2025-12-03 09:15:50

一度在中國控制之下的法卡山，到最后卻給了越南，你知道原因嗎？

一度在中國控制之下的法卡山，到最后卻給了越南，你知道原因嗎？

小濤叨叨

2025-12-07 20:06:02

水果姐官宣與加拿大前總理特魯多戀情，發布首張自拍合影

水果姐官宣與加拿大前總理特魯多戀情，發布首張自拍合影

韓小娛

2025-12-07 16:29:49

被橫掃，改變對曼昱稱呼，誰注意張本美和握手舉動，曼昱傷情曝光

被橫掃，改變對曼昱稱呼，誰注意張本美和握手舉動，曼昱傷情曝光

樂聊球

2025-12-07 21:03:54

意媒解析國米對陣利物浦三大武器：斯洛特的執念薩拉赫風波

意媒解析國米對陣利物浦三大武器：斯洛特的執念薩拉赫風波

國際足球冷雪

2025-12-08 09:00:05

“給你們鞠躬”最快女護士再獲1.5萬獎金近7周跑5場總獎金18.5萬

“給你們鞠躬”最快女護士再獲1.5萬獎金近7周跑5場總獎金18.5萬

風過鄉

2025-12-07 12:07:44

在寸土寸金的香港，貴為視后也難買豪宅，你看胡杏兒和鐘嘉欣聚餐

在寸土寸金的香港，貴為視后也難買豪宅，你看胡杏兒和鐘嘉欣聚餐

可樂談情感

2025-11-25 12:07:13

重大轉向！美國發布最新《國家安全戰略》：放棄全球霸權，將調整與中國經濟關系，“以互惠平等為原則”，承認中美“近乎對等”！歐洲炸鍋

重大轉向！美國發布最新《國家安全戰略》：放棄全球霸權，將調整與中國經濟關系，“以互惠平等為原則”，承認中美“近乎對等”！歐洲炸鍋

每日經濟新聞

2025-12-06 23:23:09

南京市中心商場被瘋狂吐槽！現場實探形同鬼屋

南京市中心商場被瘋狂吐槽！現場實探形同鬼屋

劉哥談體育

2025-12-08 06:26:05

不滿？張本智和：在成都發生了很多事！沒必要說出來，但我不會忘

不滿？張本智和：在成都發生了很多事！沒必要說出來，但我不會忘

念洲

2025-12-08 08:14:17

消息稱蘋果芯片主管斯魯吉考慮離職；陳震宣布暫停一切對外表達;《瘋狂動物城 2》票房突破 28 億｜Do早報

消息稱蘋果芯片主管斯魯吉考慮離職；陳震宣布暫停一切對外表達;《瘋狂動物城 2》票房突破 28 億｜Do早報

DoNews

2025-12-08 09:31:08

短短兩周內，廣東一地鐵站先后撿到兩包現金，金額均超10萬元……坐地鐵遺失財物怎么辦？官方提醒

短短兩周內，廣東一地鐵站先后撿到兩包現金，金額均超10萬元……坐地鐵遺失財物怎么辦？官方提醒

環球網資訊

2025-12-07 21:06:11

和稀泥的專家，哄女人的高手，韋小寶在世也不得不服他！

和稀泥的專家，哄女人的高手，韋小寶在世也不得不服他！

歷史按察使司

2025-12-08 08:55:03

又一比賽獲獎名單復制百度人名大全，負責人：工作人員鉆空子

又一比賽獲獎名單復制百度人名大全，負責人：工作人員鉆空子

澎湃新聞

2025-12-07 20:46:28

已正式開啟！無錫適齡男子都要登記

已正式開啟！無錫適齡男子都要登記

江南晚報

2025-12-06 15:42:35

同事搭我便車，高速上一路冷嘲熱諷，到服務區后：你在這等我一下

同事搭我便車，高速上一路冷嘲熱諷，到服務區后：你在這等我一下

蘭姐說故事

2025-12-03 12:05:07

中戲明星班畢業，搭檔孫紅雷也沒紅，48歲的她卻活成了人間清醒

中戲明星班畢業，搭檔孫紅雷也沒紅，48歲的她卻活成了人間清醒

手工制作阿殲

2025-12-07 16:27:46

用知識和觀點Debug the world！

9950文章數 489285關注度

往期回顧全部

科技要聞

獨家|李笛再創業，炮轟大模型，再戰AI

頭條要聞

外媒：德外長訪華迎來政治生涯中最艱難一次出國之旅

頭條要聞

外媒：德外長訪華迎來政治生涯中最艱難一次出國之旅

體育要聞

梅開48度！2年半，這是梅西在邁阿密的一人一城

娛樂要聞

林俊杰AAA頒獎禮，韓娛愛豆均站起鞠躬

財經要聞

養牛場未見一頭牛每天開采礦石倒賣

汽車要聞

傳奇超跑電動形態重生雷克薩斯LFA純電概念車

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

親子

游戲

藝術

手機

教育要聞

全市基礎教育質量提升暨振興縣域高中現場推進會召開

親子要聞

這五招讓娃主動吃飯

《殺戮尖塔2》創始人：我們通過拋硬幣決定制作續作

藝術要聞

從3萬人的“小香港”到十室九空！江西深山被廢棄的煤礦小鎮

手機要聞

Viwoods推出彩色電紙書手機：150PPI墨水屏，4G網絡、側邊指紋

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：久久久免费精品re6| 资阳市| 中文字幕人妻无码一区二区三区| 少妇人妻精品一区二区| 专干老熟女视频在线观看| 99在线观看| 粉嫩导航| 波多野结衣av一区二区三区中文| 91成人在线免费观看| 一本一道人妻久久综合无码| 国偷自产av一区二区三区| 台湾佬中文娱乐22vvvv| 精品无码久久久久国产电影| av图片小说| 妓院一钑片免看黄大片| 真实的国产乱xxxx| 中文字幕乱码中文乱码毛片| 伊人网狼人| 亚洲国产另类久久久精品小说| 亚洲精品国产电影| 天堂中文8资源在线8| 超碰人妻97| 99精品中文| 无码人妻丰满熟妇区五十路百度 | 一本无码av中文出轨人妻| 91福利国产午夜亚洲精品| 亚洲男人在线| 中文字幕乱码人妻无码久久免费| 又大又粗欧美黑人aaaaa片| 色伦专区97中文字幕| 国产精品1区| 一本色道久久亚洲综合精品| 亚洲一区二区三区四区五区六| 正在播放肥臀熟妇在线视频| 九九全国免费视频| 金乡县| 亚洲综合精品一区二区三区| 亚洲成人www| 制服丝袜无码在线| 久热大香蕉| 久久综合99re88久久爱|