<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek的小更新,暴打了OpenAI,追上了Gemini。

      釬城 Gemini

      0
      分享至


      壞消息,開源模型和閉源模型的差距越來越大了。

      好消息,DeepSeek 又出手了。

      12 月 1 日,DeepSeek 發布了兩款新模型 —— DeepSeek V3.2 和 DeepSeek-V3.2-Speciale。


      前者和 GPT-5 能打的有來有回,后面的高性能版更是直接把 GPT 爆了,開始和閉源模型天花板 —— Gemini 打了個五五開。

      還在IMO 2025(國際數學奧林匹克)、CMO 2025(中國數學奧林匹克)等一系列比賽中拿下金牌。


      這是這家公司今年第九次發布模型,雖然大家期待的 R2 還沒有來。


      所以,DeepSeek 是怎么用更小的數據,更少的顯卡,做出能和國際巨頭來抗衡的模型?

      我們翻開了他們的論文,想把這件事給大家講清楚。

      為了做到這個目標,DeepSeek 又整了不少新招:

      先是把咱們的老朋友 DSA —— 稀疏注意力給轉正了。


      這東西在之前的 V3.2-EXP 版本里出現過,當時只是測了一下 DSA 會不會影響模型的性能,現在是真的把這玩意給放到了主力模型上。


      大家平時和大模型聊天的時候會發現,你在一個對話框里聊的越多,模型就越容易胡言亂語。

      甚至聊的太多了,還會直接不讓你聊了。


      這是因為大模型原生的注意力機制導致的問題,在這套老邏輯的影響下,每個 token 出來,都要和前面的每一個 token 互相算在一起做一次計算。


      這就導致了句子增長一倍,模型的計算量就得增加到原來的四倍,如果邊長到原來的三倍,計算量就變成了原來的九倍,非常麻煩。

      DeepSeek 想這樣不行啊,于是就給大模型里加了固定頁數的目錄(稀疏注意力),相當于幫模型劃重點了。

      而在有了目錄之后,以后每次只需要計算這個 token 和這些目錄的關系就行了,相當于就是看書先讀目錄,看完目錄,對哪一章感興趣,再去仔細看這章的內容就好。


      這樣一來,就能讓大模型讀長文的能力變的更強。

      在下面這張圖里可以看到,隨著句子越來越長,傳統的 V3.1 的推理成本是越來越高。

      但是用上了稀疏注意力的 3.2 則沒什么變化。。。


      屬于是超級省錢冠軍了。

      另一方面,DeepSeek 開始重視起了開源模型的后訓練工作。

      大模型這一套從預訓練開始,到考試打分的過程,其實有點像是我們人類從小學開始,一路讀書讀到高考的過程。

      前面的大規模預訓練,相當于從小學到高二,把所有課本、練習冊、卷子全過一遍,這一步大家都差不多,不管是閉源模型,還是開源模型,都在老老實實的念書。

      但到了高考沖刺階段就不一樣了,在模型的后訓練階段,閉源模型一般都會請名師,猛刷題,開始搞起各種強化學習,最后讓模型來考一個不錯的成果。

      但開源模型在這塊花的心思就比較少了,按照 DeepSeek 的說法,過去的開源模型在訓練后階段計算投入普遍偏低。

      這就導致這些模型可能基礎能力是已經到位的了,但就是難題刷少了,結果導致考出來的成績不太好。

      于是,DeepSeek 決定這次自己也要上名師輔導班,設計了一套新的強化學習協議,在預訓練結束后,花了超過總訓練算力的 10% 來給模型開小灶,把之前缺的這塊給補上。

      同時還推出了個能思考超長時間的特殊版本 ——DeepSeek V3.2 Speciale

      這玩意的思路是這樣的:

      過去的大模型因為上下文長度有限制,所以在訓練的時候都會做一些標注懲罰的工作,如果模型深度思考的內容太長了,那就會扣分。

      而到了 DeepSeek V3.2 Speciale 這兒,所以 DeepSeek 干脆取消掉了這個扣分項,反而鼓勵模型想思考多久就思考多久,想怎么思考就怎么思考。

      最終,讓這個全新的 DeepSeek V3.2 Speciale 成功的和前幾天爆火的 Gemini 3 打的有來有回。


      此外DeepSeek 還很重視模型在智能體方面能力。

      一方面,為了提高模型的基礎能力,DeepSeek 構建了一個虛擬環境,合成了成千上萬條數據來輔助訓練。

      DeepSeek-V3.2 用 24667 個真實代碼環境任務、50275 個真實搜索任務、4417 個合成通用 agent 場景、5908 個真實的代碼解釋任務做后訓練。


      另一方面,DeepSeek 還優化了模型使用各種工具的流程。

      以前幾代 DeepSeek 的一個典型毛病是:會把思考和用工具給分開。

      模型一旦去調用外部工具,前面那段思考基本就算寫完收工了,等工具查完結果再回來,它往往又要重新鋪一遍思路。


      這就導致一種很蠢的體驗——哪怕只是去查一下“今天幾月幾號” 這種小事,模型也會從頭開始重建整套推理鏈,非常浪費時間。。。

      在 V3.2 這里,DeepSeek 忍不了了,直接把這套邏輯推翻重做。

      現在的規則變成:在一整串工具調用的過程中,模型的“思考過程”會一直保留下來,只有當用戶發來一條新的提問時,才會重置這一輪推理;而工具的調用記錄和結果,會像聊天記錄一樣一直留在上下文里。


      通過這修改模型架構,重視后訓練,強化 Agent 能力的三板斧,DeepSeek 才終于讓自己的新模型,有了能和世界頂尖開源模型再次一戰的能力。

      當然,即使做了這么多改進,DeepSeek 的表現也算不上完美。

      但托尼最喜歡 DeepSeek 的一點,就是他們愿意承認自己的不足。

      而且還會直接在論文里寫出來。

      比如這次論文就提到了,這次的 DeepSeek V3.2 Speciale 雖然能和谷歌的 Gemini 3 Pro 來打的五五開。


      但是要回答相同的問題,DeepSeek 需要花費更多的 token。

      我自己也測試了一下,從“人類的最終考試” 的題庫里隨便抽了道題目,同時丟給 Gemini 3 Pro 和 DeepSeek V3.2 Speciale 這兩個模型。


      題目是: 蜂鳥類在足形目中獨特地擁有雙側成對的橢圓形骨,這是一種嵌入在膨脹的十字翼腱膜的尾狀骨中,嵌入壓低多粒骨的尾狀骨。這塊籽骨支撐著多少對對腱?請用數字回答。

      結果發現 Gemini 只要 4972 個 Tokens 就能把問題給答出來。


      而到了 DeepSeek 這邊,則用了 8077 個 Tokens 才把問題給搞明白。


      光看用量的話,DeepSeek 的的 Tokens 消耗量高了快六成,確實是有不小的差距。


      但是話又說回來了。

      DeepSeek 雖然消耗的 token 多,但是人家價格便宜啊。。。

      還是剛才那個問題,我回頭仔細看了眼賬單。

      DeepSeek 8000 多個 tokens,花了我 0.0032 美元。

      但谷歌這邊,5000 個 tokens 不到,給我干掉了 0.06 刀?這塊要比 DeepSeek 高了有 20 倍了。


      從這個角度上來看,怎么感覺還是 DeepSeek 更香一些。。。

      最后,讓我們回到論文的開頭。

      正如 DeepSeek 所言,最近半年來,開源模型和閉源模型的差距正在不斷加大。


      但他們還是用自己的方式,在不斷追趕這份差距。

      而 DeepSeek 的各種節省算力,節約數據的操作,其實讓我想到了上個月,一場關于 Ilya Sutskever 的訪談。


      這位 OpenAI 曾經的靈魂人物認為,只靠一味的給模型堆參數,是沒有未來的。

      AlexNet只用了兩塊GPU。Transformer剛出現時的實驗規模,大多在8~64塊GPU范圍內。按今天的標準看,那甚至相當于幾塊GPU的規模,ResNet也一樣。沒有哪篇論文靠龐大的集群才能完成。

      比起算力的堆砌,對算法的研究也一樣重要。

      這正是 DeepSeek 在做的事情。

      從 V2 的 MoE,到 V3 的多頭潛在注意力(MLA),再到如今 DeepSeek Math V2 的自驗證機制,V3.2 的稀疏注意力(DSA)。

      DeepSeek 展現給我們進步,從來都不是單一的,依靠堆砌參數規模所帶來的提升。

      而是在想辦法,如何用有限的數據,來堆積出更多的智能。

      巧婦狂作無米之炊

      所以,R2 什么時候來呢?

      撰文:早起

      編輯:江江 & 面線

      美編:煥妍

      圖片、資料來源:DeepSeek 官網、論文


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      她每年采訪30-50位北大學生, 發現“超前學”的孩子長大后成這樣 ...

      她每年采訪30-50位北大學生, 發現“超前學”的孩子長大后成這樣 ...

      閱讀第一
      2025-12-07 08:32:59
      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      釋凡電影
      2025-08-14 09:33:19
      18年生涯最失敗賽季,漢密爾頓:我受夠了!

      18年生涯最失敗賽季,漢密爾頓:我受夠了!

      體育妞世界
      2025-12-07 16:14:18
      人民日報怒批,炫富、偷稅749萬、跑國外,現又來“割內地韭菜”

      人民日報怒批,炫富、偷稅749萬、跑國外,現又來“割內地韭菜”

      丁丁鯉史紀
      2025-12-03 09:15:50
      一度在中國控制之下的法卡山,到最后卻給了越南,你知道原因嗎?

      一度在中國控制之下的法卡山,到最后卻給了越南,你知道原因嗎?

      小濤叨叨
      2025-12-07 20:06:02
      水果姐官宣與加拿大前總理特魯多戀情,發布首張自拍合影

      水果姐官宣與加拿大前總理特魯多戀情,發布首張自拍合影

      韓小娛
      2025-12-07 16:29:49
      被橫掃,改變對曼昱稱呼,誰注意張本美和握手舉動,曼昱傷情曝光

      被橫掃,改變對曼昱稱呼,誰注意張本美和握手舉動,曼昱傷情曝光

      樂聊球
      2025-12-07 21:03:54
      意媒解析國米對陣利物浦三大武器:斯洛特的執念 薩拉赫風波

      意媒解析國米對陣利物浦三大武器:斯洛特的執念 薩拉赫風波

      國際足球冷雪
      2025-12-08 09:00:05
      “給你們鞠躬”最快女護士再獲1.5萬獎金 近7周跑5場總獎金18.5萬

      “給你們鞠躬”最快女護士再獲1.5萬獎金 近7周跑5場總獎金18.5萬

      風過鄉
      2025-12-07 12:07:44
      在寸土寸金的香港,貴為視后也難買豪宅,你看胡杏兒和鐘嘉欣聚餐

      在寸土寸金的香港,貴為視后也難買豪宅,你看胡杏兒和鐘嘉欣聚餐

      可樂談情感
      2025-11-25 12:07:13
      重大轉向!美國發布最新《國家安全戰略》:放棄全球霸權,將調整與中國經濟關系,“以互惠平等為原則”,承認中美“近乎對等”!歐洲炸鍋

      重大轉向!美國發布最新《國家安全戰略》:放棄全球霸權,將調整與中國經濟關系,“以互惠平等為原則”,承認中美“近乎對等”!歐洲炸鍋

      每日經濟新聞
      2025-12-06 23:23:09
      南京市中心商場被瘋狂吐槽!現場實探形同鬼屋

      南京市中心商場被瘋狂吐槽!現場實探形同鬼屋

      劉哥談體育
      2025-12-08 06:26:05
      不滿?張本智和:在成都發生了很多事!沒必要說出來,但我不會忘

      不滿?張本智和:在成都發生了很多事!沒必要說出來,但我不會忘

      念洲
      2025-12-08 08:14:17
      消息稱蘋果芯片主管斯魯吉考慮離職;陳震宣布暫停一切對外表達;《瘋狂動物城 2》票房突破 28 億|Do早報

      消息稱蘋果芯片主管斯魯吉考慮離職;陳震宣布暫停一切對外表達;《瘋狂動物城 2》票房突破 28 億|Do早報

      DoNews
      2025-12-08 09:31:08
      短短兩周內,廣東一地鐵站先后撿到兩包現金,金額均超10萬元……坐地鐵遺失財物怎么辦?官方提醒

      短短兩周內,廣東一地鐵站先后撿到兩包現金,金額均超10萬元……坐地鐵遺失財物怎么辦?官方提醒

      環球網資訊
      2025-12-07 21:06:11
      和稀泥的專家,哄女人的高手,韋小寶在世也不得不服他!

      和稀泥的專家,哄女人的高手,韋小寶在世也不得不服他!

      歷史按察使司
      2025-12-08 08:55:03
      又一比賽獲獎名單復制百度人名大全,負責人:工作人員鉆空子

      又一比賽獲獎名單復制百度人名大全,負責人:工作人員鉆空子

      澎湃新聞
      2025-12-07 20:46:28
      已正式開啟!無錫適齡男子都要登記

      已正式開啟!無錫適齡男子都要登記

      江南晚報
      2025-12-06 15:42:35
      同事搭我便車,高速上一路冷嘲熱諷,到服務區后:你在這等我一下

      同事搭我便車,高速上一路冷嘲熱諷,到服務區后:你在這等我一下

      蘭姐說故事
      2025-12-03 12:05:07
      中戲明星班畢業,搭檔孫紅雷也沒紅,48歲的她卻活成了人間清醒

      中戲明星班畢業,搭檔孫紅雷也沒紅,48歲的她卻活成了人間清醒

      手工制作阿殲
      2025-12-07 16:27:46
      2025-12-08 10:24:49
      差評XPIN incentive-icons
      差評XPIN
      用知識和觀點Debug the world!
      9950文章數 489285關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創業,炮轟大模型,再戰AI

      頭條要聞

      外媒:德外長訪華 迎來政治生涯中最艱難一次出國之旅

      頭條要聞

      外媒:德外長訪華 迎來政治生涯中最艱難一次出國之旅

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      教育
      親子
      游戲
      藝術
      手機

      教育要聞

      全市基礎教育質量提升暨振興縣域高中現場推進會召開

      親子要聞

      這五招讓娃主動吃飯

      《殺戮尖塔2》創始人:我們通過拋硬幣決定制作續作

      藝術要聞

      從3萬人的“小香港”到十室九空!江西深山被廢棄的煤礦小鎮

      手機要聞

      Viwoods推出彩色電紙書手機:150PPI墨水屏,4G網絡、側邊指紋

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久久免费精品re6| 资阳市| 中文字幕人妻无码一区二区三区| 少妇人妻精品一区二区| 专干老熟女视频在线观看| 99在线观看| 粉嫩导航| 波多野结衣av一区二区三区中文| 91成人在线免费观看| 一本一道人妻久久综合无码| 国偷自产av一区二区三区| 台湾佬中文娱乐22vvvv| 精品无码久久久久国产电影| av图片小说| 妓院一钑片免看黄大片| 真实的国产乱xxxx| 中文字幕乱码中文乱码毛片| 伊人网狼人| 亚洲国产另类久久久精品小说| 亚洲精品国产电影| 天堂中文8资源在线8| 超碰人妻97| 99精品中文| 无码人妻丰满熟妇区五十路百度 | 一本无码av中文出轨人妻| 91福利国产午夜亚洲精品| 亚洲男人在线| 中文字幕乱码人妻无码久久免费| 又大又粗欧美黑人aaaaa片| 色伦专区97中文字幕| 国产精品1区| 一本色道久久亚洲综合精品| 亚洲一区二区三区四区五区六| 正在播放肥臀熟妇在线视频| 九九全国免费视频| 金乡县| 亚洲综合精品一区二区三区| 亚洲成人www| 制服丝袜无码在线| 久热大香蕉| 久久综合99re88久久爱|