<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek強勢回歸,開源IMO金牌級數學模型

      0
      分享至

      機器之心報道

      機器之心編輯部

      突破級推理模型來了,DeepSeek 打開了自我驗證的數學推理方向。

      The whale is back!

      就在剛剛,DeepSeek 又悄咪咪在 Hugging Face 上傳了一個新模型:DeepSeek-Math-V2。



      顧名思義,這是一個數學方面的模型。它的上一個版本 ——DeepSeek-Math-7b 還是一年多以前發的。當時,這個模型只用 7B 參數量,就達到了 GPT-4 和 Gemini-Ultra 性能相當的水平。相關論文還首次引入了 GRPO,顯著提升了數學推理能力。



      那時隔一年半,這個基于 DeepSeek-V3.2-Exp-Base 開發的 DeepSeek-Math-V2 又帶來了哪些驚喜?

      DeepSeek 表示,它的性能優于 Gemini DeepThink,實現了 IMO 金牌級的水平。



      • 論文標題:DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
      • 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
      • 論文地址:https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
      • 核心作者:邵智宏、Yuxiang Luo、Chengda Lu、Z.Z. Ren

      論文開篇,DeepSeek 就指出了當前 AI 在數學推理方面的研究局限:以正確的最終答案作為獎勵,過于追求最終答案準確度。

      這種做法雖然能讓推理模型在 AIME 和 HMMT 等基準上達到更高水平,乃至達到飽和,但 DeepSeek 表示這并不能解決核心問題:正確答案并不保證推理過程正確。此外,許多數學任務(如定理證明)需要嚴謹的逐步推導,而不僅僅是數值答案,這使得基于最終答案的獎勵方法不適用。

      為了推動深度推理的極限,DeepSeek 認為有必要驗證數學推理的全面性和嚴謹性。

      他們指出:「自我驗證在擴展測試時的計算規模時尤為重要,特別是對于沒有已知解的開放性問題?!?/p>

      為了實現可自我驗證的數學推理,DeepSeek 研究了如何訓練一個準確且可信賴的基于 LLM 的定理證明驗證器。然后,他們使用該驗證器作為獎勵模型來訓練證明生成器,并激勵生成器在最終完成證明前盡可能發現并解決自身證明中的問題。

      為了在生成器能力增強時保持生成 - 驗證差距,DeepSeek 提出擴展驗證計算能力,以自動標注新的難以驗證的證明,從而生成訓練數據進一步提升驗證器性能。

      簡單來說,DeepSeek 這篇論文的核心目標不僅僅是讓 AI 做對題,而是讓 AI 「不僅會做,還能自己檢查,甚至能誠實地承認自己哪里做錯了」。

      為了實現這一點,他們設計了一套由三個關鍵角色組成的系統,我們可以用一個「學生 — 老師 — 督導」的類比來理解:

      首先,培養合格的「閱卷老師」(Proof Verification)。

      過去訓練 AI 數學模型,通常只看最后的答案對不對。但在高等數學證明題(如奧數)中,過程嚴謹比答案更重要。因此,DeepSeek 團隊首先訓練了一個專門的驗證器(Verifier),也就是「閱卷老師」。這個老師不只是打鉤打叉,而是學會了像人類專家一樣把證明過程分為三檔 :

      • 1 分:完美,邏輯嚴密。
      • 0.5 分:大體正確,但有小瑕疵或細節遺漏。
      • 0 分:有根本性的邏輯錯誤或嚴重缺失。

      不僅給分,還要寫評語:模型被要求在打分前,先寫一段分析,指出哪里好、哪里有問題 。

      接下來,給老師配個「督導」(Meta-Verification)。

      DeepSeek 發現了一個問題:閱卷老師有時候會胡亂扣分,它可能給了個低分,但指出的錯誤其實根本不存在(也就是產生了幻覺)。

      為了解決這個問題,他們引入了元驗證(Meta-Verification)機制,相當于給老師配了個「督導」。督導的任務不是看考卷,而是專門檢查老師寫的「評語」是否合理。這樣可以雙重確認:督導會檢查老師指出的錯誤是否真實存在,以及扣分是否符合邏輯。效果上,通過訓練模型既能當老師又能當督導,AI 評估證明的準確性和可信度大幅提升。

      然后,培養會「自省」的學生(Proof Generation with Self-Verification)。

      有了好的閱卷系統,接下來就是訓練做題的「學生」(生成器)。這里有一個非常關鍵的創新:誠實獎勵機制。也就是說,它不僅做題,還要自評:模型在輸出解題過程后,必須馬上跟上一段「自我評價」,自己給自己打分(0、0.5 或 1)。

      它會對誠實進行獎勵:

      • 如果模型做錯了,但它在自評中誠實地指出了自己的錯誤,它會得到獎勵 。
      • 相反,如果它做錯了卻硬說自己是對的(盲目自信),或者試圖「蒙混過關」,就會受到懲罰(得不到高獎勵)。

      這樣做的目的是可以迫使 AI 在輸出答案前進行深度思考,試圖發現并修正自己的錯誤,直到它認為自己真的做對了為止 。

      最后,形成自動化閉環(Synergy)。

      人類專家沒法給成千上萬道奧數題寫詳細的步驟評分,所以 DeepSeek 設計了一套自動化流程,讓系統「左右互搏」來自我進化 :

      • 海量生成:讓「學生」對同一道題生成很多種解法。
      • 集體投票:讓「老師」對這些解法進行多次評估。如果大多數評估都認為某個解法有問題,那就判定為有問題;如果沒有發現任何漏洞,才判定為正確 。
      • 以戰養戰:通過這種方式,系統自動篩選出那些很難判卷或很難做對的題目,變成新的教材,重新訓練「老師」和「學生」。這樣,隨著「學生」解題能力變強,「老師」的眼光也越來越毒辣 。

      總之,DeepSeekMath-V2 的方法本質上是從「結果導向」轉向了「過程導向」。它不依賴大量的數學題答案數據,而是通過教會 AI 如何像數學家一樣嚴謹地審查證明過程(包括審查它自己),從而在沒有人類干預的情況下,也能不斷提升解決高難度數學證明題的能力 。

      最終,他們得到了 DeepSeekMath-V2 模型,其展現出了強大的定理證明能力:在 IMO 2025 和 CMO 2024 上取得金牌級成績,并在 Putnam 2024 中以擴展測試計算實現了接近滿分的 118/120。



      下圖展示了 DeepSeekMath-V2 在 IMO-ProofBench 基準(這是 IMO Bench 的一個子集,其中包含 60 道證明題)上的表現,可以看到,在其中的 Basic 基準上,DeepSeekMath-V2 不僅遠勝過其它模型,甚至達到了近 99% 的驚人高分。而在更難的 Advanced 子集上,DeepSeekMath-V2 略遜于 Gemini Deep Think (IMO Gold)。



      DeepSeek 表示:「雖然仍有大量工作需要推進,但這些結果表明,可自我驗證的數學推理是一個可行的研究方向,有望推動更強大數學 AI 系統的發展?!?/p>

      這一自我驗證的數學推理框架可以說突破了傳統強化學習(RL)的限制,讓模型不再依賴最終答案正確性作為唯一獎勵,而是關注推理過程的嚴謹性。此外,DeepSeekMath-V2 中的驗證器 - 生成器協同的雙向改進循環帶來了全面和嚴謹的數學推理能力,大幅減少了大模型幻覺。

      在論文中,DeepSeek 介紹了更多技術細節,感興趣的同學可以去仔細閱讀。返回

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      又一巨頭暴雷!收割2400億元,百萬人資金打水漂,創始人主動投案

      又一巨頭暴雷!收割2400億元,百萬人資金打水漂,創始人主動投案

      財經八卦
      2025-12-06 17:59:27
      “還過個屁年”31歲河南女子的絕望,撕開4400萬人的隱痛,真難啊

      “還過個屁年”31歲河南女子的絕望,撕開4400萬人的隱痛,真難啊

      荷蘭豆愛健康
      2025-12-07 06:08:59
      一家老小入住重慶一酒店4個月拖欠房費4000多,老板倒貼也不肯搬,進展:搬走了

      一家老小入住重慶一酒店4個月拖欠房費4000多,老板倒貼也不肯搬,進展:搬走了

      瀟湘晨報
      2025-12-07 18:59:10
      殷秀梅:遺憾沒生孩子,一心培養弟弟,替弟弟養女兒值嗎?

      殷秀梅:遺憾沒生孩子,一心培養弟弟,替弟弟養女兒值嗎?

      鋭娛之樂
      2025-12-07 20:39:12
      邵佳一首秀時間敲定,新國足大換血,00后挑大梁,武磊或將淡出

      邵佳一首秀時間敲定,新國足大換血,00后挑大梁,武磊或將淡出

      綠茵舞著
      2025-12-07 23:40:04
      塞爾比三大賽10冠超希金斯成歷史第四!準神連續12年奪冠被終結!

      塞爾比三大賽10冠超希金斯成歷史第四!準神連續12年奪冠被終結!

      世界體壇觀察家
      2025-12-08 08:03:07
      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      艾米手工作品
      2025-12-08 07:21:13
      馬克龍結束訪華后公開發文,對中國印象一目了然,釋放了3個信號

      馬克龍結束訪華后公開發文,對中國印象一目了然,釋放了3個信號

      史鹷的生活科普
      2025-12-07 07:21:43
      一個弓箭手帶多少支箭,為何說箭如雨下會讓古代軍隊破產?

      一個弓箭手帶多少支箭,為何說箭如雨下會讓古代軍隊破產?

      老歿體育解說
      2025-12-07 20:32:00
      周濤怒了!“行了可以了,跟你說了很多遍,差不多行了啊”

      周濤怒了!“行了可以了,跟你說了很多遍,差不多行了啊”

      都市快報橙柿互動
      2025-12-07 17:43:27
      她每年采訪30-50位北大學生, 發現“超前學”的孩子長大后成這樣 ...

      她每年采訪30-50位北大學生, 發現“超前學”的孩子長大后成這樣 ...

      閱讀第一
      2025-12-07 08:32:59
      張本智和豪言:總決賽我要奪冠!但在香港舉行,擔心成都的事重演

      張本智和豪言:總決賽我要奪冠!但在香港舉行,擔心成都的事重演

      念洲
      2025-12-08 08:14:53
      廣東各地長途大巴,竟然復蘇了?

      廣東各地長途大巴,竟然復蘇了?

      知肇分子
      2025-12-07 20:25:15
      跌幅近70%!南京一網紅樓盤單價從3.7萬跌至1.3萬,縮水超300萬…

      跌幅近70%!南京一網紅樓盤單價從3.7萬跌至1.3萬,縮水超300萬…

      火山詩話
      2025-12-08 06:45:46
      楊瀚森首次首發:首節不到4分鐘0分2犯規 開拓者20-40落后

      楊瀚森首次首發:首節不到4分鐘0分2犯規 開拓者20-40落后

      醉臥浮生
      2025-12-08 07:45:50
      【成熟之美】盤點業界25位輕熟女神!你認識多少?

      【成熟之美】盤點業界25位輕熟女神!你認識多少?

      素然追光
      2025-12-08 01:35:07
      小米粥再次被關注,調查發現:高血糖患者喝小米粥,或有4大改善

      小米粥再次被關注,調查發現:高血糖患者喝小米粥,或有4大改善

      九哥聊軍事
      2025-12-07 10:00:20
      曾風靡一時,又突然消失的7件家電:科技進步太快,難怪被淘汰

      曾風靡一時,又突然消失的7件家電:科技進步太快,難怪被淘汰

      小柱解說游戲
      2025-12-07 10:04:13
      演員金晨回應妝容被嘲:我錯了,我再也不自己亂化妝了,“真的很丑”

      演員金晨回應妝容被嘲:我錯了,我再也不自己亂化妝了,“真的很丑”

      極目新聞
      2025-12-07 20:24:25
      俄歐關系越發緊張,美烏磋商未見突破,俄猜測數百保時捷被鎖“幕后黑手”

      俄歐關系越發緊張,美烏磋商未見突破,俄猜測數百保時捷被鎖“幕后黑手”

      環球網資訊
      2025-12-08 06:56:16
      2025-12-08 10:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11862文章數 142510關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創業,炮轟大模型,再戰AI

      頭條要聞

      外媒:德外長訪華 迎來政治生涯中最艱難一次出國之旅

      頭條要聞

      外媒:德外長訪華 迎來政治生涯中最艱難一次出國之旅

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      藝術
      數碼
      本地
      公開課
      軍事航空

      藝術要聞

      從3萬人的“小香港”到十室九空!江西深山被廢棄的煤礦小鎮

      數碼要聞

      TUXEDO推出新一代“臺式機替代”Linux筆記本Gemini 17 - Gen4

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      日本稱中方雷達照射日戰機 國防部回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 9久精品视频| 老熟女高潮一区二区三区| 午夜美女裸体福利视频| 久久综合亚洲鲁鲁九月天| 秋霞一区| 久久人妻乱| 上司人妻互换中文字幕| 西西4444www大胆无码| 成人电影c.cc| 布拖县| 欧美?级毛片一进一出夜本色| 久久av高潮av无码av喷吹| 97se综合| 熟女在线国产| av亚洲日韩| 久久99国内精品自在现线| www射我里面在线观看| 国产黄色视频大全| 97精品官网国产户外| 香蕉av福利精品导航| 国产成人剧情AV麻豆果冻| 伊人二区| 越南女子杂交内射bbwxz| 99久热在线精品996热是什么| 亚洲熟妇AV乱码在线观看| 信宜市| 亚洲色欲色欲大片www无码| 国产成人av大片大片| 亚洲123区| 久久蜜桃精品一区二区三区综合网| 国产精品久久久久久爽爽爽| 久久精品亚洲日本波多野结衣| 亚洲丝袜精品在线视频| 亚洲成人A√| 亚洲人成色77777| 成在线人永久免费视频播放| 欧美老熟妇又粗又大| 亚洲国产精品无码久久久秋霞1| 人人玩人人添人人澡超碰| 成人自拍中文字幕| 阜康市|