<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,DeepSeek開源新模型,拿下奧數證明題冠軍

      0
      分享至


      智東西
      作者 李水青
      編輯 心緣

      智東西11月17 日報道,今日,DeepSeek開源了“奧數金牌級”模型DeepSeekMath-V2,該模型具備強大的定理證明能力

      DeepSeekMath-V2在2025年國際數學奧林匹克競賽(IMO 2025)和2024年中國數學奧林匹克競賽(CMO 2024)上取得了金牌水平的成績;并在2024年普特南大學生數學競賽(Putnam 2024)上取得了接近滿分(118/120分)的成績,超過人類最高的90分成績。


      如下圖所示,DeepSeekMath-V2以10%的優勢擊敗谷歌的IMO金獎得主DeepThink模型。

      ▲DeepSeekMath-V2在數學競賽中的成績表現


      ▲DeepSeekMath-V2在IMO-ProofBench的測評結果

      上述結果表明,自驗證數學推理是一個可行的研究方向,可能有助于開發更強大的數學AI系統。


      Hugging Face地址:
      https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
      論文地址:
      https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

      按慣例,DeepSeek往往會將新開源的模型直接上線DeepSeek,我們第一時間嘗試進行了體驗。

      首先讓DeepSeek證明一道較簡單的題目“證明根號2為無理數”,DeepSeek快速給出了正確答案。


      當智東西輸入“證明奇數和整數哪個多?”這一證明題,DeepSeek也給出了正確證明過程和答案,這一證明過程大部分人應該可以看懂。當然,奧數級證明題會更加復雜,如果有能夠看懂理解這類題目的讀者,可以再進一步進行體驗測試。



      回到模型背后的研發問題,我們來具體看看論文內容,從已有的研究來看,在數學推理領域,強化學習(RL)傳統方法足以讓大模型在主要評估最終答案的數學競賽(如AIME和HMMT)中達到很高的水平。然而這種獎勵機制存在兩個根本性的局限性:

      首先,傳統方法不能可靠地代表推理的正確性,模型可能通過有缺陷的邏輯或僥幸的錯誤得出正確答案。

      其次,它不適用于定理證明任務,在這類任務中,問題可能不需要生成數值形式的最終答案,而嚴謹的推導才是主要目標。

      為此,DeepSeek建議在大型語言模型中開發證明驗證能力,基于DeepSeek-V3.2-Exp-Base開發了DeepSeekMath-V2。他們讓模型明確了解其獎勵函數,并使其能夠通過有意識的推理而非盲目的試錯來最大化這一獎勵。

      DeepSeek制定了用于證明評估的高級評分標準,目的是訓練一個驗證器,使其能根據這些評分標準對證明進行評估,模擬數學專家的評估過程。以DeepSeek-V3.2-Exp-SFT的一個版本為基礎,通過強化學習訓練模型生成證明分析,訓練過程使用了兩個獎勵組件:格式獎勵和分數獎勵。


      然后是構建強化學習數據集。DeepSeek基于17503道競賽題目、DeepSeek-V3.2-Exp-Thinking生成的候選證明、帶專家評分的隨機抽取的證明樣本,構建了初始強化學習訓練數據集。

      緊接著,其設置了強化學習目標和訓練驗證器的強化學習目標。具體是以DeepSeek-V3.2-Exp-SFT的一個版本為基礎,通過強化學習訓練模型生成證明分析,訓練過程使用了兩個獎勵組件:格式獎勵和分數獎勵。而后通過下列函數完成訓練驗證器的強化學習目標。

      為了解決訓練過程中“驗證器可能通過預測正確分數同時虛構不存在的問題來獲得全部獎勵”這一漏洞,DeepSeek引入了一個二次評估過程——元驗證(meta-verification),從而提高驗證器識別問題的忠實度。

      在證明生成階段,DeepSeek進行了證明生成器的訓練,并通過自我驗證增強推理能力,解決模型被要求一次性生成并分析自己的證明時“生成器不顧外部驗證器判錯而宣稱證明是正確的”。


      最后,DeepSeek證明驗證器和生成器形成了一個協同循環:驗證器改進生成器,而隨著生成器的改進,它會生成新的證明,這些證明對驗證器當前的能力構成挑戰,這些挑戰也成為增強驗證器自身的寶貴訓練數據。

      簡單來說,DeepSeekMath-V2模型中的驗證器能完成逐步檢查證明過程,而生成器則會修正自身的錯誤。

      從實驗結果來看,在單步生成結果評估中,如圖1所示,在CNML級別的所有問題類別(代數、幾何、數論、組合數學和不等式)中,DeepSeekMath-V2始終優于GPT-5-Thinking-High和Gemini 2.5-Pro,展現出在各領域更卓越的定理證明能力。


      在帶自我驗證的順序優化中,其對2024 IMO備選題進行連續優化后,證明質量提升。自選的最佳證明比線程平均值獲得了顯著更高的驗證分數,這表明生成器能夠準確評估證明質量。這些結果證實,其生成器能夠可靠地區分高質量證明和有缺陷的證明,并利用這種自我認知系統地改進其數學推理能力。

      在高計算量探索中,DeepSeek擴大了驗證和生成計算的規模,他們的方法解決了2025 IMO的6道題中的5道,以及2024 CMO的4道題,另外1道題獲得部分分數,在這兩項頂尖高中競賽中均達到金牌水平,在基礎集上優于DeepMind的DeepThink(IMO金牌水平),在高級集上保持競爭力,同時大幅優于所有其他基線模型。

      但DeepSeek發現,最困難的IMO級別問題對其模型來說仍然具有挑戰性。

      值得注意的是,對于未完全解決的問題,DeepSeek的生成器通常能在其證明過程中識別出真正的問題,而完全解決的問題則能通過所有64次驗證嘗試。這表明,我們能夠成功訓練基于大語言模型的驗證器,以評估那些此前被認為難以自動驗證的證明。通過在驗證器的指導下增加測試時的計算量,DeepSeek的模型能夠解決那些需要人類競爭者花費數小時才能解決的問題。

      結語:可自我驗證的AI系統,離解決研究級數學問題更進一步

      總的來說,DeepSeek提出了一個既能生成又能驗證數學證明的模型。團隊突破了基于最終答案的獎勵機制的局限性,邁向了可自我驗證的數學推理。

      這項工作證實,大語言模型能夠培養出針對復雜推理任務的有意義的自我評估能力。盡管仍存在重大挑戰,這一研究方向有望為創建可自我驗證的AI系統解決研究級數學問題這一目標做出貢獻。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      得知被判死緩,對被害人一家破口大罵

      得知被判死緩,對被害人一家破口大罵

      中國新聞周刊
      2025-12-07 10:50:19
      一部《芳華》,為何在今天突然刺痛了這么多人?

      一部《芳華》,為何在今天突然刺痛了這么多人?

      草莓解說體育
      2025-12-08 09:46:53
      詐騙14億!王麗坤全網社死前夫被法拍清單流出 才知他們有多奢靡

      詐騙14億!王麗坤全網社死前夫被法拍清單流出 才知他們有多奢靡

      千言娛樂記
      2025-11-27 22:16:17
      豪門球隊贊助商費用曝光!AC米蘭2.5億元 不如曼城和曼聯的一半

      豪門球隊贊助商費用曝光!AC米蘭2.5億元 不如曼城和曼聯的一半

      漫川舟船
      2025-12-08 11:09:34
      壽命與大便次數有關?研究發現:壽命長的人,每天排便在這個次數

      壽命與大便次數有關?研究發現:壽命長的人,每天排便在這個次數

      DrX說
      2025-10-24 14:15:19
      剛訪完印度,普京收到壞消息,通往中國的鐵路不得不叫停了

      剛訪完印度,普京收到壞消息,通往中國的鐵路不得不叫停了

      陳博世財經
      2025-12-08 10:30:23
      林徽因落選的國徽方案,網友看后感嘆:審美確實一絕,但真不合適

      林徽因落選的國徽方案,網友看后感嘆:審美確實一絕,但真不合適

      元哥說歷史
      2025-12-03 11:25:03
      中組部:公職人員退休后未經批準經商(包括當律師)的,不再保留黨政機關退休金等待遇

      中組部:公職人員退休后未經批準經商(包括當律師)的,不再保留黨政機關退休金等待遇

      新浪財經
      2025-11-18 12:46:38
      中國乘勝追擊:既然日本首相稱立場沒變,那就把對華承諾復述一遍

      中國乘勝追擊:既然日本首相稱立場沒變,那就把對華承諾復述一遍

      成視Talk
      2025-12-08 11:06:10
      中美日首次世界500強排名斷崖差距:美151家,日149家,中國呢?

      中美日首次世界500強排名斷崖差距:美151家,日149家,中國呢?

      阿柒的訊
      2025-12-04 19:39:35
      蘇群:楊瀚森在同一場比賽內,上下半場呈現不同的面貌是重要優點

      蘇群:楊瀚森在同一場比賽內,上下半場呈現不同的面貌是重要優點

      狼叔評論
      2025-12-08 10:22:09
      俄羅斯已無力支付軍餉,地方財政告急

      俄羅斯已無力支付軍餉,地方財政告急

      桂系007
      2025-12-05 21:32:16
      兵敗如山倒!9人皇馬0比2塞爾塔 距榜首巴薩已有4分

      兵敗如山倒!9人皇馬0比2塞爾塔 距榜首巴薩已有4分

      愛奇藝體育
      2025-12-08 10:40:08
      張本老爸氣到離場:這屆娃帶不動啊!

      張本老爸氣到離場:這屆娃帶不動啊!

      喜歡歷史的阿繁
      2025-12-08 09:53:34
      弘一法師:再大的事,三年后都是小事,何不提前“預支”那份坦然

      弘一法師:再大的事,三年后都是小事,何不提前“預支”那份坦然

      杏花煙雨江南的碧園
      2025-11-08 10:00:03
      中北大學學生吐槽吹頭發還要付費:3分鐘0.5元!校方回應

      中北大學學生吐槽吹頭發還要付費:3分鐘0.5元!校方回應

      極目新聞
      2025-12-07 14:02:10
      大約價值1300萬元!湖北一地公安公告:尋找190萬枚USDT幣原主人,6個月后若仍無人認領,將依法上繳國庫

      大約價值1300萬元!湖北一地公安公告:尋找190萬枚USDT幣原主人,6個月后若仍無人認領,將依法上繳國庫

      每日經濟新聞
      2025-12-07 09:38:08
      勒沃庫森師徒把兩大豪門坑慘了,阿隆索更是直接把皇馬帶到溝里!

      勒沃庫森師徒把兩大豪門坑慘了,阿隆索更是直接把皇馬帶到溝里!

      田先生籃球
      2025-12-08 10:37:32
      新疆網紅wu木三亞去世,人長的帥,朋友曝死因,上個月新店才開業

      新疆網紅wu木三亞去世,人長的帥,朋友曝死因,上個月新店才開業

      鋭娛之樂
      2025-12-07 19:58:59
      小米粥再次被關注,調查發現:高血糖患者喝小米粥,或有4大改善

      小米粥再次被關注,調查發現:高血糖患者喝小米粥,或有4大改善

      九哥聊軍事
      2025-12-07 10:00:20
      2025-12-08 12:04:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      10859文章數 116921關注度
      往期回顧 全部

      科技要聞

      萬億蘋果,正在經歷一場嚴重的“大失血”

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      房產
      親子
      本地
      時尚
      公開課

      房產要聞

      碧桂園,開始甩賣海口家底!

      親子要聞

      家長帶孩子跑了很多家醫院,你是我們最后的希望

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      除了大衣,今年最火的外套一定就是它了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品久久久久无码| 日韩av高清无码| 国产老熟女国语免费视频| 亚洲欧美一区二区三区在线| 边坝县| 人人看成人在线| 欧美一级高清片久久99| 久久久精品人妻一区二区三区四| AV色色色| 国产专区一va亚洲v天堂| 中文字幕有码无码av| 九九精品在线看| 超碰10000| jizz喷水| 欧美人与动牲交A免费观看| 精品av综合导航| 国产精品鲁鲁鲁| 亚洲精选av| 波多野结衣av88综合| 国产成人精品永久免费视频| 成人做爰www网站视频| 天堂在线www天堂中文在线| 阜新市| 亚洲熟女人| 狠狠色噜噜狠狠狠狠av不卡| 最新亚洲人成无码网站| 国产精品自在自线视频| 阿尔山市| 人妻社区| 国产精品高潮呻吟av久久动漫| 久久精品蜜芽亚洲国产av | 亚洲日韩国产精品第一页一区| 国产97色在线 | 中国| 国产乱国产乱老熟300部视频| 亚洲色欲网| 久久涩综合| jjzz亚洲| 999无码精品亚洲精品日韩人妻无码| 久久中文字幕无码一区二区| 国产品无码一区二区三区在线| 国产精品无码久久久久|