<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      再創歷史!DeepSeek最新開源模型Math-V2實現IMO金牌水準,提出可自驗證的數學推理

      0
      分享至

      大數據文摘受權轉載自頭部科技

      文丨譚梓馨

      繼OpenAI發布GPT-5.1、谷歌推出Gemini 3、Anthropic迭代Claude Opus 4.5之后。

      11月27日晚間, DeepSeek團隊在開源社區低調發布了一款新模型DeepSeekMath-V2,該模型展現出強大的定理證明能力,在IMO 2025和CMO 2024上取得了金牌水平成績,并在Putnam 2024上取得接近完美的118分(滿分是120分,人類選手的歷史最高分為90分)。


      值得關注的是,這也是首個在IMO競賽中達到金牌水準的開源模型,今年7月份,谷歌DeepMind的“Gemini Deep Think”曾斬獲IMO 2025金牌。
      網友們稱贊:大藍鯨又回來了!

      讓AI推理過程像數學家一樣嚴謹

      DeepSeek這篇新模型論文講了什么?簡單來說,其改變了AI數學推理的既有路徑:從傳統的“結果導向”(只關注答案是否正確) 轉向“過程導向”(重視推理過程的嚴謹性和可驗證性)。

      核心創新是一種自驗證架構:首先訓練一個基于LLM的精準且可信的定理證明驗證器;隨后以該驗證器作為獎勵模型,訓練一個證明生成器,并激勵生成器在最終定稿前,自主識別并修正自身證明過程中的盡可能多的問題。

      這一架構使模型能像數學家一樣思考:自己寫證明→自己挑毛病→自己改到無懈可擊,實現了AI推理的“自我反思”能力。


      DeepSeek團隊在論文中表示,大語言模型(LLMs)在數學推理領域已取得顯著進展,若能進一步突破,有望對科學研究產生深遠影響。

      通過強化學習放大推理能力(該方法以最終答案的正確性為獎勵導向),LLMs在一年內實現了性能跨越式提升,然而,這種方法存在根本性局限:一味追求更高的最終答案準確率,無法解決一個核心問題——正確答案并不等同于嚴謹的推理過程。

      為突破深度推理的邊界,DeepSeek團隊認為有必要對數學推理的完整性與嚴謹性進行驗證,尤其在測試階段計算量擴容場景下(例如面對無已知解的開放性問題時),自驗證能力至關重要。


      為避免生成器性能提升后出現“生成-驗證能力差距”擴大的問題,團隊還提出通過擴容驗證計算量,自動標記新增的高難度驗證樣本,進而生成訓練數據以持續優化驗證器。

      最終,DeepSeekMath-V2 展現出卓越的定理證明能力:在2025年國際數學奧林匹克(IMO)、2024年中國數學奧林匹克(CMO)中均斬獲金牌級得分,且在2024年普特南數學競賽(Putnam)中,通過擴容測試階段計算量,取得了118/120的近乎滿分成績,超越了人類參賽者90分的最高紀錄。


      研究結果表明,可自驗證數學推理是一條切實可行的研究路徑,有望助力研發出能力更強大的數學AI系統。

      人類即便在沒有參考解法的情況下,也能識別證明中的問題——這是解決開放性問題時的關鍵能力。DeepSeek團隊認為,LLMs能夠通過訓練獲得“無參考解法下識別證明問題”的能力。

      利用“自我認知”系統性提升數學推理

      DeepSeekMath-V2的證明驗證器與生成器構成協同循環:驗證器助力生成器優化,而生成器性能提升后,會產出挑戰驗證器當前能力邊界的新證明。

      這些挑戰性樣本(即驗證器單次驗證可能無法識別問題的證明),將成為提升驗證器自身性能的寶貴訓練數據。


      在DeepSeek自研的CNML級別題目集中包含91道定理證明題,涵蓋代數(13道)、幾何(24道)、數論(19道)、組合數學(24道)和不等式(11道)五大類別,難度與中國全國高中數學聯賽(CNML)題目相當,各模型在不同類別CNML級別題目上的得分顯示,DeepSeekMath-V2的性能持續優于Gemini2.5-pro和GPT5-Thinking-High,展現出跨領域的卓越定理證明能力。


      在2024年國際數學奧林匹克預選題(IMO Shortlist 2024)上,研究人員通過序貫優化實現證明質量提升。

      針對每道題目啟動了32條獨立的優化線程,并通過最終驗證器產出的32份驗證分析報告進行多數投票,判定證明的正確性。

      結果顯示,模型自主篩選的最優證明獲得了顯著高于線程平均水平的驗證得分,這表明模型的生成器具備準確評估證明質量的能力;此外,隨著最大序貫嘗試次數的增加,單次通過率實現了實質性提升,證明自驗證機制能有效引導迭代優化過程。

      這些結果證實:DeepSeekMath-V2生成器能夠可靠區分高質量證明與有缺陷證明,并利用這種自我認知能力,系統性地提升其數學推理水平。

      DeepSeek團隊在論文總結中表示,推進自然語言定理證明的發展將為形式化推理帶來顯著助力。期望通過本研究,為構建真正可靠的數學推理系統做出貢獻——這類系統能夠同時借助非形式化洞察與形式化保障,推動數學研究的進步。

      開源AI進入中國主導階段

      盡管不是科技巨頭,但DeepSeek一直是全球開源模型的創新探索引領者。

      日前,麻省理工學院(MIT)和開源平臺Hugging Face合作的一項“開放智能經濟”研究發現,過去一年中,中國開發的新型開源模型的下載總量占比上升至17%,在全球開源AI模型市場中比美國占據了更多關鍵優勢。


      研究還發現,美國、中國、英國的開發力量嚴重偏向產業端;而德國、法國及歐洲其他地區與線上開發力量則更均衡,涵蓋非營利機構、高校及社區貢獻者。


      行業權力格局正發生根本性重構:谷歌、Meta和OpenAI主導的美國開源權重產業優勢已大幅下滑,非關聯開發者、社區組織以及2025年崛起的中國產業力量逐漸崛起。
      隨著DeepSeek、Qwen、Hunyuan、GLM、Kimi、MiniMax、ERNIE等多家開源模型的持續滲透,且不斷拉近與封閉模型之間的差距,或將開啟由中國開發者主導的新一輪市場權力整合。

      注:頭圖AI生成

      作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      老金怒斥瑤家:孩子撫養權絕不放手,金家后繼有人,孫子永遠姓金

      老金怒斥瑤家:孩子撫養權絕不放手,金家后繼有人,孫子永遠姓金

      愛下廚的阿釃
      2026-04-26 14:13:45
      Z世代抗議一年:推翻了政府,然后呢?

      Z世代抗議一年:推翻了政府,然后呢?

      晚風也遺憾
      2026-04-23 14:51:44
      所有長久的關系,本質是互相報恩

      所有長久的關系,本質是互相報恩

      洞見
      2026-04-25 10:26:12
      “早知這么危險就不當總統了”,特朗普撤離時摔倒,其回應為何總被暗殺!槍手系教師兼游戲開發者,作案目標是誰?嫌疑人供認:美官員

      “早知這么危險就不當總統了”,特朗普撤離時摔倒,其回應為何總被暗殺!槍手系教師兼游戲開發者,作案目標是誰?嫌疑人供認:美官員

      魯中晨報
      2026-04-26 15:16:07
      中國第四艘航母官宣!人民海軍用兩字通告全球,首艘核航母要來了

      中國第四艘航母官宣!人民海軍用兩字通告全球,首艘核航母要來了

      說歷史的老牢
      2026-04-25 11:39:39
      賈國龍天邊燜面才兩個月,評分已暴跌3.8分!網友直言:注意避坑

      賈國龍天邊燜面才兩個月,評分已暴跌3.8分!網友直言:注意避坑

      冷紫葉
      2026-04-25 14:33:10
      原來陳思誠父親是他,名下多家公司實力雄厚,祖孫三代共用一張臉

      原來陳思誠父親是他,名下多家公司實力雄厚,祖孫三代共用一張臉

      洲洲影視娛評
      2026-04-25 17:10:00
      黃一鳴回應:沒結婚一天找8個男的也沒關系 承認跟40歲大叔交往過

      黃一鳴回應:沒結婚一天找8個男的也沒關系 承認跟40歲大叔交往過

      法老不說教
      2026-04-25 14:34:56
      住了33年的房屋要被強拆還地,臺灣婦人叫囂:我是大日本帝國臣民

      住了33年的房屋要被強拆還地,臺灣婦人叫囂:我是大日本帝國臣民

      金牛傳聲
      2026-04-19 12:27:48
      1946年四平之戰林彪大敗,一路退至松花江,戰后為何說陳毅救了他

      1946年四平之戰林彪大敗,一路退至松花江,戰后為何說陳毅救了他

      談古論今歷史有道
      2026-04-26 15:10:03
      長白山驚現“藏寶洞”,專家估值達萬億,日本得知后要求中國歸還

      長白山驚現“藏寶洞”,專家估值達萬億,日本得知后要求中國歸還

      抽象派大師
      2026-04-20 01:30:41
      8歲考出760高分,智商230碾壓愛因斯坦,天才陶哲軒如今現狀如何

      8歲考出760高分,智商230碾壓愛因斯坦,天才陶哲軒如今現狀如何

      大魚簡科
      2026-04-22 17:11:04
      動力電池下半場,瑞浦蘭鈞如何押注場景、平臺、全球化

      動力電池下半場,瑞浦蘭鈞如何押注場景、平臺、全球化

      芯流智庫
      2026-04-26 11:10:21
      難怪民進黨氣得跳腳也不敢抓鄭麗文,她背后的保護傘,讓綠營絕望

      難怪民進黨氣得跳腳也不敢抓鄭麗文,她背后的保護傘,讓綠營絕望

      觀星賞月
      2026-04-25 17:56:35
      過去30年,我國三次韜光養晦裝孫子,與美國較量,差一點收復臺灣

      過去30年,我國三次韜光養晦裝孫子,與美國較量,差一點收復臺灣

      富強巨靠譜
      2025-03-13 09:21:41
      孫楊:張豆豆每天都在埋怨,一個勁數落自己

      孫楊:張豆豆每天都在埋怨,一個勁數落自己

      現代快報
      2026-04-24 22:38:03
      越南一渣男用私密視頻要挾前女友:強迫她與9個陌生男人發生關系,自己收錢

      越南一渣男用私密視頻要挾前女友:強迫她與9個陌生男人發生關系,自己收錢

      緬甸中文網
      2026-04-26 13:19:20
      男女之間,感情是幌子,性是需求,錢是底線

      男女之間,感情是幌子,性是需求,錢是底線

      加油丁小文
      2026-04-26 14:00:07
      48歲羽協主席被查,何濟霆如愿,劉李平安

      48歲羽協主席被查,何濟霆如愿,劉李平安

      最美的巧合
      2026-04-25 17:18:56
      黑八要來了?60勝徒有虛名,當家球星場均31+8燃盡,身邊卻無幫手

      黑八要來了?60勝徒有虛名,當家球星場均31+8燃盡,身邊卻無幫手

      你的籃球頻道
      2026-04-26 07:41:05
      2026-04-26 15:47:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6853文章數 94542關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      伊朗拒見美代表轉赴阿曼 特朗普怒撤行程

      頭條要聞

      伊朗拒見美代表轉赴阿曼 特朗普怒撤行程

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      《八千里路云和月》大結局意難平

      財經要聞

      DeepSeek V4背后,梁文鋒的轉身

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      旅游
      本地
      家居
      公開課
      軍事航空

      旅游要聞

      不設舞臺的賞花季!青島西海岸新區邀你在花海中自由撒野

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      家居要聞

      自然肌理 溫潤美學

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗總統:不會在壓力、威脅下進行談判

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 校园春色?武侠古典?都市亚洲| 熟女俱乐部五十路六十路 | 日韩毛片免费| 久久狠狠高潮亚洲精品| 亚洲最新无码中文字幕久久| 午夜免费男女aaaa片| 欧美丝袜你懂的| 中文字幕婷婷日韩欧美亚洲| 国产精品无码一区二区桃花视频 | 91精品国产综合久久久蜜臀678| 国产女人高潮毛片| 国产乱子伦无套一区二区三区 | 精品成人中文无码专区| 国产精品又黄又爽又色无遮挡| 亚洲成人视屏| 八宿县| 亚洲成色www久久网站| 中文字幕亚洲乱码熟女在线萌芽| 99r精品在线| 亚洲一区二区三区免费av在线 | 欧美精品在线视频| 亚洲免费的福利片| 少妇人妻无码专区在线视频| 国产免费无遮挡吸乳视频在线观看 | jizzjizz日本人妻| 亚洲色七七| 国产免费一区二区三区在线观看 | 国产爆乳美女娇喘呻吟| 韩日一级| 国产女人喷潮视频免费| 西西午夜无码大胆啪啪国模| 久久a级片| 日韩在线一区二区三区免费视频 | 午夜福利电影| 午夜福利理论片在线观看| 亚洲AV电影网| 午夜成人精品福利网站在线观看| 亚洲人成色777777老人头| 黄床大片免费30分钟国产精品| 伊人偷拍| 无码人妻精一区二区三区|