<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek再破谷歌OpenAI壟斷:開源IMO數學金牌大模型

      0
      分享至

      henry 發自 凹非寺
      量子位 | 公眾號

      AI界掌管開源的神——DeepSeek回來了!

      剛剛,DeepSeek開源了全新的數學模型DeepSeekMath-V2,專注于可自驗證的數學推理。

      DeepSeekMath-V2不僅在IMO 2025和CMO 2024中取得金牌級分數,而且還在Putnam 2024中,得分118/120,超過了人類最高分90。

      與此同時,DeepSeekMath-V2在所有CNML級別問題類別(代數、幾何、數論、組合學、不等式)上均優于GPT-5-Thinking-High和Gemini 2.5-Pro。



      不僅性能無敵,網友表示這還是第一個開源的IMO金牌模型。



      這下,谷歌和OpenAI要坐不住了!

      特別是OpenAI,本來就打算放出IMO金牌模型來應對谷歌Gemini 3 Pro的沖擊,現在被DeepSeek搶先一步。

      (鯨魚回來了!)

      值得一提是,這篇論文的一作邵智宏也是之前DeepSeekMath 7B的一作,在那篇論文中,他們提出了著名的GRPO

      最強開源IMO金牌模型

      總的來說,DeepSeekMath-V2是一個旨在實現自驗證數學推理(Self-verification)的大型語言模型(685B)。

      它的核心在于開發和利用強大的證明驗證能力來指導和優化證明生成,從而克服傳統上依賴最終答案作為獎勵的強化學習(RL)方法的局限性。

      傳統用于數學推理的強化學習(RL)方法存在根本性限制:

      • 最終答案獎勵的不可靠性:將LLM獎勵基于最終答案的正確性,并不能保證推理過程的正確性或邏輯的嚴謹性,模型可能通過錯誤的邏輯得出正確答案 。
      • 對定理證明任務的局限性:許多數學任務(如定理證明)不要求數值答案,而是需要嚴格的步驟推導和邏輯嚴謹性,使得基于最終答案的獎勵機制不適用。
      • 缺乏內部驗證能力:經過傳統方法訓練的LLMs缺乏驗證自身證明有效性的能力,經常表現出高假陽性率(即認為錯誤的證明是有效的)。

      DeepSeekMath-V2采用迭代的強化學習循環,交替優化證明驗證器和證明生成器,以實現可自驗證的數學推理。

      證明驗證

      訓練驗證器

      研究首先訓練一個準確且忠實的LLM-based驗證器,使其能夠根據人類專家的標準識別證明中的問題并評分。

      具體來說,驗證器針對給定的數學問題與證明,輸出一個證明分析,該分析首先總結識別出的問題(如果有),然后基于三個級別分配一個分數:

      1:完全正確、嚴謹且邏輯清晰的證明。0.5:總體邏輯合理,但有微小錯誤或細節遺漏的證明。0:包含致命邏輯錯誤或關鍵漏洞的根本性錯誤的證明。

      驗證器的訓練分為數據構建(冷啟動)和模型強化學習目標兩個關鍵階段。

      在數據構建階段,研究首先從AoPS競賽中收集了1.75萬個要求證明的奧賽級別數學問題。

      隨后,利用現有模型(DeepSeek-V3.2-Exp-Thinking)生成大量的候選證明,并通過多輪迭代來提升證明的嚴謹性,最終請數學專家人工對這些證明進行評分,分數分為1、0.5和0三個級別,從而創建了初始的RL驗證數據集。

      進入強化學習目標階段,研究使用上述數據集對基礎模型(DeepSeek-V3.2-Exp-SFT)進行訓練,使其能夠輸出證明分析總結和最終分數。

      獎勵函數一方面通過格式獎勵強制模型輸出格式包含問題總結和分數,另一方面通過分數獎勵激勵模型預測的分數與專家標注的分數高度一致,從而使驗證器具備模仿人類專家評估嚴謹性的能力。



      引入元驗證 (Meta-Verification)

      為解決初步訓練的驗證器可能因幻覺(hallucinating)不存在的問題而獲得正確低分,從而損害其對錯誤識別的忠實性(faithfulness)的問題,研究團隊引入了元驗證(Meta-Verification)機制。

      元驗證作為一個二級評估過程,旨在審查驗證器生成的證明分析(Proof Analysis),評估其中識別出的問題是否真實存在,以及這些問題是否在邏輯上合理地支持了其預測的證明分數。

      為了訓練元驗證器,研究首先讓數學專家根據專門的元驗證標準對驗證器輸出的分析質量進行評分,創建了元驗證數據集。

      隨后,研究訓練了一個專門的元驗證器,該元驗證器生成對驗證分析本身的問題總結,并分配一個質量分數,以衡量原驗證器分析的準確性和合理性。

      元驗證器的強化學習目標結構與驗證器訓練類似,同樣包含格式獎勵和分數獎勵。

      接下來是增強驗證器訓練,研究利用訓練好的元驗證器,將元驗證的質量分數集成到驗證器的獎勵函數中,以增強驗證器的忠實性。



      最終,使用原驗證數據集和元驗證數據集共同訓練增強后的驗證器,使該模型能夠同時執行證明驗證和元驗證兩項任務。

      在原驗證數據集的一個驗證子集上,經驗證器評估的證明分析的平均質量分數從 0.85 提升到了0.96,同時保持了證明分數預測的準確性不變,有力證明了元驗證機制能有效提高驗證器識別問題的忠實度。

      證明生成

      接下來,研究用訓練好的驗證器作為獎勵模型來訓練證明生成器,并進一步通過“自驗證”機制,讓生成器學會嚴格地自我審查和修正,從而提高證明質量。

      具體來說,研究訓練生成器以最大化驗證器賦給其生成的證明的分數。

      在訓練中,生成器被要求在生成證明后,緊跟著進行自我分析。獎勵函數激勵準確的自我評估和正確性。

      最終獎勵是對證明質量和自我評估質量的加權組合。

      由此,自我評估獎勵不僅獎勵自評分的準確性,還獎勵自我分析的忠實性。

      這種獎勵結構激勵生成器:忠實地承認錯誤(而非盲目自信)。獲得高獎勵的最佳策略是在最終輸出前,積極識別并解決自身證明中存在的問題,從而實現自我迭代完善。

      證明驗證與生成之間的協同作用

      接下來,研究利用驗證器和生成器的協同作用,通過規模化的計算和元驗證機制,建立了一個完全自動化的數據標注流程,從而持續提升驗證器的能力,并最終取代耗時的人工標注。

      然而,隨著問題難度增加,人工標注耗時且效率低下。由此研究提出了一套自動化標注的方法:

      首先,通過生成n個獨立的驗證分析,提高在有缺陷證明中捕獲真實問題的概率。接下來,利用元驗證器生成m個評估,對報告問題的分析進行有效性確認,確保識別出的問題是真實的(元驗證比從零識別問題更高效)。

      具體的標注流程如下:

      • 分數判定:檢查所有分析中分配的最低分數。只有當至少有k個分析被元驗證確認為有效時,該最低分才被賦給該證明;否則標記為1分(無合法缺陷)。
      • 取代人工: 最終,這種完全自動化的流程在后續訓練迭代中徹底取代了人工標注,并且質量檢查證實其標注結果與專家判斷高度一致。

      由此,上述流程在最終的訓練迭代中徹底取代了耗時的人力標注,實現了驗證和生成的協同循環,保證了模型能力的持續突破。

      實驗結果

      研究采用GRPO進行強化學習,迭代地優化證明驗證和生成能力。

      在每次迭代中,研究首先優化證明驗證。然后,證明生成器會從驗證器的checkpoint初始化,并針對證明生成進行優化。

      從第二次迭代開始,證明驗證器會使用一個檢查點進行初始化,該檢查點通過拒絕微調(rejection fine-tuning)鞏固了前一次迭代中的驗證和生成能力。

      研究首先評估了模型未經迭代完善的單次生成正確證明的能力。

      實驗結果表明,在所有CNML級別問題類別中——包括代數、幾何、數論、組合學和不等式——DeepSeekMath-V2 持續優于 GPT-5-Thinking-High和Gemini 2.5-Pro。



      為了探究擴展上下文和自驗證如何提高證明質量,研究又評估了帶有自驗證的順序精煉方法。



      研究表明,自選的最佳證明比線程平均得分獲得了顯著更高的驗證分數,這證明生成器具備準確評估證明質量的能力。

      此外,隨著最大順序嘗試次數的增加,Pass@1大幅提升,表明自驗證有效地指導了迭代改進。

      這些結果表明,生成器能夠可靠地區分高質量和有缺陷的證明,并利用這種自我意識系統地改進其數學推理。

      最后,為了解決最具備挑戰性的問題,研究采用了高計算量搜索策略,該策略通過并行生成探索多樣化的證明路徑,并結合規模化的(64 次)驗證來精確識別細微錯誤。

      模型迭代地從包含問題分析的候選證明池中精煉出最優證明,直到證明通過所有驗證。

      最終,這種方法使其在Putnam競賽中以118/120的分數超越人類最高分90分,展現了在驗證器指導下,AI解決復雜問題的強大能力。



      One more thing

      如開頭所說,這篇論文的一作邵智宏也是DeepSeek之前數學模型DeepSeekMath 7B的一作。



      值得一提的是,也就是在DeepSeekMath 7B的論文中,他和團隊提出了經典的GRPO(Group Relative Policy Optimization )。同樣的,他也是DeepSeek-R1的核心貢獻者。



      邵智宏目前是DeepSeek從事大模型推理研究的研究員,他本科畢業于北京航空航天大學,博士畢業于清華,師從黃民烈教授。

      [1] https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

      [2]https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

      [3]https://zhihongshao.github.io/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      王勵勤升官帶來三大影響!國乒大換班,樊振東回歸,國梁布局毀了

      王勵勤升官帶來三大影響!國乒大換班,樊振東回歸,國梁布局毀了

      小熊侃史
      2025-12-08 10:28:55
      我們來說說縣城消費,小縣城的消費是不是快跟一線城市看齊了?

      我們來說說縣城消費,小縣城的消費是不是快跟一線城市看齊了?

      流蘇晚晴
      2025-10-29 19:30:02
      德佬:如果我們沒有7萬座的現代球場,如何與米蘭雙雄競爭

      德佬:如果我們沒有7萬座的現代球場,如何與米蘭雙雄競爭

      懂球帝
      2025-12-08 09:31:17
      電訊報:就算免費放走薩拉赫,利物浦也能節省超3000萬鎊支出

      電訊報:就算免費放走薩拉赫,利物浦也能節省超3000萬鎊支出

      懂球帝
      2025-12-08 16:38:04
      張亮兒子不服管,曝天天在國外搞大女同學肚子,女方父母正鬧著!

      張亮兒子不服管,曝天天在國外搞大女同學肚子,女方父母正鬧著!

      阿廢冷眼觀察所
      2025-11-29 01:58:17
      當了半年主播,我終于明白:為什么99%的主播都掙不到錢了

      當了半年主播,我終于明白:為什么99%的主播都掙不到錢了

      草莓解說體育
      2025-12-01 03:16:54
      絕殺太多運氣用完了?公牛苦吞7連敗跌出附加賽區

      絕殺太多運氣用完了?公牛苦吞7連敗跌出附加賽區

      體壇周報
      2025-12-08 18:26:10
      7000萬就賣!皇馬愿出售24歲前鋒:31場0球 5大豪門關注

      7000萬就賣!皇馬愿出售24歲前鋒:31場0球 5大豪門關注

      葉青足球世界
      2025-12-07 19:58:14
      丟人:現場視角還原皇馬門將庫爾圖瓦被對方羞辱,皇馬全隊傻眼了

      丟人:現場視角還原皇馬門將庫爾圖瓦被對方羞辱,皇馬全隊傻眼了

      側身凌空斬
      2025-12-08 07:47:48
      年內最后一個超級央行周!美聯儲或降息、重啟購債雙管齊下

      年內最后一個超級央行周!美聯儲或降息、重啟購債雙管齊下

      第一財經資訊
      2025-12-08 16:28:15
      浙大26歲博導沖上熱搜!力壓29歲師姐,文科生在如今也能熠熠生輝

      浙大26歲博導沖上熱搜!力壓29歲師姐,文科生在如今也能熠熠生輝

      火山詩話
      2025-12-08 13:14:10
      西甲0-2爆大冷:皇馬又輸  距巴薩4分 奪冠難了 阿隆索壓力大

      西甲0-2爆大冷:皇馬又輸 距巴薩4分 奪冠難了 阿隆索壓力大

      禾寒敘
      2025-12-08 17:16:13
      老公執意要將飄窗改成書桌,入住后才發現:全家都愛上這個角落!

      老公執意要將飄窗改成書桌,入住后才發現:全家都愛上這個角落!

      空間設計
      2025-12-08 12:00:27
      12.8金價:大家要有心理準備了,下周,金價或將重現15年歷史

      12.8金價:大家要有心理準備了,下周,金價或將重現15年歷史

      三農老歷
      2025-12-08 15:27:39
      40歲保姆色誘70歲教授,“性猝死”背后真相是如何露餡的?

      40歲保姆色誘70歲教授,“性猝死”背后真相是如何露餡的?

      蘇大強專欄
      2024-07-26 11:50:51
      13朝古都長安,為何唐朝之后很難再成為首都?其中一個原因很致命

      13朝古都長安,為何唐朝之后很難再成為首都?其中一個原因很致命

      文史達觀
      2025-11-29 06:45:04
      你在學校聽過最炸裂的事是啥?網友:懷班長兒子,他打校長干嘛

      你在學校聽過最炸裂的事是啥?網友:懷班長兒子,他打校長干嘛

      解讀熱點事件
      2025-12-06 00:05:07
      宋軼的臉到底怎么了?她一句話讓全網炸鍋!

      宋軼的臉到底怎么了?她一句話讓全網炸鍋!

      毒舌八卦
      2025-08-31 22:34:38
      命里帶財!這3生肖未來3年賺錢最穩,貴人支持富貴有望!

      命里帶財!這3生肖未來3年賺錢最穩,貴人支持富貴有望!

      毅談生肖
      2025-12-08 12:26:30
      殲15鎖定F15后,日本防衛省抗議:一個細節說明中方是想動真格的

      殲15鎖定F15后,日本防衛省抗議:一個細節說明中方是想動真格的

      安安說
      2025-12-07 18:06:52
      2025-12-08 19:23:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11824文章數 176340關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      房產
      游戲
      家居
      數碼
      軍事航空

      房產要聞

      碧桂園,開始甩賣海口家底!

      《冒險島》游輪發布會放大招!這些新內容都堪稱王炸!

      家居要聞

      有限無界 打破慣有思維

      數碼要聞

      華為Mate 80 RS率先實現BT.2020色域 李小龍:過于先進!

      軍事要聞

      柬泰沖突細節披露 洪森要求部隊“克制”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色欲av在线| 国产精品无码aⅴ嫩草| 西丰县| 乱码中文字幕| 亚洲男同志网站| 无码66| 淫色综合网| 成人AV无码一区二区三区| 奇米影视7777狠狠狠狠色| 河东区| 日本丰满老熟妇乱子伦| 亚洲AV日韩AV综合在线观看 | 内射合集对白在线| 久热国产vs视频在线观看| 国内A片| jizz.jizz| 东京热av无码电影一区二区| 伊人蕉影院久亚洲高清| 国产人妻人伦精品一区二区| 99国产在线| 99久久亚洲综合精品成人网| 狠狠躁夜夜躁人人爽天天天天97 | 亚洲AV第二区国产精品| 国产乱子影视频上线免费观看| 自拍偷自拍亚洲精品偷一| 亚洲熟女综合色一区二区三区| 汪清县| 日韩无码AV电影网| 一区二区三区四区五区自拍| 久久精品www人人爽人人| 中亚成人综合在线| 亚洲永久一区二区三区在线| 国产精品国产三级国产a| 国产福利一区二区三区在线观看| 青草伊人网| 日韩AV中文字幕一区| 免费午夜无码片在线观看影院| 18禁无遮挡羞羞污污污污免费| 亚洲国产无线乱码在线观看| 在线色综合| 日本高清免费AAAAA大片视频|