<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5危了!DeepSeek開源世界首個奧數金牌AI,正面硬剛谷歌

      0
      分享至


      新智元報道

      編輯:編輯部

      【新智元導讀】沉寂許久的DeepSeek又回來了!今天,DeepSeekMath-V2重磅登場,一舉奪下IMO 2025金牌,實力媲美甚至超越了谷歌的IMO金牌模型,開源AI再次扳回一局。

      DeepSeek再次歸來!

      剛剛,DeepSeek重磅發布DeepSeekMath-V2新模型,一舉奪下IMO 2025金牌。

      最關鍵的是,這是首款「開源的IMO金牌模型」。


      基于DeepSeek V3.2 Exp Base構建

      當前,已官宣拿下金牌的兩大模型,一款來自谷歌Gemini Deep Think,另一款便來自OpenAI的內部模型。

      在IMO-ProofBench中,DeepSeekMath-V2展現出強大的定理證明能力:

      IMO 2025:破解5題(共6題),達到了金牌水平;

      CMO 2024(中國數學奧林匹克):達到金牌水平;

      Putnam 2024:得分118接近滿分(120分),超越人類參賽者最高分(90分)。


      不僅如此,在ProofBench-Basic上,DeepSeekMath-V2的實力碾壓谷歌金牌模型——Gemini Deep Think;在ProofBench-Advanced上直追谷歌。


      論文中,團隊訓練了一個基于LLM驗證器(Verifier)作為獎勵函數,并以此訓練模型以自主解決問題。

      而且,他們還Scaling了驗證器算力,來標注更復雜的證明,進一步優化了驗證器本身。

      這種方法非常巧妙,能有效彌合生成與驗證之間的差距。


      結果實證「可驗證的數學推理」,是未來一條可行的研究方向。



      DeepSeekMath-V2

      讓「自驗證」成最強武器

      DeepSeekMath-V2的論文也于GitHub同步放出了。


      DeepSeek最新發布的DeepSeekMath-V2帶來的核心突破就是:自驗證(Self-Verification)

      這不僅讓它在最難的數學競賽中橫掃人類頂尖選手,更重要的是,它揭示了通往更高級AI的一條必經之路——學會自我反思

      為什么只看結果是不夠的

      在過去,訓練AI做數學題的方法很簡單:給它一道題,如果它算出的答案和標準答案一致,就給它獎勵。

      這在簡單的計算題(如AIME競賽)中很有效。

      但到了數學皇冠上的明珠——國際數學奧林匹克(IMO)這個級別,這種方法就徹底失效了。

      因為IMO的題目往往沒有簡單的數值答案,而是要求你寫出一段邏輯無懈可擊的證明過程

      以前的AI在這里經常是個「大忽悠」,它能胡編亂造一通看起來很專業的數學黑話,最后強行得出一個結論。雖然它可能蒙對了結果,但過程全是漏洞。

      DeepSeekMath-V2決定從根本上改變規則,不僅要獎勵正確的答案,更要獎勵嚴謹的自我找茬過程。

      秘密武器:左右互搏的三位一體

      為了實現這種「自我反思」,DeepSeek設計了一套精妙的「左右互搏」系統,就像在AI的大腦里住了三個人:

      1.「做題家」(Generator,證明生成器):

      負責解題和寫證明。

      但與以往不同,它被訓練成不僅要寫答案,還要寫一段「自我評價」。它必須誠實地說:「這步我有點不確定,可能是錯的。」

      研究團隊巧妙設計了獎勵,帶來了下列激勵效果:

      • 誠實面對錯誤,比「硬說自己是對的」更有利。

      • 寫出真正正確的證明,并準確識別其嚴謹程度,可以獲得最高獎勵。

      • 對生成器來說,最優策略是:在最終回答前,發現并修正盡可能多的問題。

      2.「鐵面判官」(Verifier,證明驗證器):

      這是DeepSeek專門訓練的一個評分模型。它不看答案對不對,而是專門盯著證明過程挑刺。它會像閱卷老師一樣,給證明打分(0分、0.5分、1分),并指出具體的邏輯漏洞。

      • 1分:證明完整且嚴謹,所有關鍵推理步驟都有清晰、充分的論證;

      • 0.5分:整體思路正確,但在細節上存在輕微錯誤或略去部分論證;

      • 0分:存在致命邏輯錯誤或關鍵缺口,導致證明在本質上不成立。

      3.「判官的審計員」(Meta-Verifier,元驗證器):

      這是最絕的一步。因為「判官」也可能犯錯,或者為了省事偷懶瞎判。

      于是DeepSeek又引入了一個「元驗證」機制,專門檢查「判官」是不是在胡亂挑刺。如果「判官」指出了一個不存在的錯誤,它會被「審計員」打手板。

      「元驗證器」來檢查驗證器給出的分析,包括:

      1. 驗證器指出的問題是否真實存在于原證明中;

      2. 這些問題是否足以合理支撐它給出的得分,且符合原有的評分細則。

      用元驗證器來評估驗證器輸出分析的平均質量分數,從0.85提升到了0.96,同時保持了原有的打分準確率。

      在這三者的配合下,DeepSeekMath-V2甚至能做到在沒有標準答案的情況下,自己給自己出題、自己做、自己批改、自己重做

      首先,證明驗證器與證明生成器之間形成了良性的「閉環」:

      • 驗證器為生成器提供獎勵信號,從而不斷提高生成器的證明能力;

      • 隨著生成器水平提升,它會產生越來越「刁鉆」的新證明,這些證明反過來又會暴露出驗證器尚未覆蓋的薄弱點。

      尤其是那些「驗證器第一次嘗試沒能抓出問題」的證明樣本,對進一步訓練驗證器來說價值極高。

      為了高效獲取新證明的正確性標簽,研究團隊設計了自動化標簽生成流程:


      在最后兩輪訓練迭代中,這條全自動標注流水線已經完全替代了人工標注。后續的質量檢查表明,自動生成的標簽與人類專家的判斷高度一致。

      巔峰對決:DeepSeek vs Gemini

      在這個領域,DeepSeek并不孤單。

      谷歌DeepMind的Gemini Deep Think也是剛達到IMO金牌水平的頂尖選手。

      兩者的對比非常有意思:

      • DeepMind像是擁有無盡資源的貴族,其實力毋庸置疑,在某些高級基準測試(如IMO-ProofBench Advanced)上依然保持領先。

      • DeepSeek則像是半路殺出的天才少年。根據DeepSeek的論文,他們的V2模型在基礎測試集(ProofBench Basic)上已經反超了Gemini Deep Think,并且在公開的競賽題目上展現出了驚人的統治力。


      更重要的是,DeepSeek將這一技術路徑開源并詳細披露了訓練方法。

      這為全世界的AI研究者提了個醒:通往AGI的路上,自驗證可能比單純堆算力更重要。

      直追谷歌OpenAI,開源IMO模型贏了

      這一令人驚嘆的成績背后,是DeepSeekMath-V2在實驗中展現出的某種「反直覺」的進化特征。

      「一次做對」的能力:全方位碾壓GPT-5和Gemini

      如果剝離掉所有復雜的反復思考和驗證過程,只看模型的「第一直覺」——也就是所謂的One-Shot能力,DeepSeekMath-V2依然表現出了統治級的實力。

      研究團隊構建了一個包含代數、幾何、數論、組合和不等式五大類難題的內部測試集CNML(難度對標中國高中數學聯賽)。

      在這個競技場上,DeepSeekMath-V2與目前市面上最強的兩大推理模型——OpenAI的GPT-5-Thinking-High和谷歌DeepMind的Gemini 2.5-Pro進行了正面硬剛。

      結果如圖所示:


      DeepSeekMath-V2并不是險勝,而是完全勝利

      • 代數:遠超GPT-5和Gemini;

      • 幾何:得分幾乎是Gemini 2.5-Pro的三倍;

      • 數論與組合:同樣穩穩占據第一梯隊。

      這說明,即使不給模型「多想一會兒」的機會,它的底座能力已經極其強悍。

      進化的關鍵:讓模型「多想幾次」

      真正讓DeepSeekMath-V2與眾不同的,是它在連續修正實驗中的表現。

      在面對IMO候選題(Shortlist)這種級別的難題時,模型往往無法一次性寫出完美的證明。

      實驗顯示,如果允許模型進行「自我驗證」——即生成答案后,自己挑毛病,然后帶著問題重新生成,奇跡就發生了:

      • 初始狀態(迭代1次):模型的平均得分為0.15。

      • 反復思考(迭代8次):當允許模型最多進行8次「自我修正」后,證明的質量分數飆升到了0.27。


      更有趣的是,如果讓模型從自己生成的32個解法中挑一個最好的(Best@32),它的評分準確度極高,得分直接躍升至0.42。

      這證實了一個關鍵點:模型不僅能改錯,而且非常有自知之明,它清楚地知道自己哪個答案是最好的。

      暴力美學與智慧的結晶:高算力搜索

      前文提到的普特南數學競賽118分(接近滿分)的「神跡」,并非僅靠運氣,而是得益于一種「高算力搜索」(High-Compute Search)策略。

      DeepSeek團隊在實驗中采用了一種極端嚴苛的測試方式:

      1.海量候選:對每道題初始生成64個候選證明。

      2.地獄級驗證:為每一個證明生成64個獨立的驗證分析。

      3.優勝劣汰:只有那些能通過所有64次驗證的證明,才會被認為是「完全可信」的。

      正是這種「千錘百煉」的策略,讓模型解決了IMO 2025中6道題里的5道,以及在CMO 2024中拿下金牌水平。

      實驗數據還揭示了一個有趣的現象:對于那些它沒做出來的題,模型通常能準確地找出自己證明中的漏洞;而對于做出來的題,則是真真切切地通過了所有考驗。

      這是「LLM可以被訓練成可靠的數學驗證者」這一假設的有力實證。

      DeepSeekMath-V2意味著什么

      DeepSeekMath-V2的成功告訴我們,AI正在從「模仿人類說話」進化到「模仿人類思考」。

      真正的思考,往往伴隨著自我懷疑。

      當我們看到AI開始在輸出最終結果前,懂得停下來,對自己說一句「這看起來不太對,我再算一遍」時,那才是它真正超越工具屬性的時刻。

      真正的智慧,不僅在于瞬間給出答案,更在于擁有推翻自己的勇氣與能力。

      參考資料:

      https://github.com/deepseek-ai/DeepSeek-Math-V2

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      浙大1999年出生的研究員任博導,本科畢業才4年,學院回應

      浙大1999年出生的研究員任博導,本科畢業才4年,學院回應

      極目新聞
      2025-12-08 11:50:36
      多項數據創生涯新低!恩比德未老先衰或被掃地出門

      多項數據創生涯新低!恩比德未老先衰或被掃地出門

      體壇周報
      2025-12-08 17:22:18
      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      老特有話說
      2025-12-06 17:31:27
      海川品車|用技術打開140周年的序幕 奔馳XX科技創新日有感

      海川品車|用技術打開140周年的序幕 奔馳XX科技創新日有感

      路邊停車場
      2025-12-08 18:22:00
      綠帽哥:皇馬為克洛普開出令人瞠目結舌的報價

      綠帽哥:皇馬為克洛普開出令人瞠目結舌的報價

      懂球帝
      2025-12-08 21:13:07
      突然,崩了!剛剛,緊急“救市”!

      突然,崩了!剛剛,緊急“救市”!

      證券時報
      2025-12-08 20:12:03
      最新 朱孝天回應:拒絕他們三個要求被退出!喊話經紀人高抬貴手

      最新 朱孝天回應:拒絕他們三個要求被退出!喊話經紀人高抬貴手

      丁丁鯉史紀
      2025-12-08 18:27:16
      多少人靠超市300塊羽絨服體面過冬?山姆們賣衣服比始祖鳥更能拿捏返貧中產

      多少人靠超市300塊羽絨服體面過冬?山姆們賣衣服比始祖鳥更能拿捏返貧中產

      Vista氫商業
      2025-12-08 14:55:05
      27萬人看過,訂婚三天遭退,婚后要每3天有400元水果吃,網友吵翻

      27萬人看過,訂婚三天遭退,婚后要每3天有400元水果吃,網友吵翻

      凡知
      2025-12-07 14:37:32
      郭德綱被約談的傳聞出來后,段子比他的相聲還搞笑

      郭德綱被約談的傳聞出來后,段子比他的相聲還搞笑

      雷斯林
      2025-12-08 19:14:36
      幫人擔保貸30萬,還款時借款人舉家消失,他被迫還50余萬還留案底;監管認定銀行違規

      幫人擔保貸30萬,還款時借款人舉家消失,他被迫還50余萬還留案底;監管認定銀行違規

      大風新聞
      2025-12-08 19:43:04
      北京朝陽法院對馬航MH370航班部分失聯乘客家屬索賠案一審宣判

      北京朝陽法院對馬航MH370航班部分失聯乘客家屬索賠案一審宣判

      新京報
      2025-12-08 17:09:05
      帶魚:明明出身深海,為什么卻成了中國最平民的海鮮?

      帶魚:明明出身深海,為什么卻成了中國最平民的海鮮?

      半解智士
      2025-12-06 11:52:06
      突發!42歲西安和典老夏去世,一年喝酒130次,辦公室內擺滿茅臺

      突發!42歲西安和典老夏去世,一年喝酒130次,辦公室內擺滿茅臺

      裕豐娛間說
      2025-12-08 14:19:08
      北京市第十六屆人大城市建設環境保護委員會原委員賀江川接受審查調查

      北京市第十六屆人大城市建設環境保護委員會原委員賀江川接受審查調查

      界面新聞
      2025-12-08 20:35:09
      馬斯克「開顱插針」首破1.5秒!上萬人擠爆,爭當賽博格

      馬斯克「開顱插針」首破1.5秒!上萬人擠爆,爭當賽博格

      新智元
      2025-12-08 12:24:12
      深度睡眠增加100%!北大找到失眠根源,改善方法就在腸道中

      深度睡眠增加100%!北大找到失眠根源,改善方法就在腸道中

      梁佇愛玩車
      2025-12-07 16:37:33
      山東跑友張素梅車禍去世,月跑量300多公里,開奔馳,顏值身材好

      山東跑友張素梅車禍去世,月跑量300多公里,開奔馳,顏值身材好

      180視角
      2025-12-08 12:09:15
      雷軍放話:小米YU7在隔音上打敗邁巴赫,網友炸了

      雷軍放話:小米YU7在隔音上打敗邁巴赫,網友炸了

      熱點菌本君
      2025-12-08 20:04:03
      蘋果iPhone 18系列全新曝光,等等黨有福了!

      蘋果iPhone 18系列全新曝光,等等黨有福了!

      科技堡壘
      2025-12-08 11:15:49
      2025-12-08 23:23:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14051文章數 66358關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      "00后"在上海跑外賣5年攢112萬:除了吃飯睡覺都在接單

      頭條要聞

      "00后"在上海跑外賣5年攢112萬:除了吃飯睡覺都在接單

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      百億金融爆雷 浙商大佬"朋友圈"也不靈了

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      手機
      藝術
      旅游
      游戲
      家居

      手機要聞

      澎湃OS進展通報引熱議:十個問題,為何僅修復一項?

      藝術要聞

      一棵樹的力量

      旅游要聞

      “春運都沒這么多人”!深圳知名景區刷屏,網友紛紛“勸退”

      德杯爆改!全新賽制曝光:盲選模式回歸,教練可實時“打電話”

      家居要聞

      有限無界 打破慣有思維

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 两个人的免费视频| 国产乱妇无码毛片A片在线看下载| 99久久综合精品五月天| 青草伊人网| 懂色av,蜜臀AV粉嫩av| 韩国日本三级在线观看| 久久婷婷五月综合色欧美| 亚洲真人无码永久在线| 婷婷色小说| 偃师市| 97人妻熟女成人免费视频色戒| 77777_亚洲午夜久久多人| 成人午夜免费无码视频在线观看| 91视频高清| 亚洲人妻Av| 26uuu亚洲国产精品| 美女黄频视频大全免费的国内 | 亚洲av永久无码精品水牛影视| 中文字幕日产av| 亚洲婷婷小说| 久久成人国产精品免费软件| 国内精品久久人妻无码不卡| 亚洲国产精品狼友在线观看| 亚洲成人电影中文字幕| 国产自啪精品视频网站丝袜| 国产欧美另类精品久久久| 中文字幕无码av| 精品人妻少妇| 女人的精水喷出来视频| 国产亚洲精品综合99久久| 一区在线播放| 伊在人天堂亚洲香蕉精品区| 99999久久久久久亚洲| 国产成人精品一区二区秒拍1o | 99国产三级| 波多野结衣无码视频一区二区三区| 国产wwww| 国产xxx| 国色天香中文字幕在线视频| 久久国产乱子精品免费女| 国产亚洲日韩欧美一区二区三区|