網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI數(shù)學(xué)競(jìng)賽表現(xiàn)優(yōu)異，嚴(yán)謹(jǐn)推導(dǎo)數(shù)學(xué)定理

2025-11-29 17:56:35　來(lái)源: 老搽學(xué)科普

四川舉報(bào)

分享至

哈嘍，大家好，小墨這篇科技深度解析，主要來(lái)聊聊DeepSeek發(fā)布的Math-V2模型如何打破 AI 數(shù)學(xué)推理的 “做題家” 困境。

11月27日，深度求索（DeepSeek）在 Hugging Face 開源社區(qū)發(fā)布數(shù)學(xué)模型 DeepSeek Math-V2，不僅在IMO、CMO 等頂級(jí)數(shù)學(xué)競(jìng)賽中斬獲金牌，更以自驗(yàn)證技術(shù)突破了 AI“重答案、輕過程” 的頑疾。

這場(chǎng)來(lái)自中國(guó)的 AI 技術(shù)突破，讓全球 AI 圈重新審視開源模型的潛力。

讓 AI 從 “猜答案” 到 “推邏輯”

長(zhǎng)期以來(lái)，大模型在數(shù)學(xué)領(lǐng)域始終被詬病為 “做題家”，能給出正確答案卻無(wú)法保證推理過程的嚴(yán)謹(jǐn)性。

這一痛點(diǎn)的根源在于傳統(tǒng)模型采用 “結(jié)果導(dǎo)向” 的驗(yàn)證方式，如同學(xué)生考試只寫答案不寫步驟，即便答案正確，也未必真正掌握解題邏輯。

DeepSeek Math-V2 的核心突破，正是采用了 “自驗(yàn)證數(shù)學(xué)推理” 技術(shù)。

據(jù)DeepSeek發(fā)布的論文顯示，該模型通過 “驗(yàn)證器 + 生成器” 的雙輪訓(xùn)練機(jī)制，讓生成器在輸出證明過程時(shí)，能主動(dòng)識(shí)別自身邏輯漏洞并修正，而驗(yàn)證器則會(huì)對(duì)每一步推導(dǎo)打分，甚至自動(dòng)標(biāo)記難以驗(yàn)證的證明環(huán)節(jié)，形成新的訓(xùn)練數(shù)據(jù)反哺模型。

這種 “過程導(dǎo)向” 的驗(yàn)證方式，徹底改變了此前 AI 依賴概率猜測(cè)答案的模式。

正如跨學(xué)科團(tuán)隊(duì) Binary Verse AI 的研究員阿茲馬特所言：“此前的大模型像猜對(duì)答案的學(xué)生，而 Math-V2 是真正推導(dǎo)出答案的那一個(gè)。”

值得注意的是，自驗(yàn)證技術(shù)并非孤立創(chuàng)新。

此前 Meta 提出的 StepWiser 模型也曾嘗試讓 AI “反思” 推理過程，但 DeepSeek 進(jìn)一步將其與數(shù)學(xué)定理證明結(jié)合，通過擴(kuò)展驗(yàn)證計(jì)算能力，讓模型具備了自主優(yōu)化推理鏈的能力。

這一技術(shù)路徑也被行業(yè)認(rèn)為是解決 AI “推理幻覺” 的關(guān)鍵方向。

競(jìng)賽成績(jī)亮眼

Math-V2 的實(shí)力，在頂級(jí)數(shù)學(xué)競(jìng)賽中得到了直接驗(yàn)證。

該模型不僅在2025年IMO、2024 年 CMO 中取得金牌級(jí)成績(jī)，還在2024年北美大學(xué)生數(shù)學(xué)競(jìng)賽 Putnam 中拿到 118/120 的接近滿分成績(jī)，這一表現(xiàn)遠(yuǎn)超同類模型。

在專業(yè)評(píng)測(cè)集IMO-Proof Bench 中，Math-V2 的表現(xiàn)更是堪稱驚艷，基準(zhǔn)測(cè)試得分99%，大幅領(lǐng)先谷歌 Gemini DeepThink（89%）和 GPT-5（59%）。

即便在更復(fù)雜的進(jìn)階測(cè)試中，其61.9% 的得分也僅略低于 Gemini DeepThink 的 65.7%。

更重要的是，與 OpenAI、谷歌的閉源模型不同，Math-V2 是首個(gè)實(shí)現(xiàn) IMO 金牌級(jí)表現(xiàn)的開源模型，這意味著全球開發(fā)者都能基于該模型進(jìn)行二次開發(fā)。

這一突破的意義不言而喻，此前AI 數(shù)學(xué)模型的核心技術(shù)始終掌握在谷歌、OpenAI 等巨頭手中，而 DeepSeek 的開源策略，讓中小企業(yè)和科研機(jī)構(gòu)也能接觸到頂尖的數(shù)學(xué)推理模型。

正如社交平臺(tái)上的評(píng)論所言：“擁有一位全天候免費(fèi)的數(shù)學(xué)天才，其潛力不可估量。”

開源生態(tài)沖擊

Math-V2 的發(fā)布，再次凸顯了DeepSeek 在開源 AI 領(lǐng)域的戰(zhàn)略布局。

作為2023年成立的AGI研發(fā)商，DeepSeek始終堅(jiān)持模型全開源策略，其旗下的通用大模型、代碼模型、多模態(tài)模型等均已對(duì)外開放。

此次Math-V2 的發(fā)布，更是將其技術(shù)優(yōu)勢(shì)延伸至數(shù)學(xué)推理這一高難度領(lǐng)域。

事實(shí)上DeepSeek 的崛起早已引發(fā)行業(yè)關(guān)注。今年10月其發(fā)布的 DeepSeek-OCR 模型因突破視覺 - 文本壓縮邊界，獲得 OpenAI 聯(lián)合創(chuàng)始人安德烈?卡帕斯的盛贊。

而此次Math-V2 的發(fā)布，更是讓外界看到中國(guó) AI 企業(yè)在基礎(chǔ)研究領(lǐng)域的實(shí)力。

與閉源模型相比，DeepSeek 的開源產(chǎn)品不僅訓(xùn)練成本更低，還能吸引全球開發(fā)者參與優(yōu)化，形成 “技術(shù)開源 - 社區(qū)迭代 - 產(chǎn)業(yè)應(yīng)用” 的正向循環(huán)。

這種開源模式也給行業(yè)帶來(lái)了鯰魚效應(yīng)。谷歌、OpenAI 的閉源模型長(zhǎng)期主導(dǎo) AI 高端市場(chǎng)，而 DeepSeek 的出現(xiàn)，迫使巨頭重新審視開源策略。

有行業(yè)分析指出Math-V2的發(fā)布可能推動(dòng)更多企業(yè)開放核心技術(shù)，加速 AI 數(shù)學(xué)推理的產(chǎn)業(yè)化應(yīng)用，比如自動(dòng)化編程語(yǔ)言驗(yàn)證、科研領(lǐng)域的定理證明等。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.