大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技
文丨譚梓馨
繼OpenAI發(fā)布GPT-5.1、谷歌推出Gemini 3、Anthropic迭代Claude Opus 4.5之后。
11月27日晚間, DeepSeek團(tuán)隊(duì)在開(kāi)源社區(qū)低調(diào)發(fā)布了一款新模型DeepSeekMath-V2,該模型展現(xiàn)出強(qiáng)大的定理證明能力,在IMO 2025和CMO 2024上取得了金牌水平成績(jī),并在Putnam 2024上取得接近完美的118分(滿(mǎn)分是120分,人類(lèi)選手的歷史最高分為90分)。
![]()
值得關(guān)注的是,這也是首個(gè)在IMO競(jìng)賽中達(dá)到金牌水準(zhǔn)的開(kāi)源模型,今年7月份,谷歌DeepMind的“Gemini Deep Think”曾斬獲IMO 2025金牌。
網(wǎng)友們稱(chēng)贊:大藍(lán)鯨又回來(lái)了!
讓AI推理過(guò)程像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)
DeepSeek這篇新模型論文講了什么?簡(jiǎn)單來(lái)說(shuō),其改變了AI數(shù)學(xué)推理的既有路徑:從傳統(tǒng)的“結(jié)果導(dǎo)向”(只關(guān)注答案是否正確) 轉(zhuǎn)向“過(guò)程導(dǎo)向”(重視推理過(guò)程的嚴(yán)謹(jǐn)性和可驗(yàn)證性)。
核心創(chuàng)新是一種自驗(yàn)證架構(gòu):首先訓(xùn)練一個(gè)基于LLM的精準(zhǔn)且可信的定理證明驗(yàn)證器;隨后以該驗(yàn)證器作為獎(jiǎng)勵(lì)模型,訓(xùn)練一個(gè)證明生成器,并激勵(lì)生成器在最終定稿前,自主識(shí)別并修正自身證明過(guò)程中的盡可能多的問(wèn)題。
這一架構(gòu)使模型能像數(shù)學(xué)家一樣思考:自己寫(xiě)證明→自己挑毛病→自己改到無(wú)懈可擊,實(shí)現(xiàn)了AI推理的“自我反思”能力。
![]()
DeepSeek團(tuán)隊(duì)在論文中表示,大語(yǔ)言模型(LLMs)在數(shù)學(xué)推理領(lǐng)域已取得顯著進(jìn)展,若能進(jìn)一步突破,有望對(duì)科學(xué)研究產(chǎn)生深遠(yuǎn)影響。
通過(guò)強(qiáng)化學(xué)習(xí)放大推理能力(該方法以最終答案的正確性為獎(jiǎng)勵(lì)導(dǎo)向),LLMs在一年內(nèi)實(shí)現(xiàn)了性能跨越式提升,然而,這種方法存在根本性局限:一味追求更高的最終答案準(zhǔn)確率,無(wú)法解決一個(gè)核心問(wèn)題——正確答案并不等同于嚴(yán)謹(jǐn)?shù)耐评磉^(guò)程。
為突破深度推理的邊界,DeepSeek團(tuán)隊(duì)認(rèn)為有必要對(duì)數(shù)學(xué)推理的完整性與嚴(yán)謹(jǐn)性進(jìn)行驗(yàn)證,尤其在測(cè)試階段計(jì)算量擴(kuò)容場(chǎng)景下(例如面對(duì)無(wú)已知解的開(kāi)放性問(wèn)題時(shí)),自驗(yàn)證能力至關(guān)重要。
![]()
為避免生成器性能提升后出現(xiàn)“生成-驗(yàn)證能力差距”擴(kuò)大的問(wèn)題,團(tuán)隊(duì)還提出通過(guò)擴(kuò)容驗(yàn)證計(jì)算量,自動(dòng)標(biāo)記新增的高難度驗(yàn)證樣本,進(jìn)而生成訓(xùn)練數(shù)據(jù)以持續(xù)優(yōu)化驗(yàn)證器。
最終,DeepSeekMath-V2 展現(xiàn)出卓越的定理證明能力:在2025年國(guó)際數(shù)學(xué)奧林匹克(IMO)、2024年中國(guó)數(shù)學(xué)奧林匹克(CMO)中均斬獲金牌級(jí)得分,且在2024年普特南數(shù)學(xué)競(jìng)賽(Putnam)中,通過(guò)擴(kuò)容測(cè)試階段計(jì)算量,取得了118/120的近乎滿(mǎn)分成績(jī),超越了人類(lèi)參賽者90分的最高紀(jì)錄。
![]()
研究結(jié)果表明,可自驗(yàn)證數(shù)學(xué)推理是一條切實(shí)可行的研究路徑,有望助力研發(fā)出能力更強(qiáng)大的數(shù)學(xué)AI系統(tǒng)。
人類(lèi)即便在沒(méi)有參考解法的情況下,也能識(shí)別證明中的問(wèn)題——這是解決開(kāi)放性問(wèn)題時(shí)的關(guān)鍵能力。DeepSeek團(tuán)隊(duì)認(rèn)為,LLMs能夠通過(guò)訓(xùn)練獲得“無(wú)參考解法下識(shí)別證明問(wèn)題”的能力。
利用“自我認(rèn)知”系統(tǒng)性提升數(shù)學(xué)推理
DeepSeekMath-V2的證明驗(yàn)證器與生成器構(gòu)成協(xié)同循環(huán):驗(yàn)證器助力生成器優(yōu)化,而生成器性能提升后,會(huì)產(chǎn)出挑戰(zhàn)驗(yàn)證器當(dāng)前能力邊界的新證明。
這些挑戰(zhàn)性樣本(即驗(yàn)證器單次驗(yàn)證可能無(wú)法識(shí)別問(wèn)題的證明),將成為提升驗(yàn)證器自身性能的寶貴訓(xùn)練數(shù)據(jù)。
![]()
在DeepSeek自研的CNML級(jí)別題目集中包含91道定理證明題,涵蓋代數(shù)(13道)、幾何(24道)、數(shù)論(19道)、組合數(shù)學(xué)(24道)和不等式(11道)五大類(lèi)別,難度與中國(guó)全國(guó)高中數(shù)學(xué)聯(lián)賽(CNML)題目相當(dāng),各模型在不同類(lèi)別CNML級(jí)別題目上的得分顯示,DeepSeekMath-V2的性能持續(xù)優(yōu)于Gemini2.5-pro和GPT5-Thinking-High,展現(xiàn)出跨領(lǐng)域的卓越定理證明能力。
![]()
在2024年國(guó)際數(shù)學(xué)奧林匹克預(yù)選題(IMO Shortlist 2024)上,研究人員通過(guò)序貫優(yōu)化實(shí)現(xiàn)證明質(zhì)量提升。
針對(duì)每道題目啟動(dòng)了32條獨(dú)立的優(yōu)化線程,并通過(guò)最終驗(yàn)證器產(chǎn)出的32份驗(yàn)證分析報(bào)告進(jìn)行多數(shù)投票,判定證明的正確性。
結(jié)果顯示,模型自主篩選的最優(yōu)證明獲得了顯著高于線程平均水平的驗(yàn)證得分,這表明模型的生成器具備準(zhǔn)確評(píng)估證明質(zhì)量的能力;此外,隨著最大序貫嘗試次數(shù)的增加,單次通過(guò)率實(shí)現(xiàn)了實(shí)質(zhì)性提升,證明自驗(yàn)證機(jī)制能有效引導(dǎo)迭代優(yōu)化過(guò)程。
這些結(jié)果證實(shí):DeepSeekMath-V2生成器能夠可靠區(qū)分高質(zhì)量證明與有缺陷證明,并利用這種自我認(rèn)知能力,系統(tǒng)性地提升其數(shù)學(xué)推理水平。
DeepSeek團(tuán)隊(duì)在論文總結(jié)中表示,推進(jìn)自然語(yǔ)言定理證明的發(fā)展將為形式化推理帶來(lái)顯著助力。期望通過(guò)本研究,為構(gòu)建真正可靠的數(shù)學(xué)推理系統(tǒng)做出貢獻(xiàn)——這類(lèi)系統(tǒng)能夠同時(shí)借助非形式化洞察與形式化保障,推動(dòng)數(shù)學(xué)研究的進(jìn)步。
開(kāi)源AI進(jìn)入中國(guó)主導(dǎo)階段
盡管不是科技巨頭,但DeepSeek一直是全球開(kāi)源模型的創(chuàng)新探索引領(lǐng)者。
日前,麻省理工學(xué)院(MIT)和開(kāi)源平臺(tái)Hugging Face合作的一項(xiàng)“開(kāi)放智能經(jīng)濟(jì)”研究發(fā)現(xiàn),過(guò)去一年中,中國(guó)開(kāi)發(fā)的新型開(kāi)源模型的下載總量占比上升至17%,在全球開(kāi)源AI模型市場(chǎng)中比美國(guó)占據(jù)了更多關(guān)鍵優(yōu)勢(shì)。
![]()
研究還發(fā)現(xiàn),美國(guó)、中國(guó)、英國(guó)的開(kāi)發(fā)力量嚴(yán)重偏向產(chǎn)業(yè)端;而德國(guó)、法國(guó)及歐洲其他地區(qū)與線上開(kāi)發(fā)力量則更均衡,涵蓋非營(yíng)利機(jī)構(gòu)、高校及社區(qū)貢獻(xiàn)者。
![]()
行業(yè)權(quán)力格局正發(fā)生根本性重構(gòu):谷歌、Meta和OpenAI主導(dǎo)的美國(guó)開(kāi)源權(quán)重產(chǎn)業(yè)優(yōu)勢(shì)已大幅下滑,非關(guān)聯(lián)開(kāi)發(fā)者、社區(qū)組織以及2025年崛起的中國(guó)產(chǎn)業(yè)力量逐漸崛起。
隨著DeepSeek、Qwen、Hunyuan、GLM、Kimi、MiniMax、ERNIE等多家開(kāi)源模型的持續(xù)滲透,且不斷拉近與封閉模型之間的差距,或?qū)㈤_(kāi)啟由中國(guó)開(kāi)發(fā)者主導(dǎo)的新一輪市場(chǎng)權(quán)力整合。
注:頭圖AI生成
作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!
掃碼了解詳情?
點(diǎn)「贊」的人都變好看了哦!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.