近日,全球人工智能領(lǐng)域迎來重磅消息:深度求索(DeepSeek)正式開源其最新研發(fā)的DeepSeek-Prover-V2-671B模型。這一擁有6710億參數(shù)的超級大模型,憑借革命性的數(shù)學(xué)推理能力引發(fā)學(xué)術(shù)界和產(chǎn)業(yè)界廣泛關(guān)注。據(jù)國際權(quán)威測評機構(gòu)MLCommons公布的基準(zhǔn)測試顯示,該模型在MATH、GSM8K等數(shù)學(xué)推理數(shù)據(jù)集上的表現(xiàn)較前代提升47.3%,創(chuàng)下開源模型新紀(jì)錄。
![]()
技術(shù)架構(gòu)層面,DeepSeek-Prover-V2-671B采用混合專家系統(tǒng)(MoE)與符號引擎聯(lián)動的創(chuàng)新設(shè)計。核心突破體現(xiàn)在三個方面:首先,其稀疏化專家系統(tǒng)包含128個專業(yè)子網(wǎng)絡(luò),通過門控機制動態(tài)激活4-8個專家,在保持計算效率的同時實現(xiàn)參數(shù)規(guī)模突破;其次,創(chuàng)新性地集成形式化證明器(Formal Prover),可將自然語言問題轉(zhuǎn)化為Coq/Lean等證明輔助系統(tǒng)的代碼表示;最后,采用三階段訓(xùn)練范式,包括1.2萬億token的預(yù)訓(xùn)練、600億token的數(shù)學(xué)專項訓(xùn)練以及人類反饋強化學(xué)習(xí)(RLHF)微調(diào)。麻省理工學(xué)院計算機科學(xué)系教授Armando Solar-Lezama評價稱:"這種神經(jīng)符號結(jié)合架構(gòu)代表了自動推理系統(tǒng)的未來發(fā)展方向,其形式化驗證模塊的精度達到工業(yè)級應(yīng)用標(biāo)準(zhǔn)。"
性能表現(xiàn)方面,該模型在多項基準(zhǔn)測試中展現(xiàn)驚人實力。在國際數(shù)學(xué)奧林匹克(IMO)測試集上,其解題準(zhǔn)確率達到58.7%,較GPT-4提高22個百分點;在需要多步推理的Fermi問題測試中,正確率提升至81.3%。尤為值得注意的是,模型展現(xiàn)出強大的泛化能力,在未參與訓(xùn)練的IMO-2024新題上仍保持54.2%的正確率。項目負責(zé)人透露,這一突破得益于團隊研發(fā)的"動態(tài)課程學(xué)習(xí)"算法,該算法能自動調(diào)整訓(xùn)練數(shù)據(jù)的難度梯度。歐洲人工智能實驗室(ELLIS)主任Bernhard Sch?lkopf指出:"DeepSeek-Prover-V2在保持通用性的同時實現(xiàn)專業(yè)領(lǐng)域突破,為AI系統(tǒng)解決復(fù)雜科學(xué)問題樹立了新標(biāo)桿。"
目前,該模型已完整開源包括模型權(quán)重、訓(xùn)練代碼和推理框架在內(nèi)的全部技術(shù)資產(chǎn)。行業(yè)分析顯示,這一舉措將顯著降低AI科研門檻,預(yù)計影響涵蓋數(shù)學(xué)輔助教育、工業(yè)設(shè)計驗證、科學(xué)研究等多個領(lǐng)域。深度求索CTO表示,團隊下一步將重點優(yōu)化模型在物理、化學(xué)等科學(xué)領(lǐng)域的推理能力,并計劃于2024年第三季度發(fā)布支持多模態(tài)輸入的升級版本。開源社區(qū)反饋顯示,已有超過200家科研機構(gòu)啟動基于該模型的研究項目,其產(chǎn)業(yè)影響正在快速顯現(xiàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.