來(lái)源:滾動(dòng)播報(bào)
(來(lái)源:上觀新聞)
![]()
![]()
一兩年前,連高考數(shù)學(xué)都及格不了的大模型,如今已經(jīng)能在數(shù)學(xué)奧賽里睥睨群雄了!
不久前,在全國(guó)中學(xué)生數(shù)學(xué)奧林匹克競(jìng)賽(CMO)決賽中,由上海人工智能實(shí)驗(yàn)室研發(fā)的“書生”科學(xué)多模態(tài)大模型(Intern-S1)獲得了102分(滿分126分)的高分,不僅遠(yuǎn)超78分的金牌分?jǐn)?shù)線,更“一腳邁過(guò)”國(guó)家集訓(xùn)隊(duì)入選線87分。
有閱卷專家評(píng)價(jià):“答案表達(dá)方式非常接近人類”,其中對(duì)第四題的解答是“一個(gè)新的解法,巧妙的調(diào)整法,在學(xué)生的解法中沒有見過(guò)”。
上海AI實(shí)驗(yàn)室青年領(lǐng)軍科學(xué)家陳愷認(rèn)為,數(shù)學(xué)奧賽迎來(lái)了“AlphaGo時(shí)刻”,顯示出AI在高難度代數(shù)、幾何、數(shù)論、組合數(shù)學(xué)證明題領(lǐng)域的巨大潛力。
![]()
“在學(xué)生的解法中沒有見過(guò)”
全國(guó)中學(xué)生數(shù)學(xué)奧林匹克競(jìng)賽是我國(guó)最高規(guī)格的高中生數(shù)學(xué)奧林匹克競(jìng)賽,其題目難度往往不亞于國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽。
今年,主辦方首次設(shè)置了賽題AI測(cè)試,邀請(qǐng)三家大模型參與,與人類選手在相同時(shí)長(zhǎng)內(nèi)完成答題,并由官方組織以相同標(biāo)準(zhǔn)進(jìn)行閱卷評(píng)分。
新民晚報(bào)記者獲悉,全國(guó)中學(xué)生數(shù)學(xué)奧林匹克競(jìng)賽試題覆蓋代數(shù)、幾何、數(shù)論、組合四個(gè)板塊,試題往往具有條件隱蔽、邏輯鏈條長(zhǎng)、需跨知識(shí)點(diǎn)整合等特點(diǎn),需要答題者對(duì)數(shù)學(xué)概念有深刻理解,并能創(chuàng)造性地進(jìn)行應(yīng)用。有奧賽金牌教練直言不諱:“想獲得好名次,四個(gè)板塊不能有短板,而且要有板塊比較突出。”
在全部六道題目中,“書生”在其中4道“全對(duì)”,各得21分;另2題中,一題“未證明最優(yōu)性”,一題“證明不夠嚴(yán)格”,各得9分。
最令人稱贊的,是“書生”在第四題上的表現(xiàn)。這道題涉及30種顏色、共2100 張紙牌,題目要求的操作極其復(fù)雜。“書生”在規(guī)定時(shí)長(zhǎng)內(nèi)不僅得出了正確的結(jié)論,還展示了清晰的回答思路。
【相關(guān)閱讀】有30種顏色的紙牌,每種顏色的紙牌均有70張。開始時(shí)從這些紙牌中任意選取70張,并從上至下擺成一疊。接著進(jìn)行如下操作:從最下方20張紙牌中選擇一張紙牌 X,滿足其顏色在最上方50張紙牌中從未出現(xiàn);再?gòu)淖钌戏?0張紙牌中選擇一張紙牌Y,滿足其顏色在最上方50張紙牌中至少出現(xiàn)兩次;從這疊紙牌中抽出X并將其緊貼著Y的上方放回這疊紙牌中。稱上述過(guò)程為一次操作。重復(fù)上述操作直至無(wú)法選取這樣的紙牌X時(shí),整個(gè)操作過(guò)程結(jié)束。
(1)證明:對(duì)所有可能的初始情況及操作方式,整個(gè)操作過(guò)程都會(huì)在有限次操作后結(jié)束;
(2)在所有可能的初始情況及操作方式中,求操作次數(shù)的最大可能值。
![]()
閱卷專家點(diǎn)評(píng)說(shuō),“一個(gè)新的解法,巧妙的調(diào)整法,在學(xué)生的解法中沒有見過(guò)”。在陳愷看來(lái),這說(shuō)明“書生”已能突破人類解題思路局限,通過(guò)自主探索和分析找到新的解題方法,為進(jìn)一步賦能科學(xué)發(fā)現(xiàn)夯實(shí)了技術(shù)基礎(chǔ)。
作為本次AI大模型數(shù)學(xué)顧問的第50屆國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽金牌選手鄭凡感慨:“未來(lái),希望大模型能成為一名真正的‘研究伙伴’,攜手探索數(shù)學(xué),乃至更廣闊科學(xué)邊疆。”
從“長(zhǎng)時(shí)間獨(dú)立思考”邁向“長(zhǎng)時(shí)間獨(dú)立科研”
“書生”的驚艷表現(xiàn),讓不少“奧賽專業(yè)戶”震驚:“就像10年前的圍棋一樣,突破可能就是一剎那。”
記者獲悉,Intern-S1的表達(dá)邏輯與推理能力大幅提升,得益于AI與數(shù)學(xué)研究者的共同努力。
“基于實(shí)驗(yàn)室提出的通專融合技術(shù)架構(gòu)SAGE,Intern-S1模型重點(diǎn)突破了技術(shù)框架中融合協(xié)同層的技術(shù),成功實(shí)現(xiàn)超長(zhǎng)程嚴(yán)謹(jǐn)推理。”陳愷介紹。
![]()
要知道,高難度數(shù)學(xué)問題所需的推理復(fù)雜度,遠(yuǎn)遠(yuǎn)超過(guò)大模型在單次推理過(guò)程中所能探索的范圍。對(duì)此,上海AI實(shí)驗(yàn)室的科研人員提出了多輪分層推理機(jī)制,基于通用推理模型和專業(yè)校驗(yàn)?zāi)P蜆?gòu)建了具備推理、總結(jié)和驗(yàn)證智能體的多智能體系統(tǒng),通過(guò)多模型分工協(xié)作實(shí)現(xiàn)了分階段推理和探索。
同時(shí),科研人員提出了以數(shù)學(xué)引理為核心的緊湊記憶形式,將復(fù)雜推理過(guò)程拆解為可復(fù)用、可積累的引理模塊,讓模型的思考推理過(guò)程不再受限于單次上下文長(zhǎng)度,從而能夠探索和發(fā)現(xiàn)更多的數(shù)學(xué)性質(zhì),并基于觀察提出一些人類沒有發(fā)現(xiàn)過(guò)的解決思路。
此外,創(chuàng)新性地提出了基于結(jié)果的過(guò)程校驗(yàn)?zāi)P停@著提升了模型在超長(zhǎng)程思考和證明時(shí)的嚴(yán)謹(jǐn)性——這使得使得通專融合模型在“奧賽”級(jí)別的難題中,能產(chǎn)生“表達(dá)方式非常接近人類”的解答,最終通過(guò)閱卷專家嚴(yán)苛的閱卷標(biāo)準(zhǔn)。
值得一提的是,此前,上海AI實(shí)驗(yàn)室的P1物理推理模型,在2025年國(guó)際物理奧林匹克大賽上拿下金牌,成為首個(gè)也是唯一獲得金牌的開源模型。
【相關(guān)閱讀】AI喜提物理奧賽金牌!來(lái)自上海的P1模型,如何開啟“封神”之路?
接連在兩大“奧賽”上摘金,上海AI實(shí)驗(yàn)室透露,計(jì)劃將Intern-S1的長(zhǎng)程推理能力拓展應(yīng)用于物理、化學(xué)、生命科學(xué)等基礎(chǔ)科研領(lǐng)域,通過(guò)與專業(yè)工具的打通與融合,實(shí)現(xiàn)從“長(zhǎng)時(shí)間獨(dú)立思考”向“長(zhǎng)時(shí)間獨(dú)立科研”轉(zhuǎn)變,進(jìn)而加速各領(lǐng)域科研范式的根本性變革,為重大科學(xué)突破提供關(guān)鍵支撐,賦能未來(lái)的科學(xué)發(fā)現(xiàn)進(jìn)程。
原標(biāo)題:《高分奪金,遠(yuǎn)超國(guó)家集訓(xùn)隊(duì)入選線!“書生”大模型在奧賽:解法學(xué)生中沒見過(guò)!》
欄目編輯:王蔚 題圖來(lái)源:東方IC 圖片來(lái)源:上海AI實(shí)驗(yàn)室
來(lái)源:作者:新民晚報(bào) 郜陽(yáng)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.