網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

高分奪金，遠(yuǎn)超國(guó)家集訓(xùn)隊(duì)入選線！“書生”大模型在奧賽：解法學(xué)生中沒見過(guò)！

2025-12-13 10:44:59　來(lái)源: 新浪財(cái)經(jīng)

河北舉報(bào)

分享至

來(lái)源：滾動(dòng)播報(bào)

（來(lái)源：上觀新聞）

一兩年前，連高考數(shù)學(xué)都及格不了的大模型，如今已經(jīng)能在數(shù)學(xué)奧賽里睥睨群雄了！

不久前，在全國(guó)中學(xué)生數(shù)學(xué)奧林匹克競(jìng)賽（CMO）決賽中，由上海人工智能實(shí)驗(yàn)室研發(fā)的“書生”科學(xué)多模態(tài)大模型（Intern-S1）獲得了102分（滿分126分）的高分，不僅遠(yuǎn)超78分的金牌分?jǐn)?shù)線，更“一腳邁過(guò)”國(guó)家集訓(xùn)隊(duì)入選線87分。

有閱卷專家評(píng)價(jià)：“答案表達(dá)方式非常接近人類”，其中對(duì)第四題的解答是“一個(gè)新的解法，巧妙的調(diào)整法，在學(xué)生的解法中沒有見過(guò)”。

上海AI實(shí)驗(yàn)室青年領(lǐng)軍科學(xué)家陳愷認(rèn)為，數(shù)學(xué)奧賽迎來(lái)了“AlphaGo時(shí)刻”，顯示出AI在高難度代數(shù)、幾何、數(shù)論、組合數(shù)學(xué)證明題領(lǐng)域的巨大潛力。

“在學(xué)生的解法中沒有見過(guò)”

全國(guó)中學(xué)生數(shù)學(xué)奧林匹克競(jìng)賽是我國(guó)最高規(guī)格的高中生數(shù)學(xué)奧林匹克競(jìng)賽，其題目難度往往不亞于國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽。

今年，主辦方首次設(shè)置了賽題AI測(cè)試，邀請(qǐng)三家大模型參與，與人類選手在相同時(shí)長(zhǎng)內(nèi)完成答題，并由官方組織以相同標(biāo)準(zhǔn)進(jìn)行閱卷評(píng)分。

新民晚報(bào)記者獲悉，全國(guó)中學(xué)生數(shù)學(xué)奧林匹克競(jìng)賽試題覆蓋代數(shù)、幾何、數(shù)論、組合四個(gè)板塊，試題往往具有條件隱蔽、邏輯鏈條長(zhǎng)、需跨知識(shí)點(diǎn)整合等特點(diǎn)，需要答題者對(duì)數(shù)學(xué)概念有深刻理解，并能創(chuàng)造性地進(jìn)行應(yīng)用。有奧賽金牌教練直言不諱：“想獲得好名次，四個(gè)板塊不能有短板，而且要有板塊比較突出。”

在全部六道題目中，“書生”在其中4道“全對(duì)”，各得21分；另2題中，一題“未證明最優(yōu)性”，一題“證明不夠嚴(yán)格”，各得9分。

最令人稱贊的，是“書生”在第四題上的表現(xiàn)。這道題涉及30種顏色、共2100 張紙牌，題目要求的操作極其復(fù)雜。“書生”在規(guī)定時(shí)長(zhǎng)內(nèi)不僅得出了正確的結(jié)論，還展示了清晰的回答思路。

【相關(guān)閱讀】有30種顏色的紙牌，每種顏色的紙牌均有70張。開始時(shí)從這些紙牌中任意選取70張，并從上至下擺成一疊。接著進(jìn)行如下操作：從最下方20張紙牌中選擇一張紙牌 X，滿足其顏色在最上方50張紙牌中從未出現(xiàn)；再?gòu)淖钌戏?0張紙牌中選擇一張紙牌Y，滿足其顏色在最上方50張紙牌中至少出現(xiàn)兩次；從這疊紙牌中抽出X并將其緊貼著Y的上方放回這疊紙牌中。稱上述過(guò)程為一次操作。重復(fù)上述操作直至無(wú)法選取這樣的紙牌X時(shí)，整個(gè)操作過(guò)程結(jié)束。

（1）證明：對(duì)所有可能的初始情況及操作方式，整個(gè)操作過(guò)程都會(huì)在有限次操作后結(jié)束；

（2）在所有可能的初始情況及操作方式中，求操作次數(shù)的最大可能值。

閱卷專家點(diǎn)評(píng)說(shuō)，“一個(gè)新的解法，巧妙的調(diào)整法，在學(xué)生的解法中沒有見過(guò)”。在陳愷看來(lái)，這說(shuō)明“書生”已能突破人類解題思路局限，通過(guò)自主探索和分析找到新的解題方法，為進(jìn)一步賦能科學(xué)發(fā)現(xiàn)夯實(shí)了技術(shù)基礎(chǔ)。

作為本次AI大模型數(shù)學(xué)顧問的第50屆國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽金牌選手鄭凡感慨：“未來(lái)，希望大模型能成為一名真正的‘研究伙伴’，攜手探索數(shù)學(xué)，乃至更廣闊科學(xué)邊疆。”

從“長(zhǎng)時(shí)間獨(dú)立思考”邁向“長(zhǎng)時(shí)間獨(dú)立科研”

“書生”的驚艷表現(xiàn)，讓不少“奧賽專業(yè)戶”震驚：“就像10年前的圍棋一樣，突破可能就是一剎那。”

記者獲悉，Intern-S1的表達(dá)邏輯與推理能力大幅提升，得益于AI與數(shù)學(xué)研究者的共同努力。

“基于實(shí)驗(yàn)室提出的通專融合技術(shù)架構(gòu)SAGE，Intern-S1模型重點(diǎn)突破了技術(shù)框架中融合協(xié)同層的技術(shù)，成功實(shí)現(xiàn)超長(zhǎng)程嚴(yán)謹(jǐn)推理。”陳愷介紹。

要知道，高難度數(shù)學(xué)問題所需的推理復(fù)雜度，遠(yuǎn)遠(yuǎn)超過(guò)大模型在單次推理過(guò)程中所能探索的范圍。對(duì)此，上海AI實(shí)驗(yàn)室的科研人員提出了多輪分層推理機(jī)制，基于通用推理模型和專業(yè)校驗(yàn)?zāi)Ｐ蜆?gòu)建了具備推理、總結(jié)和驗(yàn)證智能體的多智能體系統(tǒng)，通過(guò)多模型分工協(xié)作實(shí)現(xiàn)了分階段推理和探索。

同時(shí)，科研人員提出了以數(shù)學(xué)引理為核心的緊湊記憶形式，將復(fù)雜推理過(guò)程拆解為可復(fù)用、可積累的引理模塊，讓模型的思考推理過(guò)程不再受限于單次上下文長(zhǎng)度，從而能夠探索和發(fā)現(xiàn)更多的數(shù)學(xué)性質(zhì)，并基于觀察提出一些人類沒有發(fā)現(xiàn)過(guò)的解決思路。

此外，創(chuàng)新性地提出了基于結(jié)果的過(guò)程校驗(yàn)?zāi)Ｐ停@著提升了模型在超長(zhǎng)程思考和證明時(shí)的嚴(yán)謹(jǐn)性——這使得使得通專融合模型在“奧賽”級(jí)別的難題中，能產(chǎn)生“表達(dá)方式非常接近人類”的解答，最終通過(guò)閱卷專家嚴(yán)苛的閱卷標(biāo)準(zhǔn)。

值得一提的是，此前，上海AI實(shí)驗(yàn)室的P1物理推理模型，在2025年國(guó)際物理奧林匹克大賽上拿下金牌，成為首個(gè)也是唯一獲得金牌的開源模型。

【相關(guān)閱讀】AI喜提物理奧賽金牌！來(lái)自上海的P1模型，如何開啟“封神”之路？

接連在兩大“奧賽”上摘金，上海AI實(shí)驗(yàn)室透露，計(jì)劃將Intern-S1的長(zhǎng)程推理能力拓展應(yīng)用于物理、化學(xué)、生命科學(xué)等基礎(chǔ)科研領(lǐng)域，通過(guò)與專業(yè)工具的打通與融合，實(shí)現(xiàn)從“長(zhǎng)時(shí)間獨(dú)立思考”向“長(zhǎng)時(shí)間獨(dú)立科研”轉(zhuǎn)變，進(jìn)而加速各領(lǐng)域科研范式的根本性變革，為重大科學(xué)突破提供關(guān)鍵支撐，賦能未來(lái)的科學(xué)發(fā)現(xiàn)進(jìn)程。

原標(biāo)題：《高分奪金，遠(yuǎn)超國(guó)家集訓(xùn)隊(duì)入選線！“書生”大模型在奧賽：解法學(xué)生中沒見過(guò)！》

欄目編輯：王蔚題圖來(lái)源：東方IC 圖片來(lái)源：上海AI實(shí)驗(yàn)室

來(lái)源：作者：新民晚報(bào) 郜陽(yáng)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.