一年一度的高考落下帷幕。對大模型來說,這已經(jīng)是它第三次參與這場本屬于人類考生的考試。
但和前兩年不同,之前人們喜歡安排大模型產(chǎn)品寫高考作文。今年隨著推理模型的火熱,人們開始熱衷讓它參與高考數(shù)學(xué)。
一個(gè)有意思的變化在于,這兩天各種各樣的高考數(shù)學(xué)測評結(jié)果證明,今年大模型似乎有了質(zhì)的飛躍——從純粹的文科生,成為了數(shù)學(xué)成績也不錯(cuò)的理科生。
為驗(yàn)證這一結(jié)果,我們也選取了四個(gè)AI產(chǎn)品——豆包、夸克、元寶和ChatGPT進(jìn)行測評。
![]()
由于這幾家模型均具備多模態(tài)能力,所以我們將2025年全國新課標(biāo)數(shù)學(xué)I卷的題目直接投喂給大模型,不做格式轉(zhuǎn)換,不開啟聯(lián)網(wǎng)搜索,所有測試模型只有一次答題機(jī)會(huì)。
關(guān)于考核標(biāo)準(zhǔn),我們覺得如果讓AI參與考試,就應(yīng)該把它們當(dāng)作一個(gè)真正的考生考核。
所以,本次測評拆解了三大維度:
- 結(jié)果正確率:AI考生能力的最直觀體現(xiàn)。
- 答題速度:考試有時(shí)間限制,AI考生也應(yīng)該注意時(shí)間安排。
- 識(shí)別準(zhǔn)確率:人類考生需要審題準(zhǔn)確,不能出現(xiàn)看錯(cuò)數(shù)字、符號(hào)等問題。所以有多模態(tài)能力的AI考生,也需要參與這一考核。
基于這三個(gè)維度,我們通過分別打分再計(jì)總分的形式,測試出AI考生們的高考數(shù)學(xué)的考試名次。
更細(xì)致的"閱卷規(guī)則"參考:
![]()
經(jīng)過以上三個(gè)維度的綜合測試,最終AI考生們的全面考察結(jié)果如下:
![]()
*綜合測評圖
![]()
*綜合排名圖
如果單看純粹的卷面分,這幾家AI考生的數(shù)學(xué)分?jǐn)?shù)都在110分以上。想起去年,AI們的高考數(shù)學(xué)題還經(jīng)常不及格,真是今非昔比。
而且,不僅是做題,這些AI選手們的解題速度和視覺理解能力都非常強(qiáng)——大部分題目都能在3分鐘內(nèi)完成。只有元寶沒有識(shí)別出其中的一道題目,其他AI助手在識(shí)別上都拿了滿分。
誰答對了最多題?
直接的考試分?jǐn)?shù),是考生最關(guān)心的事情。
根據(jù)卷面分?jǐn)?shù),夸克、豆包和ChatGPT分列前三。
一個(gè)小插曲是,ChatGPT在難題中經(jīng)常嘗試寫代碼解題,準(zhǔn)確率較高。但考慮到高考現(xiàn)場的考生們不會(huì)配備電腦寫代碼解題,所以我們立刻禁止了它寫代碼。
整體看下來,大家的選擇題和填空題得分差距不是非常大,錯(cuò)誤都不是很多。尤其是夸克和ChatGPT,選擇和填空題全對。
![]()
解答題是讓各家AI考生有點(diǎn)為難的題目。尤其是16題,大家都有錯(cuò)誤。
首先是元寶,從一開始沒能識(shí)別出這一道題目,所以也就無法作答——這也是我們這次測試中,唯一一個(gè)沒有被某一模型識(shí)別出的題目。
豆包在這道題上犯錯(cuò)的原因也有點(diǎn)令人迷惑,題目解題思路過程都是對的,就是要把題目中的“m”改成“n”。
感覺這里豆包在審題上出現(xiàn)了理解偏差,不能將“m”和“n”區(qū)分開,正確理解m的含義。
![]()
在選擇和填空上第一名的夸克,第16題中的錯(cuò)誤很可惜地發(fā)生在最后一步——“利用錯(cuò)位相減法”得出最終結(jié)果的部分。
向上翻了一下思考過程,發(fā)現(xiàn)它有點(diǎn)“心口不一”。一邊說著“相加”,一邊算著“相減”,最后結(jié)果錯(cuò)誤。
誰答得最快,審題最清晰?
答題速度,屬于AI考生們的舒適區(qū)。
基本上,這四個(gè)AI考生的選擇題基本都能在60秒內(nèi)出結(jié)果。只有ChatGPT和元寶的第六題,超過了一分鐘(但還是很)。
來到解答題,大家的耗時(shí)意料之中增加了不少。尤其是ChatGPT,基本最后的幾道大題都需要思考6分鐘左右。
不過在耗時(shí)更長的解題過程里,我們也看到一些驚喜。比如,ChatGPT會(huì)自己放大題目、左看右看,確認(rèn)識(shí)別沒有問題后再開始解題。

*ChatGPT會(huì)自己放大圖片,來仔細(xì)檢查箭頭首尾在坐標(biāo)軸上的位置
夸克和豆包也很讓人驚喜。在整體的速度測評中,夸克位列第一,豆包以一分之差位列第二。
這兩家做最難的解答題,單題最長耗費(fèi)時(shí)間在4分鐘左右。
![]()
至于和多模態(tài)相關(guān)的審題能力,AI考生們基本上都沒讓人失望。除了元寶有一題識(shí)別不出來,其他考生都是滿分。
不同的輸出風(fēng)格,讓我找到AI老師
測到這里,本次AI考生的高考數(shù)學(xué)測評基本可以結(jié)束了。
但在就在核對答案的過程中,我還有一個(gè)不同尋常的發(fā)現(xiàn)。
參與測評的AI考生背后,基本都是推理模型。在仔細(xì)看大家的輸出時(shí),我發(fā)現(xiàn)不同考生的思維輸出風(fēng)格存在差異。而這種差異,會(huì)給真正想通過AI學(xué)習(xí)的考生,帶來不同的感覺和效果。
比如,豆包的思維鏈展示很長很完整,答案卻很簡潔。夸克的輸出更具引導(dǎo)性,比較像老師。元寶的內(nèi)容,更像是數(shù)學(xué)學(xué)霸,很喜歡計(jì)算和公式。
拿頗具難度的第19題舉例。
同樣是啟動(dòng)深度思考模式,夸克不會(huì)把所有的思考過程呈現(xiàn),而是重述題目,并給出有步驟的解題思路。這個(gè)思路里面,也會(huì)劃一些高中考點(diǎn)。
![]()
相比之下,豆包和元寶有點(diǎn)"做題機(jī)器"。
在等待豆包給出答案的過程中,可以看到豆包會(huì)將長長長的思考思維鏈完整輸出。之后的解答部分雖然簡潔,但看表述確實(shí)只能用來對答案,難以引發(fā)思考。
![]()
元寶的回答少了一些清晰的思路指引。相對于夸克和豆包,計(jì)算步驟都更復(fù)雜一些,基本直奔計(jì)算而去,不會(huì)在表述中強(qiáng)調(diào)考點(diǎn)。
![]()
*元寶答案示例
如果從認(rèn)真學(xué)習(xí)的角度,相信還是有更多人喜歡夸克老師的引導(dǎo)式畫風(fēng)。
![]()
總之,這一次的測評中,我們真實(shí)把這四個(gè)AI考生真正當(dāng)作人類測試。發(fā)現(xiàn)不管是腦力還是眼力,AI們的進(jìn)步已經(jīng)超出想象。隨著AI越來越聰明,或許我會(huì)收獲更多的老師。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.