<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      讓AI像人類一樣做高考數(shù)學(xué)題,夸克領(lǐng)跑、豆包緊隨

      0
      分享至

      一年一度的高考落下帷幕。對(duì)大模型來說,這已經(jīng)是它第三次參與這場(chǎng)本屬于人類考生的考試。

      但和前兩年不同,之前人們喜歡安排大模型產(chǎn)品寫高考作文。今年隨著推理模型的火熱,人們開始熱衷讓它參與高考數(shù)學(xué)。

      一個(gè)有意思的變化在于,這兩天各種各樣的高考數(shù)學(xué)測(cè)評(píng)結(jié)果證明,今年大模型似乎有了質(zhì)的飛躍——從純粹的文科生,成為了數(shù)學(xué)成績(jī)也不錯(cuò)的理科生。

      為驗(yàn)證這一結(jié)果,我們也選取了四個(gè)AI產(chǎn)品——豆包、夸克、元寶和ChatGPT進(jìn)行測(cè)評(píng)。



      由于這幾家模型均具備多模態(tài)能力,所以我們將2025年全國(guó)新課標(biāo)數(shù)學(xué)I卷的題目直接投喂給大模型,不做格式轉(zhuǎn)換,不開啟聯(lián)網(wǎng)搜索,所有測(cè)試模型只有一次答題機(jī)會(huì)。

      關(guān)于考核標(biāo)準(zhǔn),我們覺得如果讓AI參與考試,就應(yīng)該把它們當(dāng)作一個(gè)真正的考生考核

      所以,本次測(cè)評(píng)拆解了三大維度

      • 結(jié)果正確率:AI考生能力的最直觀體現(xiàn)。
      • 答題速度:考試有時(shí)間限制,AI考生也應(yīng)該注意時(shí)間安排。
      • 識(shí)別準(zhǔn)確率:人類考生需要審題準(zhǔn)確,不能出現(xiàn)看錯(cuò)數(shù)字、符號(hào)等問題。所以有多模態(tài)能力的AI考生,也需要參與這一考核。

      基于這三個(gè)維度,我們通過分別打分再計(jì)總分的形式,測(cè)試出AI考生們的高考數(shù)學(xué)的考試名次。

      更細(xì)致的"閱卷規(guī)則"參考:



      經(jīng)過以上三個(gè)維度的綜合測(cè)試,最終AI考生們的全面考察結(jié)果如下:


      *綜合測(cè)評(píng)圖


      *綜合排名圖

      如果單看純粹的卷面分,這幾家AI考生的數(shù)學(xué)分?jǐn)?shù)都在110分以上。想起去年,AI們的高考數(shù)學(xué)題還經(jīng)常不及格,真是今非昔比。

      而且,不僅是做題,這些AI選手們的解題速度和視覺理解能力都非常強(qiáng)——大部分題目都能在3分鐘內(nèi)完成。只有元寶沒有識(shí)別出其中的一道題目,其他AI助手在識(shí)別上都拿了滿分。

      誰(shuí)答對(duì)了最多題?

      直接的考試分?jǐn)?shù),是考生最關(guān)心的事情。

      根據(jù)卷面分?jǐn)?shù),夸克、豆包和ChatGPT分列前三。

      一個(gè)小插曲是,ChatGPT在難題中經(jīng)常嘗試寫代碼解題,準(zhǔn)確率較高。但考慮到高考現(xiàn)場(chǎng)的考生們不會(huì)配備電腦寫代碼解題,所以我們立刻禁止了它寫代碼。

      整體看下來,大家的選擇題和填空題得分差距不是非常大,錯(cuò)誤都不是很多。尤其是夸克和ChatGPT,選擇和填空題全對(duì)。



      解答題是讓各家AI考生有點(diǎn)為難的題目。尤其是16題,大家都有錯(cuò)誤。

      首先是元寶,從一開始沒能識(shí)別出這一道題目,所以也就無法作答——這也是我們這次測(cè)試中,唯一一個(gè)沒有被某一模型識(shí)別出的題目。

      豆包在這道題上犯錯(cuò)的原因也有點(diǎn)令人迷惑,題目解題思路過程都是對(duì)的,就是要把題目中的“m”改成“n”。

      感覺這里豆包在審題上出現(xiàn)了理解偏差,不能將“m”和“n”區(qū)分開,正確理解m的含義。



      在選擇和填空上第一名的夸克,第16題中的錯(cuò)誤很可惜地發(fā)生在最后一步——“利用錯(cuò)位相減法”得出最終結(jié)果的部分。

      向上翻了一下思考過程,發(fā)現(xiàn)它有點(diǎn)“心口不一”。一邊說著“相加”,一邊算著“相減”,最后結(jié)果錯(cuò)誤。

      誰(shuí)答得最快,審題最清晰?

      答題速度,屬于AI考生們的舒適區(qū)。

      基本上,這四個(gè)AI考生的選擇題基本都能在60秒內(nèi)出結(jié)果。只有ChatGPT和元寶的第六題,超過了一分鐘(但還是很)。

      來到解答題,大家的耗時(shí)意料之中增加了不少。尤其是ChatGPT,基本最后的幾道大題都需要思考6分鐘左右。

      不過在耗時(shí)更長(zhǎng)的解題過程里,我們也看到一些驚喜。比如,ChatGPT會(huì)自己放大題目、左看右看,確認(rèn)識(shí)別沒有問題后再開始解題。


      *ChatGPT會(huì)自己放大圖片,來仔細(xì)檢查箭頭首尾在坐標(biāo)軸上的位置

      夸克和豆包也很讓人驚喜。在整體的速度測(cè)評(píng)中,夸克位列第一,豆包以一分之差位列第二。

      這兩家做最難的解答題,單題最長(zhǎng)耗費(fèi)時(shí)間在4分鐘左右。



      至于和多模態(tài)相關(guān)的審題能力,AI考生們基本上都沒讓人失望。除了元寶有一題識(shí)別不出來,其他考生都是滿分。

      不同的輸出風(fēng)格,讓我找到AI老師

      測(cè)到這里,本次AI考生的高考數(shù)學(xué)測(cè)評(píng)基本可以結(jié)束了。

      但在就在核對(duì)答案的過程中,我還有一個(gè)不同尋常的發(fā)現(xiàn)。

      參與測(cè)評(píng)的AI考生背后,基本都是推理模型。在仔細(xì)看大家的輸出時(shí),我發(fā)現(xiàn)不同考生的思維輸出風(fēng)格存在差異。而這種差異,會(huì)給真正想通過AI學(xué)習(xí)的考生,帶來不同的感覺和效果。

      比如,豆包的思維鏈展示很長(zhǎng)很完整,答案卻很簡(jiǎn)潔。夸克的輸出更具引導(dǎo)性,比較像老師。元寶的內(nèi)容,更像是數(shù)學(xué)學(xué)霸,很喜歡計(jì)算和公式。

      拿頗具難度的第19題舉例。

      同樣是啟動(dòng)深度思考模式,夸克不會(huì)把所有的思考過程呈現(xiàn),而是重述題目,并給出有步驟的解題思路。這個(gè)思路里面,也會(huì)劃一些高中考點(diǎn)。



      相比之下,豆包和元寶有點(diǎn)"做題機(jī)器"。

      在等待豆包給出答案的過程中,可以看到豆包會(huì)將長(zhǎng)長(zhǎng)長(zhǎng)的思考思維鏈完整輸出。之后的解答部分雖然簡(jiǎn)潔,但看表述確實(shí)只能用來對(duì)答案,難以引發(fā)思考。



      元寶的回答少了一些清晰的思路指引。相對(duì)于夸克和豆包,計(jì)算步驟都更復(fù)雜一些,基本直奔計(jì)算而去,不會(huì)在表述中強(qiáng)調(diào)考點(diǎn)。


      *元寶答案示例

      如果從認(rèn)真學(xué)習(xí)的角度,相信還是有更多人喜歡夸克老師的引導(dǎo)式畫風(fēng)。



      總之,這一次的測(cè)評(píng)中,我們真實(shí)把這四個(gè)AI考生真正當(dāng)作人類測(cè)試。發(fā)現(xiàn)不管是腦力還是眼力,AI們的進(jìn)步已經(jīng)超出想象。隨著AI越來越聰明,或許我會(huì)收獲更多的老師。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      在醫(yī)院你遭遇過最羞恥的事是什么?網(wǎng)友:一個(gè)比一個(gè)炸裂啊

      在醫(yī)院你遭遇過最羞恥的事是什么?網(wǎng)友:一個(gè)比一個(gè)炸裂啊

      解讀熱點(diǎn)事件
      2026-02-04 00:05:07
      賣一部虧一部?知名大廠“暫停研發(fā)旗艦機(jī)”,手機(jī)圈真要變天了…

      賣一部虧一部?知名大廠“暫停研發(fā)旗艦機(jī)”,手機(jī)圈真要變天了…

      躺倒鴨
      2026-02-05 13:47:41
      惹怒中國(guó)的代價(jià)有多痛?日本、立陶宛、尼日爾用血淚的教訓(xùn)告訴你

      惹怒中國(guó)的代價(jià)有多痛?日本、立陶宛、尼日爾用血淚的教訓(xùn)告訴你

      議紀(jì)史
      2026-02-05 13:35:03
      飛天茅臺(tái),“一天價(jià)格調(diào)了5次”

      飛天茅臺(tái),“一天價(jià)格調(diào)了5次”

      澎湃新聞
      2026-02-06 01:53:16
      火箭又輸了!11中3 vs 14中10,火箭后悔了嗎?

      火箭又輸了!11中3 vs 14中10,火箭后悔了嗎?

      籃球盛世
      2026-02-06 15:19:30
      曹德旺預(yù)言成真?我國(guó)二三十層電梯房,或?qū)⒚媾R同一個(gè)結(jié)局?

      曹德旺預(yù)言成真?我國(guó)二三十層電梯房,或?qū)⒚媾R同一個(gè)結(jié)局?

      巢客HOME
      2026-02-06 07:00:03
      眼光差!湖人白菜價(jià)出手!結(jié)果快船轉(zhuǎn)手一賣,拿下2首輪+頂級(jí)潛力

      眼光差!湖人白菜價(jià)出手!結(jié)果快船轉(zhuǎn)手一賣,拿下2首輪+頂級(jí)潛力

      你的籃球頻道
      2026-02-06 12:02:25
      比存儲(chǔ)還缺!變壓器訂單排到2027年   7家出海龍頭全球份額超30%

      比存儲(chǔ)還缺!變壓器訂單排到2027年 7家出海龍頭全球份額超30%

      元芳說投資
      2026-02-06 06:00:22
      乒乓亞洲杯:國(guó)乒再贏6場(chǎng)外戰(zhàn)!9人已晉級(jí)16強(qiáng),1人遺憾出局

      乒乓亞洲杯:國(guó)乒再贏6場(chǎng)外戰(zhàn)!9人已晉級(jí)16強(qiáng),1人遺憾出局

      全言作品
      2026-02-06 13:46:43
      董璇母女給朵朵慶生,小酒窩穿小香風(fēng)好精致,陳思誠(chéng)站C位很和諧

      董璇母女給朵朵慶生,小酒窩穿小香風(fēng)好精致,陳思誠(chéng)站C位很和諧

      春日在捕月
      2026-02-06 09:41:56
      平型關(guān)戰(zhàn)日軍輜重隊(duì)傷亡慘重,因隊(duì)藏五百精兵且六千援軍將至

      平型關(guān)戰(zhàn)日軍輜重隊(duì)傷亡慘重,因隊(duì)藏五百精兵且六千援軍將至

      嘮叨說歷史
      2026-01-26 15:07:49
      “仨兒子打光棍”視頻走紅,網(wǎng)友調(diào)侃:長(zhǎng)成這樣,擼網(wǎng)貸都費(fèi)勁!

      “仨兒子打光棍”視頻走紅,網(wǎng)友調(diào)侃:長(zhǎng)成這樣,擼網(wǎng)貸都費(fèi)勁!

      妍妍教育日記
      2026-02-04 19:09:07
      原來她就是王傳福的妻子,怪不得做啥都能來財(cái),娶一個(gè)賢妻旺三代

      原來她就是王傳福的妻子,怪不得做啥都能來財(cái),娶一個(gè)賢妻旺三代

      孤酒老巷QA
      2026-02-03 19:35:25
      連換5人仍被0-5暴揍!72歲前皇馬老帥怒罵全隊(duì):我想把11人全換了

      連換5人仍被0-5暴揍!72歲前皇馬老帥怒罵全隊(duì):我想把11人全換了

      風(fēng)過鄉(xiāng)
      2026-02-06 11:54:39
      為何部隊(duì)考核要把5公里改為3公里?這就不得不提2018年的那場(chǎng)比武

      為何部隊(duì)考核要把5公里改為3公里?這就不得不提2018年的那場(chǎng)比武

      軍情觀察家
      2026-02-05 20:09:11
      中國(guó)的優(yōu)勢(shì)!哈佛教授:不要高估中國(guó),因?yàn)槊阑蛟S已控制其命脈

      中國(guó)的優(yōu)勢(shì)!哈佛教授:不要高估中國(guó),因?yàn)槊阑蛟S已控制其命脈

      輿圖看世界
      2026-02-06 09:30:03
      西貝的賈總剛被解除禁言,又給自己補(bǔ)上一刀,網(wǎng)友評(píng)論炸了

      西貝的賈總剛被解除禁言,又給自己補(bǔ)上一刀,網(wǎng)友評(píng)論炸了

      魔都姐姐雜談
      2026-02-05 14:07:32
      “重慶橫渡瓊州海峽第一人”長(zhǎng)江漂流溺亡 家屬起訴同伴索賠近百萬(wàn) 終審被駁回

      “重慶橫渡瓊州海峽第一人”長(zhǎng)江漂流溺亡 家屬起訴同伴索賠近百萬(wàn) 終審被駁回

      紅星新聞
      2026-02-05 17:25:57
      鄭欽文將出戰(zhàn)WTA印第安維爾斯站

      鄭欽文將出戰(zhàn)WTA印第安維爾斯站

      體壇周報(bào)
      2026-02-06 13:10:25
      新血壓標(biāo)準(zhǔn)已公布,高血壓不再是120/80mmHg,愿你的血壓在它之下

      新血壓標(biāo)準(zhǔn)已公布,高血壓不再是120/80mmHg,愿你的血壓在它之下

      熊貓醫(yī)學(xué)社
      2026-02-06 11:35:03
      2026-02-06 15:40:49
      四木相對(duì)論 incentive-icons
      四木相對(duì)論
      嘮嘮科技,看看世界
      108文章數(shù) 2關(guān)注度
      往期回顧 全部

      科技要聞

      獨(dú)角獸版圖巨變:SpaceX奔萬(wàn)億 中美差在哪

      頭條要聞

      長(zhǎng)和巴拿馬港口遭接管 百億美元全球港口出售計(jì)劃生變

      頭條要聞

      長(zhǎng)和巴拿馬港口遭接管 百億美元全球港口出售計(jì)劃生變

      體育要聞

      西甲射手榜第2,身價(jià)不到姆巴佩1/40

      娛樂要聞

      微博之夜紅毯好精彩,堪比婚禮現(xiàn)場(chǎng)

      財(cái)經(jīng)要聞

      愛爾眼科卷入騙保疑云 公司回應(yīng)

      汽車要聞

      這顏值真的可以!方程豹首款轎車叫"鎂7"還是"方程"?

      態(tài)度原創(chuàng)

      親子
      家居
      手機(jī)
      教育
      時(shí)尚

      親子要聞

      老人相信“多指多福”不讓切,孩子越早做影響越小

      家居要聞

      現(xiàn)代輕奢 溫馨治愈系

      手機(jī)要聞

      蘋果終于開竅!國(guó)行5000mAh+2nm A20 Pro,續(xù)航直接拉滿

      教育要聞

      取消中高考?講講為孩子、為國(guó)家,教育該往哪走#高考 #教育

      開運(yùn)首飾|| 300多到手天然珍珠、水晶,好意頭還顯貴氣

      無障礙瀏覽 進(jìn)入關(guān)懷版