<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      讓AI像人類一樣做高考數(shù)學(xué)題,夸克領(lǐng)跑、豆包緊隨

      0
      分享至

      一年一度的高考落下帷幕。對大模型來說,這已經(jīng)是它第三次參與這場本屬于人類考生的考試。

      但和前兩年不同,之前人們喜歡安排大模型產(chǎn)品寫高考作文。今年隨著推理模型的火熱,人們開始熱衷讓它參與高考數(shù)學(xué)。

      一個(gè)有意思的變化在于,這兩天各種各樣的高考數(shù)學(xué)測評結(jié)果證明,今年大模型似乎有了質(zhì)的飛躍——從純粹的文科生,成為了數(shù)學(xué)成績也不錯(cuò)的理科生。

      為驗(yàn)證這一結(jié)果,我們也選取了四個(gè)AI產(chǎn)品——豆包、夸克、元寶和ChatGPT進(jìn)行測評。



      由于這幾家模型均具備多模態(tài)能力,所以我們將2025年全國新課標(biāo)數(shù)學(xué)I卷的題目直接投喂給大模型,不做格式轉(zhuǎn)換,不開啟聯(lián)網(wǎng)搜索,所有測試模型只有一次答題機(jī)會(huì)。

      關(guān)于考核標(biāo)準(zhǔn),我們覺得如果讓AI參與考試,就應(yīng)該把它們當(dāng)作一個(gè)真正的考生考核

      所以,本次測評拆解了三大維度

      • 結(jié)果正確率:AI考生能力的最直觀體現(xiàn)。
      • 答題速度:考試有時(shí)間限制,AI考生也應(yīng)該注意時(shí)間安排。
      • 識(shí)別準(zhǔn)確率:人類考生需要審題準(zhǔn)確,不能出現(xiàn)看錯(cuò)數(shù)字、符號(hào)等問題。所以有多模態(tài)能力的AI考生,也需要參與這一考核。

      基于這三個(gè)維度,我們通過分別打分再計(jì)總分的形式,測試出AI考生們的高考數(shù)學(xué)的考試名次。

      更細(xì)致的"閱卷規(guī)則"參考:



      經(jīng)過以上三個(gè)維度的綜合測試,最終AI考生們的全面考察結(jié)果如下:


      *綜合測評圖


      *綜合排名圖

      如果單看純粹的卷面分,這幾家AI考生的數(shù)學(xué)分?jǐn)?shù)都在110分以上。想起去年,AI們的高考數(shù)學(xué)題還經(jīng)常不及格,真是今非昔比。

      而且,不僅是做題,這些AI選手們的解題速度和視覺理解能力都非常強(qiáng)——大部分題目都能在3分鐘內(nèi)完成。只有元寶沒有識(shí)別出其中的一道題目,其他AI助手在識(shí)別上都拿了滿分。

      誰答對了最多題?

      直接的考試分?jǐn)?shù),是考生最關(guān)心的事情。

      根據(jù)卷面分?jǐn)?shù),夸克、豆包和ChatGPT分列前三。

      一個(gè)小插曲是,ChatGPT在難題中經(jīng)常嘗試寫代碼解題,準(zhǔn)確率較高。但考慮到高考現(xiàn)場的考生們不會(huì)配備電腦寫代碼解題,所以我們立刻禁止了它寫代碼。

      整體看下來,大家的選擇題和填空題得分差距不是非常大,錯(cuò)誤都不是很多。尤其是夸克和ChatGPT,選擇和填空題全對。



      解答題是讓各家AI考生有點(diǎn)為難的題目。尤其是16題,大家都有錯(cuò)誤。

      首先是元寶,從一開始沒能識(shí)別出這一道題目,所以也就無法作答——這也是我們這次測試中,唯一一個(gè)沒有被某一模型識(shí)別出的題目。

      豆包在這道題上犯錯(cuò)的原因也有點(diǎn)令人迷惑,題目解題思路過程都是對的,就是要把題目中的“m”改成“n”。

      感覺這里豆包在審題上出現(xiàn)了理解偏差,不能將“m”和“n”區(qū)分開,正確理解m的含義。



      在選擇和填空上第一名的夸克,第16題中的錯(cuò)誤很可惜地發(fā)生在最后一步——“利用錯(cuò)位相減法”得出最終結(jié)果的部分。

      向上翻了一下思考過程,發(fā)現(xiàn)它有點(diǎn)“心口不一”。一邊說著“相加”,一邊算著“相減”,最后結(jié)果錯(cuò)誤。

      誰答得最快,審題最清晰?

      答題速度,屬于AI考生們的舒適區(qū)。

      基本上,這四個(gè)AI考生的選擇題基本都能在60秒內(nèi)出結(jié)果。只有ChatGPT和元寶的第六題,超過了一分鐘(但還是很)。

      來到解答題,大家的耗時(shí)意料之中增加了不少。尤其是ChatGPT,基本最后的幾道大題都需要思考6分鐘左右。

      不過在耗時(shí)更長的解題過程里,我們也看到一些驚喜。比如,ChatGPT會(huì)自己放大題目、左看右看,確認(rèn)識(shí)別沒有問題后再開始解題。


      *ChatGPT會(huì)自己放大圖片,來仔細(xì)檢查箭頭首尾在坐標(biāo)軸上的位置

      夸克和豆包也很讓人驚喜。在整體的速度測評中,夸克位列第一,豆包以一分之差位列第二。

      這兩家做最難的解答題,單題最長耗費(fèi)時(shí)間在4分鐘左右。



      至于和多模態(tài)相關(guān)的審題能力,AI考生們基本上都沒讓人失望。除了元寶有一題識(shí)別不出來,其他考生都是滿分。

      不同的輸出風(fēng)格,讓我找到AI老師

      測到這里,本次AI考生的高考數(shù)學(xué)測評基本可以結(jié)束了。

      但在就在核對答案的過程中,我還有一個(gè)不同尋常的發(fā)現(xiàn)。

      參與測評的AI考生背后,基本都是推理模型。在仔細(xì)看大家的輸出時(shí),我發(fā)現(xiàn)不同考生的思維輸出風(fēng)格存在差異。而這種差異,會(huì)給真正想通過AI學(xué)習(xí)的考生,帶來不同的感覺和效果。

      比如,豆包的思維鏈展示很長很完整,答案卻很簡潔。夸克的輸出更具引導(dǎo)性,比較像老師。元寶的內(nèi)容,更像是數(shù)學(xué)學(xué)霸,很喜歡計(jì)算和公式。

      拿頗具難度的第19題舉例。

      同樣是啟動(dòng)深度思考模式,夸克不會(huì)把所有的思考過程呈現(xiàn),而是重述題目,并給出有步驟的解題思路。這個(gè)思路里面,也會(huì)劃一些高中考點(diǎn)。



      相比之下,豆包和元寶有點(diǎn)"做題機(jī)器"。

      在等待豆包給出答案的過程中,可以看到豆包會(huì)將長長長的思考思維鏈完整輸出。之后的解答部分雖然簡潔,但看表述確實(shí)只能用來對答案,難以引發(fā)思考。



      元寶的回答少了一些清晰的思路指引。相對于夸克和豆包,計(jì)算步驟都更復(fù)雜一些,基本直奔計(jì)算而去,不會(huì)在表述中強(qiáng)調(diào)考點(diǎn)。


      *元寶答案示例

      如果從認(rèn)真學(xué)習(xí)的角度,相信還是有更多人喜歡夸克老師的引導(dǎo)式畫風(fēng)。



      總之,這一次的測評中,我們真實(shí)把這四個(gè)AI考生真正當(dāng)作人類測試。發(fā)現(xiàn)不管是腦力還是眼力,AI們的進(jìn)步已經(jīng)超出想象。隨著AI越來越聰明,或許我會(huì)收獲更多的老師。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      面對上門的上海警察,他從24樓扔下22部手機(jī)和1臺(tái)筆記本電腦

      面對上門的上海警察,他從24樓扔下22部手機(jī)和1臺(tái)筆記本電腦

      上觀新聞
      2025-12-16 19:37:06
      善惡有報(bào),移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

      善惡有報(bào),移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

      社會(huì)日日鮮
      2025-12-17 08:13:19
      000890,股價(jià)突然直線拉升,上演“地天板”!

      000890,股價(jià)突然直線拉升,上演“地天板”!

      數(shù)據(jù)寶
      2025-12-17 10:39:01
      人不會(huì)無故患上帶狀皰疹?調(diào)查發(fā)現(xiàn):患帶狀皰疹,背后有4個(gè)原因

      人不會(huì)無故患上帶狀皰疹?調(diào)查發(fā)現(xiàn):患帶狀皰疹,背后有4個(gè)原因

      涵豆說娛
      2025-10-23 09:31:22
      九十多歲的日本退伍老兵松本還想跟中國開戰(zhàn),理由:打仗很光榮!

      九十多歲的日本退伍老兵松本還想跟中國開戰(zhàn),理由:打仗很光榮!

      我心縱橫天地間
      2025-12-16 13:17:58
      美救人失敗,當(dāng)著8方代表的面,中方審判準(zhǔn)時(shí)開始,黎智英被裁決

      美救人失敗,當(dāng)著8方代表的面,中方審判準(zhǔn)時(shí)開始,黎智英被裁決

      鐵錘簡科
      2025-12-16 20:08:34
      “4斤黃金鳳冠被毀”大反轉(zhuǎn),千萬級(jí)網(wǎng)紅天塌了!

      “4斤黃金鳳冠被毀”大反轉(zhuǎn),千萬級(jí)網(wǎng)紅天塌了!

      廣告創(chuàng)意
      2025-12-16 10:14:22
      12月17日人民幣對美元中間價(jià)調(diào)升29個(gè)基點(diǎn)

      12月17日人民幣對美元中間價(jià)調(diào)升29個(gè)基點(diǎn)

      證券時(shí)報(bào)
      2025-12-17 09:31:03
      2月17號(hào)才過年就算了,2026年春節(jié)直接把人整懵了!

      2月17號(hào)才過年就算了,2026年春節(jié)直接把人整懵了!

      刺頭體育
      2025-12-14 16:52:39
      史無前例!國家開始“清零”個(gè)人失信信息

      史無前例!國家開始“清零”個(gè)人失信信息

      娛觀小子
      2025-12-16 15:05:34
      只因長得太美就被導(dǎo)演潛規(guī)則,多年后無戲可拍的她,靠胡歌才走紅

      只因長得太美就被導(dǎo)演潛規(guī)則,多年后無戲可拍的她,靠胡歌才走紅

      一娛三分地
      2025-12-14 22:21:38
      烏情報(bào)局?jǐn)孬@情報(bào):俄羅斯向中國讓渡領(lǐng)土主權(quán),有史以來第一次

      烏情報(bào)局?jǐn)孬@情報(bào):俄羅斯向中國讓渡領(lǐng)土主權(quán),有史以來第一次

      王裕慶
      2025-12-14 17:41:17
      成都遇害案再添新證!兇手目標(biāo)明確,就是要弄死她,律師霸氣反擊

      成都遇害案再添新證!兇手目標(biāo)明確,就是要弄死她,律師霸氣反擊

      阿纂看事
      2025-12-16 17:27:20
      2026年春節(jié)可能要冷清過了!不是不想熱鬧,是真的累到?jīng)]力氣折騰

      2026年春節(jié)可能要冷清過了!不是不想熱鬧,是真的累到?jīng)]力氣折騰

      南權(quán)先生
      2025-12-16 16:26:19
      日本為什么挑釁中國,西班牙專家:中國錯(cuò)就錯(cuò)在沒跟日本徹底清算

      日本為什么挑釁中國,西班牙專家:中國錯(cuò)就錯(cuò)在沒跟日本徹底清算

      我心縱橫天地間
      2025-12-08 18:32:33
      痛心!江蘇一民警處置高速事故被撞,生命定格在52歲

      痛心!江蘇一民警處置高速事故被撞,生命定格在52歲

      極目新聞
      2025-12-16 21:19:22
      何晴葬禮剛結(jié)束,令人擔(dān)憂事發(fā)生!兒子被詬病,網(wǎng)友:簡直沒人性

      何晴葬禮剛結(jié)束,令人擔(dān)憂事發(fā)生!兒子被詬病,網(wǎng)友:簡直沒人性

      米果說識(shí)
      2025-12-16 16:14:52
      澳大利亞槍擊案24歲槍手已醒來,曾與父親去菲律賓接受武裝訓(xùn)練;菲律賓證實(shí)嫌疑人曾在菲停留近一月

      澳大利亞槍擊案24歲槍手已醒來,曾與父親去菲律賓接受武裝訓(xùn)練;菲律賓證實(shí)嫌疑人曾在菲停留近一月

      揚(yáng)子晚報(bào)
      2025-12-16 18:11:53
      中美貿(mào)易戰(zhàn),卻意外養(yǎng)肥了這個(gè)國家!如今竟翻臉不認(rèn)人了

      中美貿(mào)易戰(zhàn),卻意外養(yǎng)肥了這個(gè)國家!如今竟翻臉不認(rèn)人了

      瞳哥視界
      2025-12-05 21:01:19
      樓蘭是犯了什么天條嗎?讓中原人如此痛恨,古詩里一堆“斬樓蘭”

      樓蘭是犯了什么天條嗎?讓中原人如此痛恨,古詩里一堆“斬樓蘭”

      收藏大視界
      2025-12-16 18:48:56
      2025-12-17 11:56:49
      四木相對論 incentive-icons
      四木相對論
      嘮嘮科技,看看世界
      89文章數(shù) 1關(guān)注度
      往期回顧 全部

      科技要聞

      無人駕駛邁關(guān)鍵一步 特斯拉股價(jià)觸歷史新高

      頭條要聞

      罰站照片被老師發(fā)到家長群 八年級(jí)男孩從十八樓跳下

      頭條要聞

      罰站照片被老師發(fā)到家長群 八年級(jí)男孩從十八樓跳下

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      鞠婧祎收入曝光,絲芭稱已支付1.3億

      財(cái)經(jīng)要聞

      "祥源系"爆雷 有投資者數(shù)百萬元無法提現(xiàn)

      汽車要聞

      一車多動(dòng)力+雙姿態(tài) 長城歐拉5上市 限時(shí)9.18萬元起

      態(tài)度原創(chuàng)

      房產(chǎn)
      數(shù)碼
      旅游
      藝術(shù)
      軍事航空

      房產(chǎn)要聞

      封關(guān)前夜!海南綠發(fā)20億拿下三亞重磅宅地!

      數(shù)碼要聞

      機(jī)械師推出GX11Pro頭戴式耳機(jī),169元

      旅游要聞

      秀我中國|黃河壺口瀑布出現(xiàn)冰掛彩虹景觀

      藝術(shù)要聞

      雷軍前腳剛曬完“低速防碰撞”功能,后腳就撞上銷售!網(wǎng)友:“法務(wù)說沒寫進(jìn)合同不算”含金量還在上升

      軍事要聞

      澤連斯基稱烏克蘭支持在"圣誕節(jié)期間停火" 克宮回應(yīng)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产在线精品成人一区二区| 国产传媒AV| 亚洲AV无码成人片在线| 国产乱子伦一区二区三区四区五区| www.18禁| 国产360激情盗摄全集| 欧美不卡一区二区三区| 亚洲一本在线| 中文字幕 日韩 人妻 无码| 久久人搡人人玩人妻精品首页 | 亚洲最大的成人网| 激情综合网五月婷婷| 日产精品久久久久久久蜜臀| 国产亚洲精品aaaa片app| 无码人妻aⅴ一区二区三区有奶水| 国产v片中文字幕| 国产综合视频一区二区三区| 国产精品美女久久久免费| 少妇极品熟妇人妻无码| 禹城市| 亚州性色| 精品国产自线午夜福利| 国产女人被狂躁到高潮小说| 巫溪县| 2019最新中文字幕无码播放我不卡| 四虎成人在线观看免费| 国产天美传媒性色av| 粗大的内捧猛烈进出小视频| 亚洲在线不卡 | 性一交一黄一片| 久久熟| 中牟县| 91视频在| 国产在线精品熟女| 久久精品国产亚洲av麻豆小说| 免费av网站| 国产在线精品一区二区在线看| 好紧好爽午夜视频| 中文字幕一区二区久久人妻| 老王av| 超碰97人人天天蜜芽|