<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<ruby id="f7r3e"></ruby>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

讓AI像人類一樣做高考數學題，夸克領跑、豆包緊隨

2025-06-14 23:43:30　來源: 四木相對論

陜西舉報

0

分享至

一年一度的高考落下帷幕。對大模型來說，這已經是它第三次參與這場本屬于人類考生的考試。

但和前兩年不同，之前人們喜歡安排大模型產品寫高考作文。今年隨著推理模型的火熱，人們開始熱衷讓它參與高考數學。

一個有意思的變化在于，這兩天各種各樣的高考數學測評結果證明，今年大模型似乎有了質的飛躍——從純粹的文科生，成為了數學成績也不錯的理科生。

為驗證這一結果，我們也選取了四個AI產品——豆包、夸克、元寶和ChatGPT進行測評。

由于這幾家模型均具備多模態能力，所以我們將2025年全國新課標數學I卷的題目直接投喂給大模型，不做格式轉換，不開啟聯網搜索，所有測試模型只有一次答題機會。

關于考核標準，我們覺得如果讓AI參與考試，就應該把它們當作一個真正的考生考核。

所以，本次測評拆解了三大維度：

結果正確率：AI考生能力的最直觀體現。
答題速度：考試有時間限制，AI考生也應該注意時間安排。
識別準確率：人類考生需要審題準確，不能出現看錯數字、符號等問題。所以有多模態能力的AI考生，也需要參與這一考核。

基于這三個維度，我們通過分別打分再計總分的形式，測試出AI考生們的高考數學的考試名次。

更細致的"閱卷規則"參考：

經過以上三個維度的綜合測試，最終AI考生們的全面考察結果如下：

*綜合測評圖

*綜合排名圖

如果單看純粹的卷面分，這幾家AI考生的數學分數都在110分以上。想起去年，AI們的高考數學題還經常不及格，真是今非昔比。

而且，不僅是做題，這些AI選手們的解題速度和視覺理解能力都非常強——大部分題目都能在3分鐘內完成。只有元寶沒有識別出其中的一道題目，其他AI助手在識別上都拿了滿分。

誰答對了最多題？

直接的考試分數，是考生最關心的事情。

根據卷面分數，夸克、豆包和ChatGPT分列前三。

一個小插曲是，ChatGPT在難題中經常嘗試寫代碼解題，準確率較高。但考慮到高考現場的考生們不會配備電腦寫代碼解題，所以我們立刻禁止了它寫代碼。

整體看下來，大家的選擇題和填空題得分差距不是非常大，錯誤都不是很多。尤其是夸克和ChatGPT，選擇和填空題全對。

解答題是讓各家AI考生有點為難的題目。尤其是16題，大家都有錯誤。

首先是元寶，從一開始沒能識別出這一道題目，所以也就無法作答——這也是我們這次測試中，唯一一個沒有被某一模型識別出的題目。

豆包在這道題上犯錯的原因也有點令人迷惑，題目解題思路過程都是對的，就是要把題目中的“m”改成“n”。

感覺這里豆包在審題上出現了理解偏差，不能將“m”和“n”區分開，正確理解m的含義。

在選擇和填空上第一名的夸克，第16題中的錯誤很可惜地發生在最后一步——“利用錯位相減法”得出最終結果的部分。

向上翻了一下思考過程，發現它有點“心口不一”。一邊說著“相加”，一邊算著“相減”，最后結果錯誤。

誰答得最快，審題最清晰？

答題速度，屬于AI考生們的舒適區。

基本上，這四個AI考生的選擇題基本都能在60秒內出結果。只有ChatGPT和元寶的第六題，超過了一分鐘（但還是很）。

來到解答題，大家的耗時意料之中增加了不少。尤其是ChatGPT，基本最后的幾道大題都需要思考6分鐘左右。

不過在耗時更長的解題過程里，我們也看到一些驚喜。比如，ChatGPT會自己放大題目、左看右看，確認識別沒有問題后再開始解題。

*ChatGPT會自己放大圖片，來仔細檢查箭頭首尾在坐標軸上的位置

夸克和豆包也很讓人驚喜。在整體的速度測評中，夸克位列第一，豆包以一分之差位列第二。

這兩家做最難的解答題，單題最長耗費時間在4分鐘左右。

至于和多模態相關的審題能力，AI考生們基本上都沒讓人失望。除了元寶有一題識別不出來，其他考生都是滿分。

不同的輸出風格，讓我找到AI老師

測到這里，本次AI考生的高考數學測評基本可以結束了。

但在就在核對答案的過程中，我還有一個不同尋常的發現。

參與測評的AI考生背后，基本都是推理模型。在仔細看大家的輸出時，我發現不同考生的思維輸出風格存在差異。而這種差異，會給真正想通過AI學習的考生，帶來不同的感覺和效果。

比如，豆包的思維鏈展示很長很完整，答案卻很簡潔。夸克的輸出更具引導性，比較像老師。元寶的內容，更像是數學學霸，很喜歡計算和公式。

拿頗具難度的第19題舉例。

同樣是啟動深度思考模式，夸克不會把所有的思考過程呈現，而是重述題目，并給出有步驟的解題思路。這個思路里面，也會劃一些高中考點。

相比之下，豆包和元寶有點"做題機器"。

在等待豆包給出答案的過程中，可以看到豆包會將長長長的思考思維鏈完整輸出。之后的解答部分雖然簡潔，但看表述確實只能用來對答案，難以引發思考。

元寶的回答少了一些清晰的思路指引。相對于夸克和豆包，計算步驟都更復雜一些，基本直奔計算而去，不會在表述中強調考點。

*元寶答案示例

如果從認真學習的角度，相信還是有更多人喜歡夸克老師的引導式畫風。

總之，這一次的測評中，我們真實把這四個AI考生真正當作人類測試。發現不管是腦力還是眼力，AI們的進步已經超出想象。隨著AI越來越聰明，或許我會收獲更多的老師。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI開始接管實驗室了！玻爾·躍遷實驗室1800+設備即插即用

量子位 2026-04-18 23:54:30
0 跟貼 0
攻防技術同源！在 C3 安全大會上，亞信要用 AI 去對抗 AI

雷科技 2026-04-18 22:26:37
0 跟貼 0

一年級數學題全是文字，家長崩潰吐槽：考數學還是考語文？

看曉天下事 2026-04-17 12:04:39
0 跟貼 0

214升次和降次的問題，初中數學中考真題

我服子佩 2026-04-17 18:06:49
2 跟貼 2
235初中數學中考真題，難度不小的代數式求值

我服子佩 2026-04-18 22:05:04
1 跟貼 1

204中考數學必會題，指數方程送分題，卻得到很低的正確率

我服子佩 2026-04-16 17:59:07
1 跟貼 1

231初中數學中考真題，根式比較大小

我服子佩 2026-04-18 22:03:39
1 跟貼 1
小學數學求陰影部分面積

天天數理學習分享 2026-04-16 11:46:50
6 跟貼 6

以前的中專含金量很高，能考上的都是人中龍鳳，網友：以前得全縣中考前幾十名才能被錄取

星沙時報 2026-04-17 09:48:58
21 跟貼 21
看看于主任十年小學班主任解數學難題，快來學妙招了

魚姐干貨研究所 2026-04-15 10:18:46
1 跟貼 1
解高次方程，你別說，這題還挺有挑戰性

智慧的小老虎 2026-04-16 22:47:34
0 跟貼 0
四年級奧數題，難倒不少學生，豬是多少？

大力小學數學 2026-04-18 06:12:00
17 跟貼 17
新時代的數學題目，家長看了覺得也是很簡單的

公考客棧店小二 2026-04-17 21:07:35
0 跟貼 0
初中數學代數式求值

天天數理學習分享 2026-04-14 10:23:54
3 跟貼 3
2026年高考錄取全流程，提前收藏好，避免錯過和耽誤

秋梨電影 2026-04-18 04:42:21
1 跟貼 1
初中數學求面積如何利用已知條件

天天數理學習分享 2026-04-18 14:51:11
1 跟貼 1
智海馬“惠州高中數學培訓零基礎”學員的專屬進階藍圖

惠州智海馬 2026-04-18 11:39:39
0 跟貼 0
韓國競賽題：妥妥的送分題，很多學生錯在最后一步

大力小學數學 2026-04-18 07:10:00
0 跟貼 0
小學數學課外拓展-6年級-第33講計算問題（2）

維七的教育分享圈 2026-04-18 07:20:44
3 跟貼 3
解方程，普通生只會硬算，學霸這方法挺巧妙

智慧的小老虎 2026-04-17 21:57:23
0 跟貼 0
小升初奧數培優專題將錯就錯的分數乘除法運算，理解過程很關鍵

唐老師小課堂 2026-04-18 22:02:57
1 跟貼 1
壓軸題，很多同學毫無頭緒，看看你會嗎？

智慧的小老虎 2026-04-17 21:49:18
0 跟貼 0
張雪峰解析普通家庭孩子升學路，值得點贊！

星際探索站 2026-04-14 12:50:26
6 跟貼 6
果然，什么時候都不能輕信人工智能~男子按照豆包建議給玉米地疏苗，結果一波操作下來給自己氣笑了.......網友：我找茬都說不出這樣的話

河南都市頻道 2026-04-16 14:28:01
245 跟貼 245
小升初奧數等差數列通項與前n項和公式運用，注意先判斷數列類型

唐老師小課堂 2026-04-18 22:14:25
1 跟貼 1
196明明很簡單但是也有人會出錯的中考數學題

我服子佩 2026-04-16 17:21:22
1 跟貼 1
數學題逼急了也做不出來啊

櫻庭芥子 2026-04-18 00:40:38
0 跟貼 0
手把手教你，填報高考志愿，誤差不超過兩分

肖瑜看世界 2026-04-14 16:46:04
7 跟貼 7
張雪峰：我在招聘時候面試女生都是親自面試

學術漫游者 2026-04-16 04:45:46
51 跟貼 51
張雪峰：下面這段話，比你報什么志愿更重要！家長一定要認真聽！

糖果手工問問 2026-04-18 01:54:03
8 跟貼 8
2026昆明志愿填報指南：如何科學規劃，讓每一分都“物超所值”？

ynjy2026 2026-04-18 21:24:42
0 跟貼 0
西安高考補習學校推薦：到了高三了，要如何開始逆襲

三秦教育分享 2026-04-18 23:02:46
0 跟貼 0
大學點名用豆包，又陰我一次，一定要看到結尾

飛龍搞笑 2026-04-17 15:02:06
1 跟貼 1
小升初奧數培優專題分數乘除法的簡便計算，235倍數特征效率高

唐老師小課堂 2026-04-18 22:11:25
1 跟貼 1
三年級數學，難倒一片，看看你家孩子會做嗎？

郎老師趣味數學課堂 2026-04-18 18:03:58
0 跟貼 0
如何用小學乘法，造出地表最強超算也解不開的密碼？

量子位 2026-04-02 15:29:44
0 跟貼 0
巧用國際國內熱點，為高考作文服務

托塔老師 2026-04-15 19:22:04
0 跟貼 0
楊迪不愧是答題王者，翟子路舞蹈啥都會跳，白鹿在旁驚嘆不已

搞笑設計師 2026-04-15 12:08:52
1 跟貼 1
高考倒計時50天，讓我們用拼搏點亮夢想

新華社 2026-04-18 15:56:15
0 跟貼 0
高考大巴上嘴欠?；ㄕf我們全班都是代考槍手蘇向晚陸晏林佩佩

LALA愛唱歌 2026-04-18 20:46:08
0 跟貼 0

這是李鴻章妻妾的真實樣貌，個個美艷身材修長，顏值不輸當代女星

這是李鴻章妻妾的真實樣貌，個個美艷身材修長，顏值不輸當代女星

阿廢冷眼觀察所

2026-04-11 18:41:14

養了5年的愛貓突然攻擊，38歲男子右小腿被咬掉一塊肉：傷口乒乓球大、半根棉簽那么深，鮮血淋漓……醫生：春季高發，少逗！

養了5年的愛貓突然攻擊，38歲男子右小腿被咬掉一塊肉：傷口乒乓球大、半根棉簽那么深，鮮血淋漓……醫生：春季高發，少逗！

極目新聞

2026-04-18 14:59:33

做過夜場的女孩能娶嗎？網友：認識一個，真的刷新了三觀

做過夜場的女孩能娶嗎？網友：認識一個，真的刷新了三觀

夜深愛雜談

2026-03-14 18:27:50

全網唱衰的下嫁！嫁普通人5年，前任是法拉利總裁，終究還是輸了

全網唱衰的下嫁！嫁普通人5年，前任是法拉利總裁，終究還是輸了

橙星文娛

2026-04-18 16:42:58

劉亦菲調侃姚安娜：這次代言華為代言費免費嗎？姚安娜回復超好笑

劉亦菲調侃姚安娜：這次代言華為代言費免費嗎？姚安娜回復超好笑

一盅情懷

2026-04-16 11:30:50

Taylor Swift 霉霉在健身房，鍛煉健康體格

Taylor Swift 霉霉在健身房，鍛煉健康體格

下水道男孩

2026-04-11 23:22:29

恩人攜子來投靠，杜月笙妻子故意丟5塊錢：若是撿了，立刻打發走

恩人攜子來投靠，杜月笙妻子故意丟5塊錢：若是撿了，立刻打發走

千秋文化

2026-03-25 21:28:03

又打起來了，以色列不宣而戰，美軍深夜開火，美軍16億無人機墜毀

又打起來了，以色列不宣而戰，美軍深夜開火，美軍16億無人機墜毀

阿纂看事

2026-04-18 23:02:32

葉一茜浪姐上班，她是真的胖了，大腿那么粗，走路還有點外八字！

葉一茜浪姐上班，她是真的胖了，大腿那么粗，走路還有點外八字！

小娛樂悠悠

2026-04-05 06:48:49

中國貨輪阿拉伯海遭導彈襲擊！11名中國船員獲救，幕后黑手是誰？

中國貨輪阿拉伯海遭導彈襲擊！11名中國船員獲救，幕后黑手是誰？

影像溫度

2026-04-17 09:48:26

非夫妻開房，民警提醒：只要不干這個，誰管你是不是夫妻

非夫妻開房，民警提醒：只要不干這個，誰管你是不是夫妻

君說輿情

2026-04-07 08:35:16

女子利用天氣預報頻繁購買飛機延誤險，5年買中900多次，獲賠近300萬，被抓時：我符合保險理賠要求

女子利用天氣預報頻繁購買飛機延誤險，5年買中900多次，獲賠近300萬，被抓時：我符合保險理賠要求

譚老師地理大課堂

2026-04-15 20:11:42

65歲女人大實話：男人過了70歲，只剩下兩個“用處”

65歲女人大實話：男人過了70歲，只剩下兩個“用處”

蟬吟槐蕊

2026-04-06 18:14:41

21億崩塌！皇馬四大天王誰是真救星？

21億崩塌！皇馬四大天王誰是真救星？

茅塞盾開本尊

2026-04-18 23:19:53

未婚生子后，男子起訴女友，要求退還彩禮和分娩費

未婚生子后，男子起訴女友，要求退還彩禮和分娩費

中國新聞周刊

2026-04-18 22:11:05

同名同姓同身份證尾號，山東一女子稱被異地法院錯判，萬元存款被強制執行，損失3年利息

同名同姓同身份證尾號，山東一女子稱被異地法院錯判，萬元存款被強制執行，損失3年利息

封面新聞

2026-04-18 16:24:02

玉淵譚天：特殊時刻，兩部反制新規全方位保護中國海外利益

玉淵譚天：特殊時刻，兩部反制新規全方位保護中國海外利益

環球網資訊

2026-04-18 11:58:06

斯諾克最新戰報！海菲爾德架桿失誤，趙心童首局逆轉，1-0領先！

斯諾克最新戰報！海菲爾德架桿失誤，趙心童首局逆轉，1-0領先！

劉姚堯的文字城堡

2026-04-18 17:37:41

急需樊振東回歸！王勵勤召集國內精英教練，和秦志戩提到國乒短板

急需樊振東回歸！王勵勤召集國內精英教練，和秦志戩提到國乒短板

三十年萊斯特城球迷

2026-04-17 22:29:56

張柏芝大兒子終于“長開”了！穿西裝比謝霆鋒還帥，網友：像爺爺

張柏芝大兒子終于“長開”了！穿西裝比謝霆鋒還帥，網友：像爺爺

木子愛娛樂大號

2026-01-07 21:47:13

四木相對論

嘮嘮科技，看看世界

128文章數 2關注度

往期回顧全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛隊向油輪開火伊朗最高領袖發聲

頭條要聞

伊朗革命衛隊向油輪開火伊朗最高領袖發聲

體育要聞

時隔25年重返英超！沒有人再嘲笑他了

娛樂要聞

劉德華回應潘宏彬去世，拒談喪禮細節

財經要聞

"影子萬科"2.0：管理層如何吸血萬物云？

汽車要聞

奇瑞威麟R08 PRO正式上市售價14.48萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

親子

健康

手機

公開課

數碼要聞

華為版的科技春晚來了！Pura 90/Pura X Max下周發：陣容豪華

親子要聞

退燒藥怎么用？90%家長都搞錯了

干細胞抗衰4大誤區,90%的人都中招

手機要聞

榮耀600系列參數、外觀全曝光

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<cite id="zoo5h"></cite>

<em id="zoo5h"><rt id="zoo5h"><form id="zoo5h"></form></rt></em>

<p id="zoo5h"></p>