<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      讓AI像人類一樣做高考數學題,夸克領跑、豆包緊隨

      0
      分享至

      一年一度的高考落下帷幕。對大模型來說,這已經是它第三次參與這場本屬于人類考生的考試。

      但和前兩年不同,之前人們喜歡安排大模型產品寫高考作文。今年隨著推理模型的火熱,人們開始熱衷讓它參與高考數學。

      一個有意思的變化在于,這兩天各種各樣的高考數學測評結果證明,今年大模型似乎有了質的飛躍——從純粹的文科生,成為了數學成績也不錯的理科生。

      為驗證這一結果,我們也選取了四個AI產品——豆包、夸克、元寶和ChatGPT進行測評。



      由于這幾家模型均具備多模態能力,所以我們將2025年全國新課標數學I卷的題目直接投喂給大模型,不做格式轉換,不開啟聯網搜索,所有測試模型只有一次答題機會。

      關于考核標準,我們覺得如果讓AI參與考試,就應該把它們當作一個真正的考生考核

      所以,本次測評拆解了三大維度

      • 結果正確率:AI考生能力的最直觀體現。
      • 答題速度:考試有時間限制,AI考生也應該注意時間安排。
      • 識別準確率:人類考生需要審題準確,不能出現看錯數字、符號等問題。所以有多模態能力的AI考生,也需要參與這一考核。

      基于這三個維度,我們通過分別打分再計總分的形式,測試出AI考生們的高考數學的考試名次。

      更細致的"閱卷規則"參考:



      經過以上三個維度的綜合測試,最終AI考生們的全面考察結果如下:


      *綜合測評圖


      *綜合排名圖

      如果單看純粹的卷面分,這幾家AI考生的數學分數都在110分以上。想起去年,AI們的高考數學題還經常不及格,真是今非昔比。

      而且,不僅是做題,這些AI選手們的解題速度和視覺理解能力都非常強——大部分題目都能在3分鐘內完成。只有元寶沒有識別出其中的一道題目,其他AI助手在識別上都拿了滿分。

      誰答對了最多題?

      直接的考試分數,是考生最關心的事情。

      根據卷面分數,夸克、豆包和ChatGPT分列前三。

      一個小插曲是,ChatGPT在難題中經常嘗試寫代碼解題,準確率較高。但考慮到高考現場的考生們不會配備電腦寫代碼解題,所以我們立刻禁止了它寫代碼。

      整體看下來,大家的選擇題和填空題得分差距不是非常大,錯誤都不是很多。尤其是夸克和ChatGPT,選擇和填空題全對。



      解答題是讓各家AI考生有點為難的題目。尤其是16題,大家都有錯誤。

      首先是元寶,從一開始沒能識別出這一道題目,所以也就無法作答——這也是我們這次測試中,唯一一個沒有被某一模型識別出的題目。

      豆包在這道題上犯錯的原因也有點令人迷惑,題目解題思路過程都是對的,就是要把題目中的“m”改成“n”。

      感覺這里豆包在審題上出現了理解偏差,不能將“m”和“n”區分開,正確理解m的含義。



      在選擇和填空上第一名的夸克,第16題中的錯誤很可惜地發生在最后一步——“利用錯位相減法”得出最終結果的部分。

      向上翻了一下思考過程,發現它有點“心口不一”。一邊說著“相加”,一邊算著“相減”,最后結果錯誤。

      誰答得最快,審題最清晰?

      答題速度,屬于AI考生們的舒適區。

      基本上,這四個AI考生的選擇題基本都能在60秒內出結果。只有ChatGPT和元寶的第六題,超過了一分鐘(但還是很)。

      來到解答題,大家的耗時意料之中增加了不少。尤其是ChatGPT,基本最后的幾道大題都需要思考6分鐘左右。

      不過在耗時更長的解題過程里,我們也看到一些驚喜。比如,ChatGPT會自己放大題目、左看右看,確認識別沒有問題后再開始解題。


      *ChatGPT會自己放大圖片,來仔細檢查箭頭首尾在坐標軸上的位置

      夸克和豆包也很讓人驚喜。在整體的速度測評中,夸克位列第一,豆包以一分之差位列第二。

      這兩家做最難的解答題,單題最長耗費時間在4分鐘左右。



      至于和多模態相關的審題能力,AI考生們基本上都沒讓人失望。除了元寶有一題識別不出來,其他考生都是滿分。

      不同的輸出風格,讓我找到AI老師

      測到這里,本次AI考生的高考數學測評基本可以結束了。

      但在就在核對答案的過程中,我還有一個不同尋常的發現。

      參與測評的AI考生背后,基本都是推理模型。在仔細看大家的輸出時,我發現不同考生的思維輸出風格存在差異。而這種差異,會給真正想通過AI學習的考生,帶來不同的感覺和效果。

      比如,豆包的思維鏈展示很長很完整,答案卻很簡潔。夸克的輸出更具引導性,比較像老師。元寶的內容,更像是數學學霸,很喜歡計算和公式。

      拿頗具難度的第19題舉例。

      同樣是啟動深度思考模式,夸克不會把所有的思考過程呈現,而是重述題目,并給出有步驟的解題思路。這個思路里面,也會劃一些高中考點。



      相比之下,豆包和元寶有點"做題機器"。

      在等待豆包給出答案的過程中,可以看到豆包會將長長長的思考思維鏈完整輸出。之后的解答部分雖然簡潔,但看表述確實只能用來對答案,難以引發思考。



      元寶的回答少了一些清晰的思路指引。相對于夸克和豆包,計算步驟都更復雜一些,基本直奔計算而去,不會在表述中強調考點。


      *元寶答案示例

      如果從認真學習的角度,相信還是有更多人喜歡夸克老師的引導式畫風。



      總之,這一次的測評中,我們真實把這四個AI考生真正當作人類測試。發現不管是腦力還是眼力,AI們的進步已經超出想象。隨著AI越來越聰明,或許我會收獲更多的老師。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      這是李鴻章妻妾的真實樣貌,個個美艷身材修長,顏值不輸當代女星

      這是李鴻章妻妾的真實樣貌,個個美艷身材修長,顏值不輸當代女星

      阿廢冷眼觀察所
      2026-04-11 18:41:14
      養了5年的愛貓突然攻擊,38歲男子右小腿被咬掉一塊肉:傷口乒乓球大、半根棉簽那么深,鮮血淋漓……醫生:春季高發,少逗!

      養了5年的愛貓突然攻擊,38歲男子右小腿被咬掉一塊肉:傷口乒乓球大、半根棉簽那么深,鮮血淋漓……醫生:春季高發,少逗!

      極目新聞
      2026-04-18 14:59:33
      做過夜場的女孩能娶嗎?網友:認識一個,真的刷新了三觀

      做過夜場的女孩能娶嗎?網友:認識一個,真的刷新了三觀

      夜深愛雜談
      2026-03-14 18:27:50
      全網唱衰的下嫁!嫁普通人5年,前任是法拉利總裁,終究還是輸了

      全網唱衰的下嫁!嫁普通人5年,前任是法拉利總裁,終究還是輸了

      橙星文娛
      2026-04-18 16:42:58
      劉亦菲調侃姚安娜:這次代言華為代言費免費嗎?姚安娜回復超好笑

      劉亦菲調侃姚安娜:這次代言華為代言費免費嗎?姚安娜回復超好笑

      一盅情懷
      2026-04-16 11:30:50
      Taylor Swift 霉霉在健身房,鍛煉健康體格

      Taylor Swift 霉霉在健身房,鍛煉健康體格

      下水道男孩
      2026-04-11 23:22:29
      恩人攜子來投靠,杜月笙妻子故意丟5塊錢:若是撿了,立刻打發走

      恩人攜子來投靠,杜月笙妻子故意丟5塊錢:若是撿了,立刻打發走

      千秋文化
      2026-03-25 21:28:03
      又打起來了,以色列不宣而戰,美軍深夜開火,美軍16億無人機墜毀

      又打起來了,以色列不宣而戰,美軍深夜開火,美軍16億無人機墜毀

      阿纂看事
      2026-04-18 23:02:32
      葉一茜浪姐上班,她是真的胖了,大腿那么粗,走路還有點外八字!

      葉一茜浪姐上班,她是真的胖了,大腿那么粗,走路還有點外八字!

      小娛樂悠悠
      2026-04-05 06:48:49
      中國貨輪阿拉伯海遭導彈襲擊!11名中國船員獲救,幕后黑手是誰?

      中國貨輪阿拉伯海遭導彈襲擊!11名中國船員獲救,幕后黑手是誰?

      影像溫度
      2026-04-17 09:48:26
      非夫妻開房,民警提醒:只要不干這個,誰管你是不是夫妻

      非夫妻開房,民警提醒:只要不干這個,誰管你是不是夫妻

      君說輿情
      2026-04-07 08:35:16
      女子利用天氣預報頻繁購買飛機延誤險,5年買中900多次,獲賠近300萬,被抓時:我符合保險理賠要求

      女子利用天氣預報頻繁購買飛機延誤險,5年買中900多次,獲賠近300萬,被抓時:我符合保險理賠要求

      譚老師地理大課堂
      2026-04-15 20:11:42
      65歲女人大實話:男人過了70歲,只剩下兩個“用處”

      65歲女人大實話:男人過了70歲,只剩下兩個“用處”

      蟬吟槐蕊
      2026-04-06 18:14:41
      21億崩塌!皇馬四大天王誰是真救星?

      21億崩塌!皇馬四大天王誰是真救星?

      茅塞盾開本尊
      2026-04-18 23:19:53
      未婚生子后,男子起訴女友,要求退還彩禮和分娩費

      未婚生子后,男子起訴女友,要求退還彩禮和分娩費

      中國新聞周刊
      2026-04-18 22:11:05
      同名同姓同身份證尾號,山東一女子稱被異地法院錯判,萬元存款被強制執行,損失3年利息

      同名同姓同身份證尾號,山東一女子稱被異地法院錯判,萬元存款被強制執行,損失3年利息

      封面新聞
      2026-04-18 16:24:02
      玉淵譚天:特殊時刻,兩部反制新規全方位保護中國海外利益

      玉淵譚天:特殊時刻,兩部反制新規全方位保護中國海外利益

      環球網資訊
      2026-04-18 11:58:06
      斯諾克最新戰報!海菲爾德架桿失誤,趙心童首局逆轉,1-0領先!

      斯諾克最新戰報!海菲爾德架桿失誤,趙心童首局逆轉,1-0領先!

      劉姚堯的文字城堡
      2026-04-18 17:37:41
      急需樊振東回歸!王勵勤召集國內精英教練,和秦志戩提到國乒短板

      急需樊振東回歸!王勵勤召集國內精英教練,和秦志戩提到國乒短板

      三十年萊斯特城球迷
      2026-04-17 22:29:56
      張柏芝大兒子終于“長開”了!穿西裝比謝霆鋒還帥,網友:像爺爺

      張柏芝大兒子終于“長開”了!穿西裝比謝霆鋒還帥,網友:像爺爺

      木子愛娛樂大號
      2026-01-07 21:47:13
      2026-04-19 02:35:00
      四木相對論 incentive-icons
      四木相對論
      嘮嘮科技,看看世界
      128文章數 2關注度
      往期回顧 全部

      科技要聞

      傳Meta下月擬裁8000 大舉清退人力為AI騰位

      頭條要聞

      伊朗革命衛隊向油輪開火 伊朗最高領袖發聲

      頭條要聞

      伊朗革命衛隊向油輪開火 伊朗最高領袖發聲

      體育要聞

      時隔25年重返英超!沒有人再嘲笑他了

      娛樂要聞

      劉德華回應潘宏彬去世,拒談喪禮細節

      財經要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      奇瑞威麟R08 PRO正式上市 售價14.48萬元起

      態度原創

      數碼
      親子
      健康
      手機
      公開課

      數碼要聞

      華為版的科技春晚來了!Pura 90/Pura X Max下周發:陣容豪華

      親子要聞

      退燒藥怎么用?90%家長都搞錯了

      干細胞抗衰4大誤區,90%的人都中招

      手機要聞

      榮耀600系列參數、外觀全曝光

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版