<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北大團隊發布化學大模型基準SUPERChem 挑戰多模態高難度化學推理

      0
      分享至



      作者丨北大團隊

      編輯丨ScienceAI

      近日,北京大學化學與分子工程學院聯合計算中心、計算機學院、元培學院發布化學大模型基準SUPERChem。該基準針對當前化學評測中題目難度有限、多模態與推理過程評估缺失等不足,系統構建了專注評估大語言模型 (LLM) 化學推理能力的新體系,旨在推動化學智能評測的深入發展。

      ——背景——

      2025年,隨著開源推理模型 DeepSeek-R1 推出,LLM 在“深度思考”范式下快速發展,其在自然科學領域的應用已從簡單問答轉向復雜推理。然而,現有通用科學基準趨于飽和,化學專用基準多關注基礎能力與化學信息學任務,缺乏對深度推理的系統考察。

      從基礎教育、化學奧林匹克競賽到高等教育,化學學習強調知識綜合運用與多步推理,是評估推理能力的理想場景。設計高質量評估題目需融合抽象概念與具體情境,構建層層遞進的推理鏈,對出題者專業素養要求極高。

      研究團隊依托北京大學化學學院水平頂尖的本科生和研究生群體,充分發揮其扎實學科功底與豐富解題命題經驗,對已有題目素材進行準確評估與合理優化,共同構建了 SUPERChem 基準,填補了化學深度推理評估的空白。



      圖 1:SUPERChem 總覽與例題。



      圖 2:SUPERChem 題庫的三階段審核流程。

      SUPERChem 題庫由北大化學專業近百名師生共建,涵蓋題目編寫、解析撰寫及嚴格的三階段審核。題目源自非公開試題與專業文獻改編,并采用防泄漏設計,避免 LLM 依賴記憶或從選項逆推。針對化學信息的多模態特點,同步提供圖文交錯與純文本版本的對齊數據集,支持探究視覺信息對推理的影響。

      目前,SUPERChem 先期發布 500 道專家級精選題目,覆蓋結構與性質、化學反應與合成、化學原理與計算、實驗設計與分析四大化學核心領域。為細粒度評估 LLM 思考過程,SUPERChem 引入推理路徑一致性(Reasoning Path Fidelity, RPF)指標:團隊為每道題目撰寫了含關鍵檢查點的詳細解析,通過自動化評估模型思維鏈與解析的一致性,判別模型是否真正“理解”化學。

      ——評測結果——

      1. 前沿模型接近低年級本科生水平,不同模型推理一致性存在差異

      表 1:前沿模型在 SUPERChem 上的表現。



      評測顯示,SUPERChem 具有較高難度與區分度。在北京大學化學專業低年級本科生閉卷測試中,人類準確率為 40.3%。參與評測的前沿模型中,表現最佳的 GPT-5 (High) 準確率為 38.5%,表明其化學推理能力僅與化學專業低年級本科生水平相當,尚未超越人類基礎專業認知。



      圖 3:前沿模型的正確率與 RPF 關系。

      分析 RPF 指標可見,不同模型推理過程質量差異明顯:Gemini-2.5-Pro 和 GPT-5 (High) 在取得較高準確率的同時,其推理邏輯也更符合專家路徑;而 DeepSeek-V3.1-Think 雖然準確率相近,但RPF得分相對較低,反映其更傾向通過啟發式路徑得出結論。

      1. 多模態信息的“雙刃劍”效應



      圖 4:輸入模態對不同模型的影響。

      在依賴多模態輸入的題目中,視覺信息對不同模型影響各異:對 Gemini-2.5-Pro 等強推理模型,圖像輸入可提升準確率;對 GPT-4o 等推理能力較弱的模型,圖像信息反而造成干擾。這提示在科學任務中需根據模型能力匹配合適的輸入模態。

      1. 推理斷點分析:模型倒在了哪一步?

      為進一步探究 LLM 推理失敗的深層原因,研究團隊進行了推理斷點分析。結果表明,前沿模型的推理斷點集中于產物結構預測、反應機理識別、構效關系分析等高階化學推理環節。這反映出當前 LLM 在涉及反應性與分子結構理解的核心任務上仍存在短板。



      圖 5:推理斷點所屬化學能力分布。

      ——總結——

      綜上所述,SUPERChem為系統評估大語言模型的化學推理能力提供了細致、可靠的基準。評測結果指出,當前前沿模型的化學能力仍處于基礎水平,在涉及高階化學推理能力的任務上存在明顯局限,為后續模型的針對性優化提供了明確方向。

      ——團隊介紹——

      SUPERChem項目由北京大學化學與分子工程學院與元培學院的趙澤華、黃志賢、李雋仁、林思宇同學領銜完成。77 位北京大學化學專業的博士生與高年級本科生參與了 SUPERChem 題庫的構建與審核,其中包括 3 位國際化學奧林匹克(IChO)獲獎選手與 64 位中國化學奧林匹克(CChO)決賽獲獎選手。174 位北京大學化學專業低年級本科生參與了人類基線測試。

      SUPERChem項目在北京大學化學與分子工程學院裴堅、高珍老師,計算中心馬皓老師,計算機學院楊仝老師的指導下開展。項目獲得北京大學計算中心與高性能計算平臺資源支持,來自 Chemy、好未來、質心教育等機構和化學與分子工程學院鄒鵬、鄭捷等多位教授的題目素材支持,以及高楊、龍汀汀老師的專業協助。

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      公開支持日本后,美國人發現情況不對勁,中方等待的時機已經到了

      公開支持日本后,美國人發現情況不對勁,中方等待的時機已經到了

      現代小青青慕慕
      2025-12-12 00:11:10
      副部級王少峰,當選新職

      副部級王少峰,當選新職

      上觀新聞
      2025-12-11 11:07:08
      凌晨至8點,三地發生地震

      凌晨至8點,三地發生地震

      新浪財經
      2025-12-11 09:51:33
      三發三中!柬埔寨中式武器硬剛泰國?

      三發三中!柬埔寨中式武器硬剛泰國?

      牲產隊2026
      2025-12-11 21:49:15
      風起暗流,何鷹鷺再發聲鄭麗文或有新動作,盧秀燕侯友宜態度亮了

      風起暗流,何鷹鷺再發聲鄭麗文或有新動作,盧秀燕侯友宜態度亮了

      娛樂的宅急便
      2025-12-12 05:56:06
      重要會議再提房地產,什么信號?

      重要會議再提房地產,什么信號?

      國民經略
      2025-12-11 19:14:23
      張本智和詳解慶祝動作:致敬樊振東,希望跟他交手!

      張本智和詳解慶祝動作:致敬樊振東,希望跟他交手!

      十點街球體育
      2025-12-12 01:55:02
      普京智囊做出預言:下一個爆發戰爭的地方不是臺海,也不是南海

      普京智囊做出預言:下一個爆發戰爭的地方不是臺海,也不是南海

      策略述
      2025-12-11 17:29:18
      “以前5元現在15”,有人一次搶購幾十支水銀體溫計,醫務人員:沒必要囤!記者實測無汞版:狂甩45次才降到36度

      “以前5元現在15”,有人一次搶購幾十支水銀體溫計,醫務人員:沒必要囤!記者實測無汞版:狂甩45次才降到36度

      每日經濟新聞
      2025-12-11 11:37:58
      饒穎:趙忠祥與我發生關系多年!他有特殊癖好,讓我身心受到傷害

      饒穎:趙忠祥與我發生關系多年!他有特殊癖好,讓我身心受到傷害

      蕾爸退休日記
      2025-12-10 18:56:14
      柬埔寨洪森父子與中國的關系已搞僵,聰明的政客不會和他們合作的

      柬埔寨洪森父子與中國的關系已搞僵,聰明的政客不會和他們合作的

      現代春秋
      2025-07-27 18:46:19
      張雪峰戴上眼鏡高調復播!承諾再也不說污言穢語,歡迎大家監督

      張雪峰戴上眼鏡高調復播!承諾再也不說污言穢語,歡迎大家監督

      雷科技
      2025-12-11 21:38:45
      復出!火箭內線回正軌!兩雙機器頂替餅皇,8+8老將已具交易價值

      復出!火箭內線回正軌!兩雙機器頂替餅皇,8+8老將已具交易價值

      熊哥愛籃球
      2025-12-12 00:30:23
      中組部明確:這八類人員列入公務員范圍!

      中組部明確:這八類人員列入公務員范圍!

      法律讀品
      2025-12-09 08:45:19
      兩性關系;女人啊,摟著睡可以,親她的嘴也行,但別信她說的話!

      兩性關系;女人啊,摟著睡可以,親她的嘴也行,但別信她說的話!

      周哥一影視
      2025-12-12 04:59:08
      “織毛衣”已經成了上海人最燒錢的愛好

      “織毛衣”已經成了上海人最燒錢的愛好

      ONE·一個
      2025-12-10 13:16:02
      FC2四大網紅女神!

      FC2四大網紅女神!

      素然追光
      2025-12-12 03:40:03
      車主稱吉利銀河剛提車就已充電35次!銷售方:系偶發事件

      車主稱吉利銀河剛提車就已充電35次!銷售方:系偶發事件

      南方都市報
      2025-12-11 16:47:10
      董卿上海街邊等車被偶遇,大衣內搭羽絨服時尚又減齡,51歲看起來像21歲

      董卿上海街邊等車被偶遇,大衣內搭羽絨服時尚又減齡,51歲看起來像21歲

      全球時尚
      2025-12-10 20:46:48
      雷軍贏麻了,新華社重錘小米一夜反轉

      雷軍贏麻了,新華社重錘小米一夜反轉

      新零售參考Pro
      2025-12-11 17:43:52
      2025-12-12 07:11:00
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1177文章數 220關注度
      往期回顧 全部

      教育要聞

      唐江澎:好的教育,一定是能讓孩子蓬勃生長的教育

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節!

      財經要聞

      明年經濟工作怎么干 中央經濟工作會議定調

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態度原創

      親子
      本地
      健康
      藝術
      公開課

      親子要聞

      母女倆又鬧掰了

      本地新聞

      打工人夢想中的生活,寵物已經提前過上了

      甲狀腺結節到這個程度,該穿刺了!

      藝術要聞

      嶺南畫派畫雪

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产裸体舞一区二区三区| 啪啪电影| 阜新市| 熟妇人妻一区二区三区四区| 人妻夜夜爽天天爽三区丁香花| 亚洲国产超清无码专区| 毛片网站在线观看| 国产又大又粗| 91狠| 人人干人人噪人人摸| 日产精品久久久久久久蜜臀| 久久精品国产亚洲av麻豆小说| 69A片| 性色欲情网站| 久久精品99国产精品日本| 久久天天躁狠狠躁夜夜2020老熟妇 | 国产精品av在线| 亚洲综合色婷婷中文字幕| 1024在线免费观看| 亚洲色资源站| 日韩欧美猛交xxxxx无码| 国产99视频精品免费观看9| 亚洲色情在线播放| 99在线国产视频| 国产成人精品一区二区三区| 国产亚洲欧美精品永久| 亚洲成人av| 罗平县| 激情综合色五月丁香六月亚洲| 亚洲色情网站| 亚洲最大三级网站| 亚州Av无码| 欧美一区二区三区久久综合| 夜夜添无码一区二区三区| 色性av| www.国产在线| 亚洲日韩精品一区二区三区无码| 久久亚洲精品中文字幕馆| 九九精视频| v一区无码内射国产| 内射夜晚在线观看|