<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北大團隊發布化學大模型基準SUPERChem 挑戰多模態高難度化學推理

      0
      分享至



      作者丨北大團隊

      編輯丨ScienceAI

      近日,北京大學化學與分子工程學院聯合計算中心、計算機學院、元培學院發布化學大模型基準SUPERChem。該基準針對當前化學評測中題目難度有限、多模態與推理過程評估缺失等不足,系統構建了專注評估大語言模型 (LLM) 化學推理能力的新體系,旨在推動化學智能評測的深入發展。

      ——背景——

      2025年,隨著開源推理模型 DeepSeek-R1 推出,LLM 在“深度思考”范式下快速發展,其在自然科學領域的應用已從簡單問答轉向復雜推理。然而,現有通用科學基準趨于飽和,化學專用基準多關注基礎能力與化學信息學任務,缺乏對深度推理的系統考察。

      從基礎教育、化學奧林匹克競賽到高等教育,化學學習強調知識綜合運用與多步推理,是評估推理能力的理想場景。設計高質量評估題目需融合抽象概念與具體情境,構建層層遞進的推理鏈,對出題者專業素養要求極高。

      研究團隊依托北京大學化學學院水平頂尖的本科生和研究生群體,充分發揮其扎實學科功底與豐富解題命題經驗,對已有題目素材進行準確評估與合理優化,共同構建了 SUPERChem 基準,填補了化學深度推理評估的空白。



      圖 1:SUPERChem 總覽與例題。



      圖 2:SUPERChem 題庫的三階段審核流程。

      SUPERChem 題庫由北大化學專業近百名師生共建,涵蓋題目編寫、解析撰寫及嚴格的三階段審核。題目源自非公開試題與專業文獻改編,并采用防泄漏設計,避免 LLM 依賴記憶或從選項逆推。針對化學信息的多模態特點,同步提供圖文交錯與純文本版本的對齊數據集,支持探究視覺信息對推理的影響。

      目前,SUPERChem 先期發布 500 道專家級精選題目,覆蓋結構與性質、化學反應與合成、化學原理與計算、實驗設計與分析四大化學核心領域。為細粒度評估 LLM 思考過程,SUPERChem 引入推理路徑一致性(Reasoning Path Fidelity, RPF)指標:團隊為每道題目撰寫了含關鍵檢查點的詳細解析,通過自動化評估模型思維鏈與解析的一致性,判別模型是否真正“理解”化學。

      ——評測結果——

      1. 前沿模型接近低年級本科生水平,不同模型推理一致性存在差異

      表 1:前沿模型在 SUPERChem 上的表現。



      評測顯示,SUPERChem 具有較高難度與區分度。在北京大學化學專業低年級本科生閉卷測試中,人類準確率為 40.3%。參與評測的前沿模型中,表現最佳的 GPT-5 (High) 準確率為 38.5%,表明其化學推理能力僅與化學專業低年級本科生水平相當,尚未超越人類基礎專業認知。



      圖 3:前沿模型的正確率與 RPF 關系。

      分析 RPF 指標可見,不同模型推理過程質量差異明顯:Gemini-2.5-Pro 和 GPT-5 (High) 在取得較高準確率的同時,其推理邏輯也更符合專家路徑;而 DeepSeek-V3.1-Think 雖然準確率相近,但RPF得分相對較低,反映其更傾向通過啟發式路徑得出結論。

      1. 多模態信息的“雙刃劍”效應



      圖 4:輸入模態對不同模型的影響。

      在依賴多模態輸入的題目中,視覺信息對不同模型影響各異:對 Gemini-2.5-Pro 等強推理模型,圖像輸入可提升準確率;對 GPT-4o 等推理能力較弱的模型,圖像信息反而造成干擾。這提示在科學任務中需根據模型能力匹配合適的輸入模態。

      1. 推理斷點分析:模型倒在了哪一步?

      為進一步探究 LLM 推理失敗的深層原因,研究團隊進行了推理斷點分析。結果表明,前沿模型的推理斷點集中于產物結構預測、反應機理識別、構效關系分析等高階化學推理環節。這反映出當前 LLM 在涉及反應性與分子結構理解的核心任務上仍存在短板。



      圖 5:推理斷點所屬化學能力分布。

      ——總結——

      綜上所述,SUPERChem為系統評估大語言模型的化學推理能力提供了細致、可靠的基準。評測結果指出,當前前沿模型的化學能力仍處于基礎水平,在涉及高階化學推理能力的任務上存在明顯局限,為后續模型的針對性優化提供了明確方向。

      ——團隊介紹——

      SUPERChem項目由北京大學化學與分子工程學院與元培學院的趙澤華、黃志賢、李雋仁、林思宇同學領銜完成。77 位北京大學化學專業的博士生與高年級本科生參與了 SUPERChem 題庫的構建與審核,其中包括 3 位國際化學奧林匹克(IChO)獲獎選手與 64 位中國化學奧林匹克(CChO)決賽獲獎選手。174 位北京大學化學專業低年級本科生參與了人類基線測試。

      SUPERChem項目在北京大學化學與分子工程學院裴堅、高珍老師,計算中心馬皓老師,計算機學院楊仝老師的指導下開展。項目獲得北京大學計算中心與高性能計算平臺資源支持,來自 Chemy、好未來、質心教育等機構和化學與分子工程學院鄒鵬、鄭捷等多位教授的題目素材支持,以及高楊、龍汀汀老師的專業協助。

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      全網羨慕哭了!女孩救人后,學校獎,政府獎,醫院直接管她一輩子

      全網羨慕哭了!女孩救人后,學校獎,政府獎,醫院直接管她一輩子

      阿纂看事
      2025-12-09 22:10:10
      三星二公主低調露面:沒姐姐漂亮,卻嫁豪門生4娃,最得母親歡心

      三星二公主低調露面:沒姐姐漂亮,卻嫁豪門生4娃,最得母親歡心

      照見古今
      2025-12-10 19:05:10
      奕姐:西安之行曝光兒媳家庭,緊急刪視頻,引發網友各種猜測?

      奕姐:西安之行曝光兒媳家庭,緊急刪視頻,引發網友各種猜測?

      小椰的奶奶
      2025-12-10 01:26:02
      馬蓉離婚7年現狀曝光:父親勸她再婚尋歸宿,現生活反差讓人意外

      馬蓉離婚7年現狀曝光:父親勸她再婚尋歸宿,現生活反差讓人意外

      以茶帶書
      2025-12-10 22:23:12
      王飛教授在倫敦遭遇意外不幸離世

      王飛教授在倫敦遭遇意外不幸離世

      新京報政事兒
      2025-12-09 12:37:01
      阿森納淘到寶了!冬窗要買24歲新魔笛 轉會費僅1500萬

      阿森納淘到寶了!冬窗要買24歲新魔笛 轉會費僅1500萬

      球事百科吖
      2025-12-11 03:11:17
      超5000萬粉絲女網紅,名下公司涉嫌逃稅逾千萬,仍在高頻次直播

      超5000萬粉絲女網紅,名下公司涉嫌逃稅逾千萬,仍在高頻次直播

      別人都叫我阿腈
      2025-12-11 03:22:06
      “走腎”黃暴,尺度盛宴,女主一個比一個“胸猛”,此片驚艷

      “走腎”黃暴,尺度盛宴,女主一個比一個“胸猛”,此片驚艷

      棱鏡電影
      2025-12-07 19:24:26
      304萬億,我國的貨幣發行總量已經是世界第一了。

      304萬億,我國的貨幣發行總量已經是世界第一了。

      流蘇晚晴
      2025-11-18 20:20:14
      無濾鏡后,賈靜雯斷崖式衰老,舒淇滿臉皺紋,李小冉像隔壁大嬸子

      無濾鏡后,賈靜雯斷崖式衰老,舒淇滿臉皺紋,李小冉像隔壁大嬸子

      大齡女一曉彤
      2025-12-09 08:12:44
      美方簽字落定,24小時內或向高市早苗發逮捕令,無需中方出手

      美方簽字落定,24小時內或向高市早苗發逮捕令,無需中方出手

      愛看劇的阿峰
      2025-12-10 14:01:29
      老人“黃金體重”已公布!不是120斤,而是這個數,越接近越健康

      老人“黃金體重”已公布!不是120斤,而是這個數,越接近越健康

      小胡軍事愛好
      2025-12-05 09:31:04
      俗話說:“陽氣足,百病消”!天冷后,建議常吃這3菜,升陽祛濕

      俗話說:“陽氣足,百病消”!天冷后,建議常吃這3菜,升陽祛濕

      江江食研社
      2025-12-03 18:30:05
      我國智能手機產量超10億臺 現存相關企業超119萬家

      我國智能手機產量超10億臺 現存相關企業超119萬家

      中國網財經
      2025-12-10 10:27:09
      不出意外的話,下個賽季西部的格局會是如下!

      不出意外的話,下個賽季西部的格局會是如下!

      止境
      2025-12-11 02:10:14
      盧克文工作室被封:一個“地攤戰略家”的破產

      盧克文工作室被封:一個“地攤戰略家”的破產

      紫京講談
      2025-12-08 22:06:18
      人社部原副部長王少峰當選中國國際人才交流與開發研究會會長

      人社部原副部長王少峰當選中國國際人才交流與開發研究會會長

      澎湃新聞
      2025-12-10 23:20:27
      美媒:中日空戰將一邊倒,不僅靠最強4.5代殲15,解放軍還有殺招

      美媒:中日空戰將一邊倒,不僅靠最強4.5代殲15,解放軍還有殺招

      博覽歷史
      2025-12-09 19:15:09
      阿薩德卷土重來?朱拉尼內政拉垮,老虎哈桑招兵數萬,臨危受命

      阿薩德卷土重來?朱拉尼內政拉垮,老虎哈桑招兵數萬,臨危受命

      混沌錄
      2025-12-10 21:15:10
      央視直播11日WTT香港總決賽,梁靖崑對林詩棟,蒯曼戰早田希娜

      央視直播11日WTT香港總決賽,梁靖崑對林詩棟,蒯曼戰早田希娜

      乒乓球球
      2025-12-10 23:03:52
      2025-12-11 05:51:00
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1176文章數 220關注度
      往期回顧 全部

      教育要聞

      等角平行12.9 (1)

      頭條要聞

      挑起中日對立后 高市早苗求見特朗普

      頭條要聞

      挑起中日對立后 高市早苗求見特朗普

      體育要聞

      試訓20支球隊,落選,成為NBA新秀助攻王

      娛樂要聞

      為何網友不再相信張柏芝的“故事”?

      財經要聞

      美聯儲降息25基點 預計2026年降息一次

      科技要聞

      防"走私",英偉達被曝開發“芯片定位”技術

      汽車要聞

      有動力操控 有智能座艙 6萬多的第五代帝豪掀桌子了

      態度原創

      家居
      手機
      藝術
      公開課
      軍事航空

      家居要聞

      高端私宅 理想隱居圣地

      手機要聞

      192g機身塞進7000mAh大電池 真我16 Pro入網

      藝術要聞

      富家公子,卻只畫人間疾苦

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      中俄聯合空中戰略巡航引日本擔憂 國防部回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 18禁久久| 亚洲专区视频| 乱色熟女综合一区二区| 日日摸夜夜添夜夜添国产三级| 国产精品va| 中文字幕av久久爽一区| 人妻少妇精品中文字幕av蜜桃| 人妻激情综合| 五河县| 亚洲成av人片无码迅雷下载| 国产色视频网站免费| 黑人牲交| 免费看视频的网站| 久久99国产精品一区| 亚洲国产初高中生女av| 亚洲乱码中文字幕久久孕妇黑人| 爱3P| 国产成人精品1024免费下载| 成年女人免费碰碰视频| 国产97色在线 | 免| 99re国产| 国产乱码精品一区二三区蜜臂| 亚洲av永久无码精品秋霞电影影院| 日本免费一区二区三区| 国产精品免费久久久久影院| 亚洲人妻中出| 国产熟女在线播放第一页| 亚洲欧美精品午睡沙发| 国产拳交视频| 久久国产影院| 波多野42部无码喷潮| 国产乱妇无码毛片A片在线看下载| 久久被窝| 亚洲AV日韩AV永久无码网站| 亚洲自拍偷拍激情视频| 亚洲国产精品久久艾草| 九一色色里| 无码人妻精品区二区蜜桃91| 睡熟迷奷系列新婚之夜| 骚虎视频在线观看| 人禽杂交18禁网站免费|