![]()
作者丨北大團隊
編輯丨ScienceAI
近日,北京大學化學與分子工程學院聯合計算中心、計算機學院、元培學院發布化學大模型基準SUPERChem。該基準針對當前化學評測中題目難度有限、多模態與推理過程評估缺失等不足,系統構建了專注評估大語言模型 (LLM) 化學推理能力的新體系,旨在推動化學智能評測的深入發展。
——背景——
2025年,隨著開源推理模型 DeepSeek-R1 推出,LLM 在“深度思考”范式下快速發展,其在自然科學領域的應用已從簡單問答轉向復雜推理。然而,現有通用科學基準趨于飽和,化學專用基準多關注基礎能力與化學信息學任務,缺乏對深度推理的系統考察。
從基礎教育、化學奧林匹克競賽到高等教育,化學學習強調知識綜合運用與多步推理,是評估推理能力的理想場景。設計高質量評估題目需融合抽象概念與具體情境,構建層層遞進的推理鏈,對出題者專業素養要求極高。
研究團隊依托北京大學化學學院水平頂尖的本科生和研究生群體,充分發揮其扎實學科功底與豐富解題命題經驗,對已有題目素材進行準確評估與合理優化,共同構建了 SUPERChem 基準,填補了化學深度推理評估的空白。
![]()
圖 1:SUPERChem 總覽與例題。
![]()
圖 2:SUPERChem 題庫的三階段審核流程。
SUPERChem 題庫由北大化學專業近百名師生共建,涵蓋題目編寫、解析撰寫及嚴格的三階段審核。題目源自非公開試題與專業文獻改編,并采用防泄漏設計,避免 LLM 依賴記憶或從選項逆推。針對化學信息的多模態特點,同步提供圖文交錯與純文本版本的對齊數據集,支持探究視覺信息對推理的影響。
目前,SUPERChem 先期發布 500 道專家級精選題目,覆蓋結構與性質、化學反應與合成、化學原理與計算、實驗設計與分析四大化學核心領域。為細粒度評估 LLM 思考過程,SUPERChem 引入推理路徑一致性(Reasoning Path Fidelity, RPF)指標:團隊為每道題目撰寫了含關鍵檢查點的詳細解析,通過自動化評估模型思維鏈與解析的一致性,判別模型是否真正“理解”化學。
——評測結果——
- 前沿模型接近低年級本科生水平,不同模型推理一致性存在差異
表 1:前沿模型在 SUPERChem 上的表現。
![]()
評測顯示,SUPERChem 具有較高難度與區分度。在北京大學化學專業低年級本科生閉卷測試中,人類準確率為 40.3%。參與評測的前沿模型中,表現最佳的 GPT-5 (High) 準確率為 38.5%,表明其化學推理能力僅與化學專業低年級本科生水平相當,尚未超越人類基礎專業認知。
![]()
圖 3:前沿模型的正確率與 RPF 關系。
分析 RPF 指標可見,不同模型推理過程質量差異明顯:Gemini-2.5-Pro 和 GPT-5 (High) 在取得較高準確率的同時,其推理邏輯也更符合專家路徑;而 DeepSeek-V3.1-Think 雖然準確率相近,但RPF得分相對較低,反映其更傾向通過啟發式路徑得出結論。
- 多模態信息的“雙刃劍”效應
![]()
圖 4:輸入模態對不同模型的影響。
在依賴多模態輸入的題目中,視覺信息對不同模型影響各異:對 Gemini-2.5-Pro 等強推理模型,圖像輸入可提升準確率;對 GPT-4o 等推理能力較弱的模型,圖像信息反而造成干擾。這提示在科學任務中需根據模型能力匹配合適的輸入模態。
- 推理斷點分析:模型倒在了哪一步?
為進一步探究 LLM 推理失敗的深層原因,研究團隊進行了推理斷點分析。結果表明,前沿模型的推理斷點集中于產物結構預測、反應機理識別、構效關系分析等高階化學推理環節。這反映出當前 LLM 在涉及反應性與分子結構理解的核心任務上仍存在短板。
![]()
圖 5:推理斷點所屬化學能力分布。
——總結——
綜上所述,SUPERChem為系統評估大語言模型的化學推理能力提供了細致、可靠的基準。評測結果指出,當前前沿模型的化學能力仍處于基礎水平,在涉及高階化學推理能力的任務上存在明顯局限,為后續模型的針對性優化提供了明確方向。
——團隊介紹——
SUPERChem項目由北京大學化學與分子工程學院與元培學院的趙澤華、黃志賢、李雋仁、林思宇同學領銜完成。77 位北京大學化學專業的博士生與高年級本科生參與了 SUPERChem 題庫的構建與審核,其中包括 3 位國際化學奧林匹克(IChO)獲獎選手與 64 位中國化學奧林匹克(CChO)決賽獲獎選手。174 位北京大學化學專業低年級本科生參與了人類基線測試。
SUPERChem項目在北京大學化學與分子工程學院裴堅、高珍老師,計算中心馬皓老師,計算機學院楊仝老師的指導下開展。項目獲得北京大學計算中心與高性能計算平臺資源支持,來自 Chemy、好未來、質心教育等機構和化學與分子工程學院鄒鵬、鄭捷等多位教授的題目素材支持,以及高楊、龍汀汀老師的專業協助。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.