網易首頁 > 網易號 > 正文申請入駐

頂尖AI挑戰北大化院174名頂尖學子，有機化學考場誰更勝一籌？

2025-12-30 11:54:49　來源: 化學加網

廣東舉報

分享至

歡迎報名摜蛋友誼賽暨產學研對接交流會

導讀

近日，北京大學化學與分子工程學院進行了一場特殊的有機化學期中考試，174位北大化院的大二學生與GPT、Gemini、DeepSeek這些頂尖AI同場競技，那究竟誰更勝一籌呢？

考試現場

近日，北京大學化學與分子工程學院聯合計算中心、計算機學院、元培學院團隊，發布了最新成果化學大模型基準SUPERChem。該基準針對當前化學知識水平評測中題目難度有限、多模態與推理過程評估缺失等不足，系統構建了專注評估大語言模型（LLM）化學推理分析能力的新體系，旨在推動化學智能評測的深入發展。而這場特殊的期中考試，是北大科研團隊為大語言模型投下的一塊“試金石”，來丈量AI在科學推理上的真實邊界。

打開SUPERChem的題庫，一種“壓迫感”撲面而來。晶體結構的精細解析、反應機理的深度推演、物化性質的定量計算……這500道題目并非來自網絡上隨手可得的公開題庫，而是源于對高難度試題和前沿專業文獻的深度改編。

互聯網可及的測試題大多已被博聞強識的AI在訓練階段熟讀，考出的高分往往掩蓋了其推理能力的蒼白。而化學，恰恰是一門不能只靠死記硬背的學科。它既有嚴密的邏輯推演，又充滿了對微觀世界的空間想象。要設計一套讓AI“沒見過”、必須靠硬實力推理的題目，難度極高。然而，這正是北大化院的獨特優勢所在。近百名師生——其中不乏奧林匹克金牌得主——集結起來，決定給AI出一套高門檻、重推理、防作弊的試卷。

他們要考的，是AI是否真的“懂”化學。

SUPERChem總覽與例題

為了構建這套高質量評估集，團隊搭建了一個專屬協作平臺。在這里，出題、審題、修題從單調的任務，變成了一套循序漸進的“通關”流程。成員們在平臺上協作，互相審閱、彼此“找茬”，讓嚴謹的科學探討與活躍的思維碰撞交織共融。團隊還引入了積分激勵系統，讓出題過程就像在游戲中打怪升級。一道題目需歷經編寫初稿、撰寫解析，再通過初審與終審的嚴格審核，每個環節均由不同的同學把關，并發放相應的積分。終審通過的題目，甚至最多迭代過15個版本。

SUPERChem題庫的三階段審核流程

考試成績揭曉。在這場精心設計的考試中，人類展現出了復雜的科學直覺。作為基線，參與測試的北大化院本科生取得了40.3%的平均準確率。這個數字本身，就足以說明這套題目的硬核程度。

而AI的表現如何？即便是接受測試的頂尖模型，其成績也僅與低年級本科生的平均水平相當。

前沿模型在SUPERChem上的表現

前沿模型的正確率與RPF關系

讓團隊感到意外的是視覺信息帶來的困惑。化學的語言是圖形，分子結構、反應機理圖蘊含著關鍵信息。然而對于部分模型而言，當引入圖像信息時，其準確率不升反降。這說明，當前的AI在將視覺信息轉化為化學語義時，仍存在明顯的感知瓶頸。

輸入模態對不同模型的影響

團隊發現，AI的推理鏈條往往斷裂于產物結構預測、反應機理識別以及構效關系分析等高階任務。當前的頂尖模型雖然擁有海量的知識儲備，但在處理需要嚴密邏輯和深刻理解的硬核化學問題時，仍顯得力不從心。

推理斷點所屬化學能力分布

SUPERChem的誕生，填補了化學領域多模態深度推理評測的空白。

團隊發布這項成果，并非為了證明AI的短板，而是為了推動它走得更遠。SUPERChem就像一個路標。它提醒我們：從通用的聊天機器人，到能夠理解構效關系、推演反應機理的專業科學助手，中間還有很長的一段路要走。那是從“記住知識”到“理解物理世界”的跨越。

目前，SUPERChem項目已全面開源。團隊希望這套源自北大的“試卷”，能成為全球科學與人工智能領域的公共財富，去催化下一次技術的爆發。或許在不久的將來，當我們再次打開這張試卷時，AI能交出一份滿分的答卷。那將是化學與人工智能共同的驚喜。

SUPERChem平臺界面

更多介紹：

——背景——

2025年，隨著開源推理模型DeepSeek-R1推出，LLM在“深度思考”范式下快速發展，其在自然科學領域的應用已從簡單問答轉向復雜推理。然而，現有通用科學基準趨于飽和，化學專用基準多關注基礎能力與化學信息學任務，缺乏對深度推理的系統考察。

從基礎教育、化學奧林匹克競賽到高等教育，化學學習強調知識綜合運用與多步推理，是評估推理能力的理想場景。設計高質量評估題目需融合抽象概念與具體情境，構建層層遞進的推理鏈，對出題者專業素養要求極高。

研究團隊依托北京大學化學學院水平頂尖的本科生和研究生群體，充分發揮其扎實學科功底與豐富解題命題經驗，對已有題目素材進行準確評估與合理優化，共同構建了SUPERChem基準，填補了化學深度推理評估的空白。

圖1.SUPERChem總覽與例題。

——數據構建——

圖2.SUPERChem題庫的三階段審核流程。

SUPERChem題庫由北大化學專業近百名師生共建，涵蓋題目編寫、解析撰寫及嚴格的三階段審核。題目源自非公開試題與專業文獻改編，并采用防泄漏設計，避免LLM依賴記憶或從選項逆推。針對化學信息的多模態特點，同步提供圖文交錯與純文本版本的對齊數據集，支持探究視覺信息對推理的影響。

目前，SUPERChem先期發布500道專家級精選題目，覆蓋結構與性質、化學反應與合成、化學原理與計算、實驗設計與分析四大化學核心領域。為細粒度評估LLM思考過程，SUPERChem引入推理路徑一致性（Reasoning Path Fidelity,RPF）指標：團隊為每道題目撰寫了含關鍵檢查點的詳細解析，通過自動化評估模型思維鏈與解析的一致性，判別模型是否真正“理解”化學。

——評測結果——

1.前沿模型接近低年級本科生水平，不同模型推理一致性存在差異

表1：前沿模型在SUPERChem上的表現。

評測顯示，SUPERChem具有較高難度與區分度。在北京大學化學專業低年級本科生閉卷測試中，人類準確率為40.3%。參與評測的前沿模型中，表現最佳的GPT-5 (High)準確率為38.5%，表明其化學推理能力僅與化學專業低年級本科生水平相當，尚未超越人類基礎專業認知。

圖3. 前沿模型的正確率與RPF關系。

分析RPF指標可見，不同模型推理過程質量差異明顯：Gemini-2.5-Pro和GPT-5 (High)在取得較高準確率的同時，其推理邏輯也更符合專家路徑；而DeepSeek-V3.1-Thinking雖然準確率相近，但RPF得分相對較低，反映其更傾向通過啟發式路徑得出結論。

2.多模態信息的“雙刃劍”效應

圖4：輸入模態對不同模型的影響。

在依賴多模態輸入的題目中，視覺信息對不同模型影響各異：對Gemini-2.5-Pro等強推理模型，圖像輸入可提升準確率；對GPT-4o等推理能力較弱的模型，圖像信息反而造成干擾。這提示在科學任務中需根據模型能力匹配合適的輸入模態。

3.推理斷點分析：模型倒在了哪一步？

為進一步探究LLM推理失敗的深層原因，研究團隊進行了推理斷點分析。結果表明，前沿模型的推理斷點集中于產物結構預測、反應機理識別、構效關系分析等高階化學推理環節。這反映出當前LLM在涉及反應性與分子結構理解的核心任務上仍存在短板。

圖5. 推理斷點所屬化學能力分布。

——總結——

綜上所述，SUPERChem為系統評估大語言模型的化學推理能力提供了細致、可靠的基準。評測結果指出，當前前沿模型的化學能力仍處于基礎水平，在涉及高階化學推理能力的任務上存在明顯局限，為后續模型的針對性優化提供了明確方向。

——團隊介紹——

SUPERChem項目由北京大學化學與分子工程學院與元培學院的趙澤華、黃志賢、李雋仁、林思宇同學領銜完成。近百位化學學院博士生與高年級本科生參與題庫構建與審核，其中包括多位國際與中國化學奧林匹克決賽獲獎選手。174位北京大學化學專業低年級本科生參與了人類基線測試。

SUPERChem項目在北京大學化學與分子工程學院裴堅、高珍老師，計算中心馬皓老師, 計算機學院楊仝老師的指導下開展。項目獲得北京大學計算中心與高性能計算平臺資源支持，來自 Chemy 、好未來、質心教育等機構和化學與分子工程學院鄒鵬、鄭捷等多位教授的題目素材支持，以及高楊、龍汀汀老師的專業協助。

項目資源

論文: https://arxiv.org/abs/2512.01274

數據集: https://huggingface.co/datasets/ZehuaZhao/SUPERChem

平臺網站: https://superchem.pku.edu.cn

來源：北京大學、北京大學化學與分子工程學院

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.