網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

174名北大化學(xué)生能否考過AI？結(jié)果很意外

2025-12-28 13:22:15　來源: 化學(xué)人生

山西舉報(bào)

分享至

在云端的另一端，一群當(dāng)今世界上最聰明的人工智能正端坐在“考場(chǎng)”里，與北京大學(xué)化學(xué)與分子工程學(xué)院的174名大二學(xué)生展開了一場(chǎng)特殊的同場(chǎng)競(jìng)技。

這不僅是一場(chǎng)精心設(shè)計(jì)的“圖靈測(cè)試”，更是北大科研團(tuán)隊(duì)為大語(yǔ)言模型投下的一塊“試金石”。

近日，北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合北大計(jì)算中心、計(jì)算機(jī)學(xué)院及元培學(xué)院團(tuán)隊(duì)，共同發(fā)布了最新研究成果——SUPERChem。他們沒有沿用常見的通用測(cè)試集，而是以一套純正的“北大試卷”為標(biāo)尺，冷靜而嚴(yán)謹(jǐn)?shù)卣闪恐鳤I在科學(xué)推理能力上的真實(shí)邊界。考試現(xiàn)場(chǎng)：一場(chǎng)特殊的期中考

考試現(xiàn)場(chǎng)

翻開SUPERChem的題庫(kù)，撲面而來的是一種令人屏息的“壓迫感”。

晶體結(jié)構(gòu)的精細(xì)解析、反應(yīng)機(jī)理的深度推演、物化性質(zhì)的定量計(jì)算……這500道題目絕非網(wǎng)絡(luò)上隨手可得的公開習(xí)題，而是源于對(duì)高難度試題和前沿專業(yè)文獻(xiàn)的深度改編與重構(gòu)。

為何要不遺余力地“自討苦吃”，重新構(gòu)建一套題庫(kù)？

“因?yàn)榇竽Ｐ吞珪?huì)‘背書’了。”團(tuán)隊(duì)成員一針見血地解釋道。互聯(lián)網(wǎng)上可及的標(biāo)準(zhǔn)化測(cè)試題，大多已被那些博聞強(qiáng)識(shí)的AI在預(yù)訓(xùn)練階段熟讀于心，甚至可以說是爛熟于“芯”。而化學(xué)，恰恰是一門不能只靠死記硬背的學(xué)科——它既有嚴(yán)密的邏輯推演，又充滿了對(duì)微觀世界的空間想象。

“我們非常好奇，大語(yǔ)言模型基于一維文本的nexttokenprediction（下一個(gè)詞預(yù)測(cè)）機(jī)制，究竟能否真正解決二維化學(xué)結(jié)構(gòu)、甚至三維空間中的復(fù)雜推理問題？”

要設(shè)計(jì)一套讓AI“沒見過”、必須依靠硬實(shí)力推理的題目，難度極高。然而，這正是北大化院的獨(dú)特優(yōu)勢(shì)所在。近百名師生集結(jié)于此，其中不乏奧賽金牌得主，他們決心給AI出一套高門檻、重推理、防作弊的頂級(jí)試卷。

他們要考的，是AI是否真的“懂”化學(xué)。學(xué)術(shù)共創(chuàng)：一場(chǎng)寓教于樂的“游戲”

在學(xué)術(shù)界，構(gòu)建高質(zhì)量的評(píng)估集往往是一項(xiàng)枯燥且艱巨的工程。但這群年輕的北大人卻別出心裁，將其變成了一場(chǎng)充滿活力的“游戲”。

為了構(gòu)建這套高質(zhì)量的評(píng)估集，團(tuán)隊(duì)搭建了一個(gè)專屬的協(xié)作平臺(tái)。在這里，出題、審題、修題不再是單調(diào)乏味的機(jī)械任務(wù)，而演變成了一套循序漸進(jìn)、充滿成就感的“通關(guān)”流程。

在這個(gè)平臺(tái)上，成員們實(shí)時(shí)協(xié)作，互相審閱、彼此“找茬”。嚴(yán)謹(jǐn)?shù)目茖W(xué)探討與活躍的思維碰撞在這里交織共融，形成了一種獨(dú)特的學(xué)術(shù)氛圍。

為了進(jìn)一步激發(fā)大家的創(chuàng)造力，團(tuán)隊(duì)還引入了積分激勵(lì)系統(tǒng)。出題過程仿佛在游戲中“打怪升級(jí)”：

? 編寫初稿：完成基礎(chǔ)題目的構(gòu)建；

? 撰寫解析：提供詳細(xì)的解題思路與步驟；

? 初審與終審：每個(gè)環(huán)節(jié)均由不同的同學(xué)層層把關(guān)，通過后才能獲得相應(yīng)積分。

據(jù)統(tǒng)計(jì)，一道終審?fù)ㄟ^的題目，甚至最多迭代過15個(gè)版本。這種近乎苛刻的打磨，確保了題庫(kù)的每一道題都經(jīng)得起推敲。SUPERChem：重新定義化學(xué)AI的基準(zhǔn)。

SUPERChem題庫(kù)的三階段審核流程

SUPERChem不僅僅是一套試卷，它更是一個(gè)標(biāo)桿。它試圖回答一個(gè)核心問題：在高度專業(yè)化的科學(xué)領(lǐng)域，AI的“智能”究竟達(dá)到了何種水平？

前沿模型在SUPERChem上的表現(xiàn)

前沿模型的正確率與RPF關(guān)系

通過與人類頂尖學(xué)子的同場(chǎng)競(jìng)技，SUPERChem揭示了當(dāng)前大模型在面對(duì)復(fù)雜化學(xué)推理時(shí)的優(yōu)勢(shì)與短板。它表明，雖然AI在信息檢索和模式識(shí)別上表現(xiàn)出色，但在涉及深層邏輯、空間想象和跨學(xué)科知識(shí)綜合運(yùn)用的“硬骨頭”面前，依然面臨著巨大的挑戰(zhàn)。

輸入模態(tài)對(duì)不同模型的影響

推理斷點(diǎn)所屬化學(xué)能力分布

結(jié)語(yǔ)

北大團(tuán)隊(duì)通過這場(chǎng)特殊的“考試”，不僅為大語(yǔ)言模型的科學(xué)推理能力提供了一份詳實(shí)的“體檢報(bào)告”，更為未來的AI輔助科研與教育指明了方向。

在這場(chǎng)云端與現(xiàn)實(shí)的交鋒中，無(wú)論輸贏，科學(xué)探索的邊界都在被一點(diǎn)點(diǎn)拓寬。而SUPERChem，正是那把丈量智慧深度的尺子。

（來源：北京大學(xué)版權(quán)屬原作者謹(jǐn)致謝意）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.