網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

174名北大學(xué)生對(duì)決AI，誰(shuí)考得更好？

2025-12-29 17:54:01　來(lái)源: 中國(guó)遠(yuǎn)程教育雜志社

北京舉報(bào)

分享至

關(guān)注“在線(xiàn)學(xué)習(xí)”

獲取更多資訊！

近日，北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合北大計(jì)算中心、計(jì)算機(jī)學(xué)院、元培學(xué)院團(tuán)隊(duì)，發(fā)布了最新成果SUPERChem：他們以一套“北大試卷”為標(biāo)尺，冷靜丈量著AI在科學(xué)推理上的真實(shí)邊界。

考試現(xiàn)場(chǎng)

一場(chǎng)特殊的期中考

在北京大學(xué)化學(xué)與分子工程學(xué)院，有機(jī)化學(xué)考試的期中考前，學(xué)生們收到突如其來(lái)的一條通知：“請(qǐng)注意，本次考試范圍不僅限于有機(jī)化學(xué)。”

除了考試范圍的變化，考場(chǎng)里還迎來(lái)的一批“特殊考生”：GPT、Gemini、DeepSeek……這些當(dāng)下世界上最聰明的AI，會(huì)在云端與174位北大化學(xué)與分子工程學(xué)院的大二學(xué)生同場(chǎng)競(jìng)技。

這是一場(chǎng)精心設(shè)計(jì)的“圖靈測(cè)試”，也是北大科研團(tuán)隊(duì)為大語(yǔ)言模型投下的一塊“試金石”。

晶體結(jié)構(gòu)的精細(xì)解析、反應(yīng)機(jī)理的深度推演、物化性質(zhì)的定量計(jì)算……打開(kāi)SUPERChem的題庫(kù)，這500道題目并非來(lái)自網(wǎng)絡(luò)上隨手可得的公開(kāi)題庫(kù)，而是源于對(duì)高難度試題和前沿專(zhuān)業(yè)文獻(xiàn)的深度改編。

之所以要費(fèi)盡周折重新出題，是“因?yàn)榇竽Ｐ吞珪?huì)‘背書(shū)’了。”團(tuán)隊(duì)成員解釋道。互聯(lián)網(wǎng)可及的測(cè)試題大多已被博聞強(qiáng)識(shí)的AI在訓(xùn)練階段熟讀，但化學(xué)是一門(mén)不能只靠死記硬背的學(xué)科，既有嚴(yán)密的邏輯推演，又充滿(mǎn)了對(duì)微觀世界的空間想象。“我們非常好奇，大語(yǔ)言模型的一維 next token prediction，能否解決二維、甚至三維空間中的復(fù)雜推理問(wèn)題。”

要設(shè)計(jì)一套讓AI“沒(méi)見(jiàn)過(guò)”、必須靠硬實(shí)力推理的題目，難度極高。為此，北大化院近百名師生——其中不乏奧林匹克金牌得主——集結(jié)起來(lái)，決定給AI出一套高門(mén)檻、重推理、防作弊的試卷。

他們要考的，是AI是否真的“懂”化學(xué)。

SUPERChem總覽與例題

北大學(xué)生對(duì)決AI

誰(shuí)考得更好？

在這場(chǎng)精心設(shè)計(jì)的考試中，人類(lèi)展現(xiàn)出了復(fù)雜的科學(xué)直覺(jué)。

作為基線(xiàn)，參與測(cè)試的北大化院本科生取得了40.3%的平均準(zhǔn)確率。這個(gè)數(shù)字本身，就足以說(shuō)明這套題目的硬核程度。

而AI的表現(xiàn)如何？

即便是接受測(cè)試的頂尖模型，其成績(jī)也僅與低年級(jí)本科生的平均水平相當(dāng)。

前沿模型在SUPERChem上的表現(xiàn)

前沿模型的正確率與RPF關(guān)系

讓團(tuán)隊(duì)感到意外的是視覺(jué)信息帶來(lái)的困惑。化學(xué)的語(yǔ)言是圖形，分子結(jié)構(gòu)、反應(yīng)機(jī)理圖蘊(yùn)含著關(guān)鍵信息。然而對(duì)于部分模型而言，當(dāng)引入圖像信息時(shí)，其準(zhǔn)確率不升反降。這說(shuō)明，當(dāng)前的AI在將視覺(jué)信息轉(zhuǎn)化為化學(xué)語(yǔ)義時(shí)，仍存在明顯的感知瓶頸。

輸入模態(tài)對(duì)不同模型的影響

然而，即使選對(duì)了答案，解題步驟也可能經(jīng)不起推敲。因此，團(tuán)隊(duì)為每一道題目都標(biāo)注了詳細(xì)的評(píng)分規(guī)則。在SUPERChem這臺(tái)“顯微鏡”下，AI是真懂還是裝懂，一目了然。

團(tuán)隊(duì)發(fā)現(xiàn)，AI的推理鏈條往往斷裂于產(chǎn)物結(jié)構(gòu)預(yù)測(cè)、反應(yīng)機(jī)理識(shí)別以及構(gòu)效關(guān)系分析等高階任務(wù)。當(dāng)前的頂尖模型雖然擁有海量的知識(shí)儲(chǔ)備，但在處理需要嚴(yán)密邏輯和深刻理解的硬核化學(xué)問(wèn)題時(shí)，仍顯得力不從心。

推理斷點(diǎn)所屬化學(xué)能力分布

讓AI與人類(lèi)對(duì)決意義何在？

SUPERChem的誕生，填補(bǔ)了化學(xué)領(lǐng)域多模態(tài)深度推理評(píng)測(cè)的空白。

據(jù)介紹，團(tuán)隊(duì)發(fā)布這項(xiàng)成果，并非為了證明AI的短板，而是為了推動(dòng)它走得更遠(yuǎn)。SUPERChem就像一個(gè)路標(biāo)。它提醒我們：從通用的聊天機(jī)器人，到能夠理解構(gòu)效關(guān)系、推演反應(yīng)機(jī)理的專(zhuān)業(yè)科學(xué)助手，中間還有很長(zhǎng)的一段路要走。那是從“記住知識(shí)”到“理解物理世界”的跨越。

目前，SUPERChem項(xiàng)目已全面開(kāi)源。團(tuán)隊(duì)希望這套源自北大的“試卷”，能成為全球科學(xué)與人工智能領(lǐng)域的公共財(cái)富，去催化下一次技術(shù)的爆發(fā)。

本文來(lái)源｜央視網(wǎng)

聲明：轉(zhuǎn)載此文是出于傳遞更多信息之目的。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與我們聯(lián)系，我們將及時(shí)更正、刪除，謝謝。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.