題目編寫(xiě)審核流程。北京大學(xué)化學(xué)與分子工程學(xué)院供圖
2025年年末,北京大學(xué)化學(xué)與分子工程學(xué)院的一間教室里,174名大二學(xué)生正面對(duì)一場(chǎng)特殊的期中考試。試卷上,晶體結(jié)構(gòu)的精細(xì)解析、反應(yīng)機(jī)理的深度推演、物化性質(zhì)的定量計(jì)算等硬核題目撲面而來(lái),而考生們的“競(jìng)爭(zhēng)對(duì)手”并非同窗,而是ChatGPT、Gemini、DeepSeek等當(dāng)下最頂尖的人工智能大語(yǔ)言模型。
這場(chǎng)“云端對(duì)決”的背后,是北大青年科研團(tuán)隊(duì)在去年12月打造的SUPERChem項(xiàng)目——一套包含500道高難度試題的基準(zhǔn)測(cè)試集,旨在用“北大標(biāo)準(zhǔn)”丈量AI在化學(xué)領(lǐng)域的真實(shí)推理能力。
在團(tuán)隊(duì)成員、北京大學(xué)化學(xué)與分子工程學(xué)院2020級(jí)博士研究生黃志賢看來(lái),設(shè)計(jì)這套高難度題庫(kù)的目的并不是為了證明AI不行,而是搞清楚AI到底“懂不懂化學(xué)”,為AI的發(fā)展提供更清晰的參考。
在AI大模型技術(shù)爆發(fā)式發(fā)展的當(dāng)下,人們似乎已經(jīng)習(xí)慣向AI索取答案,“AI能解決各類復(fù)雜問(wèn)題”的聲音不絕于耳,而這群年輕的科研人員選擇用最嚴(yán)謹(jǐn)?shù)姆绞剑瑢?duì)技術(shù)熱潮進(jìn)行一次冷靜的追問(wèn)。
前沿模型在SUPERChem上的表現(xiàn)。北京大學(xué)化學(xué)與分子工程學(xué)院供圖
“在AI發(fā)展過(guò)程中留下自己的痕跡”
黃志賢在日常學(xué)習(xí)和科研中經(jīng)常和AI進(jìn)行對(duì)話,但是他發(fā)現(xiàn),對(duì)于一些自己“一眼就能看懂”的分子結(jié)構(gòu)圖,AI卻怎么也看不清,使得其在判斷和解釋化學(xué)反應(yīng)時(shí),“說(shuō)出的內(nèi)容看似一板一眼,但是往往都是幻覺(jué),得出的結(jié)論有事實(shí)性錯(cuò)誤”。
帶著這樣的疑問(wèn),黃志賢和幾名志同道合的同學(xué)一起調(diào)研了現(xiàn)有的化學(xué)AI基準(zhǔn)測(cè)試,發(fā)現(xiàn)很多模型“要么太簡(jiǎn)單,模型分?jǐn)?shù)都快刷滿了,沒(méi)有區(qū)分度;要么都是些工具性任務(wù),缺少有化學(xué)特色的深度推理”。
黃志賢向中青報(bào)·中青網(wǎng)記者表示,化學(xué)有一套獨(dú)特的語(yǔ)言來(lái)描述分子結(jié)構(gòu),尤其是描述分子結(jié)構(gòu)式的字符與二維圖像,這在科研與學(xué)習(xí)中都非常重要。但AI大模型依靠高效的“背書(shū)”能力考出的高分往往是數(shù)據(jù)記憶的功勞,卻難以觸及化學(xué)學(xué)科的核心——那些需要三維空間想象、嚴(yán)密邏輯推演和微觀世界認(rèn)知的復(fù)雜任務(wù)。
“我們決定建立一套難度更高、更具有化學(xué)特色的測(cè)試基準(zhǔn),不僅看它能不能做對(duì)題,還要看它的推理過(guò)程是不是合理。我們希望這套標(biāo)準(zhǔn)能夠推動(dòng)AI逐步掌握化學(xué)知識(shí)、深化對(duì)自然科學(xué)的理解,并在未來(lái)促進(jìn)科學(xué)研究與創(chuàng)新發(fā)現(xiàn),與人類攜手共同進(jìn)步。”黃志賢說(shuō)。
于是,團(tuán)隊(duì)成員之一、北京大學(xué)化學(xué)與分子工程學(xué)院2024級(jí)博士研究生趙澤華在去年“五一”假期前擬定了SUPERChem的提案,發(fā)給學(xué)院黨委書(shū)記裴堅(jiān)和黨委副書(shū)記高珍兩位老師。
趙澤華回憶,高珍老師在收到提案后“立刻打來(lái)了電話”,詳細(xì)了解了這個(gè)新領(lǐng)域的基本概念、技術(shù)實(shí)現(xiàn)細(xì)節(jié)和國(guó)內(nèi)外已有的相關(guān)工作,幫學(xué)生理清思路。“五一”假期末,兩位老師與學(xué)生自發(fā)組成的科研團(tuán)隊(duì)進(jìn)行了第一次正式討論。
高珍仍然記得,當(dāng)初幾名學(xué)生向?qū)W院提出SUPERChem的設(shè)想時(shí),自己曾問(wèn)過(guò)他們“為什么想做這個(gè)項(xiàng)目”。
“在AI發(fā)展過(guò)程中留下自己的痕跡,推動(dòng)AI走得更遠(yuǎn)。”黃志賢、趙澤華等團(tuán)隊(duì)成員的回復(fù),也成了設(shè)計(jì)SUPERChem項(xiàng)目的初心。在高珍看來(lái),統(tǒng)籌這個(gè)項(xiàng)目的過(guò)程中最讓她感到驕傲的,是學(xué)生們純粹的科研情懷和不計(jì)回報(bào)的熱情。
學(xué)生提出構(gòu)想,教師提供資源;在考驗(yàn)AI水平上限的賽道上,師生都站在“同一起跑線”。“北大化院擁有在化學(xué)競(jìng)賽題目積累、頂尖師生資源等方面的優(yōu)勢(shì),因此我們也有義務(wù)去做好這個(gè)項(xiàng)目。”高珍說(shuō)。
設(shè)計(jì)出AI“沒(méi)見(jiàn)過(guò)”的題庫(kù)
然而,要打造集合幾百道高難度“原創(chuàng)試題”的題庫(kù),僅依靠團(tuán)隊(duì)內(nèi)的幾名成員是遠(yuǎn)遠(yuǎn)不夠的。
工欲善其事,必先利其器。團(tuán)隊(duì)決定先搭建一個(gè)能夠支持多方在線出題的高效協(xié)作平臺(tái),這對(duì)于非計(jì)算機(jī)專業(yè)的黃志賢、趙澤華等成員來(lái)說(shuō),也成了自己的跨界挑戰(zhàn)。
“我主要負(fù)責(zé)協(xié)作平臺(tái)網(wǎng)站前端開(kāi)發(fā),完全是邊學(xué)邊做,還借助了AI智能體幫忙寫(xiě)代碼。”黃志賢表示,AI確實(shí)降低了跨領(lǐng)域?qū)嵺`的門(mén)檻,幫助自己接觸到更廣闊的平臺(tái)。
在平臺(tái)搭建完成之后,化院的老師們?cè)诿總€(gè)年級(jí)群里都發(fā)布了“出題人”招募通知。團(tuán)隊(duì)很快就收到了上百名同學(xué)的報(bào)名申請(qǐng)。
最終,參與試題設(shè)計(jì)的77名學(xué)生中,包括3位國(guó)際化學(xué)奧林匹克(IChO)獲獎(jiǎng)選手與64位中國(guó)化學(xué)奧林匹克(CChO)決賽獲獎(jiǎng)選手。他們從高難度試題和前沿專業(yè)文獻(xiàn)中汲取靈感,進(jìn)行深度改編。
趙澤華還設(shè)計(jì)了一套積分激勵(lì)系統(tǒng),讓傳統(tǒng)的出題、審題、修題等單調(diào)枯燥的任務(wù)變成了一套類似游戲的“打怪升級(jí)”流程。一道題目需歷經(jīng)編寫(xiě)初稿、撰寫(xiě)解析,再通過(guò)初審與終審的嚴(yán)格審核,每個(gè)環(huán)節(jié)均由不同的學(xué)生把關(guān),并發(fā)放相應(yīng)的積分。積累一定積分的出題人還能獲得審核他人題目的權(quán)限。一些終審?fù)ㄟ^(guò)的題目,甚至最多迭代過(guò)15個(gè)版本。
在團(tuán)隊(duì)搭建的這套專屬協(xié)作平臺(tái)上,參與出題的成員互相審閱、彼此“找茬”,用最嚴(yán)謹(jǐn)?shù)目茖W(xué)思維探索AI的“硬實(shí)力”。
“我們會(huì)把題目中的藥物分子等具有明顯特征的名詞用‘化合物A、B’來(lái)指代,這樣AI就無(wú)法通過(guò)背景信息‘作弊’。”趙澤華告訴中青報(bào)·中青網(wǎng)記者,在題型設(shè)置上,團(tuán)隊(duì)全部采用選擇題,“因?yàn)楹?jiǎn)答或填空題的開(kāi)放式回答擁有語(yǔ)義多樣性,很難客觀地自動(dòng)化評(píng)價(jià),因此限制了評(píng)估的效率與準(zhǔn)確性”。為了防止AI從選項(xiàng)中“蒙對(duì)答案”,團(tuán)隊(duì)還特意將題目的選項(xiàng)增加到6-9個(gè)。
隨著174名大二學(xué)生和幾款頂尖AI大模型紛紛交上自己的答卷,考試結(jié)果顯示,作為基線,參與測(cè)試的北大化院本科生取得了40.3%的平均準(zhǔn)確率,而頂尖AI大模型的成績(jī)僅與低年級(jí)本科生平均水平相當(dāng),AI在化學(xué)核心能力上仍然存在明顯短板。
此外,團(tuán)隊(duì)還為每一道題目都標(biāo)注了詳細(xì)的評(píng)分規(guī)則。在SUPERChem這臺(tái)“顯微鏡”下,AI是真懂還是裝懂,一目了然。
團(tuán)隊(duì)發(fā)現(xiàn),AI的推理鏈條往往斷裂于產(chǎn)物結(jié)構(gòu)預(yù)測(cè)、反應(yīng)機(jī)理識(shí)別以及構(gòu)效關(guān)系分析等高階任務(wù)。當(dāng)前的頂尖模型雖然擁有海量的知識(shí)儲(chǔ)備,但在處理需要嚴(yán)密邏輯和深刻理解的硬核化學(xué)問(wèn)題時(shí),仍顯得力不從心。
這樣的結(jié)果也在團(tuán)隊(duì)的預(yù)料之內(nèi)。“當(dāng)前主流AI大模型的底層邏輯是基于一維文本序列的預(yù)測(cè),無(wú)法完全調(diào)動(dòng)多模態(tài)能力解讀圖像,也就不能真正滿足化學(xué)學(xué)科在二維、三維中分析立體信息的需求。”黃志賢說(shuō)。
對(duì)參與項(xiàng)目的學(xué)生而言,這場(chǎng)科研探索更像是一次深刻的自我提升。“出題時(shí)要絞盡腦汁難住AI,這個(gè)過(guò)程要求我們必須把知識(shí)點(diǎn)學(xué)深學(xué)透,串聯(lián)起來(lái)進(jìn)行嚴(yán)謹(jǐn)推理。”黃志賢表示,很多學(xué)生在向AI提問(wèn)的過(guò)程中開(kāi)始思考:AI時(shí)代,該如何選擇自己的研究方向?哪些工作是AI難以替代的?AI能幫助自己做哪些更有意義的研究?
“簡(jiǎn)單的知識(shí)背誦、基礎(chǔ)的計(jì)算任務(wù),AI可能做得比人好,但深度推理、科研創(chuàng)新這些需要人類智慧的領(lǐng)域,才是我們?cè)搶W⒌姆较颉!秉S志賢說(shuō)。
這場(chǎng)測(cè)試的影響,也延伸到了考場(chǎng)之外的北大校園。黃志賢觀察到,現(xiàn)在已有不少老師開(kāi)始創(chuàng)新考核方式,設(shè)計(jì)AI做不出來(lái)的題目作為考題,激發(fā)學(xué)生更活躍的自主思維。
守護(hù)“向AI提問(wèn)”的能力
發(fā)布SUPERChem不是終點(diǎn),而是一個(gè)開(kāi)始。目前,團(tuán)隊(duì)已將項(xiàng)目全面開(kāi)源,希望這套源自北大的“試卷”能成為全球科學(xué)與人工智能領(lǐng)域的公共財(cái)富。
高珍透露,此前已有互聯(lián)網(wǎng)企業(yè)聯(lián)系團(tuán)隊(duì),希望由此項(xiàng)目延伸出相關(guān)知識(shí)學(xué)習(xí)類軟件程序的開(kāi)發(fā),“不過(guò)目前我們主要聚焦項(xiàng)目的學(xué)術(shù)性,AI的成長(zhǎng)速度太快,下一步我們要密切關(guān)注AI的迭代更新,增加對(duì)它的考核難度和綜合性”。
“后續(xù)我們可能會(huì)根據(jù)學(xué)界和工業(yè)界對(duì)化學(xué)領(lǐng)域前沿問(wèn)題的關(guān)注,持續(xù)更新我們的題庫(kù)。”黃志賢提到,目前的題庫(kù)在專業(yè)性上更偏向于奧林匹克競(jìng)賽,接下來(lái)希望調(diào)動(dòng)更多學(xué)術(shù)資源,集合更多垂直領(lǐng)域的研究課題,將它們改編成更具研究性質(zhì)的開(kāi)放性題目,以此來(lái)評(píng)估AI能不能成為一個(gè)自然科學(xué)領(lǐng)域的“學(xué)術(shù)研究者”。
高珍表示,未來(lái)隨著項(xiàng)目更加成熟,也許會(huì)回歸到基礎(chǔ)知識(shí),打造既適合AI又適合人類學(xué)習(xí)的題庫(kù)和平臺(tái)。
在團(tuán)隊(duì)成員看來(lái),SUPERChem就像一個(gè)路標(biāo):從通用的聊天機(jī)器人,到能夠理解構(gòu)效關(guān)系、推演反應(yīng)機(jī)理的專業(yè)科學(xué)助手,中間還有很長(zhǎng)的一段路要走,那是從“記住知識(shí)”到“理解物理世界”的跨越。或許在不久的將來(lái),AI真的能交出一份滿分答卷——而這,正是化學(xué)與人工智能共同的驚喜。
這場(chǎng)始于“考AI”的科研探索,最終指向的是對(duì)科學(xué)和教育初心的堅(jiān)守,也是對(duì)人類與技術(shù)關(guān)系的深刻思考。當(dāng)AI能夠瞬間回答那些已經(jīng)有答案的問(wèn)題時(shí),教育要做的,也許就在于培養(yǎng)學(xué)生不斷提出新問(wèn)題的能力。
來(lái)源:中國(guó)青年報(bào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.