在云端的另一端,一群當(dāng)今世界上最聰明的人工智能正端坐在“考場(chǎng)”里,與北京大學(xué)化學(xué)與分子工程學(xué)院的174名大二學(xué)生展開了一場(chǎng)特殊的同場(chǎng)競(jìng)技。
這不僅是一場(chǎng)精心設(shè)計(jì)的“圖靈測(cè)試”,更是北大科研團(tuán)隊(duì)為大語(yǔ)言模型投下的一塊“試金石”。
近日,北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合北大計(jì)算中心、計(jì)算機(jī)學(xué)院及元培學(xué)院團(tuán)隊(duì),共同發(fā)布了最新研究成果——SUPERChem。他們沒有沿用常見的通用測(cè)試集,而是以一套純正的“北大試卷”為標(biāo)尺,冷靜而嚴(yán)謹(jǐn)?shù)卣闪恐鳤I在科學(xué)推理能力上的真實(shí)邊界。考試現(xiàn)場(chǎng):一場(chǎng)特殊的期中考
![]()
考試現(xiàn)場(chǎng)
翻開SUPERChem的題庫(kù),撲面而來的是一種令人屏息的“壓迫感”。
晶體結(jié)構(gòu)的精細(xì)解析、反應(yīng)機(jī)理的深度推演、物化性質(zhì)的定量計(jì)算……這500道題目絕非網(wǎng)絡(luò)上隨手可得的公開習(xí)題,而是源于對(duì)高難度試題和前沿專業(yè)文獻(xiàn)的深度改編與重構(gòu)。
為何要不遺余力地“自討苦吃”,重新構(gòu)建一套題庫(kù)?
“因?yàn)榇竽P吞珪?huì)‘背書’了。”團(tuán)隊(duì)成員一針見血地解釋道。互聯(lián)網(wǎng)上可及的標(biāo)準(zhǔn)化測(cè)試題,大多已被那些博聞強(qiáng)識(shí)的AI在預(yù)訓(xùn)練階段熟讀于心,甚至可以說是爛熟于“芯”。而化學(xué),恰恰是一門不能只靠死記硬背的學(xué)科——它既有嚴(yán)密的邏輯推演,又充滿了對(duì)微觀世界的空間想象。
“我們非常好奇,大語(yǔ)言模型基于一維文本的nexttokenprediction(下一個(gè)詞預(yù)測(cè))機(jī)制,究竟能否真正解決二維化學(xué)結(jié)構(gòu)、甚至三維空間中的復(fù)雜推理問題?”
要設(shè)計(jì)一套讓AI“沒見過”、必須依靠硬實(shí)力推理的題目,難度極高。然而,這正是北大化院的獨(dú)特優(yōu)勢(shì)所在。近百名師生集結(jié)于此,其中不乏奧賽金牌得主,他們決心給AI出一套高門檻、重推理、防作弊的頂級(jí)試卷。
他們要考的,是AI是否真的“懂”化學(xué)。學(xué)術(shù)共創(chuàng):一場(chǎng)寓教于樂的“游戲”
在學(xué)術(shù)界,構(gòu)建高質(zhì)量的評(píng)估集往往是一項(xiàng)枯燥且艱巨的工程。但這群年輕的北大人卻別出心裁,將其變成了一場(chǎng)充滿活力的“游戲”。
為了構(gòu)建這套高質(zhì)量的評(píng)估集,團(tuán)隊(duì)搭建了一個(gè)專屬的協(xié)作平臺(tái)。在這里,出題、審題、修題不再是單調(diào)乏味的機(jī)械任務(wù),而演變成了一套循序漸進(jìn)、充滿成就感的“通關(guān)”流程。
在這個(gè)平臺(tái)上,成員們實(shí)時(shí)協(xié)作,互相審閱、彼此“找茬”。嚴(yán)謹(jǐn)?shù)目茖W(xué)探討與活躍的思維碰撞在這里交織共融,形成了一種獨(dú)特的學(xué)術(shù)氛圍。
為了進(jìn)一步激發(fā)大家的創(chuàng)造力,團(tuán)隊(duì)還引入了積分激勵(lì)系統(tǒng)。出題過程仿佛在游戲中“打怪升級(jí)”:
? 編寫初稿 :完成基礎(chǔ)題目的構(gòu)建;
? 撰寫解析 :提供詳細(xì)的解題思路與步驟;
? 初審與終審 :每個(gè)環(huán)節(jié)均由不同的同學(xué)層層把關(guān),通過后才能獲得相應(yīng)積分。
據(jù)統(tǒng)計(jì),一道終審?fù)ㄟ^的題目,甚至最多迭代過15個(gè)版本。這種近乎苛刻的打磨,確保了題庫(kù)的每一道題都經(jīng)得起推敲。SUPERChem:重新定義化學(xué)AI的基準(zhǔn)。
![]()
SUPERChem題庫(kù)的三階段審核流程
SUPERChem不僅僅是一套試卷,它更是一個(gè)標(biāo)桿。它試圖回答一個(gè)核心問題:在高度專業(yè)化的科學(xué)領(lǐng)域,AI的“智能”究竟達(dá)到了何種水平?
![]()
前沿模型在SUPERChem上的表現(xiàn)
![]()
前沿模型的正確率與RPF關(guān)系
通過與人類頂尖學(xué)子的同場(chǎng)競(jìng)技,SUPERChem揭示了當(dāng)前大模型在面對(duì)復(fù)雜化學(xué)推理時(shí)的優(yōu)勢(shì)與短板。它表明,雖然AI在信息檢索和模式識(shí)別上表現(xiàn)出色,但在涉及深層邏輯、空間想象和跨學(xué)科知識(shí)綜合運(yùn)用的“硬骨頭”面前,依然面臨著巨大的挑戰(zhàn)。
![]()
輸入模態(tài)對(duì)不同模型的影響
![]()
推理斷點(diǎn)所屬化學(xué)能力分布
結(jié)語(yǔ)
北大團(tuán)隊(duì)通過這場(chǎng)特殊的“考試”,不僅為大語(yǔ)言模型的科學(xué)推理能力提供了一份詳實(shí)的“體檢報(bào)告”,更為未來的AI輔助科研與教育指明了方向。
在這場(chǎng)云端與現(xiàn)實(shí)的交鋒中,無(wú)論輸贏,科學(xué)探索的邊界都在被一點(diǎn)點(diǎn)拓寬。而SUPERChem,正是那把丈量智慧深度的尺子。
(來源:北京大學(xué)版權(quán)屬原作者 謹(jǐn)致謝意)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.