![]()
潘 展|編譯
在實(shí)驗(yàn)室的幽暗燈光下,科學(xué)家常年與實(shí)驗(yàn)數(shù)據(jù)和復(fù)雜的理論公式博弈。而如今,一個(gè)全新的“協(xié)作者”出現(xiàn)在了實(shí)驗(yàn)臺(tái)上。大語(yǔ)言模型(LLMs)已經(jīng)展示了書(shū)寫(xiě)論文、總結(jié)文獻(xiàn)、甚至是構(gòu)思復(fù)雜實(shí)驗(yàn)流程的驚人能力。
然而,當(dāng)一個(gè)AI系統(tǒng)提出一種新的催化劑分子,或是預(yù)測(cè)了一種全新的蛋白質(zhì)結(jié)構(gòu)時(shí),我們?nèi)绾未_定它是真的通過(guò)“理解”科學(xué)原理得出的結(jié)論,還是僅僅在進(jìn)行一場(chǎng)精密的統(tǒng)計(jì)游戲?
![]()
近日,《科學(xué)》雜志探討了這一核心議題:我們究竟該如何衡量人工智能是否聰明到足以從事科學(xué)研究?
01
從“死記硬背”到“邏輯博弈”
在過(guò)去幾年中,AI 模型在各類(lèi)學(xué)術(shù)基準(zhǔn)測(cè)試中表現(xiàn)出了近乎狂飆的性能。無(wú)論是 MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)還是其他通用學(xué)科測(cè)試,AI的得分屢創(chuàng)新高。然而,這引發(fā)了研究界深層的擔(dān)憂:這些測(cè)試是否正在失效?
![]()
前沿LLMs在流行基準(zhǔn)和HLE上的性能,圖源:HLE
AI模型在訓(xùn)練階段幾乎“閱讀”了互聯(lián)網(wǎng)上公開(kāi)的所有科學(xué)論文、教科書(shū)和在線習(xí)題集,許多基準(zhǔn)測(cè)試題本質(zhì)上已經(jīng)成為了模型的“考前背誦材料”。由于目前的AI模型在訓(xùn)練階段幾乎“閱讀”了互聯(lián)網(wǎng)上公開(kāi)的所有科學(xué)論文、教科書(shū)和在線習(xí)題集,許多基準(zhǔn)測(cè)試題本質(zhì)上已經(jīng)成為了模型的“考前背誦材料”。
當(dāng)模型面對(duì)一道復(fù)雜的物理競(jìng)賽題時(shí),它給出的正確答案可能并非基于對(duì)物理定律的深刻推演,而是基于海量訓(xùn)練數(shù)據(jù)中的相似模式匹配。也由此,這種“記憶力驅(qū)動(dòng)的智能”在科學(xué)研究中是危險(xiǎn)的,科學(xué)家將它稱(chēng)之為“數(shù)據(jù)污染”——科學(xué)的本質(zhì)在于探索未知,而記憶只能復(fù)述已知。
為了甄別真正的科學(xué)智能,研究人員開(kāi)始設(shè)計(jì)那些“無(wú)法通過(guò)互聯(lián)網(wǎng)搜索找到答案”的極端考題。其中,生物、化學(xué)、物理領(lǐng)域的GPQA(研究生級(jí)別谷歌驗(yàn)證問(wèn)答集)成為衡量這一能力的標(biāo)桿。
![]()
各流行模型GPQA分?jǐn)?shù)排行榜,圖片來(lái)源Frontier
GPQA的獨(dú)特之處在于其極高的門(mén)檻。即使是相關(guān)學(xué)科的專(zhuān)家,在擁有無(wú)限互聯(lián)網(wǎng)訪問(wèn)權(quán)限的情況下,回答這些問(wèn)題的正確率也僅在65%至70%之間。如果一個(gè)非相關(guān)領(lǐng)域的博士去參加測(cè)試,正確率往往會(huì)大幅跌落。
當(dāng)新一代AI 模型(如 OpenAI o1 系列)在 GPQA-Diamond 測(cè)試中取得超過(guò)80%的正確率時(shí),科研界感受到了震動(dòng)。
他們認(rèn)為,這不再是簡(jiǎn)單的記憶檢索,而是模型展現(xiàn)出了某種形式的“科學(xué)推演能力”——它能夠處理多步驟的邏輯鏈條,在信息不足的情況下進(jìn)行嚴(yán)謹(jǐn)?shù)耐馔啤?/p>
02
從“結(jié)果導(dǎo)向”轉(zhuǎn)向“過(guò)程審計(jì)”
在科學(xué)發(fā)現(xiàn)中,結(jié)論的正確性固然重要,但推導(dǎo)過(guò)程的嚴(yán)謹(jǐn)性往往決定了研究的價(jià)值。最新的評(píng)估框架開(kāi)始引入“過(guò)程監(jiān)督”。
![]()
FrontierScience奧林匹克與科學(xué)研究上各模型準(zhǔn)確率,圖源:OpenAI
這不僅僅是檢查AI最后的答案是否正確,而是要求模型展示其思維路徑,如在評(píng)估一個(gè)AI是否具備合成復(fù)雜有機(jī)分子的能力時(shí),評(píng)估者不再只看最終產(chǎn)量,而是逐一審查AI的每一步操作邏輯:它是否考慮了反應(yīng)環(huán)境的溫度與壓力?是否識(shí)別并避開(kāi)了可能發(fā)生的副反應(yīng)?在實(shí)驗(yàn)失敗時(shí),它能否根據(jù)異常數(shù)據(jù)進(jìn)行正確的歸因分析?
這種方法有力地剔除了“邏輯幻覺(jué)”。許多模型在測(cè)試中能夠?qū)懗鰞?yōu)美的科研術(shù)語(yǔ),但在嚴(yán)密的邏輯審查下,其推導(dǎo)鏈條往往存在致命的科學(xué)漏洞。
03
從“實(shí)戰(zhàn)測(cè)試”到回歸科學(xué)的本質(zhì)
衡量AI性能的最終戰(zhàn)場(chǎng)是真實(shí)的實(shí)驗(yàn)室。目前,最前沿的評(píng)估方式被稱(chēng)為“閉環(huán)自動(dòng)化發(fā)現(xiàn)”。
在這種模式下,AI 被直接連接到自動(dòng)化的化學(xué)合成實(shí)驗(yàn)室或計(jì)算平臺(tái)。研究人員只給出一個(gè)宏大的目標(biāo),如“尋找一種能更高效固碳的納米材料”。AI 必須在海量假設(shè)中篩選最優(yōu)路線,指導(dǎo)機(jī)器人進(jìn)行實(shí)驗(yàn),并根據(jù)實(shí)驗(yàn)回傳的實(shí)時(shí)數(shù)據(jù),動(dòng)態(tài)調(diào)整自己的假設(shè)。
當(dāng)實(shí)驗(yàn)數(shù)據(jù)與初始理論沖突時(shí),AI能否迅速識(shí)別出是模型偏差還是實(shí)驗(yàn)誤差的反思能力,成為衡量其是否“聰明”的黃金標(biāo)準(zhǔn)。那些能夠通過(guò)少量實(shí)驗(yàn)修正自身知識(shí)結(jié)構(gòu)、進(jìn)而逼近真理的AI,才被認(rèn)為具備了真正的科學(xué)直覺(jué)。
然而,即便是最先進(jìn)的AI,在科學(xué)領(lǐng)域的表現(xiàn)依然面臨界限。我們衡量AI,并非為了證明它能取代科學(xué)家,而是為了確立一種全新的協(xié)作范式。
科學(xué)研究不僅需要邏輯推演,還需要那種打破范式的“直覺(jué)”。目前,AI擅長(zhǎng)在既定的科學(xué)空間內(nèi)進(jìn)行海量的、高維度的搜索與優(yōu)化,但在提出顛覆性的科學(xué)假說(shuō)、或在模糊的交叉學(xué)科邊緣進(jìn)行原創(chuàng)性飛躍方面,人類(lèi)科學(xué)家依然掌握著主導(dǎo)權(quán)。
04
結(jié)語(yǔ)
我們距離創(chuàng)造出一個(gè)能夠獨(dú)立從事科學(xué)研究的“數(shù)字科學(xué)家”還有多遠(yuǎn)?《科學(xué)》這篇文章的結(jié)論或許可以給予我們啟發(fā):這取決于我們的評(píng)估體系演進(jìn)得有多快。
當(dāng)我們不再僅僅以“考試成績(jī)”來(lái)衡量模型,而是以“邏輯嚴(yán)謹(jǐn)度”、“實(shí)驗(yàn)修正能力”和“跨學(xué)科泛化能力”為坐標(biāo)系時(shí),我們不僅在篩選更好的工具,更是在重新定義科學(xué)本身。
在這個(gè)人機(jī)共進(jìn)的時(shí)代,衡量AI的過(guò)程,本質(zhì)上也是人類(lèi)在不斷審視自身如何理解自然界的過(guò)程。
https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science
Deep Science預(yù)印本
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.