網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

距離“數(shù)字科學(xué)家”還有多遠(yuǎn)？從“死記硬背”到“邏輯博弈”

2026-03-09 11:44:05　來(lái)源: 深究科學(xué)

浙江舉報(bào)

分享至

潘展|編譯

在實(shí)驗(yàn)室的幽暗燈光下，科學(xué)家常年與實(shí)驗(yàn)數(shù)據(jù)和復(fù)雜的理論公式博弈。而如今，一個(gè)全新的“協(xié)作者”出現(xiàn)在了實(shí)驗(yàn)臺(tái)上。大語(yǔ)言模型（LLMs）已經(jīng)展示了書(shū)寫(xiě)論文、總結(jié)文獻(xiàn)、甚至是構(gòu)思復(fù)雜實(shí)驗(yàn)流程的驚人能力。

然而，當(dāng)一個(gè)AI系統(tǒng)提出一種新的催化劑分子，或是預(yù)測(cè)了一種全新的蛋白質(zhì)結(jié)構(gòu)時(shí)，我們?nèi)绾未_定它是真的通過(guò)“理解”科學(xué)原理得出的結(jié)論，還是僅僅在進(jìn)行一場(chǎng)精密的統(tǒng)計(jì)游戲？

近日，《科學(xué)》雜志探討了這一核心議題：我們究竟該如何衡量人工智能是否聰明到足以從事科學(xué)研究？

從“死記硬背”到“邏輯博弈”

在過(guò)去幾年中，AI 模型在各類(lèi)學(xué)術(shù)基準(zhǔn)測(cè)試中表現(xiàn)出了近乎狂飆的性能。無(wú)論是 MMLU（大規(guī)模多任務(wù)語(yǔ)言理解）還是其他通用學(xué)科測(cè)試，AI的得分屢創(chuàng)新高。然而，這引發(fā)了研究界深層的擔(dān)憂：這些測(cè)試是否正在失效？

前沿LLMs在流行基準(zhǔn)和HLE上的性能，圖源：HLE

AI模型在訓(xùn)練階段幾乎“閱讀”了互聯(lián)網(wǎng)上公開(kāi)的所有科學(xué)論文、教科書(shū)和在線習(xí)題集，許多基準(zhǔn)測(cè)試題本質(zhì)上已經(jīng)成為了模型的“考前背誦材料”。由于目前的AI模型在訓(xùn)練階段幾乎“閱讀”了互聯(lián)網(wǎng)上公開(kāi)的所有科學(xué)論文、教科書(shū)和在線習(xí)題集，許多基準(zhǔn)測(cè)試題本質(zhì)上已經(jīng)成為了模型的“考前背誦材料”。

當(dāng)模型面對(duì)一道復(fù)雜的物理競(jìng)賽題時(shí)，它給出的正確答案可能并非基于對(duì)物理定律的深刻推演，而是基于海量訓(xùn)練數(shù)據(jù)中的相似模式匹配。也由此，這種“記憶力驅(qū)動(dòng)的智能”在科學(xué)研究中是危險(xiǎn)的，科學(xué)家將它稱(chēng)之為“數(shù)據(jù)污染”——科學(xué)的本質(zhì)在于探索未知，而記憶只能復(fù)述已知。

為了甄別真正的科學(xué)智能，研究人員開(kāi)始設(shè)計(jì)那些“無(wú)法通過(guò)互聯(lián)網(wǎng)搜索找到答案”的極端考題。其中，生物、化學(xué)、物理領(lǐng)域的GPQA（研究生級(jí)別谷歌驗(yàn)證問(wèn)答集）成為衡量這一能力的標(biāo)桿。

各流行模型GPQA分?jǐn)?shù)排行榜，圖片來(lái)源Frontier

GPQA的獨(dú)特之處在于其極高的門(mén)檻。即使是相關(guān)學(xué)科的專(zhuān)家，在擁有無(wú)限互聯(lián)網(wǎng)訪問(wèn)權(quán)限的情況下，回答這些問(wèn)題的正確率也僅在65%至70%之間。如果一個(gè)非相關(guān)領(lǐng)域的博士去參加測(cè)試，正確率往往會(huì)大幅跌落。

當(dāng)新一代AI 模型（如 OpenAI o1 系列）在 GPQA-Diamond 測(cè)試中取得超過(guò)80%的正確率時(shí)，科研界感受到了震動(dòng)。

他們認(rèn)為，這不再是簡(jiǎn)單的記憶檢索，而是模型展現(xiàn)出了某種形式的“科學(xué)推演能力”——它能夠處理多步驟的邏輯鏈條，在信息不足的情況下進(jìn)行嚴(yán)謹(jǐn)?shù)耐馔啤?/p>

從“結(jié)果導(dǎo)向”轉(zhuǎn)向“過(guò)程審計(jì)”

在科學(xué)發(fā)現(xiàn)中，結(jié)論的正確性固然重要，但推導(dǎo)過(guò)程的嚴(yán)謹(jǐn)性往往決定了研究的價(jià)值。最新的評(píng)估框架開(kāi)始引入“過(guò)程監(jiān)督”。

FrontierScience奧林匹克與科學(xué)研究上各模型準(zhǔn)確率，圖源：OpenAI

這不僅僅是檢查AI最后的答案是否正確，而是要求模型展示其思維路徑，如在評(píng)估一個(gè)AI是否具備合成復(fù)雜有機(jī)分子的能力時(shí)，評(píng)估者不再只看最終產(chǎn)量，而是逐一審查AI的每一步操作邏輯：它是否考慮了反應(yīng)環(huán)境的溫度與壓力？是否識(shí)別并避開(kāi)了可能發(fā)生的副反應(yīng)？在實(shí)驗(yàn)失敗時(shí)，它能否根據(jù)異常數(shù)據(jù)進(jìn)行正確的歸因分析？

這種方法有力地剔除了“邏輯幻覺(jué)”。許多模型在測(cè)試中能夠?qū)懗鰞?yōu)美的科研術(shù)語(yǔ)，但在嚴(yán)密的邏輯審查下，其推導(dǎo)鏈條往往存在致命的科學(xué)漏洞。

從“實(shí)戰(zhàn)測(cè)試”到回歸科學(xué)的本質(zhì)

衡量AI性能的最終戰(zhàn)場(chǎng)是真實(shí)的實(shí)驗(yàn)室。目前，最前沿的評(píng)估方式被稱(chēng)為“閉環(huán)自動(dòng)化發(fā)現(xiàn)”。

在這種模式下，AI 被直接連接到自動(dòng)化的化學(xué)合成實(shí)驗(yàn)室或計(jì)算平臺(tái)。研究人員只給出一個(gè)宏大的目標(biāo)，如“尋找一種能更高效固碳的納米材料”。AI 必須在海量假設(shè)中篩選最優(yōu)路線，指導(dǎo)機(jī)器人進(jìn)行實(shí)驗(yàn)，并根據(jù)實(shí)驗(yàn)回傳的實(shí)時(shí)數(shù)據(jù)，動(dòng)態(tài)調(diào)整自己的假設(shè)。

當(dāng)實(shí)驗(yàn)數(shù)據(jù)與初始理論沖突時(shí)，AI能否迅速識(shí)別出是模型偏差還是實(shí)驗(yàn)誤差的反思能力，成為衡量其是否“聰明”的黃金標(biāo)準(zhǔn)。那些能夠通過(guò)少量實(shí)驗(yàn)修正自身知識(shí)結(jié)構(gòu)、進(jìn)而逼近真理的AI，才被認(rèn)為具備了真正的科學(xué)直覺(jué)。

然而，即便是最先進(jìn)的AI，在科學(xué)領(lǐng)域的表現(xiàn)依然面臨界限。我們衡量AI，并非為了證明它能取代科學(xué)家，而是為了確立一種全新的協(xié)作范式。

科學(xué)研究不僅需要邏輯推演，還需要那種打破范式的“直覺(jué)”。目前，AI擅長(zhǎng)在既定的科學(xué)空間內(nèi)進(jìn)行海量的、高維度的搜索與優(yōu)化，但在提出顛覆性的科學(xué)假說(shuō)、或在模糊的交叉學(xué)科邊緣進(jìn)行原創(chuàng)性飛躍方面，人類(lèi)科學(xué)家依然掌握著主導(dǎo)權(quán)。

結(jié)語(yǔ)

我們距離創(chuàng)造出一個(gè)能夠獨(dú)立從事科學(xué)研究的“數(shù)字科學(xué)家”還有多遠(yuǎn)？《科學(xué)》這篇文章的結(jié)論或許可以給予我們啟發(fā)：這取決于我們的評(píng)估體系演進(jìn)得有多快。

當(dāng)我們不再僅僅以“考試成績(jī)”來(lái)衡量模型，而是以“邏輯嚴(yán)謹(jǐn)度”、“實(shí)驗(yàn)修正能力”和“跨學(xué)科泛化能力”為坐標(biāo)系時(shí)，我們不僅在篩選更好的工具，更是在重新定義科學(xué)本身。

在這個(gè)人機(jī)共進(jìn)的時(shí)代，衡量AI的過(guò)程，本質(zhì)上也是人類(lèi)在不斷審視自身如何理解自然界的過(guò)程。

https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science

Deep Science預(yù)印本

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.