![]()
導(dǎo)語(yǔ)
人工智能(AI)的發(fā)展加速了科學(xué)發(fā)現(xiàn)。伴隨著近期授予 AI 相關(guān)研究的諾貝爾獎(jiǎng),這些趨勢(shì)確立了 AI 工具在科學(xué)中的作用。這一進(jìn)步引發(fā)了關(guān)于 AI 工具對(duì)科學(xué)家及科學(xué)整體影響的疑問(wèn),并凸顯了個(gè)人利益與集體利益之間潛在的沖突。
為了評(píng)估這些問(wèn)題,近日,清華大學(xué)電子工程系李勇教授團(tuán)隊(duì)發(fā)表于 nature 的文章利用預(yù)訓(xùn)練語(yǔ)言模型識(shí)別AI賦能的科學(xué)研究(AI for Science),發(fā)現(xiàn) AI 工具顯著提升了科學(xué)家個(gè)人的產(chǎn)出和影響力,加速了職業(yè)晉升,但同時(shí)也導(dǎo)致了科學(xué)界整體關(guān)注焦點(diǎn)的收縮和多樣性的減少。
在文章最后,我們對(duì)比了分別發(fā)表于 Science(詳見集智俱樂(lè)部《》)和 Nature 的兩項(xiàng)研究。它們并非給出相互對(duì)立的判斷,而是從科研流程的不同環(huán)節(jié)切入,揭示了同一場(chǎng)變革的兩面性:大語(yǔ)言模型一方面拓寬了科學(xué)家的閱讀與連接范圍,另一方面卻可能收緊科學(xué)發(fā)現(xiàn)的實(shí)際路徑。合在一起,這些發(fā)現(xiàn)共同勾勒出一個(gè)耐人尋味的圖景——科學(xué)家讀得更廣,卻做得更窄。
關(guān)鍵詞:人工智能,科學(xué)計(jì)量學(xué),科研生產(chǎn)力,馬太效應(yīng)
任筱芃丨作者
趙思怡丨審校
![]()
論文題目:Artificial intelligence tools expand scientists’ impact but contract science’s focus 論文鏈接:https://doi.org/10.1038/s41586-025-09922-y 發(fā)表時(shí)間:2026年1月14日 論文來(lái)源:nature
研究背景與問(wèn)題
AI 作為“雙刃劍”
AI 已深度融入知識(shí)生產(chǎn)過(guò)程,如 AlphaFold 預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)等突破性成果展示了其巨大潛力。然而,AI 工具對(duì)科學(xué)家和科學(xué)整體特征的影響尚不完全清楚。盡管現(xiàn)有研究表明 AI 為科學(xué)家?guī)?lái)了個(gè)人利益,但也引發(fā)了對(duì)科學(xué)領(lǐng)域馬太效應(yīng)和引用模式變化的擔(dān)憂。
核心研究問(wèn)題
該研究基于 OpenAlex 數(shù)據(jù)庫(kù)中 1980 年至 2025 年間的 4130 萬(wàn)篇 自然科學(xué)論文(涵蓋生物學(xué)、化學(xué)、物理學(xué)等六大基礎(chǔ)學(xué)科),利用微調(diào)的 BERT 模型識(shí)別 AI 輔助的研究,旨在回答以下問(wèn)題:
個(gè)體生產(chǎn)力:采用 AI 工具如何影響科學(xué)家的產(chǎn)出、引用和職業(yè)生涯?
集體生產(chǎn)關(guān)系:AI 的廣泛應(yīng)用是否改變了科學(xué)探索的廣度和多樣性?
機(jī)制探究:這種新的個(gè)體與集體之間的張力是如何產(chǎn)生的?
主要研究發(fā)現(xiàn)
個(gè)體層面的“buff”
![]()
圖1:AI 擴(kuò)大了論文影響力并促進(jìn)了研究人員的職業(yè)生涯。a, AI 論文(紅色)與非 AI 論文(藍(lán)色)發(fā)表后的平均年引用次數(shù)(插圖顯示了前 1% 和前 10% 的情況;樣本量 n = 27,405,011),結(jié)果顯示 AI 論文吸引了更多引用。b, 使用 AI 的研究人員與未使用 AI 的同行(對(duì)照組)的平均年引用次數(shù)(P < 0.001,樣本量 n = 5,377,346),其中采用 AI 的研究人員獲得的引用次數(shù)是未采用者的 4.84 倍。c, 采用 AI 的初級(jí)科學(xué)家與未采用 AI 的同行之間兩種角色轉(zhuǎn)變的概率(每個(gè)領(lǐng)域 n = 46 年的觀測(cè)值)。與未采用 AI 的同行相比,采用 AI 的初級(jí)科學(xué)家成為知名研究者(established researchers,即項(xiàng)目負(fù)責(zé)人)的概率更高,而退出學(xué)術(shù)界的概率更低。d, 從初級(jí)科學(xué)家向既定研究者轉(zhuǎn)變的生存函數(shù)(P < 0.001,樣本量 n = 2,282,029)。生存函數(shù)可以很好地用指數(shù)分布擬合,結(jié)果表明采用 AI 的初級(jí)科學(xué)家更早成為既定研究者。對(duì)于所有面板,99% 置信區(qū)間(CIs)均以誤差條形式顯示,其中圖 a 的插圖以 1% 和 10% 分位數(shù)為中心,其他子圖以均值為中心。所有統(tǒng)計(jì)檢驗(yàn)均使用雙側(cè) t 檢驗(yàn)
從事 AI 增強(qiáng)研究的科學(xué)家,其發(fā)表論文數(shù)量是未使用 AI 同行的 3.02 倍,獲得的引用次數(shù)更是高達(dá) 4.84 倍。這種優(yōu)勢(shì)在控制了早期職業(yè)地位后依然存在,表明 AI 本身就是造成差異的重要因素。
AI 的使用加速了初級(jí)科學(xué)家向既定研究者(項(xiàng)目負(fù)責(zé)人)的轉(zhuǎn)變。采用 AI 的初級(jí)科學(xué)家成為項(xiàng)目負(fù)責(zé)人的時(shí)間比同行平均縮短了 1.37 年,且不僅增加了晉升概率(高出 13.64%),還降低了退出學(xué)術(shù)界的風(fēng)險(xiǎn)。
![]()
圖2: AI 研究與研究團(tuán)隊(duì)規(guī)模的縮小有關(guān),平均減少了 1.33 名科學(xué)家(P < 0.001,樣本量 n = 33,528,469)。具體而言,初級(jí)科學(xué)家(junior scientists)的平均數(shù)量從非 AI 團(tuán)隊(duì)的 2.89 人減少至 AI 團(tuán)隊(duì)的 1.99 人(降幅 31.14%),而既定科學(xué)家(established scientists)的數(shù)量從 4.01 人減少至 3.58 人(降幅 10.77%)。
需要注意的是 AI 輔助的研究團(tuán)隊(duì)規(guī)模通常更小,平均減少了 1.33 名成員,且主要減少的是初級(jí)科學(xué)家。這暗示 AI 可能正在替代部分初級(jí)研究人員的數(shù)據(jù)處理和模式識(shí)別工作。
集體層面的收縮視野
然而,個(gè)體層面的繁榮背后,隱藏著科學(xué)探索整體視野的狹窄化。
研究引入了“知識(shí)廣度”(Knowledge Extent)這一指標(biāo),即論文集合在向量空間覆蓋的“直徑”。結(jié)果顯示,與傳統(tǒng)研究相比,AI 驅(qū)動(dòng)的研究在所有學(xué)科中都導(dǎo)致了集體知識(shí)廣度的收縮,中位數(shù)下降了 4.63%。
AI 研究的知識(shí)分布熵值更低,表明研究焦點(diǎn)日益不成比例地集中在特定領(lǐng)域的現(xiàn)有熱門問(wèn)題上,而非探索新的領(lǐng)域。
![]()
圖3:AI 的采用與科學(xué)領(lǐng)域內(nèi)外知識(shí)程度的收縮有關(guān)。a,研究團(tuán)隊(duì)使用預(yù)訓(xùn)練的文本嵌入模型將研究論文嵌入 768 維向量空間;然后測(cè)量該空間內(nèi)論文的知識(shí)程度。b,為了可視化,研究團(tuán)隊(duì)使用 t 分布隨機(jī)鄰域嵌入 (t-SNE) 算法將隨機(jī)批次 10,000 篇論文 (其中一半是 AI 論文) 的高維嵌入平鋪到二維圖中。如實(shí)心箭頭和圓形邊界所示,在整個(gè)自然科學(xué)領(lǐng)域,AI 論文的知識(shí)程度 (在未平鋪的空間中計(jì)算) 較小。此外,AI 論文在知識(shí)空間中更加集中,表明對(duì)特定問(wèn)題的關(guān)注更加集中。c,每個(gè)領(lǐng)域中 AI 和非 AI 論文的知識(shí)程度 (P<0.001,每個(gè)領(lǐng)域中 n = 1,000 個(gè)樣本),其中 AI 研究側(cè)重于更加收縮的知識(shí)空間。d,每個(gè)領(lǐng)域人工智能和非人工智能論文的知識(shí)熵 (P<0.001,每個(gè)領(lǐng)域 n = 1,000 個(gè)樣本),其中人工智能研究的熵較低。對(duì)于面板 c 和 d,方框圖以中位數(shù)為中心,以第一和第三四分位數(shù) (Q1 和 Q3) 為界。所有統(tǒng)計(jì)檢驗(yàn)都使用中位數(shù)檢驗(yàn)。
如圖 3 所示,在嵌入向量空間的可視化中,AI 論文(紅色點(diǎn))相比非 AI 論文(藍(lán)色點(diǎn))在知識(shí)空間上的分布更為聚集,覆蓋范圍更小。這意味著 AI 正引導(dǎo)科學(xué)界在“已知”的數(shù)據(jù)豐富區(qū)域深耕,而非向“未知”的邊緣拓展。
互動(dòng)的減少與焦點(diǎn)的固化
為何 AI 會(huì)導(dǎo)致科學(xué)關(guān)注點(diǎn)的收縮?研究揭示了深層的互動(dòng)機(jī)制變化。
研究分析了引用同一篇 AI 論文的后續(xù)論文之間的關(guān)系,發(fā)現(xiàn)它們彼此引用的頻率比非 AI 領(lǐng)域低了22%。這表明 AI 研究往往形成圍繞特定熱門成果的“星狀結(jié)構(gòu)”,而非相互交織的“網(wǎng)絡(luò)結(jié)構(gòu)”。AI 論文引發(fā)的后續(xù)研究更像是“孤獨(dú)的群體”,彼此缺乏對(duì)話。
![]()
圖4:AI 與非 AI 論文的引用分布情況。AI 論文往往更多地集中在少數(shù)頂尖論文上(P < 0.001,n = 100 個(gè)采樣論文組),表現(xiàn)出更強(qiáng)的馬太效應(yīng)。
AI 領(lǐng)域的引用分布極不均衡。前22.20%的頂尖論文占據(jù)了80%的引用量,其基尼系數(shù)(0.754)顯著高于非 AI 論文(0.690)。這種符合“二八定律”的局面進(jìn)一步強(qiáng)化了對(duì)少數(shù)熱門主題的關(guān)注。
分析顯示,數(shù)據(jù)可用性是 AI 選題的主要驅(qū)動(dòng)因素。AI 傾向于涌向那些數(shù)據(jù)最豐富的領(lǐng)域,從而導(dǎo)致知識(shí)空間的集中,而那些缺乏數(shù)據(jù)的基礎(chǔ)性或新興問(wèn)題則可能被邊緣化。
討論與啟示
這項(xiàng)研究揭示了一個(gè)加速后的兩難。AI 既是科學(xué)家個(gè)人成功的加速器,也可能是科學(xué)集體探索的減速帶。
科學(xué)家為了追求更高的產(chǎn)出和影響力,有強(qiáng)烈的動(dòng)力采用 AI。然而,這種微觀上的理性選擇,在宏觀上卻導(dǎo)致了科學(xué)界扎堆解決已知問(wèn)題,甚至是在重復(fù)性地優(yōu)化現(xiàn)有方案,而非開辟新天地。
這一發(fā)現(xiàn)對(duì)科學(xué)政策提出了挑戰(zhàn)。僅僅增加對(duì) AI 科研的資助可能會(huì)加劇“富數(shù)據(jù)”領(lǐng)域的擁擠,而忽視那些數(shù)據(jù)稀缺但至關(guān)重要的基礎(chǔ)問(wèn)題。
為了保持科學(xué)探索的多樣性,至少未來(lái)的 AI 系統(tǒng)不應(yīng)僅局限于認(rèn)知能力的增強(qiáng)(如數(shù)據(jù)分析),更需要擴(kuò)展“感知和實(shí)驗(yàn)”能力(Sensory and experimental capacity)。我們需要能幫助科學(xué)家收集新數(shù)據(jù)、探索未知領(lǐng)域的 AI,而不僅僅是處理現(xiàn)有數(shù)據(jù)的 AI。
該研究的局限性
研究團(tuán)隊(duì)指出了本工作的幾個(gè)局限性,需要予以考量:
識(shí)別方法的局限:使用的 BERT 模型雖然經(jīng)過(guò)專家驗(yàn)證,但可能遺漏了一些微妙或未在摘要中明確提及的 AI 使用情況
樣本范圍:研究聚焦于自然科學(xué),排除了計(jì)算機(jī)科學(xué)和數(shù)學(xué)(AI 方法的誕生地),也未包含社會(huì)科學(xué)等領(lǐng)域,這可能限制了結(jié)論的普適性。
因果關(guān)系的復(fù)雜性:盡管使用了對(duì)照分析,但難以完全確定 AI 采用與科學(xué)影響之間的嚴(yán)格因果鏈條,且目前主要反映的是基于數(shù)據(jù)處理和模式識(shí)別的 AI 應(yīng)用(如機(jī)器學(xué)習(xí)、深度學(xué)習(xí)),對(duì)新式 AI 的長(zhǎng)期影響分析顯然處于初步階段
AI 正在以前所未有的速度重塑科學(xué)界。它讓科學(xué)家跑得更快,但也可能讓我們跑在同一條擁擠的跑道上。如何在利用 AI 提升效率的同時(shí)保持科學(xué)探索的廣度與好奇心,是該團(tuán)隊(duì)認(rèn)為的未來(lái)科學(xué)發(fā)展的關(guān)鍵命題。
AI 黑箱或許在促進(jìn)個(gè)體的認(rèn)知擴(kuò)張的同時(shí)
也導(dǎo)致了集體的行動(dòng)收縮
結(jié)合集智俱樂(lè)部昨日解讀Science 論文 (Kusumegi et al., 2025,詳情請(qǐng)見《》),我們會(huì)發(fā)現(xiàn)我們似乎面臨一個(gè)悖論:
? Science:LLM 讓科學(xué)家引用了更多跨學(xué)科、跨文化、更老或更新的文獻(xiàn),似乎拓寬了視野。
? nature:AI 工具(主要是 ML/DL)導(dǎo)致科學(xué)探索的視野收縮。
這并非立場(chǎng)的沖突,而是通過(guò)不同的切面拼湊出了完整的科研圖景——現(xiàn)在我們讀得更廣,做得更窄。
LLM 作為輔助工具,確實(shí)幫助我們跨越了語(yǔ)言和閱讀障礙,讓我們能“看到”——至于人是否真的看了我們無(wú)從得知——更多的東西。但是,當(dāng)涉及到核心的科學(xué)發(fā)現(xiàn)環(huán)節(jié)時(shí),算法的本質(zhì)鼓勵(lì)了我們只能去那些有數(shù)據(jù)富集的領(lǐng)域,導(dǎo)致我們的原型(archetype)選擇變得擁擠和趨同。
對(duì)于黑箱以外的觀察是信息攝入(Input)變寬了,但我們的知識(shí)生產(chǎn)(Output)變窄了。所以現(xiàn)在的局面就變成了一種很微妙的反向約束。AI 在閱讀端幫我們打破了壁壘;但在生產(chǎn)端,其“數(shù)據(jù)饑渴”的屬性又把我們按回了那些最擁擠的熟地里。這里有一個(gè)案例:MOSAIC(Multiple Optimized Specialists for AI-assisted Chemical Prediction)基于 Llama-3.1-8B-instruct 架構(gòu)構(gòu)建,通過(guò)在 Voronoi 聚類空間中訓(xùn)練 2498 個(gè)專業(yè)化學(xué)專家模型,為復(fù)雜合成提供具有置信度指標(biāo)的可復(fù)現(xiàn)、可執(zhí)行的實(shí)驗(yàn)方案。(Li et al., 2026, p. 1) 然而,MOSAIC 的運(yùn)作機(jī)制也恰恰印證了 Nature 論文所指出的隱憂。MOSAIC 之所以強(qiáng)大,是因?yàn)橛袛?shù)百萬(wàn)反應(yīng)方案的既有數(shù)據(jù)供其挖掘。這種基于海量歷史數(shù)據(jù)訓(xùn)練出來(lái)的專家混合模型,本質(zhì)上是在“自動(dòng)化既有領(lǐng)域(automate established fields)”(Hao et al., 2026),在已知的數(shù)據(jù)空間里進(jìn)行極致的優(yōu)化和預(yù)測(cè)。
與其說(shuō)是 AI 限制了我們,不如說(shuō)是我們?yōu)榱俗非蟀l(fā)表效率,主動(dòng)選擇了去摘那些 AI 夠得著的低垂果實(shí),即使是以一種極其繁復(fù)的手段。結(jié)果就是大家方法越來(lái)越花哨,做出來(lái)的東西卻越來(lái)越像。未來(lái)的挑戰(zhàn)之一可能不在于怎么用 AI 分析數(shù)據(jù),而在于怎么用 AI 去那些沒(méi)有數(shù)據(jù)的地方“感知”出新數(shù)據(jù)來(lái)。
論文作者:
參考文獻(xiàn)
Hao, Q., Xu, F., Li, Y., & Evans, J. (2026). Artificial intelligence tools expand scientists’ impact but contract science’s focus. Nature. https://doi.org/10.1038/s41586-025-09922-y
Kusumegi, K., Yang, X., Ginsparg, P., de Vaan, M., Stuart, T., & Yin, Y. (2025). Scientific production in the era of large language models. Science, 390(6779), 1240–1243. https://doi.org/10.1126/science.adw3000
Li, H., Sarkar, S., Lu, W., Loftus, P. O., Qiu, T., Shee, Y., Cuomo, A. E., Webster, J.-P., Kelly, H. R., Manee, V., Sreekumar, S., Buono, F. G., Crabtree, R. H., Newhouse, T. R., & Batista, V. S. (2026). Collective intelligence for AI-assisted chemical synthesis. Nature, 1–3. https://doi.org/10.1038/s41586-026-10131-4
AI+Science 讀書會(huì)
AI+Science 是近年興起的將人工智能和科學(xué)相結(jié)合的一種趨勢(shì)。 一方面是 AI for Science,機(jī)器學(xué)習(xí)和其他 AI 技術(shù)可以用來(lái)解決科學(xué)研究中的問(wèn)題,從預(yù)測(cè)天氣和蛋白質(zhì)結(jié)構(gòu),到模擬星系碰撞、設(shè)計(jì)優(yōu)化核聚變反應(yīng)堆,甚至像科學(xué)家一樣進(jìn)行科學(xué)發(fā)現(xiàn),被稱為科學(xué)發(fā)現(xiàn)的“第五范式”。 另一方面是 Science for AI,科學(xué)尤其是物理學(xué)中的規(guī)律和思想啟發(fā)機(jī)器學(xué)習(xí)理論,為人工智能的發(fā)展提供全新的視角和方法。
集智俱樂(lè)部聯(lián)合斯坦福大學(xué)計(jì)算機(jī)科學(xué)系博士后研究員吳泰霖(Jure Leskovec 教授指導(dǎo))、哈佛量子計(jì)劃研究員扈鴻業(yè)、麻省理工學(xué)院物理系博士生劉子鳴(Max Tegmark 教授指導(dǎo)),共同發(fā)起以”為主題的讀書會(huì),探討該領(lǐng)域的重要問(wèn)題,共學(xué)共研相關(guān)文獻(xiàn)。 讀書會(huì)已完結(jié),現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。
詳情請(qǐng)見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.