網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Nature重磅：首個(gè)“AI科學(xué)家”的誕生！實(shí)現(xiàn)端到端自動(dòng)化科研，撰寫論文通過(guò)頂會(huì)同行評(píng)審

2026-03-26 11:26:22　來(lái)源: 生物世界

上海舉報(bào)

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

2024 年 8 月，Sakana AI 公司、不列顛哥倫比亞大學(xué)、牛津大學(xué)的研究人員組成的研究團(tuán)隊(duì)在預(yù)印本平臺(tái) arXiv 推出首個(gè)旨在全面自動(dòng)化科學(xué)流程的人工智能工具——“AI 科學(xué)家”（AI scientist），其能夠完成科學(xué)發(fā)現(xiàn)的整個(gè)周期——從提出想法到驗(yàn)證想法再到撰寫科學(xué)論文。

如今，一年多過(guò)去了，可供研究人員使用的 AI 研究助手種類繁多，其中一些也能夠像“AI 科學(xué)家”那樣進(jìn)行自主研究甚至撰寫科學(xué)論文。

而現(xiàn)在， “AI 科學(xué)家”再次完成了一個(gè)新壯舉——其完成了首個(gè)通過(guò)人類專家同行評(píng)審的完全 AI 生成論文，從研究想法、編寫代碼、運(yùn)行實(shí)驗(yàn)、繪制和分析數(shù)據(jù)，到撰寫完整的科學(xué)論文，均由“AI 科學(xué)家”自主完成。

2026 年 3 月 25 日，研究團(tuán)隊(duì)在國(guó)際頂尖學(xué)術(shù)期刊Nature上發(fā)表了題為：Towards end-to-end automation of AI research 的研究論文，更新了 2024 年的這篇描述“AI 科學(xué)家”的預(yù)印本論文，對(duì)其能力進(jìn)行了適度調(diào)整，進(jìn)一步展示了“AI 科學(xué)家”將生成的三篇原創(chuàng)研究論文提交給了一個(gè)頂級(jí)機(jī)器學(xué)習(xí)會(huì)議——國(guó)際學(xué)習(xí)表征會(huì)議（ICLR），其中一篇論文通過(guò)人類專家同行評(píng)審后被接收，且評(píng)分超過(guò)了該會(huì)議接收論文的平均值。

這一成就展示了 AI 在科學(xué)貢獻(xiàn)方面日益增強(qiáng)的能力，并預(yù)示著科學(xué)研究方式可能發(fā)生的范式轉(zhuǎn)變。研究團(tuán)隊(duì)表示，如果負(fù)責(zé)任地開發(fā)，“AI 科學(xué)家”等自主系統(tǒng)能夠極大地加速科學(xué)發(fā)現(xiàn)。

什么是“AI 科學(xué)家”？

“AI 科學(xué)家”是一個(gè)端到端自動(dòng)化科學(xué)研究全過(guò)程的 AI 系統(tǒng)，由一系列“智能體”（Agent）構(gòu)成，這些智能體建立在現(xiàn)有的大語(yǔ)言模型（LLM）之上（例如 GPT-4o 或 Claude Sonnet 4）。

它能夠自主完成從研究構(gòu)思到論文發(fā)表的整個(gè)科研生命周期，包括——

1、生成研究想法：在用戶指定的機(jī)器學(xué)習(xí)研究子領(lǐng)域中，迭代生成高水平的研究方向和假設(shè)；

2、執(zhí)行實(shí)驗(yàn)：編寫代碼、運(yùn)行實(shí)驗(yàn)、可視化結(jié)果；

3、撰寫論文：按照標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)會(huì)議論文格式，使用 LaTeX 模板逐節(jié)撰寫完整論文；

4、進(jìn)行同行評(píng)審：通過(guò)自動(dòng)評(píng)審系統(tǒng)評(píng)估論文的科學(xué)質(zhì)量。

這個(gè)“AI 科學(xué)家”有兩種工作模式：基于模板的模（使用人類提供的代碼模板作為起點(diǎn)）和模板自由的模式（完全自主生成代碼并進(jìn)行更廣泛的科學(xué)探索）。

“AI 科學(xué)家”工作流程

突破：AI 論文通過(guò)同行評(píng)審

為了驗(yàn)證“AI 科學(xué)家”的實(shí)際能力，研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)大膽的實(shí)驗(yàn)：將完全由“AI 科學(xué)家”生成的研究論文提交給國(guó)際學(xué)習(xí)表征會(huì)議（ICLR）的一個(gè)研討會(huì)進(jìn)行同行評(píng)審。ICLR 是由圖靈獎(jiǎng)得主Yoshua Bengio和楊立昆于 2013 年創(chuàng)立的深度學(xué)習(xí)領(lǐng)域?qū)W術(shù)會(huì)議，其與 NeurIPS、ICML 并稱為機(jī)器學(xué)習(xí)領(lǐng)域主要會(huì)議，在谷歌學(xué)術(shù)會(huì)議期刊排名中位列全球前十。

整個(gè)實(shí)驗(yàn)過(guò)程完全透明且符合倫理規(guī)范：

會(huì)議組織者事先知情并同意；
人類評(píng)審專家被告知有部分論文是 AI 生成的，但不知道具體是哪幾篇；
所有 AI 生成的論文在評(píng)審后都會(huì)被撤回，避免在科學(xué)界建立明確標(biāo)準(zhǔn)前設(shè)定先例。

結(jié)果令人震驚：“AI 科學(xué)家”提交的三篇 AI 生成論文中，有一篇獲得了人類評(píng)審專家的平均分 6.33 分（個(gè)人評(píng)分分別為 6、7、6），成為第一篇完全由 AI 生成并通過(guò)了標(biāo)準(zhǔn)的科學(xué)同行評(píng)審流程的研究論文，這一分?jǐn)?shù)超過(guò)了該研討會(huì)接收論文的平均分?jǐn)?shù)。這篇題為：Compositional regularization: Unexpected obstacles in enhancing neural network generalization（組合正則化：增強(qiáng)神經(jīng)網(wǎng)絡(luò)泛化能力中的意外障）的論文報(bào)告了一個(gè)負(fù)面結(jié)果，與研討會(huì)關(guān)注“有趣負(fù)面結(jié)果”的主題高度契合。

“AI 科學(xué)家”生成的一篇論文的精選部分，該論文已通過(guò)同行評(píng)審，在頂級(jí)機(jī)器學(xué)習(xí)會(huì)議的研討會(huì)上被接受

自動(dòng)評(píng)審系統(tǒng)：與人類評(píng)審者媲美

“AI 科學(xué)家”不僅能夠生成論文，還配備了“自動(dòng)評(píng)審器”來(lái)評(píng)估論文質(zhì)量。這個(gè)自動(dòng)評(píng)審系統(tǒng)的表現(xiàn)如何？

根據(jù)論文中的對(duì)比數(shù)據(jù)，自動(dòng)評(píng)審器在關(guān)鍵指標(biāo)上與人類評(píng)審者表現(xiàn)相當(dāng)甚至更優(yōu)：

平衡準(zhǔn)確率：自動(dòng)評(píng)審器 69% vs 人類評(píng)審者 66%；
F1 分?jǐn)?shù)：自動(dòng)評(píng)審器 0.62 vs 人類評(píng)審者 0.49；
曲線下面積（AUC）：自動(dòng)評(píng)審器 0.69 vs 人類評(píng)審者 0.65。

即使在訓(xùn)練數(shù)據(jù)截止日期后的 2025 年的新論文上，自動(dòng)評(píng)審器仍保持 66% 的平衡準(zhǔn)確率，與人類評(píng)審者水平相當(dāng)。

系統(tǒng)工作原理：四階段科研流程

“AI 科學(xué)家”按照四個(gè)主要階段順序工作——

第一階段：想法生成與篩選，系統(tǒng)迭代生成研究想法檔案，為每個(gè)方向生成描述性標(biāo)題、研究理由和實(shí)驗(yàn)計(jì)劃。然后通過(guò)連接語(yǔ)義學(xué)者API和網(wǎng)絡(luò)訪問(wèn)工具，篩選掉與現(xiàn)有文獻(xiàn)過(guò)于相似的想法。

第二階段：實(shí)驗(yàn)執(zhí)行與可視化，系統(tǒng)執(zhí)行提出的實(shí)驗(yàn)計(jì)劃，可視化結(jié)果，并為后續(xù)寫作做好筆記記錄。在模板自由模式下，系統(tǒng)會(huì)從零開始生成代碼，并通過(guò)樹搜索優(yōu)化實(shí)驗(yàn)執(zhí)行。

第三階段：論文撰寫，系統(tǒng)使用筆記和圖表，按照會(huì)議論文模板逐節(jié)填充內(nèi)容，通過(guò)查詢獲取相關(guān)文獻(xiàn)，并在 20 輪比較中為論文添加適當(dāng)引用。

第四階段：自動(dòng)評(píng)審，生成的論文由自動(dòng)評(píng)審系統(tǒng)評(píng)估，提供數(shù)值評(píng)分、優(yōu)缺點(diǎn)列表和接受/拒絕的二元決策。

“AI 科學(xué)家”工作的四個(gè)階段

意義與局限：科學(xué)研究的范式轉(zhuǎn)變

這項(xiàng)研究的成功標(biāo)志著 AI 在科學(xué)貢獻(xiàn)能力上的重大進(jìn)步，可能預(yù)示著科學(xué)研究方式的范式轉(zhuǎn)變。如果負(fù)責(zé)任地開發(fā)，這種自主系統(tǒng)可以極大地加速科學(xué)發(fā)現(xiàn)。

當(dāng)然，研究團(tuán)隊(duì)也坦誠(chéng)指出了當(dāng)前系統(tǒng)的局限性：三篇提交論文中只有一篇被接受，且研討會(huì)接受率（70%）遠(yuǎn)高于主會(huì)議（32%）；提交的論文尚不能達(dá)到頂尖論文的標(biāo)準(zhǔn)；常見失敗模式包括想法幼稚、實(shí)現(xiàn)錯(cuò)誤、方法嚴(yán)謹(jǐn)性不足、實(shí)驗(yàn)錯(cuò)誤和多種類型的幻覺(jué)。

未來(lái)展望與倫理考量

隨著 AI 系統(tǒng)能力的指數(shù)級(jí)增長(zhǎng)和成本的指數(shù)級(jí)下降，“AI 科學(xué)家”的性能有望大幅提升。未來(lái)，同樣的方法可以應(yīng)用于其他科學(xué)領(lǐng)域，例如自動(dòng)化化學(xué)實(shí)驗(yàn)室。

然而，自動(dòng)化論文生成能力也帶來(lái)了重要的倫理和社會(huì)關(guān)切——可能壓垮同行評(píng)審系統(tǒng)、人為夸大研究資歷、未經(jīng)適當(dāng)認(rèn)可地挪用他人想法、消除科學(xué)家工作崗位、進(jìn)行不道德或危險(xiǎn)的實(shí)驗(yàn)等等。

研究團(tuán)隊(duì)強(qiáng)調(diào)，在科學(xué)界建立明確的披露和評(píng)估標(biāo)準(zhǔn)前，需要謹(jǐn)慎推進(jìn)這類 AI 系統(tǒng)的應(yīng)用，確保它們被用于促進(jìn)而非破壞科學(xué)誠(chéng)信。

“AI 科學(xué)家”生成并通過(guò)同行評(píng)審的論文，是 AI 發(fā)展史上的一個(gè)重要里程碑。它不僅是技術(shù)能力的展示，更是對(duì)傳統(tǒng)科研模式的深刻挑戰(zhàn)。當(dāng) AI 開始涉足人類智慧的最高殿堂——科學(xué)發(fā)現(xiàn)時(shí)，我們既看到了加速進(jìn)步的巨大潛力，也面臨著重新定義科研倫理邊界的緊迫任務(wù)。

論文鏈接：

https://www.nature.com/articles/s41586-026-10265-5

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.