撰文丨王聰
編輯丨王多魚
排版丨水成文
2024 年 8 月,Sakana AI 公司、不列顛哥倫比亞大學(xué)、牛津大學(xué)的研究人員組成的研究團(tuán)隊(duì)在預(yù)印本平臺(tái) arXiv 推出首個(gè)旨在全面自動(dòng)化科學(xué)流程的人工智能工具——“AI 科學(xué)家”(AI scientist),其能夠完成科學(xué)發(fā)現(xiàn)的整個(gè)周期——從提出想法到驗(yàn)證想法再到撰寫科學(xué)論文。
如今,一年多過(guò)去了,可供研究人員使用的 AI 研究助手種類繁多,其中一些也能夠像“AI 科學(xué)家”那樣進(jìn)行自主研究甚至撰寫科學(xué)論文。
而現(xiàn)在, “AI 科學(xué)家”再次完成了一個(gè)新壯舉——其完成了首個(gè)通過(guò)人類專家同行評(píng)審的完全 AI 生成論文 ,從 研究想法、編寫代碼、運(yùn)行實(shí)驗(yàn)、繪制和分析數(shù)據(jù),到撰寫完整的科學(xué)論文,均由“AI 科學(xué)家”自主完成。
2026 年 3 月 25 日,研究團(tuán)隊(duì)在國(guó)際頂尖學(xué)術(shù)期刊Nature上發(fā)表了題為:Towards end-to-end automation of AI research 的研究論文,更新了 2024 年的這篇描述“AI 科學(xué)家”的預(yù)印本論文,對(duì)其能力進(jìn)行了適度調(diào)整,進(jìn)一步展示了“AI 科學(xué)家”將生成的三篇原創(chuàng)研究論文提交給了一個(gè)頂級(jí)機(jī)器學(xué)習(xí)會(huì)議——國(guó)際學(xué)習(xí)表征會(huì)議(ICLR),其中一篇論文通過(guò)人類專家同行評(píng)審后被接收,且評(píng)分超過(guò)了該會(huì)議接收論文的平均值。
這一成就展示了 AI 在科學(xué)貢獻(xiàn)方面日益增強(qiáng)的能力,并預(yù)示著科學(xué)研究方式可能發(fā)生的范式轉(zhuǎn)變。研究團(tuán)隊(duì)表示,如果負(fù)責(zé)任地開發(fā),“AI 科學(xué)家”等自主系統(tǒng)能夠極大地加速科學(xué)發(fā)現(xiàn)。
![]()
什么是“AI 科學(xué)家”?
“AI 科學(xué)家”是一個(gè)端到端自動(dòng)化科學(xué)研究全過(guò)程的 AI 系統(tǒng),由一系列“智能體”(Agent)構(gòu)成,這些智能體建立在現(xiàn)有的大語(yǔ)言模型(LLM)之上(例如 GPT-4o 或 Claude Sonnet 4)。
它能夠自主完成從研究構(gòu)思到論文發(fā)表的整個(gè)科研生命周期,包括——
1、生成研究想法:在用戶指定的機(jī)器學(xué)習(xí)研究子領(lǐng)域中,迭代生成高水平的研究方向和假設(shè);
2、執(zhí)行實(shí)驗(yàn):編寫代碼、運(yùn)行實(shí)驗(yàn)、可視化結(jié)果;
3、撰寫論文:按照標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)會(huì)議論文格式,使用 LaTeX 模板逐節(jié)撰寫完整論文;
4、進(jìn)行同行評(píng)審:通過(guò)自動(dòng)評(píng)審系統(tǒng)評(píng)估論文的科學(xué)質(zhì)量。
這個(gè)“AI 科學(xué)家”有兩種工作模式:基于模板的模(使用人類提供的代碼模板作為起點(diǎn))和模板自由的模式(完全自主生成代碼并進(jìn)行更廣泛的科學(xué)探索)。
![]()
“AI 科學(xué)家”工作流程
突破:AI 論文通過(guò)同行評(píng)審
為了驗(yàn)證“AI 科學(xué)家”的實(shí)際能力,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)大膽的實(shí)驗(yàn):將完全由“AI 科學(xué)家”生成的研究論文提交給國(guó)際學(xué)習(xí)表征會(huì)議(ICLR)的一個(gè)研討會(huì)進(jìn)行同行評(píng)審。ICLR 是由圖靈獎(jiǎng)得主Yoshua Bengio和楊立昆于 2013 年創(chuàng)立的深度學(xué)習(xí)領(lǐng)域?qū)W術(shù)會(huì)議,其與 NeurIPS、ICML 并稱為機(jī)器學(xué)習(xí)領(lǐng)域主要會(huì)議,在谷歌學(xué)術(shù)會(huì)議期刊排名中位列全球前十。
整個(gè)實(shí)驗(yàn)過(guò)程完全透明且符合倫理規(guī)范:
會(huì)議組織者事先知情并同意;
人類評(píng)審專家被告知有部分論文是 AI 生成的,但不知道具體是哪幾篇;
所有 AI 生成的論文在評(píng)審后都會(huì)被撤回,避免在科學(xué)界建立明確標(biāo)準(zhǔn)前設(shè)定先例。
結(jié)果令人震驚:“AI 科學(xué)家”提交的三篇 AI 生成論文中,有一篇獲得了人類評(píng)審專家的平均分 6.33 分(個(gè)人評(píng)分分別為 6、7、6),成為第一篇完全由 AI 生成并通過(guò)了標(biāo)準(zhǔn)的科學(xué)同行評(píng)審流程的研究論文,這一分?jǐn)?shù)超過(guò)了該研討會(huì)接收論文的平均分?jǐn)?shù)。這篇題為:Compositional regularization: Unexpected obstacles in enhancing neural network generalization(組合正則化:增強(qiáng)神經(jīng)網(wǎng)絡(luò)泛化能力中的意外障)的論文報(bào)告了一個(gè)負(fù)面結(jié)果,與研討會(huì)關(guān)注“有趣負(fù)面結(jié)果”的主題高度契合。
![]()
“AI 科學(xué)家”生成的一篇論文的精選部分,該論文已通過(guò)同行評(píng)審,在頂級(jí)機(jī)器學(xué)習(xí)會(huì)議的研討會(huì)上被接受
自動(dòng)評(píng)審系統(tǒng):與人類評(píng)審者媲美
“AI 科學(xué)家”不僅能夠生成論文,還配備了“自動(dòng)評(píng)審器”來(lái)評(píng)估論文質(zhì)量。這個(gè)自動(dòng)評(píng)審系統(tǒng)的表現(xiàn)如何?
根據(jù)論文中的對(duì)比數(shù)據(jù),自動(dòng)評(píng)審器在關(guān)鍵指標(biāo)上與人類評(píng)審者表現(xiàn)相當(dāng)甚至更優(yōu):
平衡準(zhǔn)確率:自動(dòng)評(píng)審器 69% vs 人類評(píng)審者 66%;
F1 分?jǐn)?shù):自動(dòng)評(píng)審器 0.62 vs 人類評(píng)審者 0.49;
曲線下面積(AUC):自動(dòng)評(píng)審器 0.69 vs 人類評(píng)審者 0.65。
即使在訓(xùn)練數(shù)據(jù)截止日期后的 2025 年的新論文上,自動(dòng)評(píng)審器仍保持 66% 的平衡準(zhǔn)確率,與人類評(píng)審者水平相當(dāng)。
系統(tǒng)工作原理:四階段科研流程
“AI 科學(xué)家”按照四個(gè)主要階段順序工作——
第一階段:想法生成與篩選,系統(tǒng)迭代生成研究想法檔案,為每個(gè)方向生成描述性標(biāo)題、研究理由和實(shí)驗(yàn)計(jì)劃。然后通過(guò)連接語(yǔ)義學(xué)者API和網(wǎng)絡(luò)訪問(wèn)工具,篩選掉與現(xiàn)有文獻(xiàn)過(guò)于相似的想法。
第二階段:實(shí)驗(yàn)執(zhí)行與可視化,系統(tǒng)執(zhí)行提出的實(shí)驗(yàn)計(jì)劃,可視化結(jié)果,并為后續(xù)寫作做好筆記記錄。在模板自由模式下,系統(tǒng)會(huì)從零開始生成代碼,并通過(guò)樹搜索優(yōu)化實(shí)驗(yàn)執(zhí)行。
第三階段:論文撰寫,系統(tǒng)使用筆記和圖表,按照會(huì)議論文模板逐節(jié)填充內(nèi)容,通過(guò)查詢獲取相關(guān)文獻(xiàn),并在 20 輪比較中為論文添加適當(dāng)引用。
第四階段:自動(dòng)評(píng)審,生成的論文由自動(dòng)評(píng)審系統(tǒng)評(píng)估,提供數(shù)值評(píng)分、優(yōu)缺點(diǎn)列表和接受/拒絕的二元決策。
![]()
“AI 科學(xué)家”工作的四個(gè)階段
意義與局限:科學(xué)研究的范式轉(zhuǎn)變
這項(xiàng)研究的成功標(biāo)志著 AI 在科學(xué)貢獻(xiàn)能力上的重大進(jìn)步,可能預(yù)示著科學(xué)研究方式的范式轉(zhuǎn)變。如果負(fù)責(zé)任地開發(fā),這種自主系統(tǒng)可以極大地加速科學(xué)發(fā)現(xiàn)。
當(dāng)然,研究團(tuán)隊(duì)也坦誠(chéng)指出了當(dāng)前系統(tǒng)的局限性:三篇提交論文中只有一篇被接受,且研討會(huì)接受率(70%)遠(yuǎn)高于主會(huì)議(32%);提交的論文尚不能達(dá)到頂尖論文的標(biāo)準(zhǔn);常見失敗模式包括想法幼稚、實(shí)現(xiàn)錯(cuò)誤、方法嚴(yán)謹(jǐn)性不足、實(shí)驗(yàn)錯(cuò)誤和多種類型的幻覺(jué)。
未來(lái)展望與倫理考量
隨著 AI 系統(tǒng)能力的指數(shù)級(jí)增長(zhǎng)和成本的指數(shù)級(jí)下降,“AI 科學(xué)家”的性能有望大幅提升。未來(lái),同樣的方法可以應(yīng)用于其他科學(xué)領(lǐng)域,例如自動(dòng)化化學(xué)實(shí)驗(yàn)室。
然而,自動(dòng)化論文生成能力也帶來(lái)了重要的倫理和社會(huì)關(guān)切——可能壓垮同行評(píng)審系統(tǒng)、人為夸大研究資歷、未經(jīng)適當(dāng)認(rèn)可地挪用他人想法、消除科學(xué)家工作崗位、進(jìn)行不道德或危險(xiǎn)的實(shí)驗(yàn)等等。
研究團(tuán)隊(duì)強(qiáng)調(diào),在科學(xué)界建立明確的披露和評(píng)估標(biāo)準(zhǔn)前,需要謹(jǐn)慎推進(jìn)這類 AI 系統(tǒng)的應(yīng)用,確保它們被用于促進(jìn)而非破壞科學(xué)誠(chéng)信。
“AI 科學(xué)家”生成并通過(guò)同行評(píng)審的論文,是 AI 發(fā)展史上的一個(gè)重要里程碑。它不僅是技術(shù)能力的展示,更是對(duì)傳統(tǒng)科研模式的深刻挑戰(zhàn)。當(dāng) AI 開始涉足人類智慧的最高殿堂——科學(xué)發(fā)現(xiàn)時(shí),我們既看到了加速進(jìn)步的巨大潛力,也面臨著重新定義科研倫理邊界的緊迫任務(wù)。
論文鏈接:
https://www.nature.com/articles/s41586-026-10265-5
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.