<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      大變天?Nature 報(bào)道科研邁向AI自動(dòng)化:從研究構(gòu)思到通過盲審

      0
      分享至


      認(rèn)知神經(jīng)科學(xué)前沿文獻(xiàn)分享


      基本信息

      Title:Towards end-to-end automation of AI research

      發(fā)表時(shí)間:2026-03-25

      發(fā)表期刊:Nature

      影響因子:48.5

      獲取原文:

      1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本



      研究背景

      過去幾年,AI在科研中的角色不斷擴(kuò)張,但多數(shù)停留在查文獻(xiàn)、寫代碼、提假設(shè)等單點(diǎn)輔助上。真正困難的問題是:模型能否將一個(gè)研究想法推進(jìn)成完整實(shí)驗(yàn),再把實(shí)驗(yàn)結(jié)果整理成論文,并最終通過同行評議的檢驗(yàn)?

      這篇《Nature》論文探討的正是這一關(guān)鍵缺口:是否可以構(gòu)建一個(gè)基于基礎(chǔ)模型(foundation models)的代理式系統(tǒng)(agentic system),端到端自動(dòng)完成機(jī)器學(xué)習(xí)科研流程。作者提出了The AI Scientist系統(tǒng),其目標(biāo)不是簡單生成文本,而是覆蓋構(gòu)思、查重、實(shí)驗(yàn)、畫圖、寫作乃至AI審稿的完整鏈條。同時(shí),評估這類系統(tǒng)本身也極具挑戰(zhàn)。若每次都依賴人類專家逐篇審稿,成本極高且難以規(guī)模化比較。因此,作者構(gòu)建了配套的自動(dòng)審稿器 The Automated Reviewer,用以近似人類評審群體的判斷。

      這項(xiàng)工作最引人注目的結(jié)果在于其真實(shí)的外部驗(yàn)證:經(jīng)批準(zhǔn)后,3篇全AI生成的論文被匿名投至ICLR 2025的一個(gè)workshop,其中1篇在真實(shí)盲審中超過了平均接收閾值。這表明AI自動(dòng)化科研開始觸碰真實(shí)學(xué)術(shù)評審體系,但作者也極其謹(jǐn)慎地指出,這距離頂級主會(huì)標(biāo)準(zhǔn)仍有明顯差距,且系統(tǒng)的穩(wěn)定性與方法正確性仍有待解決。


      實(shí)驗(yàn)設(shè)計(jì)與方法邏輯

      論文的論證為三個(gè)層次:系統(tǒng)構(gòu)建、評估器驗(yàn)證與能力檢驗(yàn)。

      第一層是系統(tǒng)構(gòu)建。The AI Scientist包含兩種形態(tài):基于模板(template-based)的系統(tǒng)從人類提供的初始代碼出發(fā),在特定子領(lǐng)域上迭代推進(jìn);無模板(template-free)系統(tǒng)則在更開放的空間中,通過代理式樹搜索(agentic tree search)生成代碼、調(diào)試并推進(jìn)研究議程,更接近從零開始的開放式科研。

      第二層是評估器驗(yàn)證。作者構(gòu)建了The Automated Reviewer,采用5個(gè)獨(dú)立AI審稿加1個(gè)元審稿(meta-review)的集成流程。在OpenReview的ICLR歷史決策數(shù)據(jù)上,該審稿器的平衡準(zhǔn)確率(balanced accuracy)達(dá)到0.66至0.69,與已知的人類評審一致性水平相當(dāng)。這使其具備了作為大規(guī)模比較系統(tǒng)輸出質(zhì)量的近似標(biāo)尺的資格。

      第三層是能力檢驗(yàn)。作者首先在內(nèi)部比較了不同底層模型和測試時(shí)計(jì)算(test-time compute)對生成論文質(zhì)量的影響。隨后進(jìn)行了最關(guān)鍵的外部驗(yàn)證:經(jīng)ICLR 2025 workshop組織方和IRB批準(zhǔn),作者將3篇未經(jīng)人工修改正文的AI生成論文提交至ICBINB workshop盲審。此設(shè)計(jì)的目的并非證明AI已達(dá)頂會(huì)水平,而是檢驗(yàn)其能否在真實(shí)同行評審場景下跨過最低可接受門檻。


      核心發(fā)現(xiàn)

      發(fā)現(xiàn)一:AI首次閉環(huán)完成科研流程,并在真實(shí)workshop盲審中達(dá)到接收門檻

      The AI Scientist將提出想法、新穎性檢查、修改代碼、運(yùn)行實(shí)驗(yàn)、繪制圖表、撰寫論文及AI審稿等環(huán)節(jié)串聯(lián)為完整閉環(huán)。在經(jīng)批準(zhǔn)的外部驗(yàn)證中,3篇全AI生成的論文被提交至ICLR 2025的ICBINB workshop。其中1篇獲得6、7、6的評分,超過該workshop的平均接收閾值。這證明全AI生成的論文已能在真實(shí)的同行評審環(huán)境中跨過初步門檻,但作者強(qiáng)調(diào),這僅是workshop級別,且3篇中僅1篇過線,尚未達(dá)到頂級主會(huì)標(biāo)準(zhǔn)。



      Fig. 1a 中,作者展示了 The AI Scientist 覆蓋構(gòu)思、實(shí)驗(yàn)、寫作與審稿的完整流程;Fig. 2 則展示了在真實(shí)盲審中達(dá)到接收門檻的 AI 生成論文片段。
      發(fā)現(xiàn)二:底層模型升級與測試時(shí)計(jì)算增加,能顯著提升AI生成的論文質(zhì)量

      借助與人類評審一致性相當(dāng)?shù)淖詣?dòng)審稿器,作者量化評估了不同配置下的系統(tǒng)產(chǎn)出。結(jié)果顯示,驅(qū)動(dòng)系統(tǒng)的底層基礎(chǔ)模型發(fā)布時(shí)間越新,生成的論文得分越高。此外,在無模板的開放式探索中,增加測試時(shí)計(jì)算,尤其是增加樹搜索中的實(shí)驗(yàn)節(jié)點(diǎn)預(yù)算,能讓系統(tǒng)嘗試更多路徑并修復(fù)錯(cuò)誤,從而進(jìn)一步提高最終論文的質(zhì)量評分。


      Fig. 1b 中,作者展示了不同發(fā)布時(shí)間的底層模型驅(qū)動(dòng)系統(tǒng)時(shí),論文評分整體上升的趨勢;Fig. 3c 則表明隨著實(shí)驗(yàn)節(jié)點(diǎn)數(shù)量增加,自動(dòng)審稿器給出的論文分?jǐn)?shù)也隨之上升。
      發(fā)現(xiàn)三:當(dāng)前系統(tǒng)仍存在方法錯(cuò)誤與幻覺等短板,尚未能穩(wěn)定替代人類科研

      文中 Limitations 段落與討論中,作者認(rèn)為:盡管實(shí)現(xiàn)了流程閉環(huán),但當(dāng)前系統(tǒng)在科學(xué)嚴(yán)謹(jǐn)性上仍存在明顯瓶頸。作者坦誠列舉了常見的失敗模式,包括研究想法不成熟、核心方法實(shí)現(xiàn)錯(cuò)誤、實(shí)驗(yàn)不夠嚴(yán)謹(jǐn)、圖表重復(fù)以及引用幻覺(hallucination)等。這些問題直接觸及科學(xué)研究的正確性與可信度。因此,當(dāng)前的系統(tǒng)更像是一個(gè)能跑通流程的研究代理原型,若無監(jiān)督地大規(guī)模使用,可能帶來制造文獻(xiàn)噪聲、擠占評審資源等倫理與社會(huì)風(fēng)險(xiǎn)。


      省流總結(jié)

      本研究提出The AI Scientist系統(tǒng),實(shí)現(xiàn)了機(jī)器學(xué)習(xí)科研從構(gòu)思到審稿的端到端自動(dòng)化。在真實(shí)workshop盲審中,1篇AI生成論文達(dá)到接收門檻。盡管模型升級能提升質(zhì)量,但系統(tǒng)仍存在實(shí)驗(yàn)錯(cuò)誤與幻覺等短板,距離頂會(huì)標(biāo)準(zhǔn)仍有差距。


      請打分

      這篇?jiǎng)倓偟巧?strong>Nature的研究,是否實(shí)至名歸?我們邀請您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評論區(qū)分享您的深度見解。

      分享人:天天

      審核:PsyBrain 腦心前沿編輯部

      你好,這里是「PsyBrain 腦心前沿

      專注追蹤全球認(rèn)知神經(jīng)科學(xué)的最尖端突破

      視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級大刊

      每日速遞「深度解讀」與「前沿快訊

      科研是一場探索未知的長跑,但你無需獨(dú)行。歡迎加入PsyBrain 學(xué)術(shù)社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。

      點(diǎn)擊卡片進(jìn)群,歡迎你的到來

      一鍵關(guān)注,點(diǎn)亮星標(biāo) ? 前沿不走丟!


      一鍵分享,讓更多人了解前沿

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      中國向伊朗提供緊急人道主義援助

      中國向伊朗提供緊急人道主義援助

      新華社
      2026-04-16 23:43:04
      一江西蒼蠅小館夫妻檔走紅網(wǎng)絡(luò)!盧克文感慨,可能這一生就這樣了

      一江西蒼蠅小館夫妻檔走紅網(wǎng)絡(luò)!盧克文感慨,可能這一生就這樣了

      火山詩話
      2026-04-17 06:32:13
      1270萬畢業(yè)生搶不到崗位:普通家庭越拼命供學(xué),孩子越難找工作?

      1270萬畢業(yè)生搶不到崗位:普通家庭越拼命供學(xué),孩子越難找工作?

      復(fù)轉(zhuǎn)這些年
      2026-04-17 12:01:17
      現(xiàn)場簽約!越南對華作出保證,蘇林坐上離京高鐵,臨走前獻(xiàn)出重禮

      現(xiàn)場簽約!越南對華作出保證,蘇林坐上離京高鐵,臨走前獻(xiàn)出重禮

      孤單是寂寞的毒
      2026-04-16 22:21:07
      多地市委領(lǐng)導(dǎo)班子調(diào)整

      多地市委領(lǐng)導(dǎo)班子調(diào)整

      上觀新聞
      2026-04-17 11:36:07
      “喵喵喵,汪汪汪……”美國兩名飛行員在空管頻率中學(xué)貓狗叫,被塔臺(tái)制止:請保持專業(yè)

      “喵喵喵,汪汪汪……”美國兩名飛行員在空管頻率中學(xué)貓狗叫,被塔臺(tái)制止:請保持專業(yè)

      都市快報(bào)橙柿互動(dòng)
      2026-04-16 21:25:59
      新鳳霞怒批張少華:66年帶人砸斷了她的半月板,拿走齊白石名畫

      新鳳霞怒批張少華:66年帶人砸斷了她的半月板,拿走齊白石名畫

      元哥說歷史
      2026-04-16 08:35:03
      全紅嬋不再隱瞞!坦言身材發(fā)胖原因,原來高敏4年內(nèi)提醒過2次

      全紅嬋不再隱瞞!坦言身材發(fā)胖原因,原來高敏4年內(nèi)提醒過2次

      青橘罐頭
      2026-04-01 17:09:37
      才20天!蔡正元頭發(fā)全白,邱毅探監(jiān)淚目:里面太苦

      才20天!蔡正元頭發(fā)全白,邱毅探監(jiān)淚目:里面太苦

      小影的娛樂
      2026-04-17 04:47:49
      普通家庭能給孩子最好的托舉是什么?網(wǎng)友:真的說到點(diǎn)上了

      普通家庭能給孩子最好的托舉是什么?網(wǎng)友:真的說到點(diǎn)上了

      夜深愛雜談
      2025-11-21 20:20:12
      菜刀從天而降墜落兒童游樂區(qū),業(yè)主:監(jiān)控拍到來自8樓以上,一起掉落的還有瓶瓶罐罐

      菜刀從天而降墜落兒童游樂區(qū),業(yè)主:監(jiān)控拍到來自8樓以上,一起掉落的還有瓶瓶罐罐

      閃電新聞
      2026-04-17 11:00:50
      伊朗總統(tǒng):美國是想先把我們拿下,然后再去和中國交手

      伊朗總統(tǒng):美國是想先把我們拿下,然后再去和中國交手

      觀察者網(wǎng)
      2026-04-16 10:20:11
      宋希濂晚年在美遇陳賡夫人傅涯,遞上一沓錢:回國后,幫我一個(gè)忙

      宋希濂晚年在美遇陳賡夫人傅涯,遞上一沓錢:回國后,幫我一個(gè)忙

      浩渺青史
      2026-04-17 02:11:49
      自斷后路,央企采用國產(chǎn)芯片,美:你不進(jìn)口,我們的芯片賣給誰?

      自斷后路,央企采用國產(chǎn)芯片,美:你不進(jìn)口,我們的芯片賣給誰?

      賤議你讀史
      2026-04-17 07:00:03
      放棄冰球轉(zhuǎn)行當(dāng)導(dǎo)演!65歲英達(dá)砸數(shù)千萬培養(yǎng)終成空,英如鏑曾喊話內(nèi)涵巴圖

      放棄冰球轉(zhuǎn)行當(dāng)導(dǎo)演!65歲英達(dá)砸數(shù)千萬培養(yǎng)終成空,英如鏑曾喊話內(nèi)涵巴圖

      喜歡歷史的阿繁
      2026-04-16 15:40:35
      《指環(huán)王》新片,86歲甘道夫拼了!五十度灰男主演阿拉貢

      《指環(huán)王》新片,86歲甘道夫拼了!五十度灰男主演阿拉貢

      白面書誏
      2026-04-16 14:52:12
      房東哭慘了!網(wǎng)傳杭州一4S店撤場退租,雇人把所有落地玻璃砸毀

      房東哭慘了!網(wǎng)傳杭州一4S店撤場退租,雇人把所有落地玻璃砸毀

      火山詩話
      2026-04-16 16:33:01
      河南萬歲山武俠城演出中“大象”露出人腳,景區(qū):沒飼養(yǎng)過大象,是4名工作人員扮的

      河南萬歲山武俠城演出中“大象”露出人腳,景區(qū):沒飼養(yǎng)過大象,是4名工作人員扮的

      環(huán)球網(wǎng)資訊
      2026-04-16 11:29:34
      38人遇難客機(jī)確系被俄擊落,中國巨額損失,普京大帝公開低頭

      38人遇難客機(jī)確系被俄擊落,中國巨額損失,普京大帝公開低頭

      楠楠自語
      2026-04-17 02:33:44
      白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

      白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

      特約前排觀眾
      2025-12-22 00:20:06
      2026-04-17 13:16:49
      PsyBrain腦心前沿
      PsyBrain腦心前沿
      追蹤腦科學(xué)新動(dòng)態(tài),聚焦認(rèn)知與神經(jīng)新研究
      321文章數(shù) 15關(guān)注度
      往期回顧 全部

      科技要聞

      Anthropic推出Opus 4.7,坦言依不及Mythos

      頭條要聞

      毛焦?fàn)柈?dāng)面"逼宮"匈牙利總統(tǒng):你不配 趕緊辭職走人

      頭條要聞

      毛焦?fàn)柈?dāng)面"逼宮"匈牙利總統(tǒng):你不配 趕緊辭職走人

      體育要聞

      贏下快船,這場很庫里,很格林,很科爾

      娛樂要聞

      劉德華摯友潘宏彬離世 曾一起租房住

      財(cái)經(jīng)要聞

      海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

      汽車要聞

      又快又穩(wěn)的開掛動(dòng)力! 阿維塔06T全系搭分布式電驅(qū)

      態(tài)度原創(chuàng)

      本地
      房產(chǎn)
      親子
      數(shù)碼
      軍事航空

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      房產(chǎn)要聞

      人人人人!封關(guān)后首屆消博會(huì),擠爆了!

      親子要聞

      優(yōu)奈出生100天啦!日本公婆買了蛋糕,手寫祝福語,全家一起慶祝

      數(shù)碼要聞

      佳翼推出M.2平裝版ArcherX PCIe擴(kuò)展卡,利用顯卡陰影下插槽

      軍事要聞

      美宣布黎以停火10天 以方稱不會(huì)撤軍

      無障礙瀏覽 進(jìn)入關(guān)懷版