<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Agent不是關(guān)鍵!人大AiScientist實現(xiàn)23小時、74輪長程記憶

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導(dǎo)讀】中國人民大學(xué)團(tuán)隊打造的AiScientist,旨在解決長程機(jī)器學(xué)習(xí)研究工程的持續(xù)性難題。該系統(tǒng)從論文理解開始,跨越環(huán)境配置、代碼實現(xiàn)與實驗迭代,保持狀態(tài)連續(xù)與決策連貫,顯著提升科研效率。其核心在于通過File-as-Bus機(jī)制,穩(wěn)定保存項目狀態(tài),使AI能真正接手科研流程,而非僅輔助單個環(huán)節(jié)。

      自動化科學(xué)研究,正在成為人工智能領(lǐng)域最受關(guān)注的方向之一。

      在機(jī)器學(xué)習(xí)場景下,已經(jīng)有越來越多系統(tǒng)能夠參與 idea generation、literature synthesis、targeted experimentation、scientific writing 等研究環(huán)節(jié)。無論是從論文到代碼,還是從實驗到分析,AI for Research 的邊界都在快速外擴(kuò)。

      AiScientist的切入點,是在這些已有進(jìn)展的基礎(chǔ)上,進(jìn)一步關(guān)注一個更具操作性、也更接近真實科研流程的設(shè)定:長程ML research engineering

      在這一設(shè)定下,系統(tǒng)不只是完成某一個環(huán)節(jié),而是要從論文或研究目標(biāo)出發(fā),連續(xù)處理環(huán)境配置、依賴管理、資源獲取、代碼實現(xiàn)、實驗執(zhí)行、結(jié)果對比、錯誤歸因和反復(fù)修復(fù)。這里既有局部環(huán)節(jié)本身的技術(shù)難度,也有跨階段持續(xù)推進(jìn)時的系統(tǒng)性挑戰(zhàn)。

      更關(guān)鍵的是,這些問題往往不會即時暴露。一個早期決策的偏差,可能要到數(shù)小時后的實驗結(jié)果里才會顯現(xiàn);而一旦項目狀態(tài)在多輪推進(jìn)中丟失,后續(xù)階段就很難判斷問題究竟來自論文理解、實現(xiàn)細(xì)節(jié)、數(shù)據(jù)處理,還是基礎(chǔ)設(shè)施配置。

      中國人民大學(xué)高瓴人工智能學(xué)院此次提出的AiScientist,正是沿著這條方向,試圖把AI從「能參與若干研究環(huán)節(jié)」進(jìn)一步推進(jìn)到「能持續(xù)接手研究工程流程」。


      論文:https://arxiv.org/pdf/2604.13018

      倉庫:https://github.com/AweAI-Team/AiScientist

      23小時、74輪實驗

      AiScientist在做什么?


      AiScientist最直觀的結(jié)果,來自MLE-Bench Lite的Detecting Insults任務(wù)。

      在這一任務(wù)上,AiScientist在23小時內(nèi)自主完成了74輪實驗循環(huán),將validation AUC從0.903提升到了0.982,期間實現(xiàn)了18次best-so-far update

      這一結(jié)果的意義,不只是分?jǐn)?shù)提高了多少,更在于它呈現(xiàn)出了一條完整的研究工程鏈路:從讀取任務(wù)、搭建環(huán)境、撰寫實現(xiàn),到運行實驗、分析偏差、修補(bǔ)系統(tǒng)、再驗證結(jié)果,整個過程并非單次生成,而是持續(xù)迭代。

      換句話說,AiScientist試圖解決的并不是「再做一個更強(qiáng)的代碼助手」,而是讓 AI 在真實科研流程中,開始具備持續(xù)推進(jìn)任務(wù)的能力。

      AiScientist在解決什么問題?

      現(xiàn)有不少AI for Research系統(tǒng),已經(jīng)能在某些研究環(huán)節(jié)展現(xiàn)出很強(qiáng)能力,例如生成代碼、總結(jié)論文、輔助實驗設(shè)計,甚至完成一整篇論文的撰寫。

      AiScientist聚焦于實驗性更強(qiáng)的場景:ML research engineering,它不是一個單點問題,而是一條跨階段、長時間的連續(xù)任務(wù)鏈。系統(tǒng)需要先理解論文和目標(biāo)設(shè)定,再處理依賴與資源,完成實現(xiàn),運行實驗,并根據(jù)實驗輸出做歸因、修正和繼續(xù)迭代。

      其中每一個環(huán)節(jié),本身都已經(jīng)足夠困難。論文可能是不完整、欠規(guī)格化的;環(huán)境配置與依賴下載常常瑣碎而脆弱;實驗反饋具有明顯延遲,而且錯誤原因往往交織在實現(xiàn)、數(shù)據(jù)、超參與基礎(chǔ)設(shè)施多個層面。

      論文也指出,這一困難已經(jīng)在嚴(yán)苛評測中有所體現(xiàn):在 PaperBench 這類高難度從零復(fù)現(xiàn)任務(wù)上,最佳已報告agent僅達(dá)到約21%的replication rubric,而頂尖ML PhD在48小時預(yù)算下可達(dá)到41%。這說明,長程研究工程的瓶頸并不只是模型能否完成局部推理,而是系統(tǒng)能否跨越多個階段,保持狀態(tài)連續(xù)和決策連貫。

      也就是說,長程ML research engineering既包含很多高難度的local problem,也要求把這些問題在時間線上順序串起來、相互校正、持續(xù)推進(jìn)。真正的難點,不只是「這一輪會不會推理」,而是系統(tǒng)能不能在不同階段之間保持coherent progress。

      不只是「多幾個Agent」


      AiScientist 的核心設(shè)計理念,可以概括為一句話:thin control over thick state

      在這套系統(tǒng)中,頂層Orchestrator負(fù)責(zé)階段級控制與任務(wù)推進(jìn),相當(dāng)于一個輕量的總調(diào)度器;而真正承載項目記憶的,則不是一輪輪對話上下文,而是workspace中持續(xù)演化的分析、計劃、代碼、日志與實驗記錄。

      換句話說,AiScientist并不試圖讓某一個Agent把所有細(xì)節(jié)都「記在腦子里」,而是讓不同角色圍繞一個持續(xù)更新的項目狀態(tài)展開協(xié)作。頂層控制保持輕量,底層狀態(tài)保持厚實,系統(tǒng)因此可以在長程任務(wù)中逐步積累,而不是反復(fù)從頭開始。

      這也是這篇工作的一個重要判斷:讓系統(tǒng)跑長的關(guān)鍵,不只是多智能體分工本身,而是這些分工能否建立在穩(wěn)定、可繼承的項目狀態(tài)之上。

      File-as-Bus是關(guān)鍵

      AiScientist將這種「項目狀態(tài)」進(jìn)一步落實成了File-as-Bus機(jī)制。

      簡單理解,它不是把文件當(dāng)作普通附件來存放,而是把文件系統(tǒng)本身當(dāng)作長程協(xié)作的底座。論文分析、任務(wù)計劃、實現(xiàn)代碼、實驗日志、錯誤記錄和中間結(jié)果,都被持續(xù)寫回workspace,成為后續(xù)階段可以重新讀取和利用的 durable artifacts。

      這意味著,系統(tǒng)不是依賴對話里殘留的幾句摘要繼續(xù)工作,而是可以圍繞真實存在的項目證據(jù)來推進(jìn)下一步?jīng)Q策。對于長程研究工程來說,這一點非常重要。因為前一階段的一個判斷,可能會在幾個小時后才以實驗異常的形式暴露出來;如果這些中間狀態(tài)無法被完整保留,后續(xù)階段就很難準(zhǔn)確歸因,更難在正確位置做修補(bǔ)。

      也因此,AiScientist的重點并不只是「讓多個Agent配合起來」,而是讓整個系統(tǒng)具備一種更穩(wěn)定的外部記憶能力。真正需要被傳遞的,不是某一輪的表面結(jié)論,而是項目在不同階段里逐步積累下來的狀態(tài)本身。

      實驗結(jié)果


      在PaperBench上,AiScientist相對最佳匹配基線平均提升約10.54 分。這一結(jié)果說明,它并不只是在某個單獨case上有效,而是能夠在從論文復(fù)現(xiàn)到完整工程實現(xiàn)的高難度場景中,穩(wěn)定拉開與現(xiàn)有方法的差距。


      在MLE-Bench Lite上,AiScientist達(dá)到了81.82% Any Medal,說明它不只擅長「把系統(tǒng)先跑起來」,也能在更接近真實競賽和研究迭代的場景中持續(xù)優(yōu)化結(jié)果。

      更重要的是,這種提升并不是簡單靠「多交互幾輪」堆出來的。論文明確指出:More interaction alone is not enough.額外的輪次只有建立在前面正確積累的狀態(tài)之上,才會真正轉(zhuǎn)化為長程能力。否則,更多交互反而可能帶來更高成本和更多噪聲。


      機(jī)制分析進(jìn)一步說明了這一點。移除File-as-Bus后,AiScientist在PaperBench上下降6.41分,在MLE-Bench Lite上Any Medal下降31.82個百分點。這表明,狀態(tài)連續(xù)性并不是一個「錦上添花」的設(shè)計,而是長程研究工程里真正影響系統(tǒng)能否持續(xù)推進(jìn)的關(guān)鍵因素之一。

      與此同時,論文也沒有把File-as-Bus說成唯一答案。實驗同樣表明,hierarchical orchestration也在性能提升中起到了重要作用。換句話說,AiScientist的價值并不來自某一個單獨組件,而是來自orchestration與state continuity 共同支撐的系統(tǒng)設(shè)計。

      啟示

      如果只看結(jié)果,AiScientist的貢獻(xiàn)似乎只是「分?jǐn)?shù)更高了」。但從論文給出的機(jī)制分析來看,這項工作的價值其實更立體。

      第一,長程ML research engineering不只是很多l(xiāng)ocal problem的堆疊,它本身還是一個更難的 systems problem。論文理解、環(huán)境配置、資源下載、代碼實現(xiàn)、實驗執(zhí)行、誤差診斷,這些環(huán)節(jié)單獨拿出來,很多都已經(jīng)是足夠困難的技術(shù)任務(wù);更難的是,要把這些環(huán)節(jié)在長時間跨度里順序接起來、相互校正、持續(xù)推進(jìn)。也正因為如此,決定系統(tǒng)成敗的,不只是某一步做得好不好,而是整個流程能否在跨階段推進(jìn)中保持連貫。

      第二,AiScientist的關(guān)鍵,不只是用了multi-agent,而是把狀態(tài)連續(xù)性做成了系統(tǒng)能力。層級化orchestration當(dāng)然重要,它幫助不同角色聚焦不同階段;但真正讓這套組織形式產(chǎn)生復(fù)利的,是項目狀態(tài)能否以durable artifact的形式被穩(wěn)定保存、讀取、繼承和繼續(xù)利用。換句話說,multi-agent是組織形式,狀態(tài)連續(xù)性才是這套系統(tǒng)真正跑長的基礎(chǔ)。

      第三,File-as-Bus的價值,更多體現(xiàn)在后期refinement,而不只是前期搭一個能跑的腳手架。從消融結(jié)果看,去掉File-as-Bus后,系統(tǒng)未必立刻連基礎(chǔ)可運行性都失去,但在更依賴后期優(yōu)化和結(jié)果逼近的指標(biāo)上,會出現(xiàn)更明顯退化。這意味著它真正帶來的,不只是executability,而是fidelity:讓系統(tǒng)能在多輪診斷、修補(bǔ)、對齊和優(yōu)化中,把每一輪試錯都建立在前一輪留下的有效證據(jù)之上。

      為什么這件事值得關(guān)注?

      從更大的視角看,AiScientist指向的是一個比benchmark分?jǐn)?shù)更值得關(guān)注的問題:AI能否真正進(jìn)入科研流程,而不只是停留在某一個局部環(huán)節(jié)。

      長程ML research engineering既是很多困難local problem的串聯(lián),也是一個更難的systems problem。每個局部環(huán)節(jié)都足夠復(fù)雜,而把這些環(huán)節(jié)接起來、在多輪反饋里保持一致性、讓前一輪決策真正服務(wù)于后一輪推進(jìn),則更難。

      AiScientist給出的一個重要啟示是:未來的AI科研系統(tǒng),關(guān)鍵不只是模型會不會推理、會不會寫代碼、會不會調(diào)用工具,而是能否在長時間跨度里穩(wěn)定保存、繼承并利用項目狀態(tài)。

      這也是為什么這項工作值得被放在更廣的AI for Research進(jìn)展中來看。它討論的不是單步能力的再增強(qiáng),而是 AI 如何真正從「輔助一個環(huán)節(jié)」走向「接手一條流程」。

      與此同時,團(tuán)隊也在將AiScientist從benchmark中的評測對象,逐步推進(jìn)為真實可用的軟件系統(tǒng)。換句話說,這項工作并不只是想回答「分?jǐn)?shù)能不能提高」,也想回答「AI 能不能真正走進(jìn)實驗、復(fù)現(xiàn)、調(diào)參和迭代的日常流程里,進(jìn)一步解放實驗層面的生產(chǎn)力」。

      總結(jié)

      AiScientist試圖推動的,并不只是一個更強(qiáng)的科研Agent,而是一種對長程研究工程的新理解:在真實科研任務(wù)中,真正重要的往往不是單次生成得多漂亮,而是系統(tǒng)能否在跨階段、跨輪次、跨文件的任務(wù)鏈中,把項目狀態(tài)穩(wěn)定存住,并據(jù)此持續(xù)推進(jìn)。

      如果這一點成立,那么AI進(jìn)入科研流程的方式,也將從「輔助某一步」逐漸走向「接手整條鏈路」。

      參考資料:

      https://arxiv.org/pdf/2604.13018

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      有些品牌的壞,是從娘胎里帶出來的那種壞

      有些品牌的壞,是從娘胎里帶出來的那種壞

      細(xì)雨中的呼喊
      2026-04-21 21:19:33
      CBA最新消息!杜鋒面臨下課,孫銘徽正式復(fù)出

      CBA最新消息!杜鋒面臨下課,孫銘徽正式復(fù)出

      體壇瞎白話
      2026-04-22 07:32:53
      郭富城結(jié)婚周年秀恩愛翻車,評論區(qū)爆笑熱梗頻出!句句戳他心窩

      郭富城結(jié)婚周年秀恩愛翻車,評論區(qū)爆笑熱梗頻出!句句戳他心窩

      臨云史策
      2026-04-21 13:48:43
      大亂斗!東部前三接連爆大冷!季后賽格局大變,騎士坐收漁利

      大亂斗!東部前三接連爆大冷!季后賽格局大變,騎士坐收漁利

      體壇小李
      2026-04-22 11:06:12
      斯諾克世錦賽首輪打完,趙心童VS丁俊暉的比賽,為何要等這么多天

      斯諾克世錦賽首輪打完,趙心童VS丁俊暉的比賽,為何要等這么多天

      體育大學(xué)僧
      2026-04-22 13:04:51
      阿聯(lián)酋動作真快!剛結(jié)束訪華就高調(diào)宣布:上萬億美元重倉押注中國

      阿聯(lián)酋動作真快!剛結(jié)束訪華就高調(diào)宣布:上萬億美元重倉押注中國

      大魚簡科
      2026-04-22 17:09:16
      晚飯七分飽被推翻了?醫(yī)生調(diào)查:過了50歲,吃飯盡量要做到這4點

      晚飯七分飽被推翻了?醫(yī)生調(diào)查:過了50歲,吃飯盡量要做到這4點

      垚垚分享健康
      2026-04-22 15:58:23
      普通家庭千萬不要買“小聯(lián)排別墅”,看著很高級,住著卻難受!

      普通家庭千萬不要買“小聯(lián)排別墅”,看著很高級,住著卻難受!

      裝修秀
      2026-04-20 10:50:03
      G2火箭94-101不敵湖人 球員評價:2人優(yōu)秀,奧科吉及格,7人低迷

      G2火箭94-101不敵湖人 球員評價:2人優(yōu)秀,奧科吉及格,7人低迷

      籃球資訊達(dá)人
      2026-04-22 13:24:52
      中國鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價?那就別賣了

      中國鐵礦石談判大獲全勝!“鎖喉”必和必拓:不降價?那就別賣了

      動漫里的童話
      2026-04-22 05:35:55
      小李琳復(fù)出拍戲!經(jīng)超開保姆車接送,對粉絲翻白眼招罵:來圈錢了

      小李琳復(fù)出拍戲!經(jīng)超開保姆車接送,對粉絲翻白眼招罵:來圈錢了

      不似少年游
      2026-04-22 11:43:47
      父子同臺!C羅再迎好消息,利雅得勝利一箭雙雕,續(xù)約水到渠成

      父子同臺!C羅再迎好消息,利雅得勝利一箭雙雕,續(xù)約水到渠成

      祥談體育
      2026-04-22 11:05:36
      歐洲人終于發(fā)現(xiàn)了:俄烏鬧4年了,合著是華強(qiáng)北在打代理人戰(zhàn)爭?

      歐洲人終于發(fā)現(xiàn)了:俄烏鬧4年了,合著是華強(qiáng)北在打代理人戰(zhàn)爭?

      用冷眼洞悉世界
      2026-04-22 02:23:19
      從0-1到1-1!奪冠熱門倒下,輸?shù)眠€不太光彩,聯(lián)盟門面該換人了

      從0-1到1-1!奪冠熱門倒下,輸?shù)眠€不太光彩,聯(lián)盟門面該換人了

      籃球掃地僧
      2026-04-22 10:06:55
      中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

      中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

      番外行
      2026-04-22 14:22:54
      警察絕對不能插手的5件事,真不能管,否則違法!

      警察絕對不能插手的5件事,真不能管,否則違法!

      細(xì)說職場
      2026-04-20 15:52:21
      長治女子萬達(dá)墜亡最新!警方定性,被曝是研究生,跳樓誘因太痛心

      長治女子萬達(dá)墜亡最新!警方定性,被曝是研究生,跳樓誘因太痛心

      哄動一時啊
      2026-04-21 12:01:22
      全球動物園,都不敢養(yǎng)它?

      全球動物園,都不敢養(yǎng)它?

      中國新聞周刊
      2026-04-21 16:34:24
      悲情KD難救偽強(qiáng)隊!火箭天賦堆砌成笑話,三大硬傷暴露無遺!

      悲情KD難救偽強(qiáng)隊!火箭天賦堆砌成笑話,三大硬傷暴露無遺!

      田先生籃球
      2026-04-22 15:04:49
      林生斌現(xiàn)狀:定居悉尼富人區(qū),有兒有女,現(xiàn)任是之前公司員工

      林生斌現(xiàn)狀:定居悉尼富人區(qū),有兒有女,現(xiàn)任是之前公司員工

      地理三體說
      2026-04-10 22:00:09
      2026-04-22 18:00:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      15039文章數(shù) 66797關(guān)注度
      往期回顧 全部

      科技要聞

      對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

      頭條要聞

      特朗普180°轉(zhuǎn)彎延長停火 伊朗硬剛首次直接回絕談判

      頭條要聞

      特朗普180°轉(zhuǎn)彎延長停火 伊朗硬剛首次直接回絕談判

      體育要聞

      網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

      娛樂要聞

      復(fù)婚無望!baby黃曉明陪小海綿零交流

      財經(jīng)要聞

      伊朗拒絕出席 特朗普宣布延長停火期限

      汽車要聞

      純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

      態(tài)度原創(chuàng)

      藝術(shù)
      旅游
      健康
      數(shù)碼
      軍事航空

      藝術(shù)要聞

      無花不風(fēng)景

      旅游要聞

      四月的諸城茶園,到底能帶來多少驚喜?

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      數(shù)碼要聞

      Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

      軍事要聞

      特朗普宣布延長停火 伊朗表態(tài)

      無障礙瀏覽 進(jìn)入關(guān)懷版