<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      龍蝦也能養(yǎng)龍蝦!UCSD發(fā)布AIBuildAI智能體,MLE-Bench榜單第一

      0
      分享至


      新智元報(bào)道

      編輯:LRST

      【新智元導(dǎo)讀】UCSD團(tuán)隊(duì)推出AIBuildAI智能體,無需編程,僅用自然語言描述任務(wù),即可自動(dòng)設(shè)計(jì)、編碼、訓(xùn)練、調(diào)參并優(yōu)化AI模型,分工協(xié)作,端到端完成AI開發(fā)。在OpenAI MLE-Bench測(cè)試中,AIBuildAI以63.1%的獲獎(jiǎng)率位居第一,性能媲美人類專家,推動(dòng)AI開發(fā)邁向全自動(dòng)化新時(shí)代。

      近日,加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)開發(fā)了AIBuildAI智能體,可以全自動(dòng)構(gòu)建AI模型(包括模型設(shè)計(jì),代碼實(shí)現(xiàn),模型訓(xùn)練,調(diào)參,性能評(píng)估,迭代優(yōu)化)。團(tuán)隊(duì)成員包括博士生Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及該校副教授Pengtao Xie。

      開發(fā)一個(gè)高性能AI模型非常耗時(shí)費(fèi)力,工程師需要反復(fù)設(shè)計(jì)模型、寫代碼實(shí)現(xiàn)模型、構(gòu)建訓(xùn)練流水線、執(zhí)行超參數(shù)搜索,并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型進(jìn)行迭代優(yōu)化。

      這一過程對(duì)專業(yè)知識(shí)的依賴程度極高,人力成本也居高不下,非常耗費(fèi)時(shí)間。

      為了解決這一問題,UCSD的研究團(tuán)隊(duì)開發(fā)了AIBuildAI智能體,充當(dāng)虛擬的AI工程師或AI科學(xué)家,全自動(dòng)構(gòu)建AI模型。用戶無需編程,只需要用自然語言對(duì)任務(wù)進(jìn)行描述,AIBuildAI自動(dòng)設(shè)計(jì)模型,寫代碼實(shí)現(xiàn)模型,訓(xùn)練模型,調(diào)節(jié)超參數(shù),評(píng)估模型性能,并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型進(jìn)行迭代優(yōu)化。


      項(xiàng)目地址:https://github.com/aibuildai/AI-Build-AI

      論文鏈接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf

      OpenAI MLE-Bench測(cè)評(píng)結(jié)果:https://github.com/openai/mle-bench/pull/126

      AIBuildAI在OpenAI MLE-Bench基準(zhǔn)測(cè)試的75個(gè)任務(wù)上以63.1%的獲獎(jiǎng)率位居榜首,其表現(xiàn)可媲美經(jīng)驗(yàn)豐富的AI工程師,實(shí)現(xiàn)了從任務(wù)描述到可部署模型的端到端自動(dòng)化。



      AIBuildAI的設(shè)計(jì)靈感來源于真實(shí)的AI研究團(tuán)隊(duì)的工作流程。在典型的AI項(xiàng)目中,技術(shù)負(fù)責(zé)人統(tǒng)籌多條并行探索路線,研究員提出建模策略,工程師實(shí)現(xiàn)訓(xùn)練流水線,負(fù)責(zé)人定期評(píng)審結(jié)果、分配資源。AIBuildAI將這一工作流抽象為一個(gè)多智能體搜索過程:將整個(gè)開發(fā)周期分解為多個(gè)專職智能體協(xié)作執(zhí)行,并通過集中化的管理器進(jìn)行統(tǒng)一調(diào)度。


      技術(shù)核心

      管理智能體(Manager Agent)

      扮演項(xiàng)目運(yùn)行負(fù)責(zé)人的角色,全程不直接寫代碼或執(zhí)行訓(xùn)練任務(wù),而是通過讀取磁盤上的實(shí)驗(yàn)記錄來做出下一步?jīng)Q策。他在兩種模式之間切換:協(xié)調(diào)模式下決定下一步應(yīng)該調(diào)用哪一個(gè)子智能體;篩選模式下依據(jù)訓(xùn)練信號(hào)保留有潛力的候選方案并終止無效方案來節(jié)約時(shí)間以及計(jì)算成本,并在進(jìn)展停滯時(shí)觸發(fā)修訂或者終止。

      研究員智能體(Designer Agent)

      負(fù)責(zé)想方案和改方案兩項(xiàng)核心任務(wù)。在設(shè)計(jì)模式下,他直接探索數(shù)據(jù)集特征,提出多個(gè)差異化、可行性強(qiáng)的建模計(jì)劃;在修訂模式下,他仔細(xì)診斷失敗原因(過擬合、欠擬合、收斂問題或者數(shù)據(jù)異常),并提出具體的改進(jìn)方案供編碼智能體重新實(shí)現(xiàn)。

      編碼智能體(Coder Agent)

      將設(shè)計(jì)方案轉(zhuǎn)化為可運(yùn)行的訓(xùn)練與推理流水線。編碼智能體的目標(biāo)是確保代碼正確完整,而非追求最終性能。他會(huì)在寫完代碼后執(zhí)行一次短時(shí)驗(yàn)證運(yùn)行以確保流水線可以端到端運(yùn)行,隨后將完整訓(xùn)練交由調(diào)優(yōu)器處理。

      調(diào)優(yōu)器智能體(Tuner Agent)

      接管訓(xùn)練過程,在已有代碼基礎(chǔ)上專注于性能提升。它采用先快速校準(zhǔn)、再?zèng)Q定是否投入的策略:先跑一段簡(jiǎn)短的熱身訓(xùn)練觀察學(xué)習(xí)曲線,再?zèng)Q定是延長(zhǎng)當(dāng)前方案還是進(jìn)行超參數(shù)調(diào)整。整個(gè)過程在固定計(jì)算預(yù)算內(nèi)完成。

      系統(tǒng)設(shè)計(jì)

      AIBuildAI在系統(tǒng)層面還具備三項(xiàng)關(guān)鍵特征:

      • 并行效率:多條解決方案軌跡在獨(dú)立工作空間中并發(fā)運(yùn)行,避免互相干擾,允許系統(tǒng)同時(shí)探索多個(gè)方法并將資源集中于表現(xiàn)好的候選方案。

      • 可復(fù)現(xiàn)性:所有智能體通過存儲(chǔ)于磁盤中產(chǎn)出物(方案文檔、配置文件、日志、檢查點(diǎn))進(jìn)行協(xié)調(diào),而非依賴內(nèi)存中的臨時(shí)信息,確保每一步操作均可事后審查與復(fù)現(xiàn)。

      • 安全性:智能體僅被允許寫入自身軌跡目錄,數(shù)據(jù)集以只讀方式掛載,每次調(diào)用均生成可審計(jì)的操作日志。


      實(shí)驗(yàn)結(jié)果


      AIBuildAI在OpenAI MLE-Bench基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了來自Kaggle競(jìng)賽的真實(shí)任務(wù),涵蓋圖像分類,目標(biāo)檢測(cè)/分割、自然語言理解與生成、時(shí)序信號(hào)建模以及結(jié)構(gòu)化表格預(yù)測(cè)等多個(gè)類別,共75個(gè)任務(wù),要求系統(tǒng)完成從原始數(shù)據(jù)到可提交模型的全流程開發(fā)。目前,AIBuildAI以63.1%的綜合獲獎(jiǎng)率位居MLE-Bench總榜第一。上圖展示了AIBuildAI(橙條)的綜合性能在所有的對(duì)比方法中實(shí)現(xiàn)了性能最佳。


      上圖展示了AIBuildAI 在語言理解與生成任務(wù)上的詳細(xì)結(jié)果。上半部分以Billion Word Imputation為例,完整呈現(xiàn)了 AIBuildAI 各智能體的運(yùn)行軌跡:Manager依次調(diào)度Setup、Designer(提出6個(gè)候選方案)、Coder(實(shí)現(xiàn)流水線)和 Tuner(迭代調(diào)參),最終Aggregator以RoBERTa-large為基礎(chǔ)生成提交文件,取得5.5060的最優(yōu)分?jǐn)?shù)。下半部分對(duì)比了AIBuildAI與AIRA-dojo、MLEvolve在10個(gè)具體語言任務(wù)上的性能表現(xiàn)。

      AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個(gè)任務(wù)上均取得最優(yōu)成績(jī),充分驗(yàn)證了 AIBuildAI 在多樣化語言任務(wù)上的泛化能力。

      總結(jié)

      AIBuildAI通過將AI開發(fā)流程分配到包括設(shè)計(jì)、編碼、調(diào)優(yōu)與協(xié)調(diào)等任務(wù)的專職智能體,并以基于產(chǎn)出物的狀態(tài)管理將各個(gè)智能體緊密協(xié)同,實(shí)現(xiàn)了端到端自動(dòng)化AI工程。

      不同于以往將代碼生成作為核心范式的單體系統(tǒng),AIBuildAI顯示建模了訓(xùn)練動(dòng)態(tài)監(jiān)控、早停機(jī)制與超參數(shù)調(diào)整等關(guān)鍵環(huán)節(jié),更貼近真實(shí)工程師團(tuán)隊(duì)的工作方式。

      AIBuildAI在MLE-Bench的75個(gè)任務(wù)上,以63.1%的獲獎(jiǎng)率位居第一,證明了結(jié)構(gòu)化多智能體協(xié)作在復(fù)雜工程工作自動(dòng)化上的可行性,也為邁向媲美人類專業(yè)工程師的自動(dòng)AI系統(tǒng)提供了清晰的技術(shù)路線。

      參考資料:

      https://github.com/aibuildai/AI-Build-AI

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      在美國(guó)坐灰狗是怎樣一種經(jīng)歷?

      在美國(guó)坐灰狗是怎樣一種經(jīng)歷?

      二湘空間
      2026-03-21 09:18:24
      普京也沒料到!中亞領(lǐng)袖親赴北京搶生意,截胡俄羅斯鎖定中國(guó)大單

      普京也沒料到!中亞領(lǐng)袖親赴北京搶生意,截胡俄羅斯鎖定中國(guó)大單

      嫹筆牂牂
      2026-03-22 11:22:24
      離譜又真實(shí)!伊朗空襲現(xiàn)場(chǎng):民眾山頂開心的彈吉他慶祝

      離譜又真實(shí)!伊朗空襲現(xiàn)場(chǎng):民眾山頂開心的彈吉他慶祝

      老馬拉車莫少裝
      2026-03-21 11:23:41
      忍無可忍強(qiáng)勢(shì)回?fù)簦∫晾室坏斗夂碇旅陨姓嬲摹奥闊眮砹?>
    </a>
        <h3>
      <a href=阿器談史
      2026-03-23 03:34:40
      布倫特原油跌幅收窄至4% 此前一跌超13%

      布倫特原油跌幅收窄至4% 此前一跌超13%

      財(cái)聯(lián)社
      2026-03-23 20:02:09
      官方:基耶薩退出意大利國(guó)家隊(duì),坎比亞吉替補(bǔ)入選

      官方:基耶薩退出意大利國(guó)家隊(duì),坎比亞吉替補(bǔ)入選

      懂球帝
      2026-03-23 17:28:04
      美西方徹底破防!中國(guó)重錘落下:你們?cè)谙愀圩畲蟮摹巴跖啤保瑥U了

      美西方徹底破防!中國(guó)重錘落下:你們?cè)谙愀圩畲蟮摹巴跖啤保瑥U了

      愛看劇的阿峰
      2026-03-23 19:34:29
      蘇超各隊(duì)職業(yè)名單:方昊、何小珂在列,費(fèi)爾南多、宋岳入選

      蘇超各隊(duì)職業(yè)名單:方昊、何小珂在列,費(fèi)爾南多、宋岳入選

      懂球帝
      2026-03-23 10:58:32
      天哪:NBA擴(kuò)軍新球隊(duì)需繳納70億美金,是CBA的1400倍,我破防了

      天哪:NBA擴(kuò)軍新球隊(duì)需繳納70億美金,是CBA的1400倍,我破防了

      姜大叔侃球
      2026-03-23 11:48:51
      iPhone Air 又降價(jià)了,真的離譜!

      iPhone Air 又降價(jià)了,真的離譜!

      花果科技
      2026-03-23 12:20:56
      比利時(shí)致信馮德萊恩,呼吁歐盟統(tǒng)一對(duì)華戰(zhàn)線,對(duì)中國(guó)采取強(qiáng)硬立場(chǎng)

      比利時(shí)致信馮德萊恩,呼吁歐盟統(tǒng)一對(duì)華戰(zhàn)線,對(duì)中國(guó)采取強(qiáng)硬立場(chǎng)

      知法而形
      2026-03-23 17:47:39
      多品牌集體官宣:降價(jià)!很多廣東人都在用,網(wǎng)友:終于等到了

      多品牌集體官宣:降價(jià)!很多廣東人都在用,網(wǎng)友:終于等到了

      環(huán)球網(wǎng)資訊
      2026-03-23 18:05:13
      金價(jià)年內(nèi)漲幅跌沒了:買個(gè)手鐲虧八千,周大福“一口價(jià)”漲價(jià)延緩

      金價(jià)年內(nèi)漲幅跌沒了:買個(gè)手鐲虧八千,周大福“一口價(jià)”漲價(jià)延緩

      貝殼財(cái)經(jīng)
      2026-03-23 22:10:03
      埃迪·豪下課!紐卡必須換帥,英超最佳主帥才是唯一答案

      埃迪·豪下課!紐卡必須換帥,英超最佳主帥才是唯一答案

      奶蓋熊本熊
      2026-03-23 04:16:20
      《隱身的名字》收官!文毓秀人生盡毀,惡人葛文君柏庶均遭報(bào)應(yīng)

      《隱身的名字》收官!文毓秀人生盡毀,惡人葛文君柏庶均遭報(bào)應(yīng)

      一盅情懷
      2026-03-23 14:30:22
      相當(dāng)絕美!最強(qiáng)新人老師:瀨戶環(huán)奈

      相當(dāng)絕美!最強(qiáng)新人老師:瀨戶環(huán)奈

      只要高興就好
      2026-03-23 10:48:07
      47歲袁泉被罵“斷崖式衰老”:素顏糙臉,這才是演員的頂級(jí)自律

      47歲袁泉被罵“斷崖式衰老”:素顏糙臉,這才是演員的頂級(jí)自律

      樂悠悠娛樂
      2026-03-23 10:28:15
      卡里克懸了?曼聯(lián)仍不死心,全力追逐世界級(jí)名帥

      卡里克懸了?曼聯(lián)仍不死心,全力追逐世界級(jí)名帥

      夜白侃球
      2026-03-23 22:18:18
      抗美援朝時(shí),5名中國(guó)女戰(zhàn)士被美軍包圍后主動(dòng)投降,此后下落不明

      抗美援朝時(shí),5名中國(guó)女戰(zhàn)士被美軍包圍后主動(dòng)投降,此后下落不明

      南權(quán)先生
      2026-03-14 15:21:15
      2026-03-23 22:48:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14795文章數(shù) 66710關(guān)注度
      往期回顧 全部

      科技要聞

      裁掉2萬多名員工后,扎克伯格對(duì)自己下手了

      頭條要聞

      美國(guó)前防長(zhǎng):特朗普太過天真 應(yīng)對(duì)這場(chǎng)伊朗危機(jī)負(fù)全責(zé)

      頭條要聞

      美國(guó)前防長(zhǎng):特朗普太過天真 應(yīng)對(duì)這場(chǎng)伊朗危機(jī)負(fù)全責(zé)

      體育要聞

      不敢放手一搏,你拿什么去爭(zhēng)冠?

      娛樂要聞

      鐘麗緹就女兒考拉爭(zhēng)議道歉:女兒還小

      財(cái)經(jīng)要聞

      市場(chǎng)見底了嗎?誰在拋售?機(jī)構(gòu)火線解讀

      汽車要聞

      東風(fēng)雪鐵龍新凡爾賽C5X上市 官方一口價(jià)11.37萬起

      態(tài)度原創(chuàng)

      旅游
      親子
      教育
      手機(jī)
      公開課

      旅游要聞

      毛澤東曾在此居住,這幢位于新天地的歷史建筑明起對(duì)外開放!先睹為快

      親子要聞

      專家呼吁:2300萬多動(dòng)癥患兒亟須社會(huì)關(guān)注

      教育要聞

      高三學(xué)生對(duì)教材中 “受精作用” 表述提意見,人教社回信

      手機(jī)要聞

      傳聞蘋果折疊屏iPhone采用雙層玻璃設(shè)計(jì) 明顯減輕折痕

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版