![]()
新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】UCSD團(tuán)隊(duì)推出AIBuildAI智能體,無需編程,僅用自然語言描述任務(wù),即可自動(dòng)設(shè)計(jì)、編碼、訓(xùn)練、調(diào)參并優(yōu)化AI模型,分工協(xié)作,端到端完成AI開發(fā)。在OpenAI MLE-Bench測(cè)試中,AIBuildAI以63.1%的獲獎(jiǎng)率位居第一,性能媲美人類專家,推動(dòng)AI開發(fā)邁向全自動(dòng)化新時(shí)代。
近日,加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)開發(fā)了AIBuildAI智能體,可以全自動(dòng)構(gòu)建AI模型(包括模型設(shè)計(jì),代碼實(shí)現(xiàn),模型訓(xùn)練,調(diào)參,性能評(píng)估,迭代優(yōu)化)。團(tuán)隊(duì)成員包括博士生Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及該校副教授Pengtao Xie。
開發(fā)一個(gè)高性能AI模型非常耗時(shí)費(fèi)力,工程師需要反復(fù)設(shè)計(jì)模型、寫代碼實(shí)現(xiàn)模型、構(gòu)建訓(xùn)練流水線、執(zhí)行超參數(shù)搜索,并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型進(jìn)行迭代優(yōu)化。
這一過程對(duì)專業(yè)知識(shí)的依賴程度極高,人力成本也居高不下,非常耗費(fèi)時(shí)間。
為了解決這一問題,UCSD的研究團(tuán)隊(duì)開發(fā)了AIBuildAI智能體,充當(dāng)虛擬的AI工程師或AI科學(xué)家,全自動(dòng)構(gòu)建AI模型。用戶無需編程,只需要用自然語言對(duì)任務(wù)進(jìn)行描述,AIBuildAI自動(dòng)設(shè)計(jì)模型,寫代碼實(shí)現(xiàn)模型,訓(xùn)練模型,調(diào)節(jié)超參數(shù),評(píng)估模型性能,并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型進(jìn)行迭代優(yōu)化。
![]()
項(xiàng)目地址:https://github.com/aibuildai/AI-Build-AI
論文鏈接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf
OpenAI MLE-Bench測(cè)評(píng)結(jié)果:https://github.com/openai/mle-bench/pull/126
AIBuildAI在OpenAI MLE-Bench基準(zhǔn)測(cè)試的75個(gè)任務(wù)上以63.1%的獲獎(jiǎng)率位居榜首,其表現(xiàn)可媲美經(jīng)驗(yàn)豐富的AI工程師,實(shí)現(xiàn)了從任務(wù)描述到可部署模型的端到端自動(dòng)化。
![]()
![]()
AIBuildAI的設(shè)計(jì)靈感來源于真實(shí)的AI研究團(tuán)隊(duì)的工作流程。在典型的AI項(xiàng)目中,技術(shù)負(fù)責(zé)人統(tǒng)籌多條并行探索路線,研究員提出建模策略,工程師實(shí)現(xiàn)訓(xùn)練流水線,負(fù)責(zé)人定期評(píng)審結(jié)果、分配資源。AIBuildAI將這一工作流抽象為一個(gè)多智能體搜索過程:將整個(gè)開發(fā)周期分解為多個(gè)專職智能體協(xié)作執(zhí)行,并通過集中化的管理器進(jìn)行統(tǒng)一調(diào)度。
![]()
技術(shù)核心
管理智能體(Manager Agent)
扮演項(xiàng)目運(yùn)行負(fù)責(zé)人的角色,全程不直接寫代碼或執(zhí)行訓(xùn)練任務(wù),而是通過讀取磁盤上的實(shí)驗(yàn)記錄來做出下一步?jīng)Q策。他在兩種模式之間切換:協(xié)調(diào)模式下決定下一步應(yīng)該調(diào)用哪一個(gè)子智能體;篩選模式下依據(jù)訓(xùn)練信號(hào)保留有潛力的候選方案并終止無效方案來節(jié)約時(shí)間以及計(jì)算成本,并在進(jìn)展停滯時(shí)觸發(fā)修訂或者終止。
研究員智能體(Designer Agent)
負(fù)責(zé)想方案和改方案兩項(xiàng)核心任務(wù)。在設(shè)計(jì)模式下,他直接探索數(shù)據(jù)集特征,提出多個(gè)差異化、可行性強(qiáng)的建模計(jì)劃;在修訂模式下,他仔細(xì)診斷失敗原因(過擬合、欠擬合、收斂問題或者數(shù)據(jù)異常),并提出具體的改進(jìn)方案供編碼智能體重新實(shí)現(xiàn)。
編碼智能體(Coder Agent)
將設(shè)計(jì)方案轉(zhuǎn)化為可運(yùn)行的訓(xùn)練與推理流水線。編碼智能體的目標(biāo)是確保代碼正確完整,而非追求最終性能。他會(huì)在寫完代碼后執(zhí)行一次短時(shí)驗(yàn)證運(yùn)行以確保流水線可以端到端運(yùn)行,隨后將完整訓(xùn)練交由調(diào)優(yōu)器處理。
調(diào)優(yōu)器智能體(Tuner Agent)
接管訓(xùn)練過程,在已有代碼基礎(chǔ)上專注于性能提升。它采用先快速校準(zhǔn)、再?zèng)Q定是否投入的策略:先跑一段簡(jiǎn)短的熱身訓(xùn)練觀察學(xué)習(xí)曲線,再?zèng)Q定是延長(zhǎng)當(dāng)前方案還是進(jìn)行超參數(shù)調(diào)整。整個(gè)過程在固定計(jì)算預(yù)算內(nèi)完成。
系統(tǒng)設(shè)計(jì)
AIBuildAI在系統(tǒng)層面還具備三項(xiàng)關(guān)鍵特征:
并行效率:多條解決方案軌跡在獨(dú)立工作空間中并發(fā)運(yùn)行,避免互相干擾,允許系統(tǒng)同時(shí)探索多個(gè)方法并將資源集中于表現(xiàn)好的候選方案。
可復(fù)現(xiàn)性:所有智能體通過存儲(chǔ)于磁盤中產(chǎn)出物(方案文檔、配置文件、日志、檢查點(diǎn))進(jìn)行協(xié)調(diào),而非依賴內(nèi)存中的臨時(shí)信息,確保每一步操作均可事后審查與復(fù)現(xiàn)。
安全性:智能體僅被允許寫入自身軌跡目錄,數(shù)據(jù)集以只讀方式掛載,每次調(diào)用均生成可審計(jì)的操作日志。
實(shí)驗(yàn)結(jié)果
![]()
AIBuildAI在OpenAI MLE-Bench基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了來自Kaggle競(jìng)賽的真實(shí)任務(wù),涵蓋圖像分類,目標(biāo)檢測(cè)/分割、自然語言理解與生成、時(shí)序信號(hào)建模以及結(jié)構(gòu)化表格預(yù)測(cè)等多個(gè)類別,共75個(gè)任務(wù),要求系統(tǒng)完成從原始數(shù)據(jù)到可提交模型的全流程開發(fā)。目前,AIBuildAI以63.1%的綜合獲獎(jiǎng)率位居MLE-Bench總榜第一。上圖展示了AIBuildAI(橙條)的綜合性能在所有的對(duì)比方法中實(shí)現(xiàn)了性能最佳。
![]()
上圖展示了AIBuildAI 在語言理解與生成任務(wù)上的詳細(xì)結(jié)果。上半部分以Billion Word Imputation為例,完整呈現(xiàn)了 AIBuildAI 各智能體的運(yùn)行軌跡:Manager依次調(diào)度Setup、Designer(提出6個(gè)候選方案)、Coder(實(shí)現(xiàn)流水線)和 Tuner(迭代調(diào)參),最終Aggregator以RoBERTa-large為基礎(chǔ)生成提交文件,取得5.5060的最優(yōu)分?jǐn)?shù)。下半部分對(duì)比了AIBuildAI與AIRA-dojo、MLEvolve在10個(gè)具體語言任務(wù)上的性能表現(xiàn)。
AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個(gè)任務(wù)上均取得最優(yōu)成績(jī),充分驗(yàn)證了 AIBuildAI 在多樣化語言任務(wù)上的泛化能力。
總結(jié)
AIBuildAI通過將AI開發(fā)流程分配到包括設(shè)計(jì)、編碼、調(diào)優(yōu)與協(xié)調(diào)等任務(wù)的專職智能體,并以基于產(chǎn)出物的狀態(tài)管理將各個(gè)智能體緊密協(xié)同,實(shí)現(xiàn)了端到端自動(dòng)化AI工程。
不同于以往將代碼生成作為核心范式的單體系統(tǒng),AIBuildAI顯示建模了訓(xùn)練動(dòng)態(tài)監(jiān)控、早停機(jī)制與超參數(shù)調(diào)整等關(guān)鍵環(huán)節(jié),更貼近真實(shí)工程師團(tuán)隊(duì)的工作方式。
AIBuildAI在MLE-Bench的75個(gè)任務(wù)上,以63.1%的獲獎(jiǎng)率位居第一,證明了結(jié)構(gòu)化多智能體協(xié)作在復(fù)雜工程工作自動(dòng)化上的可行性,也為邁向媲美人類專業(yè)工程師的自動(dòng)AI系統(tǒng)提供了清晰的技術(shù)路線。
參考資料:
https://github.com/aibuildai/AI-Build-AI
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.