網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

龍蝦也能養(yǎng)龍蝦！UCSD發(fā)布AIBuildAI智能體，MLE-Bench榜單第一

2026-03-23 20:56:40　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】UCSD團(tuán)隊(duì)推出AIBuildAI智能體，無需編程，僅用自然語言描述任務(wù)，即可自動(dòng)設(shè)計(jì)、編碼、訓(xùn)練、調(diào)參并優(yōu)化AI模型，分工協(xié)作，端到端完成AI開發(fā)。在OpenAI MLE-Bench測(cè)試中，AIBuildAI以63.1%的獲獎(jiǎng)率位居第一，性能媲美人類專家，推動(dòng)AI開發(fā)邁向全自動(dòng)化新時(shí)代。

近日，加州大學(xué)圣地亞哥分校的研究團(tuán)隊(duì)開發(fā)了AIBuildAI智能體，可以全自動(dòng)構(gòu)建AI模型（包括模型設(shè)計(jì)，代碼實(shí)現(xiàn)，模型訓(xùn)練，調(diào)參，性能評(píng)估，迭代優(yōu)化）。團(tuán)隊(duì)成員包括博士生Ruiyi Zhang，Peijia Qin，Qi Cao，Li Zhang，以及該校副教授Pengtao Xie。

開發(fā)一個(gè)高性能AI模型非常耗時(shí)費(fèi)力，工程師需要反復(fù)設(shè)計(jì)模型、寫代碼實(shí)現(xiàn)模型、構(gòu)建訓(xùn)練流水線、執(zhí)行超參數(shù)搜索，并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型進(jìn)行迭代優(yōu)化。

這一過程對(duì)專業(yè)知識(shí)的依賴程度極高，人力成本也居高不下，非常耗費(fèi)時(shí)間。

為了解決這一問題，UCSD的研究團(tuán)隊(duì)開發(fā)了AIBuildAI智能體，充當(dāng)虛擬的AI工程師或AI科學(xué)家，全自動(dòng)構(gòu)建AI模型。用戶無需編程，只需要用自然語言對(duì)任務(wù)進(jìn)行描述，AIBuildAI自動(dòng)設(shè)計(jì)模型，寫代碼實(shí)現(xiàn)模型，訓(xùn)練模型，調(diào)節(jié)超參數(shù)，評(píng)估模型性能，并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型進(jìn)行迭代優(yōu)化。

項(xiàng)目地址：https://github.com/aibuildai/AI-Build-AI

論文鏈接：https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf

OpenAI MLE-Bench測(cè)評(píng)結(jié)果：https://github.com/openai/mle-bench/pull/126

AIBuildAI在OpenAI MLE-Bench基準(zhǔn)測(cè)試的75個(gè)任務(wù)上以63.1%的獲獎(jiǎng)率位居榜首，其表現(xiàn)可媲美經(jīng)驗(yàn)豐富的AI工程師，實(shí)現(xiàn)了從任務(wù)描述到可部署模型的端到端自動(dòng)化。

AIBuildAI的設(shè)計(jì)靈感來源于真實(shí)的AI研究團(tuán)隊(duì)的工作流程。在典型的AI項(xiàng)目中，技術(shù)負(fù)責(zé)人統(tǒng)籌多條并行探索路線，研究員提出建模策略，工程師實(shí)現(xiàn)訓(xùn)練流水線，負(fù)責(zé)人定期評(píng)審結(jié)果、分配資源。AIBuildAI將這一工作流抽象為一個(gè)多智能體搜索過程：將整個(gè)開發(fā)周期分解為多個(gè)專職智能體協(xié)作執(zhí)行，并通過集中化的管理器進(jìn)行統(tǒng)一調(diào)度。

技術(shù)核心

管理智能體（Manager Agent）

扮演項(xiàng)目運(yùn)行負(fù)責(zé)人的角色，全程不直接寫代碼或執(zhí)行訓(xùn)練任務(wù)，而是通過讀取磁盤上的實(shí)驗(yàn)記錄來做出下一步?jīng)Q策。他在兩種模式之間切換：協(xié)調(diào)模式下決定下一步應(yīng)該調(diào)用哪一個(gè)子智能體；篩選模式下依據(jù)訓(xùn)練信號(hào)保留有潛力的候選方案并終止無效方案來節(jié)約時(shí)間以及計(jì)算成本，并在進(jìn)展停滯時(shí)觸發(fā)修訂或者終止。

研究員智能體（Designer Agent）

負(fù)責(zé)想方案和改方案兩項(xiàng)核心任務(wù)。在設(shè)計(jì)模式下，他直接探索數(shù)據(jù)集特征，提出多個(gè)差異化、可行性強(qiáng)的建模計(jì)劃；在修訂模式下，他仔細(xì)診斷失敗原因（過擬合、欠擬合、收斂問題或者數(shù)據(jù)異常），并提出具體的改進(jìn)方案供編碼智能體重新實(shí)現(xiàn)。

編碼智能體（Coder Agent）

將設(shè)計(jì)方案轉(zhuǎn)化為可運(yùn)行的訓(xùn)練與推理流水線。編碼智能體的目標(biāo)是確保代碼正確完整，而非追求最終性能。他會(huì)在寫完代碼后執(zhí)行一次短時(shí)驗(yàn)證運(yùn)行以確保流水線可以端到端運(yùn)行，隨后將完整訓(xùn)練交由調(diào)優(yōu)器處理。

調(diào)優(yōu)器智能體（Tuner Agent）

接管訓(xùn)練過程，在已有代碼基礎(chǔ)上專注于性能提升。它采用先快速校準(zhǔn)、再?zèng)Q定是否投入的策略：先跑一段簡(jiǎn)短的熱身訓(xùn)練觀察學(xué)習(xí)曲線，再?zèng)Q定是延長(zhǎng)當(dāng)前方案還是進(jìn)行超參數(shù)調(diào)整。整個(gè)過程在固定計(jì)算預(yù)算內(nèi)完成。

系統(tǒng)設(shè)計(jì)

AIBuildAI在系統(tǒng)層面還具備三項(xiàng)關(guān)鍵特征：

并行效率：多條解決方案軌跡在獨(dú)立工作空間中并發(fā)運(yùn)行，避免互相干擾，允許系統(tǒng)同時(shí)探索多個(gè)方法并將資源集中于表現(xiàn)好的候選方案。
可復(fù)現(xiàn)性：所有智能體通過存儲(chǔ)于磁盤中產(chǎn)出物（方案文檔、配置文件、日志、檢查點(diǎn)）進(jìn)行協(xié)調(diào)，而非依賴內(nèi)存中的臨時(shí)信息，確保每一步操作均可事后審查與復(fù)現(xiàn)。
安全性：智能體僅被允許寫入自身軌跡目錄，數(shù)據(jù)集以只讀方式掛載，每次調(diào)用均生成可審計(jì)的操作日志。

實(shí)驗(yàn)結(jié)果

AIBuildAI在OpenAI MLE-Bench基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了來自Kaggle競(jìng)賽的真實(shí)任務(wù)，涵蓋圖像分類，目標(biāo)檢測(cè)/分割、自然語言理解與生成、時(shí)序信號(hào)建模以及結(jié)構(gòu)化表格預(yù)測(cè)等多個(gè)類別，共75個(gè)任務(wù)，要求系統(tǒng)完成從原始數(shù)據(jù)到可提交模型的全流程開發(fā)。目前，AIBuildAI以63.1%的綜合獲獎(jiǎng)率位居MLE-Bench總榜第一。上圖展示了AIBuildAI（橙條）的綜合性能在所有的對(duì)比方法中實(shí)現(xiàn)了性能最佳。

上圖展示了AIBuildAI 在語言理解與生成任務(wù)上的詳細(xì)結(jié)果。上半部分以Billion Word Imputation為例，完整呈現(xiàn)了 AIBuildAI 各智能體的運(yùn)行軌跡：Manager依次調(diào)度Setup、Designer（提出6個(gè)候選方案）、Coder（實(shí)現(xiàn)流水線）和 Tuner（迭代調(diào)參），最終Aggregator以RoBERTa-large為基礎(chǔ)生成提交文件，取得5.5060的最優(yōu)分?jǐn)?shù)。下半部分對(duì)比了AIBuildAI與AIRA-dojo、MLEvolve在10個(gè)具體語言任務(wù)上的性能表現(xiàn)。

AIBuildAI（紫色）在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個(gè)任務(wù)上均取得最優(yōu)成績(jī)，充分驗(yàn)證了 AIBuildAI 在多樣化語言任務(wù)上的泛化能力。

總結(jié)

AIBuildAI通過將AI開發(fā)流程分配到包括設(shè)計(jì)、編碼、調(diào)優(yōu)與協(xié)調(diào)等任務(wù)的專職智能體，并以基于產(chǎn)出物的狀態(tài)管理將各個(gè)智能體緊密協(xié)同，實(shí)現(xiàn)了端到端自動(dòng)化AI工程。

不同于以往將代碼生成作為核心范式的單體系統(tǒng)，AIBuildAI顯示建模了訓(xùn)練動(dòng)態(tài)監(jiān)控、早停機(jī)制與超參數(shù)調(diào)整等關(guān)鍵環(huán)節(jié)，更貼近真實(shí)工程師團(tuán)隊(duì)的工作方式。

AIBuildAI在MLE-Bench的75個(gè)任務(wù)上，以63.1%的獲獎(jiǎng)率位居第一，證明了結(jié)構(gòu)化多智能體協(xié)作在復(fù)雜工程工作自動(dòng)化上的可行性，也為邁向媲美人類專業(yè)工程師的自動(dòng)AI系統(tǒng)提供了清晰的技術(shù)路線。

參考資料：

https://github.com/aibuildai/AI-Build-AI

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.