![]()
在2024年Kaggle AutoML大獎賽上,這是一項獎金75,000美元的競賽,匯集了數百支隊伍,包括頂級AutoML從業者和Kaggle大師級選手,我們的全自動框架獲得第10名,成為競賽中唯一獲得積分的自動化智能體。這一成就驗證了我們一直在探索的問題:我們能否不僅消除AutoML中通常涉及的模型選擇和超參數調優,還能消除編碼本身?
自動機器學習的承諾一直是普及化。然而,大多數AutoML工具仍要求用戶編寫代碼、準備數據結構并理解機器學習工作流程。對于沒有編程背景的領域專家——分析實驗數據的科學家、構建預測模型的分析師,或處理圖像集合的研究人員——這種編碼要求造成了不必要的障礙。
我們設計AutoGluon助手來消除這一障礙。該系統基于MLZero構建,這是一個由大語言模型驅動的新型多智能體系統,AutoGluon助手能夠將自然語言描述轉換為跨表格、圖像、文本和時間序列數據的訓練好的機器學習模型。該系統在我們的多模態AutoML智能體基準測試中實現了92%的成功率,在外部MLE-bench Lite測試中達到86%的成功率,在成功率和解決方案質量方面都表現領先。
多智能體架構解決現實世界的機器學習挑戰
傳統的AutoML工具假設輸入是干凈、結構化的,用戶能夠正確調用API。而現實世界的機器學習問題始于更復雜的情況:模糊的數據文件、不明確的任務定義,以及可能不知道自己需要分類還是回歸的用戶。MLZero通過多智能體架構解決這個問題,其中由亞馬遜Bedrock的大語言模型驅動的專業組件協作,將原始輸入轉換為可行的解決方案。
例如,考慮一位醫學研究人員上傳帶有分割掩碼的胸部X光圖像,將目標描述為"在X光片中定位疾病區域"。感知模塊識別出這是像素級分割任務,語義記憶選擇AutoGluon的MultiModalPredictor進行語義分割,迭代編碼模塊生成并完善代碼。當初始嘗試遇到掩碼格式不兼容問題時,情節記憶提供調試上下文來調整預處理和后處理,成功訓練出分割模型——研究人員無需編寫任何代碼。
該系統包含四個核心模塊:感知、語義記憶、情節記憶和迭代編碼。感知模塊解釋任意數據輸入,解析文件結構和內容以構建結構化理解,無論格式不一致或命名模糊。當用戶提供沒有明確目標變量指示的CSV文件時,感知模塊分析列分布和語義來推斷任務結構。
語義記憶模塊通過機器學習庫的知識豐富系統,維護關于AutoGluon能力、API模式和最佳實踐的結構化信息。語義記憶使系統能夠根據任務特征選擇適當的工具,而不需要用戶知道語義分割任務需要在AutoGluon Multimodal中使用SAM模型。
情節記憶維護按時間順序的執行記錄,跟蹤系統嘗試過什么、什么成功了、什么失敗了。當代碼執行產生錯誤時,該模塊通過顯示相關的先前嘗試及其結果來提供調試上下文。這解決了機器學習開發的迭代性質,解決方案通過完善而不是完整出現。
迭代編碼模塊實現了具有反饋循環和增強記憶的改進過程。生成的代碼執行,產生結果或錯誤,并為后續嘗試提供信息。這個過程持續到成功執行或達到最大迭代限制,需要時可選擇每次迭代的用戶輸入進行指導。該架構在保持高度自動化的同時保留了人工監督的靈活性。
通過這個綜合系統,MLZero彌合了嘈雜原始數據與復雜機器學習解決方案之間的差距。多智能體協作模式在各種模態中都被證明是有效的,因為該架構分離了在單智能體系統中傳統上交織的關注點——理解數據、了解能力、跟蹤歷史和生成代碼。
基準測試驗證系統性能
為了根據既定的外部標準驗證我們的系統,我們首先在MLE-bench Lite上進行了評估。該基準測試由來自以往Kaggle競賽的21個不同挑戰組成,允許我們直接將模型性能與其他領先自動化系統進行比較。我們的模型達到了最高成功率86%,意味著它成功完成并提交了21個挑戰中18個的有效解決方案。它在整體解決方案質量方面獲得第一名,平均排名為1.43,而第二名智能體為2.36。我們的智能體贏得了六枚金牌,在基準測試的挑戰中總獎牌數超過了所有競爭對手。
在現有基準測試上證明模型能力后,我們在自己的多模態AutoML智能體基準測試上進一步測試,這是一個更具挑戰性的測試套件,包含25個不同的任務,數據集處理程度較低,數據更接近原始形式,噪聲更多、格式不一致性和模糊性更大。該基準測試包含多種數據模態(表格、圖像、文本、文檔)和問題類型(分類、回歸、檢索、語義分割)以及具有挑戰性的數據結構(多語言、多表格和大規模數據集)。AutoGluon助手(作為MLZero)在所有任務中實現了92%的成功率。當使用緊湊的80億參數大語言模型實現時,系統仍實現了45.3%的成功率,比許多更大、更消耗資源的智能體更有效。
靈活的集成與協作
AutoGluon助手支持多種交互模式以適應不同的用戶偏好和工作流程。用戶可以通過命令行界面調用系統進行快速自動化任務,通過Python API集成到現有數據管道中,通過Web UI進行可視化交互和監控,或者使用模型上下文協議(MCP)將其與其他智能體工具集成。這種靈活性確保無論用戶偏好腳本、圖形界面還是程序化控制,都能訪問相同的底層自動化功能。
系統還支持可選的每次迭代用戶輸入,允許領域專家在迭代改進過程中注入專業知識,同時保持日常使用的自動化。例如,在處理醫學影像數據時,專家可能會指導系統采用特定于其掃描協議的自定義標準化。情節記憶跟蹤這些干預以及系統生成的嘗試,創造了一個協作動態,其中自動化處理機械復雜性,而用戶在擁有相關見解時提供戰略指導。
該系統是開源的,可在Github上獲得,技術細節發表在我們的NeurIPS 2025論文中。
Q&A
Q1:AutoGluon助手是什么?它能做什么?
A:AutoGluon助手是基于MLZero的零代碼自動機器學習系統,由大語言模型驅動的多智能體協作架構構建。它能夠將自然語言描述直接轉換為訓練好的機器學習模型,支持表格、圖像、文本和時間序列等多種數據類型,無需用戶編寫任何代碼。
Q2:MLZero的多智能體架構是如何工作的?
A:MLZero包含四個核心模塊:感知模塊解釋數據輸入和任務定義;語義記憶模塊存儲機器學習庫知識;情節記憶模塊跟蹤執行歷史;迭代編碼模塊生成和完善代碼。這些模塊協作將原始數據轉換為完整的機器學習解決方案。
Q3:AutoGluon助手在基準測試中表現如何?
A:在MLE-bench Lite基準測試中,AutoGluon助手達到86%的成功率,獲得第一名;在多模態AutoML智能體基準測試中達到92%成功率。即使使用80億參數的緊湊模型,仍能實現45.3%的成功率,超越許多大型智能體系統。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.