![]()
本項目由清華大學人工智能學院李佳助理教授課題組完成,課題組主要研究方向是 AI Agent、智能化軟件工程等,其中,李樂暉為項目的主要貢獻者,主導了框架設計與核心開發;蔡立一參與了部分關鍵工作。項目已在 GitHub 開源。
AI 驅動的自動化科研正從概念走向真實系統。近期受到廣泛關注的 FARS,以及 Karpathy 開源的 autoresearch,都在不同程度上展示了 AI Scientist 自動進行 AI 領域研究的可行性。
但真正限制自動化 AI 科研規模擴展的,不僅僅是「能否提出一個新想法」,同時「能否把這個想法穩定、高效、持續地跑起來」也同樣重要。在現有系統中,科學發現過程與工程實現仍然高度耦合:AI Scientist 在進行算法創新之外,還不得不處理數據預處理、訓練流程、資源調度、并發執行、評測協議等大量工程細節。結果是,寶貴的上下文窗口、推理預算與硬件資源,被浪費在非科研核心環節上,從而抑制了自動化科研真正應有的規模與效率。
在這一背景下,清華大學人工智能學院團隊提出了Alchemy——一個面向自動化 AI 科研的標準化研究環境。它像一座為 AI Scientist 預先搭建好的「煉丹爐」,將復雜異構的 AI 工程統一接口,使 AI Scientist 可以從工程負擔中抽身,專注于算法創新本身。
- 代碼開源:https://github.com/TsinghuaISE/Alchemy
![]()
研究背景與問題
隨著大語言模型在代碼生成、實驗組織與科研文獻理解等方面持續進步,LLM 驅動的自動化科研正在快速從概念驗證走向真實系統。尤其在 AI for AI 方向,AI-Researcher、FARS、autoresearch 等一系列工作已經表明:AI Scientist 不僅能夠生成算法原型,還能夠結合實驗反饋進行初步的迭代優化。
然而,前沿 AI 研究作為一項長周期、高度依賴資源的復雜科學活動,不僅依賴算法創新,還依賴數據處理、訓練流程、評測協議、資源調度、并發執行等工程環節,同樣決定了科研探索能否真正推進。這也帶來了當前自動化 AI 科研系統的一個核心矛盾:AI Scientist 已經開始具備「提出方法」的能力,卻仍缺乏「高效開展大規模實驗」的基礎設施支撐。在現有系統中,工程實現與科學發現往往仍然緊密耦合,AI Scientist 不得不在生成算法之外,同時處理大量實驗細節。結果是,大量上下文預算、推理能力與計算資源被消耗在非核心科研環節中,限制了自動化科研的規模與效率。
如何釋放 AI Scientist 的科研能力?近期爆火的工作(如 autoresearch)嘗試優化自動化科研系統的工程組件,但仍存在明顯局限:
- 領域受限:局限于特定領域與單一任務,難以持續集成多領域、跨任務的大規模自動化科研場景。
- 基礎設施薄弱:異構算力調度、高并發控制等關鍵工程需求被普遍忽略,實驗規模的擴展受到嚴重制約。
針對以上挑戰,清華大學人工智能學院團隊提出了 Alchemy——一個面向自動化 AI 科研的標準化研究環境。Alchemy 預先搭建好科研實驗所需的全部工程基礎設施,AI Scientist 只需投入算法實現(一個.py文件)及其超參數(一個.yaml文件),即可驅動完整的科研實驗。同時,工程基礎設施與任務管線的分層設計,使其天然支持新領域、新任務的持續集成。下面具體介紹 Alchemy 的關鍵特性。
框架特性
Alchemy 的設計圍繞一個核心問題:如何讓 AI Scientist 完全擺脫工程負擔,專注于算法創新?為此,Alchemy 進行了以下針對性設計:
- 標準化實驗接口:Alchemy 為所有 AI 研究任務提供統一的實驗接口,屏蔽不同任務之間的工程差異,和任務內如數據加載、評測、資源調度等工程細節。AI Scientist 只需提交算法實現(一個.py文件)和超參數配置(一個.yaml文件),即可運行完整實驗。
- 可持續擴展的任務體系:框架與任務解耦,新領域或新任務只需新增實驗管線即可接入。目前已覆蓋推薦系統、時間序列與圖學習 3 個領域,16 個任務。
- 異構算力統一執行:不同用戶的算力環境差異巨大,從單機 GPU 到多節點 HPC 集群不等。Alchemy 通過可插拔執行器統一調度方式,使 AI Scientist 無需關心實驗具體運行在哪臺機器或哪張 GPU 上。
- 面向大規模實驗的并發控制:Alchemy 支持多任務、多算法、多超參數和多數據集的高并發實驗,并提供實時進度跟蹤與結果可視化。系統還可根據實驗反饋自動淘汰表現不佳的算法,將算力集中到更具潛力的探索方向。
開箱即用,自動研究
以多模態推薦任務為例,下面展示 Alchemy 的易用性與自動化科研能力。
用戶首先可以在名為domain_knowledge的 Markdown 文檔中,為 AI Scientist 提供任務相關的領域知識,提升其科學發現的能力。但是不用擔心,即使用戶沒有手動撰寫任何領域知識,Alchemy 依然可以正常運行。在大規模實驗推進過程中,AI Scientist 會結合實驗反饋,逐步歸納并沉淀出完成該任務所需的關鍵領域知識。
下面展示的,便是 Alchemy 在連續生成 100 個推薦算法之后自動總結出的領域知識。可以看到,這些總結并非停留在表層描述,而是已經呈現出相當有價值的研究洞察。
![]()
除了領域知識之外,用戶還需要為 Alchemy 提供一個 Seed Baseline,作為 AI Scientist 進行科學假設生成與方法演化的起點。這個 Seed Baseline 可以是人類研究者提出的前沿算法。在本例中,我們選擇的是 AAAI 2025 的工作《Mind Individual Information! Principal Graph Learning for Multimedia Recommendation》(PGL)。為了進一步降低使用門檻,Alchemy 已經為現有支持的所有任務預先配置了 Seed Baseline,并且每個任務至少提供 3 個可選 Seed Baseline,方便用戶開箱即用。
![]()
在此基礎上,AI Scientist 會圍繞當前算法不斷開展自動化科研循環:提出科學假設,生成新算法實現,并依據實驗反饋持續迭代優化。
如下圖所示,AI Scientist 首先提出了這樣一個科研假設:在主圖傳播過程中引入模態感知的邊權重重加權機制,使交互圖中的消息傳播強度能夠根據物品間的模態相似性動態調整,從而在協同信號傳播過程中顯式融入模態語義信息。
隨后,AI Scientist 基于這一假設生成了算法實現。起初,這份代碼尚不能直接運行:由于對超參數加載的數據格式理解不準確,其生成的.yaml文件出現問題。Alchemy 則會將具體、可執行的報錯信息反饋給 AI Scientist,使其進行多輪迭代,修正實現細節。系統最終生成了可正常運行的代碼實現。
![]()
![]()
接下來,在長達一天的持續實驗過程中,Alchemy 中的 AI Scientist 在完全無人類干預的條件下,依托實驗反饋不斷調整實現、修正設計并優化性能。令人驚喜的是,最終得到的模型成功超越了初始的 Seed Baseline——PGL。
![]()
![]()
進一步分析可以發現,這一改進的關鍵在于:AI Scientist 為 PGL 引入了模態感知的用戶—物品邊重加權機制。其核心思想是,不改變 PGL 的訓練機制,而是在推理時加上一個輕量的 Modality Aware Graph Adaption 機制,讓那些與用戶歷史偏好在模態空間中更一致的邊,將被賦予更強的傳播權重,從而更充分地放大模態語義信息與 User-Item 協同信息之間的關聯作用。
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.