網易首頁 > 網易號 > 正文申請入駐

AI自己寫代碼做科研還跑贏了前沿算法？清華團隊開源Alchemy框架

2026-03-23 15:10:35　來源: 機器之心Pro

河北舉報

分享至

本項目由清華大學人工智能學院李佳助理教授課題組完成，課題組主要研究方向是 AI Agent、智能化軟件工程等，其中，李樂暉為項目的主要貢獻者，主導了框架設計與核心開發；蔡立一參與了部分關鍵工作。項目已在 GitHub 開源。

AI 驅動的自動化科研正從概念走向真實系統。近期受到廣泛關注的 FARS，以及 Karpathy 開源的 autoresearch，都在不同程度上展示了 AI Scientist 自動進行 AI 領域研究的可行性。

但真正限制自動化 AI 科研規模擴展的，不僅僅是「能否提出一個新想法」，同時「能否把這個想法穩定、高效、持續地跑起來」也同樣重要。在現有系統中，科學發現過程與工程實現仍然高度耦合：AI Scientist 在進行算法創新之外，還不得不處理數據預處理、訓練流程、資源調度、并發執行、評測協議等大量工程細節。結果是，寶貴的上下文窗口、推理預算與硬件資源，被浪費在非科研核心環節上，從而抑制了自動化科研真正應有的規模與效率。

在這一背景下，清華大學人工智能學院團隊提出了Alchemy——一個面向自動化 AI 科研的標準化研究環境。它像一座為 AI Scientist 預先搭建好的「煉丹爐」，將復雜異構的 AI 工程統一接口，使 AI Scientist 可以從工程負擔中抽身，專注于算法創新本身。

代碼開源：https://github.com/TsinghuaISE/Alchemy

研究背景與問題

隨著大語言模型在代碼生成、實驗組織與科研文獻理解等方面持續進步，LLM 驅動的自動化科研正在快速從概念驗證走向真實系統。尤其在 AI for AI 方向，AI-Researcher、FARS、autoresearch 等一系列工作已經表明：AI Scientist 不僅能夠生成算法原型，還能夠結合實驗反饋進行初步的迭代優化。

然而，前沿 AI 研究作為一項長周期、高度依賴資源的復雜科學活動，不僅依賴算法創新，還依賴數據處理、訓練流程、評測協議、資源調度、并發執行等工程環節，同樣決定了科研探索能否真正推進。這也帶來了當前自動化 AI 科研系統的一個核心矛盾：AI Scientist 已經開始具備「提出方法」的能力，卻仍缺乏「高效開展大規模實驗」的基礎設施支撐。在現有系統中，工程實現與科學發現往往仍然緊密耦合，AI Scientist 不得不在生成算法之外，同時處理大量實驗細節。結果是，大量上下文預算、推理能力與計算資源被消耗在非核心科研環節中，限制了自動化科研的規模與效率。

如何釋放 AI Scientist 的科研能力？近期爆火的工作（如 autoresearch）嘗試優化自動化科研系統的工程組件，但仍存在明顯局限：

領域受限：局限于特定領域與單一任務，難以持續集成多領域、跨任務的大規模自動化科研場景。
基礎設施薄弱：異構算力調度、高并發控制等關鍵工程需求被普遍忽略，實驗規模的擴展受到嚴重制約。

針對以上挑戰，清華大學人工智能學院團隊提出了 Alchemy——一個面向自動化 AI 科研的標準化研究環境。Alchemy 預先搭建好科研實驗所需的全部工程基礎設施，AI Scientist 只需投入算法實現（一個.py文件）及其超參數（一個.yaml文件），即可驅動完整的科研實驗。同時，工程基礎設施與任務管線的分層設計，使其天然支持新領域、新任務的持續集成。下面具體介紹 Alchemy 的關鍵特性。

框架特性

Alchemy 的設計圍繞一個核心問題：如何讓 AI Scientist 完全擺脫工程負擔，專注于算法創新？為此，Alchemy 進行了以下針對性設計：

標準化實驗接口：Alchemy 為所有 AI 研究任務提供統一的實驗接口，屏蔽不同任務之間的工程差異，和任務內如數據加載、評測、資源調度等工程細節。AI Scientist 只需提交算法實現（一個.py文件）和超參數配置（一個.yaml文件），即可運行完整實驗。
可持續擴展的任務體系：框架與任務解耦，新領域或新任務只需新增實驗管線即可接入。目前已覆蓋推薦系統、時間序列與圖學習 3 個領域，16 個任務。
異構算力統一執行：不同用戶的算力環境差異巨大，從單機 GPU 到多節點 HPC 集群不等。Alchemy 通過可插拔執行器統一調度方式，使 AI Scientist 無需關心實驗具體運行在哪臺機器或哪張 GPU 上。
面向大規模實驗的并發控制：Alchemy 支持多任務、多算法、多超參數和多數據集的高并發實驗，并提供實時進度跟蹤與結果可視化。系統還可根據實驗反饋自動淘汰表現不佳的算法，將算力集中到更具潛力的探索方向。

開箱即用，自動研究

以多模態推薦任務為例，下面展示 Alchemy 的易用性與自動化科研能力。

用戶首先可以在名為domain_knowledge的 Markdown 文檔中，為 AI Scientist 提供任務相關的領域知識，提升其科學發現的能力。但是不用擔心，即使用戶沒有手動撰寫任何領域知識，Alchemy 依然可以正常運行。在大規模實驗推進過程中，AI Scientist 會結合實驗反饋，逐步歸納并沉淀出完成該任務所需的關鍵領域知識。

下面展示的，便是 Alchemy 在連續生成 100 個推薦算法之后自動總結出的領域知識。可以看到，這些總結并非停留在表層描述，而是已經呈現出相當有價值的研究洞察。

除了領域知識之外，用戶還需要為 Alchemy 提供一個 Seed Baseline，作為 AI Scientist 進行科學假設生成與方法演化的起點。這個 Seed Baseline 可以是人類研究者提出的前沿算法。在本例中，我們選擇的是 AAAI 2025 的工作《Mind Individual Information! Principal Graph Learning for Multimedia Recommendation》（PGL）。為了進一步降低使用門檻，Alchemy 已經為現有支持的所有任務預先配置了 Seed Baseline，并且每個任務至少提供 3 個可選 Seed Baseline，方便用戶開箱即用。

在此基礎上，AI Scientist 會圍繞當前算法不斷開展自動化科研循環：提出科學假設，生成新算法實現，并依據實驗反饋持續迭代優化。

如下圖所示，AI Scientist 首先提出了這樣一個科研假設：在主圖傳播過程中引入模態感知的邊權重重加權機制，使交互圖中的消息傳播強度能夠根據物品間的模態相似性動態調整，從而在協同信號傳播過程中顯式融入模態語義信息。

隨后，AI Scientist 基于這一假設生成了算法實現。起初，這份代碼尚不能直接運行：由于對超參數加載的數據格式理解不準確，其生成的.yaml文件出現問題。Alchemy 則會將具體、可執行的報錯信息反饋給 AI Scientist，使其進行多輪迭代，修正實現細節。系統最終生成了可正常運行的代碼實現。

接下來，在長達一天的持續實驗過程中，Alchemy 中的 AI Scientist 在完全無人類干預的條件下，依托實驗反饋不斷調整實現、修正設計并優化性能。令人驚喜的是，最終得到的模型成功超越了初始的 Seed Baseline——PGL。

進一步分析可以發現，這一改進的關鍵在于：AI Scientist 為 PGL 引入了模態感知的用戶—物品邊重加權機制。其核心思想是，不改變 PGL 的訓練機制，而是在推理時加上一個輕量的 Modality Aware Graph Adaption 機制，讓那些與用戶歷史偏好在模態空間中更一致的邊，將被賦予更強的傳播權重，從而更充分地放大模態語義信息與 User-Item 協同信息之間的關聯作用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.