假如你是一名科研工作者,面對浩瀚的文獻和復雜的實驗,你是否渴望擁有一個不知疲倦、知識淵博并且能夠全程協作的超級助手?這個愿景正由香港大學教授黃超團隊開發的 AI-Researcher 變為現實。
實驗中,該團隊揭示了以下實驗效果:在技術實現上,以 Claude 為后端的 AI-Researcher 在 93.8%的情況下能夠成功產出可運行的代碼;在科學質量上,盡管 AI 論文平均分數略低,但是相當一部分已經可以和人類工作比肩。例如,根據 GPT-4o 評審,超過 78%的 AI 生成論文達到了可比水平。
它既是一個工具,也是一個能夠自主完成從文獻調研、假設生成、算法實現到論文撰寫全流程的 AI 科學家。實驗表明,其所完成的學術成果在多個領域已經慢慢接近人類高質量研究水平。
黃超告訴 DeepTech:“我們的愿景就是希望通過 AI-Researcher 大幅提升科研效率。比如以前我們一個月可能只能驗證一種算法思路,但有了 AI-Researcher 的輔助,我們一個月可以探索上百種不同的算法路徑,這種指數級的試錯速度將帶來科研突破的質的飛躍。”
![]()
(來源:https://arxiv.org/abs/2505.18705)
多智能體系統的科研助手
AI-Researcher 的強大源于其多智能體協作框架。這套系統模擬了人類科研團隊的完整分工,將復雜任務進行了分解執行。
系統首先會由知識獲取智能體啟動,它僅需用戶提供少量種子論文,便能自主檢索并篩選出最相關的高質量學術論文和代碼庫。
隨后,資源分析智能體將扮演關鍵角色:其論文分析模塊通過 RAG 技術從論文中提取核心數學公式,代碼分析模塊則在倉庫中定位具體實現,借此建立理論與實踐的雙向映射,將抽象概念原子化。最終,規劃智能體整合分析結果,形成涵蓋數據、訓練、測試的詳細開發計劃。
在扎實的知識地基上,創意生成器開始工作。它采用發散-收斂的模式,首先生成多個方向迥異的研究設想,然后基于科學性、新穎性和可行性篩選,形成結構完整的研究提案。
核心突破體現在算法實現環節。AI-Researcher 摒棄了傳統AI變成一次性生成的脆弱模式,引入了類人迭代精煉范式。
代碼智能體負責根據計劃進行初始實現,顧問智能體則像導師一樣審核代碼的正確性,并通過分析初步實驗結果提供修改建議。兩者形成多輪的實現-反饋-優化循環,顯著提高了復雜算法的實現成功率。
接著,自動化文檔智能體采用三階段分層生成框架應對長文本一致性的挑戰:先根據模板生成論文大綱,再逐步填充內容并維護邏輯一致性,最后依據專業清單核查修訂報告中的內容及參考文獻,確保學術上的嚴謹性。
![]()
(來源:https://arxiv.org/abs/2505.18705)
科學評估與嚴格評測,能力邊界與意外發現
為了客觀評價AI的科研能力,該團隊創建了 Scientist-Bench 基準,精選了涵蓋計算機視覺、圖機器學習等領域的22篇頂會論文作為評估標準。
評估設置了兩層難度:Level-1 提供明確指令,測試 AI-Researcher 實現并執行既定科研想法的能力;Level-2 只給參考文獻,要求 AI-Researcher 自主發現新穎研究方向,挑戰性更高。
評估框架極為嚴格:先由代碼評審智能體驗證技術實現,再進行科學貢獻評估,使用校準后的論文評審智能體,以雙盲方式比較AI論文與人類原稿。
評審標準對標 ICLR 等頂會,從創新性、方法嚴謹性、實驗驗證三個維度打分。為了消除偏差,他們針對論文順序進行隨機交換,并匯集了多個頂尖大模型的獨立評審意見,形成了類似于評審委員會的集體決策。
期間還有一個反直覺的發現是:在開放探索任務中,AI-Researcher 的表現普遍優于有明確指令的任務,其平均評分和可比比例均有著顯著提升。
這表明,當前AI科研智能體在整合內部知識、自主發現方向等方面展現出獨特的優勢,過細的指令反而會限制它的創造性。這挑戰了 AI 僅擅長執行而非創造的舊有認知。
實驗也指出了一定局限:在需要深厚專業背景的理論分析和前沿優化技術實,AI 依然顯得稚嫩;在需要多步驟的嚴密數學推導時,現有架構依然容易出錯;跨越多天的科研長流程也對記憶系統提出了挑戰。
![]()
(來源:https://arxiv.org/abs/2505.18705)
盡管如此,AI-Researcher 展示了一條通往增強科學發現的切實路徑。目前,該框架已在物理、化學、生物等領域得到廣泛應用。黃超表示,用戶普遍反饋 AI-Researcher 具備助力領域專家實現AI賦能的潛力。這一過程顯著降低了 AI 應用門檻,讓研究者無需具備深厚的計算機或編程背景,也能利用 AI 技術推動本學科的研究,實現跨領域的智能增強。
參考資料:
相關論文https://arxiv.org/abs/2505.18705
開源系統https://github.com/HKUDS/AI-Researcher
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.