![]()
整理 |華衛
“人在睡覺,AI 已經跑完了 100 輪實驗。”
近日,特斯拉前 AI 總監、OpenAI 創始成員 Andrej Karpathy 最近開源了一個叫 autoresearch 的項目,邏輯很簡單:給 AI Agent 配備一套小型但真實可用的 LLM 訓練環境,讓它自己通宵自主搞深度學習研究。成果很驚人:兩天內,Agent 自主完成 276 次實驗,篩出 29 項有效改進,把一個語言模型的訓練效率提升了約 11%,全程零人類干預。
![]()
截止目前,該項目已經獲得 36.9k Stars。Karpathy 在 X 上介紹道,“我們的目標是打造這樣的 Agent:讓它能以最快速度持續推進研究,且全程無需你任何人工介入。”
開源項目鏈接:https://github.com/karpathy/autoresearch
在 README 里,Karpathy 寫了一段讓人震驚的話:
曾幾何時,前沿 AI 研究還得靠碳基大腦完成:大家吃飯、睡覺、摸魚,偶爾再用聲波互聯開個叫 “組會” 的儀式同步一下進度。那個時代早已遠去。 如今,研究完全是自主 AI Agent 的天下,它們運行在云端巨型算力集群之上,聲稱當前代碼庫已迭代至第 10205 代。無論如何,沒有人能夠判斷這個數字是對是錯,因為“代碼”早已變成一個自我修改的二進制程序,遠超人類理解范圍。 本倉庫記錄的,便是這一切的開端。 —— Karpathy,2026 年 3 月
極簡到離譜:百行代碼讓 AI 徹夜科研
據介紹,autoresearch 項目總共 630 行 Python 代碼,其中的 AI Agent 會自動修改代碼、訓練 5 分鐘、檢查效果是否提升,保留或丟棄結果,然后不斷循環。你早上醒來,就能看到一整晚的實驗日志以及一個更優的模型。核心在于,你不用再像普通研究者那樣手動修改任何 Python 文件,而是去編寫 Markdown 文件,為 AI Agent 提供上下文,搭建你的自主研究組織。
本倉庫的訓練代碼是簡化版、單 GPU 實現的 nanoChat,默認配置刻意保持極簡基線,可以在此基礎上持續迭代,找到能實現最快研究進展的 “研究組織代碼”,或是加入更多 Agent 等等。
整個項目刻意保持輕量化設計,核心文件僅有三個:
prepare.py 包含固定常量、一次性數據預處理(下載訓練數據、訓練 BPE 分詞器)以及運行時工具函數(數據加載器、評估函數),該文件永不修改。
train.py 是 Agent 唯一可編輯的文件,包含完整的 GPT 模型、優化器(Muon + AdamW)和訓練循環。所有內容均可調整:模型架構、超參數、優化器、批次大小等,該文件由 Agent 自主修改和迭代。
program.md 是給單個 Agent 的基準指令文件。只需將 Agent 指向該文件,即可啟動自主實驗。該文件由人類編輯和迭代。
設計上,無論算力配置如何,每次訓練都固定耗時 5 分鐘(實際墻鐘時間,不含啟動 / 編譯耗時)。核心評估指標為 val_bpb(驗證集每字節比特數),數值越低越好,且該指標與詞匯表大小無關,可公平對比不同架構修改的效果。
這意味著,AI Agent 每小時約可完成 12 次實驗,通宵(按 8 小時計)約能跑完 100 次實驗。這一設計有兩大優勢:無論 Agent 修改了什么(模型規模、批次大小、架構等),所有實驗都具備直接可比性;autoresearch 能在該時間預算內,為硬件平臺找到最優模型。缺點則是:實驗運行結果無法與其他硬件平臺上的實驗結果對比。
此外,Karpathy 提醒道,目前這段代碼只支持單張 NVIDIA GPU。理論上完全可以兼容 CPU、MPS 等其他平臺,但那樣會讓代碼變得臃腫。
大目標:“解放研究生、
模擬一個博士天團”
autoresearch 項目在社區內掀起不小的關注度,有 1060 萬次圍觀。有網友評價道,“太好了,研究生終于可以專注于真正的科學研究,而不是像保姆一樣看著機器運行!”
![]()
Karpathy 則很快在 X 上同步了對 autoresearch 項目更遠大的設想:autoresearch 的下一步,必須實現 Agent 之間異步大規模協作。“我們的目標絕非模擬一名博士生,而是模擬一個由無數博士生組成的完整科研社群。”
他認為,當前代碼僅能在特定研究方向上,以同步方式生成單條提交記錄鏈。但這個初始倉庫更像一顆種子: 從它出發,不同 Agent 可針對各類研究方向、不同算力平臺,貢獻各自的提交記錄,最終枝繁葉茂。GitHub 看似適配這種模式,實則不然:它內置了一種隱性假設,存在一個 “主分支”,其他分支只是臨時分叉出的 PR(合并請求),最終仍要合并回主分支。
為此,Karpathy 嘗試做了一個超輕量化的原型來探索這種協作模式,比如讓 Agent 把通宵實驗的結果總結成一篇 Discussion(討論帖)。另一種方式是用 PR(合并請求),優勢是能保留精準的提交記錄,但真的合并這些 PR, 而是只想 “采納” 并累積這些提交分支。即便用這種輕量化方式,也可以讓 Agent 先通過 GitHub CLI 讀取所有 Discussion/PR 獲取靈感,待自身研究完成后,再把發現整理成一篇小型 “研究報告” 反饋回來。
Karpathy 坦言,他目前還無法確定最終形態該是什么樣,但這是一個遠超 autoresearch 倉庫本身的宏大構想。理論上,Agent 可輕松處理并協作完成數千條分布在任意分支結構中的提交記錄。當 “智能、注意力、韌性” 不再是瓶頸時,現有的(代碼協作)抽象體系將面臨巨大壓力。
兩天的體驗,20 年的
工作模式被顛覆?
發布 autoresearch 項目幾天后,Karpathy 再次公開了其實驗進展:他讓 autoresearch 自主對深度為 12 的 nanochat 模型做了約兩天的調優,其摸索出了約 20 處改動,成功降低了模型的驗證損失。并且,他在對這些改動做了驗證后發現,所有優化效果均可疊加且能直接遷移到更大的深度為 24 的模型上。將這些改動全部整合后,他還在實測中發現,榜單上的 “訓練至 GPT-2 水平耗時” 從 2.02 小時縮短至 1.80 小時,性能提升約 11%。
“由此可見,這些優化都是實打實的,能帶來切實的性能提升。我原本以為 nanochat 已是我手動精細調優過的項目,沒想到首次以這種簡單直接的方式嘗試自主調優,就能取得如此顯著的效果,這多少讓我有些意外。”Karpathy 激動地說道,“這對我而言是一次全新的體驗,20 年來我早已習慣手動完成神經網絡訓練的迭代優化:自己構思思路、動手實現、驗證效果是否提升、基于結果再醞釀新想法、翻閱論文尋找靈感,周而復始。這是我二十年來日常工作的核心內容。而如今看到 Agent 能端到端地自主完成整個流程,還獨立完成了約 700 次改動嘗試,實在令人驚嘆。”
并且,Karpathy 認為,未來,所有深耕大模型領域的頂尖實驗室都會采用這種方式,這是大模型調優領域的終極挑戰。當然,在規模化應用中,這套方案的復雜度會大幅提升 畢竟實際場景中,需要調優的遠不止一個 train.py 文件。但歸根結底,這只是工程實現層面的問題,技術落地只是時間問題。
具體的落地思路可以是:啟動一個 Agent 集群,讓它們協同調優小模型,再將其中最有潛力的優化方案,逐步遷移到更大規模的模型訓練中,而人類研究者則可根據需求,在環節中做輔助性的參與即可。最后 Karpathy 提出,任何可高效評估的指標或是擁有高效代理指標的任務(比如通過訓練小模型來驗證效果),都能通過 Agent 集群實現自主調優研究。大家也可以思考一下,自己所研究的問題是否也適用于這種方式。
值得一提的是,現在 autoresearch 項目已被全球開發者社區接手共建,他們搭了一個分布式協作層,讓多個 Agent 共享成果、分工協作。到目前為止,已經跑了將近 3000 次實驗、有 82 項改進。
![]()
https://x.com/karpathy/status/2030371219518931079?s=20
https://x.com/karpathy/status/2031135152349524125
聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
會議推薦
OpenClaw 出圈,“養蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。
針對這一系列挑戰,在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態實踐」專題,將聚焦一線實踐與踩坑復盤,分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.