網易首頁 > 網易號 > 正文申請入駐

AI兩天推翻20年工作習慣！Karpathy百行代碼開源項目“封神”，AI替你通宵肝研究、戰績可查

2026-03-16 19:26:30　來源: AI前線

北京舉報

分享至

整理｜華衛

“人在睡覺，AI 已經跑完了 100 輪實驗。”

近日，特斯拉前 AI 總監、OpenAI 創始成員 Andrej Karpathy 最近開源了一個叫 autoresearch 的項目，邏輯很簡單：給 AI Agent 配備一套小型但真實可用的 LLM 訓練環境，讓它自己通宵自主搞深度學習研究。成果很驚人：兩天內，Agent 自主完成 276 次實驗，篩出 29 項有效改進，把一個語言模型的訓練效率提升了約 11%，全程零人類干預。

截止目前，該項目已經獲得 36.9k Stars。Karpathy 在 X 上介紹道，“我們的目標是打造這樣的 Agent：讓它能以最快速度持續推進研究，且全程無需你任何人工介入。”

開源項目鏈接：https://github.com/karpathy/autoresearch

在 README 里，Karpathy 寫了一段讓人震驚的話：

曾幾何時，前沿 AI 研究還得靠碳基大腦完成：大家吃飯、睡覺、摸魚，偶爾再用聲波互聯開個叫 “組會” 的儀式同步一下進度。那個時代早已遠去。如今，研究完全是自主 AI Agent 的天下，它們運行在云端巨型算力集群之上，聲稱當前代碼庫已迭代至第 10205 代。無論如何，沒有人能夠判斷這個數字是對是錯，因為“代碼”早已變成一個自我修改的二進制程序，遠超人類理解范圍。本倉庫記錄的，便是這一切的開端。 —— Karpathy，2026 年 3 月

極簡到離譜：百行代碼讓 AI 徹夜科研

據介紹，autoresearch 項目總共 630 行 Python 代碼，其中的 AI Agent 會自動修改代碼、訓練 5 分鐘、檢查效果是否提升，保留或丟棄結果，然后不斷循環。你早上醒來，就能看到一整晚的實驗日志以及一個更優的模型。核心在于，你不用再像普通研究者那樣手動修改任何 Python 文件，而是去編寫 Markdown 文件，為 AI Agent 提供上下文，搭建你的自主研究組織。

本倉庫的訓練代碼是簡化版、單 GPU 實現的 nanoChat，默認配置刻意保持極簡基線，可以在此基礎上持續迭代，找到能實現最快研究進展的 “研究組織代碼”，或是加入更多 Agent 等等。

整個項目刻意保持輕量化設計，核心文件僅有三個：

prepare.py 包含固定常量、一次性數據預處理（下載訓練數據、訓練 BPE 分詞器）以及運行時工具函數（數據加載器、評估函數），該文件永不修改。
train.py 是 Agent 唯一可編輯的文件，包含完整的 GPT 模型、優化器（Muon + AdamW）和訓練循環。所有內容均可調整：模型架構、超參數、優化器、批次大小等，該文件由 Agent 自主修改和迭代。
program.md 是給單個 Agent 的基準指令文件。只需將 Agent 指向該文件，即可啟動自主實驗。該文件由人類編輯和迭代。

設計上，無論算力配置如何，每次訓練都固定耗時 5 分鐘（實際墻鐘時間，不含啟動 / 編譯耗時）。核心評估指標為 val_bpb（驗證集每字節比特數），數值越低越好，且該指標與詞匯表大小無關，可公平對比不同架構修改的效果。

這意味著，AI Agent 每小時約可完成 12 次實驗，通宵（按 8 小時計）約能跑完 100 次實驗。這一設計有兩大優勢：無論 Agent 修改了什么（模型規模、批次大小、架構等），所有實驗都具備直接可比性；autoresearch 能在該時間預算內，為硬件平臺找到最優模型。缺點則是：實驗運行結果無法與其他硬件平臺上的實驗結果對比。

此外，Karpathy 提醒道，目前這段代碼只支持單張 NVIDIA GPU。理論上完全可以兼容 CPU、MPS 等其他平臺，但那樣會讓代碼變得臃腫。

大目標：“解放研究生、

模擬一個博士天團”

autoresearch 項目在社區內掀起不小的關注度，有 1060 萬次圍觀。有網友評價道，“太好了，研究生終于可以專注于真正的科學研究，而不是像保姆一樣看著機器運行！”

Karpathy 則很快在 X 上同步了對 autoresearch 項目更遠大的設想：autoresearch 的下一步，必須實現 Agent 之間異步大規模協作。“我們的目標絕非模擬一名博士生，而是模擬一個由無數博士生組成的完整科研社群。”

他認為，當前代碼僅能在特定研究方向上，以同步方式生成單條提交記錄鏈。但這個初始倉庫更像一顆種子：從它出發，不同 Agent 可針對各類研究方向、不同算力平臺，貢獻各自的提交記錄，最終枝繁葉茂。GitHub 看似適配這種模式，實則不然：它內置了一種隱性假設，存在一個 “主分支”，其他分支只是臨時分叉出的 PR（合并請求），最終仍要合并回主分支。

為此，Karpathy 嘗試做了一個超輕量化的原型來探索這種協作模式，比如讓 Agent 把通宵實驗的結果總結成一篇 Discussion（討論帖）。另一種方式是用 PR（合并請求），優勢是能保留精準的提交記錄，但真的合并這些 PR，而是只想 “采納” 并累積這些提交分支。即便用這種輕量化方式，也可以讓 Agent 先通過 GitHub CLI 讀取所有 Discussion/PR 獲取靈感，待自身研究完成后，再把發現整理成一篇小型 “研究報告” 反饋回來。

Karpathy 坦言，他目前還無法確定最終形態該是什么樣，但這是一個遠超 autoresearch 倉庫本身的宏大構想。理論上，Agent 可輕松處理并協作完成數千條分布在任意分支結構中的提交記錄。當 “智能、注意力、韌性” 不再是瓶頸時，現有的（代碼協作）抽象體系將面臨巨大壓力。

兩天的體驗，20 年的

工作模式被顛覆？

發布 autoresearch 項目幾天后，Karpathy 再次公開了其實驗進展：他讓 autoresearch 自主對深度為 12 的 nanochat 模型做了約兩天的調優，其摸索出了約 20 處改動，成功降低了模型的驗證損失。并且，他在對這些改動做了驗證后發現，所有優化效果均可疊加且能直接遷移到更大的深度為 24 的模型上。將這些改動全部整合后，他還在實測中發現，榜單上的 “訓練至 GPT-2 水平耗時” 從 2.02 小時縮短至 1.80 小時，性能提升約 11%。

“由此可見，這些優化都是實打實的，能帶來切實的性能提升。我原本以為 nanochat 已是我手動精細調優過的項目，沒想到首次以這種簡單直接的方式嘗試自主調優，就能取得如此顯著的效果，這多少讓我有些意外。”Karpathy 激動地說道，“這對我而言是一次全新的體驗，20 年來我早已習慣手動完成神經網絡訓練的迭代優化：自己構思思路、動手實現、驗證效果是否提升、基于結果再醞釀新想法、翻閱論文尋找靈感，周而復始。這是我二十年來日常工作的核心內容。而如今看到 Agent 能端到端地自主完成整個流程，還獨立完成了約 700 次改動嘗試，實在令人驚嘆。”

并且，Karpathy 認為，未來，所有深耕大模型領域的頂尖實驗室都會采用這種方式，這是大模型調優領域的終極挑戰。當然，在規模化應用中，這套方案的復雜度會大幅提升畢竟實際場景中，需要調優的遠不止一個 train.py 文件。但歸根結底，這只是工程實現層面的問題，技術落地只是時間問題。

具體的落地思路可以是：啟動一個 Agent 集群，讓它們協同調優小模型，再將其中最有潛力的優化方案，逐步遷移到更大規模的模型訓練中，而人類研究者則可根據需求，在環節中做輔助性的參與即可。最后 Karpathy 提出，任何可高效評估的指標或是擁有高效代理指標的任務（比如通過訓練小模型來驗證效果），都能通過 Agent 集群實現自主調優研究。大家也可以思考一下，自己所研究的問題是否也適用于這種方式。

值得一提的是，現在 autoresearch 項目已被全球開發者社區接手共建，他們搭了一個分布式協作層，讓多個 Agent 共享成果、分工協作。到目前為止，已經跑了將近 3000 次實驗、有 82 項改進。

https://x.com/karpathy/status/2030371219518931079?s=20

https://x.com/karpathy/status/2031135152349524125

聲明：本文為 AI 前線整理，不代表平臺觀點，未經許可禁止轉載。

會議推薦

OpenClaw 出圈，“養蝦”潮狂熱，開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下，自托管 Agent 形態迅速普及：多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。

針對這一系列挑戰，在 4 月 16-18 日即將舉辦的 QCon 北京站上，我們特別策劃了「OpenClaw 生態實踐」專題，將聚焦一線實踐與踩坑復盤，分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系，最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.