Karpathy 最近搞了一個叫 autoresearch 的項目,一出手就在圈內炸了鍋。
核心思路簡單到離譜:你去睡覺,AI 幫你通宵做實驗
一覺醒來,100 多個實驗結果整整齊齊地擺在面前。
更猛的是,社區在此基礎上迅速衍生出了好幾個項目,把這套"自主研究"的范式推向了更廣的場景——從代碼質量優化,到直接幫你寫論文。
我覺得這可能是 2026 年最有意思的 AI Agent 落地方向之一
Karpathy 的 autoresearch:用 Markdown 編程的研究機構
項目地址:https://github.com/karpathy/autoresearch
Karpathy 在 README 里寫了一段非常有畫面感的話:
曾經,前沿 AI 研究是由肉體大腦完成的,他們在吃飯、睡覺和其他娛樂之間擠出時間做研究,偶爾通過名為"組會"的儀式用聲波互聯來同步進展。那個時代早已過去。研究現在完全屬于在天空中計算集群巨型建筑上運行的自主 AI Agent 群。
核心玩法是什么?
整個項目只有三個關鍵文件:
文件
作用
誰來改?
prepare.py
數據準備、評估函數、dataloader
? 不能動
train.py
模型架構、優化器、訓練循環
AI 改這個
program.md
AI Agent 的行為指令
? 人類改這個
這個設計太妙了——你不再寫 Python,你寫 Markdown
program.md就是你的"研究組織代碼",定義 AI Agent 的行為模式:怎么實驗、怎么評估、怎么決定保留還是回滾
實驗循環長這樣:
永遠循環:
1. 看當前 git 狀態
2. 改 train.py,嘗試一個想法
3. git commit
4. 跑實驗(5分鐘固定時長)
5. 讀取結果:val_bpb 有沒有降低?
6. 降了 → 保留,推進分支
7. 沒降 → git reset 回滾
8. 記錄到 results.tsv
9. 繼續下一個實驗
每次實驗固定跑 5 分鐘,一個小時跑大約 12 個實驗。你睡 8 小時,AI 就給你跑了將近 100 個實驗。每個實驗的指標、內存、狀態全部記錄在 TSV 里
program.md里有一條非常霸氣的規則:
NEVER STOP: 一旦實驗循環開始,不要暫停問人要不要繼續。人類可能在睡覺。你是自主的。如果沒想法了,想得更深一些。循環持續到人類手動打斷為止
快速上手:
# 安裝 uv 包管理器
curl -LsSf https://astral.sh/uv/install.sh | sh
# 安裝依賴
uv sync
# 下載數據和訓練 tokenizer
uv run prepare.py# 手動跑一次訓練(驗證環境正常)
uv run train.py
然后開啟你的 Claude Code 或者 Codex,對它說一句話就行:
Hi have a look at program.md and let's kick off a new experiment!
醒來看results.tsv
設計哲學上有幾點我覺得特別精彩:
固定時間預算:所有實驗都是 5 分鐘,不管你怎么改架構改參數,都是公平比較
簡潔性原則:同等效果下更簡單的代碼優先。刪代碼能保持效果?那就是贏
單一指標:只看
val_bpb(驗證集 bits per byte),越低越好Git 即記憶:所有實驗都 commit,成功推進分支,失敗就 reset
不過這個項目目前只支持 NVIDIA GPU(在 H100 上測試),對 Mac 或 CPU 用戶不太友好。好在社區已經有了 MacOS、Windows、AMD 的 fork 版本。
Codex Autoresearch:把自主研究推廣到一切有指標的場景
項目地址:https://github.com/leo-lilinxiao/codex-autoresearch
![]()
Codex Autoresearch Banner
Karpathy 的 autoresearch 只做 ML 訓練,而codex-autoresearch把這套邏輯泛化到了所有軟件工程場景。
它是一個 OpenAI Codex 的 Skill(技能插件),核心理念:只要你有一個可以衡量的數字指標,它就能幫你自動優化。
你只需用一句話描述目標,Codex 會自動分析項目、確認指標、然后進入自主迭代循環。
看幾個實際場景:
你說的話
Codex 做什么
"提高測試覆蓋率"
掃描項目,提出指標,自動寫測試直到達標
"修復 12 個失敗的測試"
逐個檢測修復,直到全部通過
"為什么 API 返回 503?"
用科學方法排查根因,給出可證偽的假設
"這段代碼安全嗎?"
STRIDE + OWASP 審計,每個發現都有代碼證據
架構上有個很聰明的設計——支持前臺和后臺兩種運行模式。
你可以盯著它跑,也可以讓它后臺無人值守地跑一整夜。
實驗循環跟 Karpathy 的一脈相承:
共享循環核心(永遠循環或 N 次):
1. 審查當前狀態 + git 歷史 + 結果日志
2. 選一個假設
3. 做一個原子改動
4. git commit
5. 跑驗證 + 安全護欄
6. 改進了 → 保留。變差了 → 回滾。崩了 → 修復或跳過
7. 記錄結果
8. 健康檢查
9. 連續 3 次丟棄 → 調整策略;5 次 → 轉向;2 次轉向 → 搜索網絡
10. 重復
它還有一個跨運行學習的機制——每次成功或失敗的經驗都會被提取成"教訓",注入到下一輪實驗的決策中。
安裝也很簡單:
git clone https://github.com/leo-lilinxiao/codex-autoresearch.git
cp -r codex-autoresearch your-project/.agents/skills/codex-autoresearch
然后在 Codex 里說:
$codex-autoresearch
I want to get rid of all the `any` types in my TypeScript code
走開,回來看結果。
Claude Autoresearch:9 個命令覆蓋全場景
項目地址:https://github.com/uditgoenka/autoresearch
這個是面向 Claude Code 的版本,口號很直白:
"設定目標 → Claude 跑循環 → 你醒來看結果"
跟 Codex 版本類似,也是泛化的自主迭代框架,但這個項目在命令體系上做得更完整,提供了 9 個開箱即用的命令:
命令
功能
/autoresearch
核心自主迭代循環
/autoresearch:plan
交互式配置向導
/autoresearch:security
STRIDE + OWASP 安全審計
/autoresearch:ship
發布前檢查工作流
/autoresearch:debug
科學方法自主排 bug
/autoresearch:fix
自動修復所有錯誤
/autoresearch:scenario
場景驅動測試生成
/autoresearch:predict
多角色預分析
/autoresearch:learn
自動生成/更新文檔
它定義了8 條核心規則,這也是整個 autoresearch 范式的精髓:
循環到底——無限循環或 N 次循環后總結
先讀后寫——理解上下文再動手
一次一改——原子性修改,壞了知道是哪步
機械驗證——不要主觀的"看起來行",要指標
自動回滾——失敗立刻撤回
簡單為王——同樣效果,代碼越少越好
Git 即記憶——所有實驗都進 git 歷史
卡住了就想更深——沒思路的時候重新審視、組合近似成功的實驗、嘗試激進改變
安裝方式(推薦插件安裝):
# 在 Claude Code 中運行
/plugin marketplace add uditgoenka/autoresearch
/plugin install autoresearch@autoresearch
或者手動復制:
git clone https://github.com/uditgoenka/autoresearch.git
cp -r autoresearch/claude-plugin/skills/autoresearch .claude/skills/autoresearch
cp -r autoresearch/claude-plugin/commands/autoresearch .claude/commands/autoresearch
然后試試:
/autoresearch
Goal: Increase test coverage from 72% to 90%
Scope: src/**/*.test.ts, src/**/*.ts
Metric: coverage % (higher is better)
Verify: npm test -- --coverage | grep "All files"
Guard: npm test
AutoResearchClaw:最激進的——直接幫你寫論文項目地址:https://github.com/aiming-lab/AutoResearchClaw
![]()
AutoResearchClaw
前面幾個還是在"優化代碼/模型"的范疇,這貨直接把目標拉到了全自主寫論文
口號:"Chat an Idea. Get a Paper."——你說一個想法,它給你出一篇會議論文
![]()
AutoResearchClaw 框架圖
23 個階段,8 個大的 Phase,全自動流水線:
Phase A: 研究范圍界定 Phase E: 實驗執行
1. 主題初始化 12. 實驗運行
2. 問題分解 13. 迭代改進(自動修復)
Phase B: 文獻發現 Phase F: 分析與決策
3. 搜索策略 14. 結果分析(多 Agent)
4. 文獻收集(真實 API) 15. 研究決策(PIVOT/REFINE)
5. 文獻篩選 [人工關口]
6. 知識提取 Phase G: 論文寫作
16. 論文大綱
Phase C: 知識綜合 17. 論文初稿
7. 綜合 18. 同行評審(證據檢查)
8. 假設生成(多角色辯論) 19. 論文修訂Phase D: 實驗設計 Phase H: 最終化
9. 實驗設計 [人工關口] 20. 質量關口 [檢查]
10. 代碼生成 21. 知識歸檔
11. 資源規劃 22. 導出發布(LaTeX)
23. 引用驗證
最終產出一整套交付物:
產出
paper_draft.md
完整論文(引言、相關工作、方法、實驗、結論)
paper.tex
可編譯的 LaTeX(NeurIPS/ICML/ICLR 模板)
references.bib
真實的 BibTeX 引用(來自 OpenAlex、Semantic Scholar、arXiv)
experiment runs/
生成的實驗代碼 + 沙箱運行結果
charts/
自動生成的對比圖表
reviews.md
多 Agent 同行評審
幾個讓我印象深刻的設計:
引用不造假:文獻通過 OpenAlex、Semantic Scholar 和 arXiv API 獲取真實論文,還有 4 層引用驗證。這一點非常關鍵,其他自動寫論文的工具最大的問題就是瞎編引用
自愈機制:實驗失敗了會自動診斷修復;假設不成立會自動 PIVOT 換方向
多 Agent 辯論:假設生成和結果分析都用多視角辯論機制,不是單一 LLM 的"自說自話"
跨平臺支持:通過 ACP(Agent Client Protocol),支持 Claude Code、Codex CLI、Copilot CLI、Gemini CLI、Kimi CLI 等任何兼容的 Agent 后端
Sentinel 哨兵:后臺質量監控——NaN/Inf 檢測、論文證據一致性檢查、引用相關性打分、反編造守衛
快速上手:
# 克隆安裝
git clone https://github.com/aiming-lab/AutoResearchClaw.git
cd AutoResearchClaw
python3 -m venv .venv && source .venv/bin/activate
pip install -e .
# 交互式配置
researchclaw setup
researchclaw init# 一條命令跑起來
export OPENAI_API_KEY="sk-..."
researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approve
它已經 showcase 了 8 個領域(數學、統計、生物、計算、NLP、RL、視覺、魯棒性)的全自主生成論文
橫向對比:四個項目怎么選?
特性
Karpathy autoresearch
Codex Autoresearch
Claude Autoresearch
AutoResearchClaw
核心場景
ML 模型訓練優化
通用代碼質量
通用代碼質量
全自主寫論文
Agent 平臺
任意
OpenAI Codex
Claude Code
多平臺 ACP
自主程度
高(永不停止)
高(后臺模式)
高(無限循環)
極高(23 階段流水線)
迭代粒度
改 train.py
任意代碼改動
任意代碼改動
文獻→實驗→論文
評估方式
val_bpb
自定義指標
自定義指標
多維質量評審
GPU 要求
需要 NVIDIA GPU
不需要
不需要
按任務而定
適合誰
ML 研究者
工程師/開發者
工程師/開發者
科研工作者
老章說兩句
這一波 autoresearch 生態的爆發,本質上是三個趨勢交匯:
第一,Agent 能力到位了。Claude Code、Codex CLI 這些編程 Agent 已經能夠穩定地修改代碼、運行測試、讀取結果。不再是"玩具級"了。
第二,范式足夠簡潔。Karpathy 的核心洞察是——你只需要一個指標 + 一個約束 + 一個循環。這個模式簡單到任何人都能理解、任何場景都能套用。
第三,Git 是天然的 Agent 記憶。每次實驗 commit,失敗就 revert,成功就推進。這比任何復雜的狀態管理系統都優雅。
說白了,這就是把 AI 從"一次性問答"變成"持續迭代"的范式轉變。以前你讓 AI 改代碼,改完就改完了。現在是讓它進入一個無限循環:改、測、評、保留或回滾、再來。跟人類科研的流程一模一樣——提出假設、做實驗、分析結果、決定下一步——只不過它不需要睡覺。
我覺得 AutoResearchClaw 是最值得關注的一個。
雖然全自主寫論文的質量還沒法跟頂級研究者比,但作為科研輔助工具——幫你快速做文獻調研、跑初步實驗、生成論文初稿——已經能省掉大量重復勞動了。
當然,這些項目也有很明顯的局限:
只能優化能量化的東西。"讓代碼更優雅"這種目標它搞不定
API 成本不低。跑一夜的實驗,token 費用可能不便宜
創造性有限。它擅長的是在已知空間內暴力搜索,真正顛覆性的創新還是得靠人類
但方向是對的。
當 Agent 能力繼續提升、成本繼續下降,"你定義方向,AI 做苦力"可能真的會成為科研和工程的常態。
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.