<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Autoresearch 全自動寫代碼、寫論文,Claude、Codex、龍蝦紛紛復現

      0
      分享至

      Karpathy 最近搞了一個叫 autoresearch 的項目,一出手就在圈內炸了鍋。

      核心思路簡單到離譜:你去睡覺,AI 幫你通宵做實驗

      一覺醒來,100 多個實驗結果整整齊齊地擺在面前。

      更猛的是,社區在此基礎上迅速衍生出了好幾個項目,把這套"自主研究"的范式推向了更廣的場景——從代碼質量優化,到直接幫你寫論文。

      我覺得這可能是 2026 年最有意思的 AI Agent 落地方向之一

      Karpathy 的 autoresearch:用 Markdown 編程的研究機構

      項目地址:https://github.com/karpathy/autoresearch

      Karpathy 在 README 里寫了一段非常有畫面感的話:

      曾經,前沿 AI 研究是由肉體大腦完成的,他們在吃飯、睡覺和其他娛樂之間擠出時間做研究,偶爾通過名為"組會"的儀式用聲波互聯來同步進展。那個時代早已過去。研究現在完全屬于在天空中計算集群巨型建筑上運行的自主 AI Agent 群。
      Karpathy autoresearch 實驗進展圖

      核心玩法是什么?

      整個項目只有三個關鍵文件:

      文件

      作用

      誰來改?

      prepare.py

      數據準備、評估函數、dataloader

      ? 不能動

      train.py

      模型架構、優化器、訓練循環

      AI 改這個

      program.md

      AI Agent 的行為指令

      ? 人類改這個

      這個設計太妙了——你不再寫 Python,你寫 Markdown

      program.md就是你的"研究組織代碼",定義 AI Agent 的行為模式:怎么實驗、怎么評估、怎么決定保留還是回滾

      實驗循環長這樣:

      永遠循環:
      1. 看當前 git 狀態
      2. 改 train.py,嘗試一個想法
      3. git commit
      4. 跑實驗(5分鐘固定時長)
      5. 讀取結果:val_bpb 有沒有降低?
      6. 降了 → 保留,推進分支
      7. 沒降 → git reset 回滾
      8. 記錄到 results.tsv
      9. 繼續下一個實驗

      每次實驗固定跑 5 分鐘,一個小時跑大約 12 個實驗。你睡 8 小時,AI 就給你跑了將近 100 個實驗。每個實驗的指標、內存、狀態全部記錄在 TSV 里

      program.md里有一條非常霸氣的規則:

      NEVER STOP: 一旦實驗循環開始,不要暫停問人要不要繼續。人類可能在睡覺。你是自主的。如果沒想法了,想得更深一些。循環持續到人類手動打斷為止

      快速上手:

      # 安裝 uv 包管理器
      curl -LsSf https://astral.sh/uv/install.sh | sh

      # 安裝依賴
      uv sync

      # 下載數據和訓練 tokenizer
      uv run prepare.py

      # 手動跑一次訓練(驗證環境正常)
      uv run train.py

      然后開啟你的 Claude Code 或者 Codex,對它說一句話就行:

      Hi have a look at program.md and let's kick off a new experiment!

      醒來看results.tsv

      設計哲學上有幾點我覺得特別精彩:

      • 固定時間預算:所有實驗都是 5 分鐘,不管你怎么改架構改參數,都是公平比較

      • 簡潔性原則:同等效果下更簡單的代碼優先。刪代碼能保持效果?那就是贏

      • 單一指標:只看val_bpb(驗證集 bits per byte),越低越好

      • Git 即記憶:所有實驗都 commit,成功推進分支,失敗就 reset

      不過這個項目目前只支持 NVIDIA GPU(在 H100 上測試),對 Mac 或 CPU 用戶不太友好。好在社區已經有了 MacOS、Windows、AMD 的 fork 版本。

      Codex Autoresearch:把自主研究推廣到一切有指標的場景

      項目地址:https://github.com/leo-lilinxiao/codex-autoresearch


      Codex Autoresearch Banner

      Karpathy 的 autoresearch 只做 ML 訓練,而codex-autoresearch把這套邏輯泛化到了所有軟件工程場景。

      它是一個 OpenAI Codex 的 Skill(技能插件),核心理念:只要你有一個可以衡量的數字指標,它就能幫你自動優化。

      你只需用一句話描述目標,Codex 會自動分析項目、確認指標、然后進入自主迭代循環。

      看幾個實際場景:

      你說的話

      Codex 做什么

      "提高測試覆蓋率"

      掃描項目,提出指標,自動寫測試直到達標

      "修復 12 個失敗的測試"

      逐個檢測修復,直到全部通過

      "為什么 API 返回 503?"

      用科學方法排查根因,給出可證偽的假設

      "這段代碼安全嗎?"

      STRIDE + OWASP 審計,每個發現都有代碼證據

      架構上有個很聰明的設計——支持前臺和后臺兩種運行模式。

      你可以盯著它跑,也可以讓它后臺無人值守地跑一整夜。

      實驗循環跟 Karpathy 的一脈相承:

      共享循環核心(永遠循環或 N 次):
      1. 審查當前狀態 + git 歷史 + 結果日志
      2. 選一個假設
      3. 做一個原子改動
      4. git commit
      5. 跑驗證 + 安全護欄
      6. 改進了 → 保留。變差了 → 回滾。崩了 → 修復或跳過
      7. 記錄結果
      8. 健康檢查
      9. 連續 3 次丟棄 → 調整策略;5 次 → 轉向;2 次轉向 → 搜索網絡
      10. 重復

      它還有一個跨運行學習的機制——每次成功或失敗的經驗都會被提取成"教訓",注入到下一輪實驗的決策中。

      安裝也很簡單:

      git clone https://github.com/leo-lilinxiao/codex-autoresearch.git
      cp -r codex-autoresearch your-project/.agents/skills/codex-autoresearch

      然后在 Codex 里說:

      $codex-autoresearch
      I want to get rid of all the `any` types in my TypeScript code

      走開,回來看結果。

      Claude Autoresearch:9 個命令覆蓋全場景

      項目地址:https://github.com/uditgoenka/autoresearch

      這個是面向 Claude Code 的版本,口號很直白:

      "設定目標 → Claude 跑循環 → 你醒來看結果"

      跟 Codex 版本類似,也是泛化的自主迭代框架,但這個項目在命令體系上做得更完整,提供了 9 個開箱即用的命令:

      命令

      功能

      /autoresearch

      核心自主迭代循環

      /autoresearch:plan

      交互式配置向導

      /autoresearch:security

      STRIDE + OWASP 安全審計

      /autoresearch:ship

      發布前檢查工作流

      /autoresearch:debug

      科學方法自主排 bug

      /autoresearch:fix

      自動修復所有錯誤

      /autoresearch:scenario

      場景驅動測試生成

      /autoresearch:predict

      多角色預分析

      /autoresearch:learn

      自動生成/更新文檔

      它定義了8 條核心規則,這也是整個 autoresearch 范式的精髓:

      1. 循環到底——無限循環或 N 次循環后總結

      2. 先讀后寫——理解上下文再動手

      3. 一次一改——原子性修改,壞了知道是哪步

      4. 機械驗證——不要主觀的"看起來行",要指標

      5. 自動回滾——失敗立刻撤回

      6. 簡單為王——同樣效果,代碼越少越好

      7. Git 即記憶——所有實驗都進 git 歷史

      8. 卡住了就想更深——沒思路的時候重新審視、組合近似成功的實驗、嘗試激進改變

      安裝方式(推薦插件安裝):

      # 在 Claude Code 中運行
      /plugin marketplace add uditgoenka/autoresearch
      /plugin install autoresearch@autoresearch

      或者手動復制:

      git clone https://github.com/uditgoenka/autoresearch.git
      cp -r autoresearch/claude-plugin/skills/autoresearch .claude/skills/autoresearch
      cp -r autoresearch/claude-plugin/commands/autoresearch .claude/commands/autoresearch

      然后試試:

      /autoresearch
      Goal: Increase test coverage from 72% to 90%
      Scope: src/**/*.test.ts, src/**/*.ts
      Metric: coverage % (higher is better)
      Verify: npm test -- --coverage | grep "All files"
      Guard: npm test
      AutoResearchClaw:最激進的——直接幫你寫論文

      項目地址:https://github.com/aiming-lab/AutoResearchClaw


      AutoResearchClaw

      前面幾個還是在"優化代碼/模型"的范疇,這貨直接把目標拉到了全自主寫論文

      口號:"Chat an Idea. Get a Paper."——你說一個想法,它給你出一篇會議論文


      AutoResearchClaw 框架圖

      23 個階段,8 個大的 Phase,全自動流水線

      Phase A: 研究范圍界定         Phase E: 實驗執行
      1. 主題初始化 12. 實驗運行
      2. 問題分解 13. 迭代改進(自動修復)

      Phase B: 文獻發現 Phase F: 分析與決策
      3. 搜索策略 14. 結果分析(多 Agent)
      4. 文獻收集(真實 API) 15. 研究決策(PIVOT/REFINE)
      5. 文獻篩選 [人工關口]
      6. 知識提取 Phase G: 論文寫作
      16. 論文大綱
      Phase C: 知識綜合 17. 論文初稿
      7. 綜合 18. 同行評審(證據檢查)
      8. 假設生成(多角色辯論) 19. 論文修訂

      Phase D: 實驗設計 Phase H: 最終化
      9. 實驗設計 [人工關口] 20. 質量關口 [檢查]
      10. 代碼生成 21. 知識歸檔
      11. 資源規劃 22. 導出發布(LaTeX)
      23. 引用驗證

      最終產出一整套交付物:

      產出

      paper_draft.md

      完整論文(引言、相關工作、方法、實驗、結論)

      paper.tex

      可編譯的 LaTeX(NeurIPS/ICML/ICLR 模板)

      references.bib

      真實的 BibTeX 引用(來自 OpenAlex、Semantic Scholar、arXiv)

      experiment runs/

      生成的實驗代碼 + 沙箱運行結果

      charts/

      自動生成的對比圖表

      reviews.md

      多 Agent 同行評審

      幾個讓我印象深刻的設計:

      1. 引用不造假:文獻通過 OpenAlex、Semantic Scholar 和 arXiv API 獲取真實論文,還有 4 層引用驗證。這一點非常關鍵,其他自動寫論文的工具最大的問題就是瞎編引用

      2. 自愈機制:實驗失敗了會自動診斷修復;假設不成立會自動 PIVOT 換方向

      3. 多 Agent 辯論:假設生成和結果分析都用多視角辯論機制,不是單一 LLM 的"自說自話"

      4. 跨平臺支持:通過 ACP(Agent Client Protocol),支持 Claude Code、Codex CLI、Copilot CLI、Gemini CLI、Kimi CLI 等任何兼容的 Agent 后端

      5. Sentinel 哨兵:后臺質量監控——NaN/Inf 檢測、論文證據一致性檢查、引用相關性打分、反編造守衛

      快速上手:

      # 克隆安裝
      git clone https://github.com/aiming-lab/AutoResearchClaw.git
      cd AutoResearchClaw
      python3 -m venv .venv && source .venv/bin/activate
      pip install -e .

      # 交互式配置
      researchclaw setup
      researchclaw init

      # 一條命令跑起來
      export OPENAI_API_KEY="sk-..."
      researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approve

      它已經 showcase 了 8 個領域(數學、統計、生物、計算、NLP、RL、視覺、魯棒性)的全自主生成論文

      橫向對比:四個項目怎么選?

      特性

      Karpathy autoresearch

      Codex Autoresearch

      Claude Autoresearch

      AutoResearchClaw

      核心場景

      ML 模型訓練優化

      通用代碼質量

      通用代碼質量

      全自主寫論文

      Agent 平臺

      任意

      OpenAI Codex

      Claude Code

      多平臺 ACP

      自主程度

      高(永不停止)

      高(后臺模式)

      高(無限循環)

      極高(23 階段流水線)

      迭代粒度

      改 train.py

      任意代碼改動

      任意代碼改動

      文獻→實驗→論文

      評估方式

      val_bpb

      自定義指標

      自定義指標

      多維質量評審

      GPU 要求

      需要 NVIDIA GPU

      不需要

      不需要

      按任務而定

      適合誰

      ML 研究者

      工程師/開發者

      工程師/開發者

      科研工作者


      老章說兩句

      這一波 autoresearch 生態的爆發,本質上是三個趨勢交匯:

      第一,Agent 能力到位了。Claude Code、Codex CLI 這些編程 Agent 已經能夠穩定地修改代碼、運行測試、讀取結果。不再是"玩具級"了。

      第二,范式足夠簡潔。Karpathy 的核心洞察是——你只需要一個指標 + 一個約束 + 一個循環。這個模式簡單到任何人都能理解、任何場景都能套用。

      第三,Git 是天然的 Agent 記憶。每次實驗 commit,失敗就 revert,成功就推進。這比任何復雜的狀態管理系統都優雅。

      說白了,這就是把 AI 從"一次性問答"變成"持續迭代"的范式轉變。以前你讓 AI 改代碼,改完就改完了。現在是讓它進入一個無限循環:改、測、評、保留或回滾、再來。跟人類科研的流程一模一樣——提出假設、做實驗、分析結果、決定下一步——只不過它不需要睡覺。

      我覺得 AutoResearchClaw 是最值得關注的一個。

      雖然全自主寫論文的質量還沒法跟頂級研究者比,但作為科研輔助工具——幫你快速做文獻調研、跑初步實驗、生成論文初稿——已經能省掉大量重復勞動了。

      當然,這些項目也有很明顯的局限:

      • 只能優化能量化的東西。"讓代碼更優雅"這種目標它搞不定

      • API 成本不低。跑一夜的實驗,token 費用可能不便宜

      • 創造性有限。它擅長的是在已知空間內暴力搜索,真正顛覆性的創新還是得靠人類

      但方向是對的。

      當 Agent 能力繼續提升、成本繼續下降,"你定義方向,AI 做苦力"可能真的會成為科研和工程的常態。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      好可怕!40歲中年男人就有老人味嗎,差一點吐了,網友發帖引熱議

      好可怕!40歲中年男人就有老人味嗎,差一點吐了,網友發帖引熱議

      火山詩話
      2026-03-30 07:38:38
      送走馬蓉又來馮清,43歲的"老實人"王寶強,還是沒逃出"女人圈"

      送走馬蓉又來馮清,43歲的"老實人"王寶強,還是沒逃出"女人圈"

      趣知史館
      2026-03-10 20:20:03
      特朗普“混亂”講話,引發全球股市巨震!滬指險守3900點,接下來思路是什么?

      特朗普“混亂”講話,引發全球股市巨震!滬指險守3900點,接下來思路是什么?

      每經牛眼
      2026-04-02 15:32:23
      和老伴去遼寧興城住了1個月,我實話實說:跟想象中完全不一樣

      和老伴去遼寧興城住了1個月,我實話實說:跟想象中完全不一樣

      西莫的藝術宮殿
      2026-04-02 12:10:03
      小哈梅內伊的下落,突然被俄羅斯曝光,普京送特朗普一個關鍵機會

      小哈梅內伊的下落,突然被俄羅斯曝光,普京送特朗普一個關鍵機會

      滄海旅行家
      2026-04-02 13:34:22
      林青霞親口爆料:當年我全裸給他看,他卻嚇得扭頭就跑!

      林青霞親口爆料:當年我全裸給他看,他卻嚇得扭頭就跑!

      達文西看世界
      2026-03-04 15:07:30
      刀都架脖子上了!親美派準備上位,連戰3天攔截,強行保下蕭旭岑

      刀都架脖子上了!親美派準備上位,連戰3天攔截,強行保下蕭旭岑

      策略述
      2026-04-01 16:16:53
      為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

      為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

      侃神評故事
      2026-03-10 18:50:04
      CCTV5+直播,銅梁龍延續黑馬本色,王鈺棟PK向余望,浙江追擊前三

      CCTV5+直播,銅梁龍延續黑馬本色,王鈺棟PK向余望,浙江追擊前三

      替補席看球
      2026-04-02 13:46:38
      趙姬咽氣前拉著嬴政衣袖嘶吼:你爹不是呂不韋!三大秘密終曝光

      趙姬咽氣前拉著嬴政衣袖嘶吼:你爹不是呂不韋!三大秘密終曝光

      千秋文化
      2026-02-14 20:35:30
      歷史竟開了個玩笑:先倒下的不是烏克蘭,而是百年中立的瑞士?

      歷史竟開了個玩笑:先倒下的不是烏克蘭,而是百年中立的瑞士?

      通鑒史智
      2026-04-02 10:27:20
      15.99萬起!廣汽官宣:新車首次降價

      15.99萬起!廣汽官宣:新車首次降價

      高科技愛好者
      2026-04-01 23:01:53
      別把股民當傻子!滬指尾盤拉升,AI算力板塊大跌超-3%

      別把股民當傻子!滬指尾盤拉升,AI算力板塊大跌超-3%

      財報翻譯官
      2026-04-02 15:22:47
      色情網站“丁香”覆滅記:7.3億瀏覽量的背后,是誰在操控盈利?

      色情網站“丁香”覆滅記:7.3億瀏覽量的背后,是誰在操控盈利?

      談史論天地
      2026-02-08 20:30:04
      2000km續航!比亞迪新車今天上市

      2000km續航!比亞迪新車今天上市

      手機評測室
      2026-04-02 11:50:58
      2選1!里夫斯站上運十字路口:去達拉斯組三巨頭,還是留湖人沖冠

      2選1!里夫斯站上運十字路口:去達拉斯組三巨頭,還是留湖人沖冠

      體育閑話說
      2026-04-02 10:26:27
      世界杯冠軍點兵!阿根廷名單已定22席:梅西領銜 還差4人

      世界杯冠軍點兵!阿根廷名單已定22席:梅西領銜 還差4人

      葉青足球世界
      2026-04-02 15:31:43
      西方白左正在用天真、善良和愚蠢將世界送往毀滅之路

      西方白左正在用天真、善良和愚蠢將世界送往毀滅之路

      壹家言
      2026-03-31 11:04:40
      楊丞琳成都演唱會:造型封神,青春大合唱

      楊丞琳成都演唱會:造型封神,青春大合唱

      東方不敗然多多
      2026-04-02 11:38:57
      吳佳尼心累,兩個兒子一年開支上百萬,64歲前夫馬景濤只提供學費

      吳佳尼心累,兩個兒子一年開支上百萬,64歲前夫馬景濤只提供學費

      話娛論影
      2026-03-30 20:57:14
      2026-04-02 17:35:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3303文章數 11122關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      旅游
      家居
      數碼
      教育
      時尚

      旅游要聞

      河南中牟:地鐵直達赴春約 “微度假”成春日近郊游爆款

      家居要聞

      歲月靜好 典雅新章

      數碼要聞

      中國芯片廠商占領本土近半市場 NVIDIA領先優勢大幅縮減

      教育要聞

      天府新區調整劃片后,利好不止這個片區

      女人有沒有品位看看穿搭就知道,這些造型值得借鑒,溫柔高級

      無障礙瀏覽 進入關懷版