![]()
新智元報道
編輯:犀牛
【新智元導讀】Karpathy讓Agent通宵跑了110次實驗把模型練強后說了句「去桑拿了」,然后開源630行代碼的autoresearch,一塊GPU就能擁有一個永不下班的AI研究實驗室——人類研究員的新工作,是寫好提示詞然后去蒸桑拿。
剛剛,Karpathy在x上發(fā)了一條讓整個AI圈炸鍋的帖子:
ah yes, this is what post-agi feels like :) i didn't touch anything. brb sauna
啊對,這就是后AGI的感覺 :) 我什么都沒碰。先去蒸桑拿了。
![]()
什么樣的技術突破,能讓這位AI大神如此淡定地撂下一句話就去蒸桑拿?
答案是:他的AI Agent,在他睡覺的12個小時里,自主提交了110次代碼變更,把一個語言模型的驗證損失(val loss)從0.862415一路壓到了0.858039——而且沒有增加一秒鐘的訓練時間。
更炸裂的是,就在幾天后,Karpathy把這套「AI自己搞科研」的方法論打包成了一個僅630行代碼的開源項目——autoresearch,扔到了GitHub上。
![]()
項目地址:https://github.com/karpathy/autoresearch
上線剛幾個小時,就已沖到了3k星標!
Karpathy表示,任何人只要有一塊GPU,就能在一夜之間運行一個AI研究實驗室。
![]()
這兩件事疊在一起,構(gòu)成了一幅前所未有的畫面:AI不再只是人類的工具,它開始自己優(yōu)化自己了。
而人類研究員的新工作,變成了——寫一份提示詞,然后去蒸桑拿。
nanochat
100美元訓一個ChatGPT
故事要從Karpathy的nanochat項目說起。
nanochat是Karpathy在2025年10月開源的一個項目,口號相當炸裂——「100美元能訓練的最好的ChatGPT」。
![]()
nanochat項目地址:https://github.com/karpathy/nanochat
它用大約8000行干凈的PyTorch代碼,實現(xiàn)了一個完整的、從零開始的語言模型訓練流水線:分詞、預訓練、微調(diào)、強化學習、推理、Web UI,一條龍全包。
在一個8塊H100 GPU的節(jié)點上,花4個小時左右,你就能訓出一個可以跟你聊天的小型ChatGPT。
但nanochat真正讓人興奮的地方,不在于它有多便宜,而在于它有多「可迭代」。
整個項目圍繞一個核心參數(shù)——Transformer的深度(depth)。
你只要擰這一個旋鈕,其他所有超參數(shù)(寬度、頭數(shù)、學習率、訓練時長、權重衰減……)都會自動調(diào)整到計算最優(yōu)。
換句話說,這是一個極簡但極其精密的訓練系統(tǒng),天然適合用來做實驗。
昨天,nanochat取得了一個里程碑式的進展:在單個8×H100節(jié)點上,僅用2小時就能訓出GPT-2級別能力的模型。
一個月前這個數(shù)字還是3小時。
但真正的重頭戲來了——Karpathy開始讓AI Agent自動迭代nanochat的訓練代碼。
具體怎么玩的?
他給AI代理寫了一份大約120行的Markdown文檔,相當于一份「任務說明書」,告訴AI:這個項目是干什么的,什么樣的改進算好的(驗證損失更低),什么樣的改進不能接受(訓練時間變長、內(nèi)存爆炸、代碼變得太臃腫)。
然后,AI Agent就開始在一個Git特性分支上自主工作:讀代碼、想主意、改代碼、跑訓練、看結(jié)果。
如果效果變好,就合并到主分支;如果效果變差或者訓練變慢,就丟棄,重新來過。
結(jié)果呢?
12個小時,110次代碼提交,d12模型的驗證損失從0.862降到了0.858,降了0.004——對于語言模型來說,這是一個實實在在的進步,而且是在不增加任何訓練時間的前提下取得的。
![]()
有一個特別有意思的細節(jié):其中有一次提交,AI代理確實把val loss降下來了,但訓練時間變長了,于是被系統(tǒng)自動拒絕了。
Karpathy設的規(guī)則很嚴格——要么改善損失,要么改善速度,要么兩個都改善,不能拆東墻補西墻。
更有意思的是Karpathy自己的反思。
他說,在過去兩周里,他花在「調(diào)優(yōu)AI代理的工作流程」上的時間,幾乎比他直接改nanochat代碼的時間還多。
他迭代的不是代碼本身,而是「讓AI更好地迭代代碼的那套系統(tǒng)」——一個「元優(yōu)化」的過程。
![]()
這意味著人類研究員的角色正在發(fā)生質(zhì)變:從「親手寫代碼做實驗」,變成了「設計一個能讓AI自動做實驗的系統(tǒng)」。
Karpathy把這種感覺稱為「后AGI(post-AGI)」。
當然,他自己也說這個說法半開玩笑——今天的AI代理在實現(xiàn)想法方面已經(jīng)相當厲害,但在提出創(chuàng)造性的新想法方面還差得遠,目前更接近于一個自動化的超參數(shù)調(diào)優(yōu)工具,而不是一個真正的研究員。
但他緊接著說了一句意味深長的話:「隨著AI能力的提升,這條路的方向是清楚的——AI在自主改進下一代自己。」
![]()
autoresearch
630行代碼,一塊GPU,5分鐘一輪實驗
如果說nanochat上的AI代理自動迭代是一次「概念驗證」,那么autoresearch就是Karpathy把這個概念打包成了一個人人可用的開源工具。
Karpathy正式開源了autoresearch項目。
他給這個項目寫了一段極具科幻感的序言:
曾幾何時,前沿AI研究還靠著一群碳水化合物計算機——他們在吃飯睡覺摸魚的間隙,偶爾通過組會儀式用聲波互相吼兩嗓子,就這么推進著人類的技術邊界。
那個年代已經(jīng)一去不返。如今,研究完全被AI智能體接管……據(jù)說代碼已經(jīng)迭代到了第10205代,但這數(shù)字真?zhèn)我褵o從考證——那些代碼早已進化為能自我修改的二進制生命,遠遠超出了人類的認知范疇。
這個代碼倉庫,正是這一切故事的起點。
![]()
雖然這段話寫的是「未來愿景」,但autoresearch項目本身的設計,已經(jīng)在認真地朝著這個方向邁步。
autoresearch本質(zhì)上是nanochat的「精簡單機版」。
Karpathy把大模型訓練的核心代碼壓縮到了一個約630行的Python單文件里,在單塊GPU上就能跑。
整個項目只有三個核心文件:
prepare.py—— 數(shù)據(jù)準備:下載訓練數(shù)據(jù)、訓練BPE分詞器,還有運行時需要的數(shù)據(jù)加載器和評估工具。這個文件是固定的,AI不會碰它。
train.py—— 訓練代碼:包含完整的GPT模型定義、優(yōu)化器(Muon + AdamW)和訓練循環(huán)。從模型架構(gòu)、超參數(shù)、優(yōu)化器到批量大小,AI代理可以修改這里的一切。
program.md—— 人類寫給AI的「指令書」:用自然語言描述研究目標和約束條件,人類研究員通過編輯這個文件來引導AI的工作方向。
項目的核心機制堪稱精妙——固定5分鐘訓練時長。
不管你用的是什么GPU,不管AI代理怎么改模型大小、批量大小、架構(gòu)設計,每一輪訓練都精確控制在5分鐘。
這個設計有兩個好處:第一,所有實驗結(jié)果直接可比,因為計算預算是固定的;第二,AI代理會自動為你的特定硬件找到最優(yōu)配置。
你一晚上睡8個小時,AI代理大約能跑100輪實驗。第二天早上起來,你面前擺著的是一份詳細的實驗日志,和一個(大概率)比昨晚更好的模型。
整個工作流被Karpathy概括為兩句話:
人類負責迭代提示詞(.md文件)
AI代理負責迭代訓練代碼(.py文件)
AI代理在一個Git特性分支上自主循環(huán)運行:改代碼→訓練5分鐘→檢查分數(shù)→如果更好就提交→如果更差就回滾→繼續(xù)改。
每個提交都是一次經(jīng)過驗證的改進,像搭積木一樣一層層往上壘。
而Karpathy為這個項目設定的終極目標,說出來有點瘋狂:設計出能夠無限期、無需任何人工干預、以最快速度取得研究進展的AIAgent。
一塊GPU,一個文件,一個指標——這就是整個實驗環(huán)境。
從「人做實驗」
到「人設計做實驗的AI」
傳統(tǒng)的AI研究是這樣的:一個博士生(或者一群博士生)想到一個idea,寫代碼實現(xiàn),跑實驗,看結(jié)果,改參數(shù),再跑,再看,周而復始。
Karpathy自己就說,這基本上是他整個博士期間做的事情。
一個idea從提出到驗證,可能要花幾天甚至幾周——因為人要吃飯,要睡覺,要開組會,要跟導師battle,要修bug修到懷疑人生。
現(xiàn)在呢?
AI代理不吃飯不睡覺不摸魚不抱怨,它24小時不停地跑實驗,5分鐘一輪,一晚上100輪。
它不會因為連續(xù)跑了20次實驗都失敗了就心態(tài)崩了去刷社交媒體——它只會冷靜地分析結(jié)果,調(diào)整策略,繼續(xù)下一輪。
當然,Karpathy自己也坦率地承認:AI現(xiàn)在非常擅長實現(xiàn)想法,但在提出真正創(chuàng)造性的新想法方面還差得遠。
autoresearch目前的工作方式,更像是一個極其勤奮且不知疲倦的「超參數(shù)調(diào)優(yōu)工程師」,而不是一個能提出變革性理論的研究員。
但關鍵在于——趨勢是清晰的。
Karpathy說的那句話,幾乎可以作為這個時代的注腳:
AI在自主改進下一代的自己,人類研究員偶爾往里面扔幾個想法就行了。
這不是科幻,這是今天正在GitHub上開源運行的代碼。
而autoresearch的開源,讓這件事的門檻降到了令人瞠目的程度。
現(xiàn)在,一個獨立開發(fā)者,一塊GPU,一份精心寫好的提示詞,就能在一夜之間跑完一個小型研究實驗室一周的工作量。
這對整個AI開發(fā)生態(tài)的潛在影響是深遠的。
中小團隊甚至個人開發(fā)者,也能參與到模型訓練和優(yōu)化的競技場中。
AI研發(fā)的民主化,正在從獲取模型(開源權重)推進到優(yōu)化模型(自動化實驗)。
更深層次地看,autoresearch代表的是一種新的「人機協(xié)作范式」:人類負責定義問題、設定約束、提供方向性的直覺;AI負責在巨大的搜索空間里不知疲倦地試錯和優(yōu)化。
人類的創(chuàng)造力和AI的執(zhí)行力,第一次以一種系統(tǒng)化的方式結(jié)合在了一起。
去蒸桑拿吧
世界正在被改寫
回到Karpathy那條著名的帖子——「this is what post-agi feels like, brb sauna」。
這句話的妙處在于,它既是一句玩笑,也是一個真實的信號。
當一個AI領域最頂尖的研究者,能夠放心地把模型優(yōu)化的工作交給AI代理,自己去蒸桑拿而不是在電腦前盯著訓練日志——這本身就說明了一些深刻的東西。
AI自主工作的能力已經(jīng)跨過了一個臨界點:它不僅能執(zhí)行明確的指令,還能在一個真實的、開放的研究環(huán)境中,自主地發(fā)現(xiàn)改進空間并付諸行動。
Karpathy為autoresearch寫的那段序言里有一句話特別值得玩味——這個代碼倉庫,正是這一切故事的起點。
這不是終點,這只是結(jié)束的開始。
AI代理在今天還只是一個不知疲倦的調(diào)參高手。
但明天,當模型能力再上一個臺階,當它們不僅能實現(xiàn)想法還能提出想法的時候——那個Karpathy筆下「代碼進化為自我修改的二進制生命」的科幻場景,或許并沒有我們想象的那么遙遠。
到那時候,也許我們所有人都該去桑拿了。
你期待嗎。
參考資料:
https://x.com/karpathy/status/2029950967031247231
https://x.com/karpathy/status/2030371219518931079
https://github.com/karpathy/autoresearch
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.