<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Karpathy的AI實驗員,5分鐘跑完我3年前的爛尾項目

      0
      分享至


      周末下午,我把三年前爛尾的研究代碼丟給Claude,然后出門買咖啡?;貋頃r發現它不但修好了環境依賴,還順手做了11組對比實驗。

      這不是什么科幻場景。Andrej Karpathy開源的Autoresearch框架,本質上是個"AI實驗員"——一個被關在容器里的LLM代理,只能在train.py里改代碼,5分鐘跑不通就回滾。我好奇的是:它能不能接手那種"作者自己都不想碰"的陳舊代碼庫?

      我的測試對象eCLIP,是2021年的一個視覺語言預訓練項目。當時做了專家注意力機制,用醫生的眼動熱力圖引導模型看X光片的關鍵區域。論文發了,代碼扔了,數據集也找不到了。典型的學術廢墟。

      這次我換了Ukiyo-eVG數據集——11000張浮世繪,每張都標注了文字描述和對應的人物/物體框。把邊界框轉成高斯熱力圖,模擬當年放射科醫生的眼動數據。任務很直接:模型能不能根據"持扇女子"這種描述,準確找到畫里的對應區域?

      評估指標我選了Mean Rank(檢索排序的平均位次)。事后想想,Median Rank(中位位次)會更抗異常值,但當時沒多想——Autoresearch的核心邏輯就是"先跑起來,別卡在完美主義"。

      AI實驗員的工作日志:從修廁所到搞科研

      我把權限鎖得很死:Claude只能改train.py和scratchpad.md,執行run.sh,其他一律禁止。沒有pip install,沒有git push,更沒有聯網。容器化的訓練環境像個透明魚缸,它在里面撲騰,我在外面干家務。

      program.md里我分了三個階段:先調超參數,再改小架構,最后放飛——給它網頁權限去讀論文找靈感。整個循環很機械:假設→編輯→訓練→評估→提交或回滾→重來。每次5分鐘,逼它做快速決策,別過擬合到噪聲里。

      第一階段它干的事很"實習生":學習率從3e-4調到1e-4,batch size翻倍,加了梯度裁剪。scratchpad.md里它寫道:"當前最佳驗證Mean Rank 12.3,比基線提升8%。"字跡工整,像實驗室筆記本。

      但真正的動作在第二階段。它注意到我的數據加載器有個bug:多線程 workers 數設得太高,小數據集反而被IO拖慢。自己改成了單線程預加載,訓練時間從4分半壓到2分鐘。這不是調參,是修廁所——臟活,但讓整個系統運轉更順。

      我意識到Autoresearch的價值不在"發現",而在"兜底"。那些你明知該做、卻永遠排不上優先級的事,它會默默做完。

      第三階段我給了它網頁權限。它讀了三篇CVPR 2024的對比學習論文,嘗試把溫度系數從固定0.07改成可學習參數。結果Mean Rank從11.8掉到14.2,回滾。又試了一種新的難負采樣策略,12.1,沒進步。最后它在scratchpad里寫:"當前數據集規??赡懿蛔阋灾螐碗s采樣策略的收益,建議保持簡單方案。"


      這種"知難而退"的判斷力,比很多人類研究生都強。

      容器里的創造力:當AI只能改一個文件

      Autoresearch的約束設計很有意思。單文件編輯(train.py)強制模塊化思維;5分鐘時限消滅"再訓一輪看看"的僥幸心理;提交/回滾機制讓實驗歷史可追溯。這些不是技術限制,是產品設計——用規則對抗人類的拖延和混亂。

      我的program.md寫法也有講究。不是寫"請優化模型",而是拆成可驗證的步驟:Phase 1驗證數據流,Phase 2驗證訓練穩定性,Phase 3才允許探索性改動。這種"腳手架"思維,和帶新人做項目一模一樣。

      Claude在scratchpad里的記錄暴露了它的"思考"模式。它會先復述當前狀態,再列出3-5個可能方向,給每個打分("高置信/中風險"或"低置信/高收益"),然后選分最高的執行。這不是直覺,是結構化決策——恰好彌補了人類研究員容易"拍腦袋"的弱點。

      有個細節讓我印象深刻。某次它想引入LayerNorm的變體,但發現我的代碼里用的是舊版PyTorch的nn.LayerNorm,參數名不兼容。它沒有硬改,而是在scratchpad寫:"檢測到版本沖突,當前環境PyTorch 2.1,原代碼基于1.9。建議回退到標準LayerNorm或升級全部依賴。選擇后者,預計耗時15分鐘,超出單次迭代預算。暫緩。"

      這種"成本意識"是真人研究員的稀缺品質。我們太容易為了炫技,把項目拖進依賴地獄。

      爛尾項目的復活:AI作為學術考古工具

      eCLIP的代碼我三年沒碰。Python 3.7,PyTorch 1.9,requirements.txt里還有已經棄用的torchvision版本。Claude的第一步不是跑模型,是升級環境——把代碼遷到Python 3.11,替換廢棄API,重寫數據加載器適配新數據集格式。

      這花了它6個迭代周期,約半小時。我在疊衣服,它在做技術債清理。

      更意外的是它對新數據集的處理。Ukiyo-eVG的標注格式和原醫學數據完全不同:短語-邊界框對,而不是句子-眼動軌跡。Claude寫了完整的預處理管道,包括把日文描述轉成模型能處理的token序列,以及邊界框到高斯熱力圖的轉換。代碼風格和我的舊代碼保持一致,連變量命名習慣都模仿了。

      我檢查時發現它甚至處理了邊界框的坐標系問題——原數據集用的是左上角原點,而我的可視化代碼假設中心原點。它在scratchpad里備注:"檢測到坐標系不一致,已做偏移補償。驗證:可視化第42號樣本,熱力圖峰值與標注框中心重合。"


      這種"邊做邊驗"的習慣,是很多代碼倉庫缺乏的。

      最終跑出的數字:基線Mean Rank 13.4,優化后11.8,相對提升12%。不是突破性進展,但考慮我只寫了program.md和鎖了權限,其余全是它自主完成,這個投入產出比很夸張。

      Median Rank我后來手動算了一下:基線9,優化后7.5。更穩健的提升,驗證了我的事后判斷。

      局限與邊界:什么情況下AI實驗員會失效

      這個周末實驗也暴露了硬邊界。當Claude讀到一篇關于"視覺Transformer動態分辨率"的論文時,它想實現多尺度訓練——但我的單文件約束讓它無法修改模型定義(在另一個文件里)。它在scratchpad里寫了三遍"需要重構代碼結構",然后放棄。

      program.md的寫法成了瓶頸。我分階段的思路適合漸進優化,但不適合范式跳躍。如果我想讓它嘗試完全不同的架構(比如把CLIP換成SigLIP),需要人工重寫約束條件。AI實驗員不是Principal Researcher,是Senior Researcher——能執行,能微調,但戰略方向仍需人類設定。

      另一個問題是評估指標的"欺騙性"。Mean Rank在11-14之間波動,但我在TensorBoard里看到,提升主要來自"簡單樣本"的排序改善,難樣本(罕見浮世繪主題)幾乎沒有進步。Claude的優化在數字上好看,實際泛化性存疑。它沒有"看一眼錯誤案例"的直覺,只會追著eval metric跑。

      這需要人類介入做定性分析——而Autoresearch的設計恰恰把人類擋在了循環外。5分鐘迭代太快了,我來不及檢查每個commit的質量。

      容器安全也有代價。我禁了網絡,所以它讀論文時需要我手動給URL;禁了pip install,所以它想試新庫時只能寫純PyTorch實現。這些限制防止了災難,也限制了探索空間。trade-off很明顯。

      最有趣的發現是scratchpad的"認知負荷"管理。Claude會定期壓縮歷史記錄,把早期失敗的實驗總結成"教訓",釋放token空間給新思路。這種"遺忘"機制讓它能在長序列中保持專注,但也可能導致重復踩坑——如果某條"教訓"被過度簡化,后續條件變化時它不會重新評估。

      我在第23個迭代時看到它想重試一種早期被否定的學習率調度,因為"當前訓練穩定性已改善,前提條件變化"。這種元認知能力超出預期。

      最終我手動終止了實驗。不是因為跑不下去了,是我要看的東西都看到了:環境遷移、數據適配、超參搜索、架構微調、文獻調研、成本權衡。一個完整的研究周期,壓縮在一個周末的家務間隙里。

      代碼我push到了GitHub,包括完整的scratchpad.md——那是AI實驗員的工作日志,比我的論文附錄都詳細。有人想復現的話,從docker build到program.md模板,全部開源。

      至于eCLIP本身?我還是不會繼續做這個方向。但下次有別的爛尾項目,我知道該找誰了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      壺口風波未平,全國多地景區跟風“撤門票”:終于看懂旅游的真相

      壺口風波未平,全國多地景區跟風“撤門票”:終于看懂旅游的真相

      復轉這些年
      2026-03-24 10:07:12
      除了成都外!海港、申花、北京國安都不敢明牌 發傷病報告

      除了成都外!海港、申花、北京國安都不敢明牌 發傷病報告

      80后體育大蜀黍
      2026-03-24 23:22:48
      令人印象深刻的島國片佳作,頂流阿姨的無碼作品流出,畫面太美了

      令人印象深刻的島國片佳作,頂流阿姨的無碼作品流出,畫面太美了

      不二好片
      2026-03-21 15:48:06
      3月24日俄烏最新:克里姆林宮又提高報價了

      3月24日俄烏最新:克里姆林宮又提高報價了

      西樓飲月
      2026-03-24 20:28:34
      花生再次被關注!調查發現:常吃花生的人,不出半年,或有5改善

      花生再次被關注!調查發現:常吃花生的人,不出半年,或有5改善

      華庭講美食
      2026-03-22 21:29:48
      賣爆了!南京這些房子,瘋狂成交!

      賣爆了!南京這些房子,瘋狂成交!

      科學發掘
      2026-03-24 18:59:03
      客觀解析問界 M6:26.98 萬起標配華為智駕,定價與產品力怎么看

      客觀解析問界 M6:26.98 萬起標配華為智駕,定價與產品力怎么看

      芭比衣櫥
      2026-03-25 03:27:54
      價格飆漲6000%!原研藥集體撤離中國的影響,開始出現了...

      價格飆漲6000%!原研藥集體撤離中國的影響,開始出現了...

      墜入二次元的海洋
      2026-03-24 00:58:18
      煮小米粥別直接水煮,教你一招,熬出香濃黏稠厚米油

      煮小米粥別直接水煮,教你一招,熬出香濃黏稠厚米油

      開心美食白科
      2026-03-23 17:55:07
      伊朗用血淚換來的教訓:一旦中美開戰,中國必須首先鎖定這一點

      伊朗用血淚換來的教訓:一旦中美開戰,中國必須首先鎖定這一點

      冷峻視角下的世界
      2026-02-20 07:45:35
      2026倫敦世乒賽+國乒大名單出爐,樊振東無緣!日乒伊藤美誠落選

      2026倫敦世乒賽+國乒大名單出爐,樊振東無緣!日乒伊藤美誠落選

      開成運動會
      2026-03-24 16:40:34
      全球同時接到消息,特朗普對華豪賭大敗,美學者:中國將進步10年

      全球同時接到消息,特朗普對華豪賭大敗,美學者:中國將進步10年

      丁丁鯉史紀
      2026-03-24 10:29:53
      51歲李乃文獨自養五孩,常去大孤山祈福,妻子身份不一般

      51歲李乃文獨自養五孩,常去大孤山祈福,妻子身份不一般

      秋月寒江
      2026-03-23 23:03:05
      提前預定MVP!郭士強注視下29歲國手瘋狂爆發,15投13中暴砍31分

      提前預定MVP!郭士強注視下29歲國手瘋狂爆發,15投13中暴砍31分

      體壇野秀才
      2026-03-24 23:59:30
      體檢報告里這一項異常,竟是腦梗信號?9成人不重視,后悔太晚!

      體檢報告里這一項異常,竟是腦梗信號?9成人不重視,后悔太晚!

      醫學科普匯
      2026-03-05 20:20:03
      54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

      54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

      小徐講八卦
      2025-11-17 07:29:28
      比3年前主場杭州更強,中國游泳女將有望亞運會包攬全部金牌

      比3年前主場杭州更強,中國游泳女將有望亞運會包攬全部金牌

      體娛一家親
      2026-03-24 23:09:49
      國民黨內斗升級,馬英九法辦兩大心腹,鄭麗文怒了,話說得很難聽

      國民黨內斗升級,馬英九法辦兩大心腹,鄭麗文怒了,話說得很難聽

      共工之錨
      2026-03-25 01:04:32
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      貴州省大數據發展管理局原正廳級干部景亞萍一審獲刑10年9個月

      貴州省大數據發展管理局原正廳級干部景亞萍一審獲刑10年9個月

      大風新聞
      2026-03-24 17:57:05
      2026-03-25 06:04:50
      像素與芯片
      像素與芯片
      有態度網友ytd
      335文章數 2關注度
      往期回顧 全部

      科技要聞

      年僅41歲,教育名師張雪峰猝然離世

      頭條要聞

      特朗普:伊朗同意“永不擁有核武器”

      頭條要聞

      特朗普:伊朗同意“永不擁有核武器”

      體育要聞

      NBA最強左手射手,是個右撇子

      娛樂要聞

      張雪峰經搶救無效不幸去世 年僅41歲

      財經要聞

      特朗普再TACO 可以押注伊朗局勢降級?

      汽車要聞

      尚界Z7雙車預售22.98萬起 問界M6預售26.98萬起

      態度原創

      房產
      健康
      旅游
      數碼
      藝術

      房產要聞

      北上廣深二手房集體回暖!三月小陽春行情全面兌現

      轉頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      聯袂演繹江南風華,浦東多個古鎮將集中亮相2026上海旅游產業博覽會

      數碼要聞

      雷蛇新品來襲!毒蝰V4和巨甲蟲V2專業版亮相

      藝術要聞

      《百花譜》,這個春天畫花不用愁!

      無障礙瀏覽 進入關懷版