“Token 不用完會焦慮”！Karpathy最新訪談自曝患上 “AI 精神病”：軟件世界正在被 Agent 接管

2026-03-21 14:44:17　來源: InfoQ

北京舉報

分享至

整理｜冬梅

安德烈·卡帕西（Andrej Karpathy）是人工智能領(lǐng)域最具影響力的實踐者之一。他曾是 OpenAI 的創(chuàng)始成員、特斯拉的 AI 總監(jiān)，如今以獨立研究者的身份持續(xù)探索技術(shù)的前沿。在人工智能經(jīng)歷顛覆性躍遷的當(dāng)下，卡帕西對這場變革的感知尤為敏銳。

如果你好奇過去半年里，那些站在技術(shù)最前沿的人究竟經(jīng)歷了怎樣的轉(zhuǎn)變，這篇訪談將給你一個直觀的答案。

近日，Karpathy 做客了一檔名為《No Priors》的訪談欄目，在談話中，他描述了一種自己稱之為“AI 精神病”的狀態(tài)——一種被技術(shù)可能性推著走、永遠覺得還不夠快的焦灼與興奮，并坦言自己每天都焦慮。他從去年十二月開始幾乎不再親手寫一行代碼，而是將工作完全委托給智能體；他讓名為“多比”的 Claw 接管了家里的所有智能設(shè)備；他在深夜里看著自動研究系統(tǒng)跑出自己從未想到的超參數(shù)調(diào)優(yōu)。

在這場深度訪談中，Karpathy 圍繞大模型演進路徑、開源與閉源格局、AI 對就業(yè)與社會結(jié)構(gòu)的沖擊，以及人類在智能時代的角色，給出了一套極具前瞻性的系統(tǒng)性判斷。

他指出，當(dāng)前大模型仍停留在“通用能力覆蓋”的階段，真正的深度定制與“模型分化”尚未成熟；與此同時，一種基于“可驗證結(jié)果”的大規(guī)模分布式協(xié)作范式正在浮現(xiàn)，未來甚至可能由全球算力共同驅(qū)動 AI 進化。在他看來，算力（FLOPs）正在成為比資金更關(guān)鍵的資源。

在產(chǎn)業(yè)結(jié)構(gòu)上，他強調(diào)，當(dāng)前閉源模型與開源模型之間正在形成一種“動態(tài)平衡”——前者探索能力邊界，后者實現(xiàn)能力民主化，開源落后 6 個月，反而是 AI 世界最健康的狀態(tài)。

更具沖擊力的是，他對個體角色的重新定義：在前沿實驗室內(nèi)部，你很難保持完全獨立；而在外部生態(tài)中，反而可能擁有更大的真實影響力。同時，他認為未來教育與知識傳播將徹底重構(gòu)——人類不再直接教人，而是教模型，再由模型去教人。

最終，Karpathy 給出了一個極具現(xiàn)實意義的判斷：未來的核心競爭力，不在于你會什么，而在于你做的是不是“AI 還做不到的事”。

以下為完整對話內(nèi)容，經(jīng)由 InfoQ 編輯和整理：

“技術(shù)發(fā)展太快，我每天都焦慮”

主持人：過去幾個月，人工智能領(lǐng)域的發(fā)展令人無比振奮。記得有一次走進辦公室，你正全神貫注地投入工作，我詢問你在忙什么，你說必須每天連續(xù)十六小時編寫代碼——或者說，如今“編寫代碼”這個說法已不再準(zhǔn)確，而是要每天花 16 個小時向我的智能體傳達指令。這是因為人工智能的能力實現(xiàn)了一次飛躍。具體發(fā)生了怎樣的變化？還請分享你的親身體驗。

Karpathy：我總覺得自己一直處于——現(xiàn)在也常常如此——一種對人工智能的“精神錯亂”狀態(tài)。因為在個人所能實現(xiàn)的事情上，出現(xiàn)了一次巨大的突破。過去受限于打字速度等因素，而現(xiàn)在有了這些智能體，可以說在去年十二月，某種轉(zhuǎn)折真正發(fā)生了：我編寫代碼的方式，從八成靠自己、兩成委托智能體，變成了兩成靠自己、八成委托智能體。如今我甚至覺得連二八開都算不上，委托的比例還要高得多。從 12 月至今，我大概一行代碼都沒有親手敲過。這是極其巨大的變化。

我曾跟父母聊過這些，但我感覺普通人并沒有意識到這種變化已經(jīng)發(fā)生，也不知道它的沖擊力有多大。隨便找一個坐在工位上的軟件工程師，他們構(gòu)建軟件的默認工作流程，從 12 月起已經(jīng)徹底不同了。我就處在這種“精神錯亂”的狀態(tài)里，不斷探索什么是可能的，不斷推向極限——我如何能不只運行一個會話的 Claude Code 或 Codex 之類的智能體框架？如何能同時運行更多？如何做得恰當(dāng)？然后又該如何使用這些 Claw？這些 Claw 是什么？新事物層出不窮。

我想站在最前沿，也正因為覺得自己尚未站在最前沿而焦躁不安。看到推特上很多人做著各種事情，每個想法聽起來都很棒，我必須處在最前沿，否則就會極度焦慮。我想，我之所以陷入這種對可能性的“精神錯亂”，根本原因在于這一切還是未被探索的領(lǐng)域。

主持人：如果你都感到焦慮，那我們其他人就更不用說了。我們在 Conviction 合作的團隊，他們的工作方式很有意思：工程師們完全不再手寫代碼，每個人都戴著麥克風(fēng)，全程低聲向自己的智能體下達指令。這大概是我見過最奇特的工作場景了。起初我還覺得他們有些瘋狂，現(xiàn)在卻完全認同——原來這才是未來的方向，而你只是走在了前面。

那么，你現(xiàn)在如何看待自身的探索能力和項目執(zhí)行能力？當(dāng)前的瓶頸又在哪里？

Karpathy：瓶頸在哪里？我覺得方方面面都是。就算某件事沒做成，很大程度上也會覺得是“技能問題”——并不是能力達不到，而是還沒找到串聯(lián)現(xiàn)有工具的方法。要么是我在智能體的 MD 文件里給出的指令不夠好，要么是我沒有在系統(tǒng)中配置足夠好用的記憶工具。所以在某種程度上，當(dāng)事情不順利時，都會歸結(jié)為技能層面的問題。

你想知道如何讓智能體協(xié)同工作，本質(zhì)上你想成為彼得·斯坦伯格（OpenClaw 創(chuàng)始人）那樣的人。彼得很有名，他有一張很有意思的照片，面前是一臺顯示器，上面運行著很多 Codex 智能體，界面鋪滿屏幕。

如果你給出正確的指令并投入足夠的精力，每個智能體大約需要 20 分鐘來完成工作。它們會同時檢出多個代碼倉庫，而他就在這些智能體之間來回穿梭，給它們分配任務(wù)。這意味著你可以用更大顆粒度的“宏觀操作”來推進工作，不再是“這里寫一行代碼、那里寫一個新函數(shù)”，而是“這里需要一個新功能，交給智能體一號；那里另一個不會相互干擾的功能，交給智能體二號”，然后根據(jù)你對那段代碼的重視程度，盡可能去審核它們的工作成果。

你要思考的是：我可以用哪些宏觀操作來操控我的軟件倉庫？一個智能體在做調(diào)研，另一個在寫代碼，還有一個在為某個新功能制定實施方案。所有的工作都通過這些宏觀操作在代碼倉庫上并行推進。你要做的就是變得非常擅長這件事，并形成一種肌肉記憶。這非常有成就感，首先因為它確實能跑通，其次這也是一個全新的學(xué)習(xí)領(lǐng)域——所以我才會說這是一種“精神錯亂”的狀態(tài)。

主持人：確實，我的本能反應(yīng)是：每當(dāng)?shù)却粋€智能體完成任務(wù)時，最自然的想法就是“我可以同時做更多工作”。如果我能獲取更多 token，那就應(yīng)該并行地增加更多任務(wù)。這其實會帶來很大的壓力，因為一旦你覺得在 token 消耗上毫無限制，那么你自己就成了系統(tǒng)中制約能力上限的瓶頸。

Karpathy：確實。至少從最大化訂閱的角度來說，你應(yīng)該同時運行多個智能體——如果在 Codex 上把額度用完了，就該切換到 Claude 或其他模型，這也是我一直在嘗試的做法。

訂閱額度還剩著會讓我感到不安，那意味著我沒有把 token 吞吐量發(fā)揮到極致。這種感受在讀博期間其實就有過：當(dāng) GPU 閑置時你會焦慮，明明有算力卻沒有充分利用可用的 FLOPs。只不過現(xiàn)在關(guān)注的焦點不再是 FLOPs，而是 tokens。所以問題來了：你的 token 吞吐量是多少？你又能調(diào)動多大的 token 吞吐量？

主持人：這個觀察很有意思。過去至少十年里，在多數(shù)工程任務(wù)中，人們并不覺得自己受計算資源制約。而如今整個行業(yè)都明顯感受到了資源緊張。當(dāng)能力出現(xiàn)巨大躍升后，你才發(fā)現(xiàn)，真正的制約因素其實已經(jīng)不是能否獲取算力，而是你自己。

Karpathy：這種“技能問題”其實很令人振奮，因為它意味著你有提升的空間。這正是它容易讓人上癮的原因——每一次能力的精進，都會帶來新的突破與可能性。

主持人：你覺得未來會怎樣？如果不斷迭代，每天花十六小時提升使用編碼智能體的技能，那么一年后達到精通狀態(tài)時會是什么樣子？如果從時間維度來看，比如一年、三年、五年甚至十年，所謂“掌握（mastery）”或者精通會是什么樣子？

Karpathy：我認為大家本質(zhì)上都在“向上抽象層級”（going up the stack）。這不再是圍繞單次與某個智能體的交互，而是多個智能體之間如何協(xié)作、形成團隊，以及整體系統(tǒng)如何運作。整個行業(yè)都在探索這種形態(tài)。

此外，“Claw”是一個很有意思的方向。這里的 Claw 指的是一種新的系統(tǒng)層，它把“持久性”（persistence）提升到了一個全新的層級。它會持續(xù)循環(huán)運行，并不依賴用戶實時交互，而是在一個相對獨立的環(huán)境中自主運行，在你不關(guān)注的時候也在替你完成任務(wù)。

同時，它還涉及更復(fù)雜的記憶系統(tǒng)，這些能力目前在大多數(shù)智能體中尚未實現(xiàn)。相比之下，OpenClaw 的記憶能力要更先進，而傳統(tǒng)系統(tǒng)通常只是簡單的“上下文耗盡后的壓縮記憶”。

OpenClaw 的成功之處在于它有“人格”

主持人：你認為在 OpenClaw 中，真正打動用戶的是記憶能力，而不是更廣泛的工具調(diào)用能力嗎？

Karpathy：我認為這里面有很多優(yōu)秀的設(shè)計。Peter 的工作非常出色，他在多個維度上同時創(chuàng)新，并把這些要素整合在一起。

例如，他在系統(tǒng)文檔中刻意塑造了一種“人格”，這一點非常關(guān)鍵。當(dāng)前很多智能體在這方面做得并不好。而 Claw 的人格設(shè)計是成功的，它更像一個團隊成員，會與你產(chǎn)生共鳴、共同推進事情。

相比之下，例如Codex 這種編碼智能體顯得非常“干”。它完成任務(wù)，但并不關(guān)心你在構(gòu)建什么。它更像是在執(zhí)行指令，而不是理解目標(biāo)。

另外，Claw 在反饋機制上也做了精細調(diào)節(jié)。當(dāng)我提出不成熟的想法時，它不會過度贊美；但當(dāng)想法確實有價值時，它會給予更多認可。這種差異讓我產(chǎn)生一種“需要贏得它認可”的感覺，這很微妙，但非常有效。

因此，我認為“人格”非常重要，而很多工具低估了這一點。除此之外，還有記憶系統(tǒng)，以及通過 WhatsApp 統(tǒng)一入口控制所有自動化能力，這些都是關(guān)鍵創(chuàng)新。

主持人：除了軟件工程，你是否用 Claw 做過一些有趣的事情？

Karpathy：有的。今年一月，我經(jīng)歷了一段“Claw 過度使用期”。我構(gòu)建了一個用于管理家庭的 Claw，并給它起名為 “Dobby”。

我讓智能體掃描家庭局域網(wǎng)中的所有智能設(shè)備，比如 Sonos 音響系統(tǒng)。它通過 IP 掃描自動發(fā)現(xiàn)設(shè)備，并解析其接口。令人驚訝的是，這一過程幾乎無需配置，系統(tǒng)甚至自動找到了 API 并開始調(diào)用。

例如，我只輸入一句“幫我找到 Sonos”，系統(tǒng)就完成了掃描、接口解析，并成功播放音樂。同樣的方法也適用于燈光控制。

最終，這個系統(tǒng)構(gòu)建了一個完整的家庭控制中心：包括燈光、空調(diào)、窗簾、泳池、安防系統(tǒng)等。比如我只需說“該睡覺了”，系統(tǒng)就會自動關(guān)閉所有燈光。

在安防方面，我部署了一個視覺模型來監(jiān)控門外攝像頭。當(dāng)檢測到變化時，它會識別場景，并通過 WhatsApp 給我發(fā)送通知，例如“有一輛 FedEx 貨車到了”。

現(xiàn)在，我通過 WhatsApp 與這個系統(tǒng)交互，它已經(jīng)成為家庭自動化的核心。

主持人：這種體驗是否代表了用戶真正想要的軟件交互方式？

Karpathy：在一定程度上是的。傳統(tǒng)軟件的問題在于，用戶需要學(xué)習(xí)各種界面和操作邏輯，這本身是有成本的。

人們心中的“AI”其實是一種具有人格、能夠記憶和理解的實體，而不是一個簡單的語言模型。從技術(shù)角度看，LLM 只是一個“token 生成器”，但用戶期望的是一個可以對話、記住信息并執(zhí)行任務(wù)的“角色”。

因此，未來的方向是讓系統(tǒng)行為更符合用戶直覺，而底層復(fù)雜性則由系統(tǒng)隱藏。

主持人：你將多個智能家居系統(tǒng)統(tǒng)一起來，這是否意味著用戶其實并不需要那么多獨立的軟件？

Karpathy：確實如此。從某種意義上說，這些應(yīng)用甚至不應(yīng)該存在。更合理的形態(tài)是：所有設(shè)備只提供 API，由智能體直接調(diào)用。

通過這種方式，智能體可以完成跨系統(tǒng)的復(fù)雜操作，而單一應(yīng)用是無法做到的。這意味著當(dāng)前存在大量“過度設(shè)計”的應(yīng)用，它們可能會被智能體取代。

未來的結(jié)構(gòu)更可能是：底層是 API，上層是智能體作為“智能膠水”，負責(zé)調(diào)用和組合這些能力這類似于“Agent-first”的互聯(lián)網(wǎng)架構(gòu)。

主持人：但這是否意味著普通用戶也需要具備編程能力？

Karpathy：短期來看，確實需要一定技術(shù)能力。目前仍然存在“vibe coding”這樣的過程，需要用戶參與。

但我認為在未來一到三年內(nèi)，這些能力會變成基礎(chǔ)設(shè)施（table stakes）。即使是開源模型，也能夠輕松完成這些任務(wù)。

最終，系統(tǒng)會自動將用戶的自然語言意圖轉(zhuǎn)化為具體執(zhí)行邏輯，用戶無需參與實現(xiàn)過程。

主持人：為什么你個人沒有進一步拓展 Claw 的應(yīng)用邊界？為什么你沒有把 Claw 更深入地接入到郵箱、日歷等個人系統(tǒng)中？

Karpathy：主要原因是精力分散。我曾集中花了一周時間在這上面，已經(jīng)實現(xiàn)了很多功能，但還有很多可以繼續(xù)探索。不過現(xiàn)實情況是，我同時在處理很多其他項目，因此沒有持續(xù)深入推進。

我目前并沒有讓它接入郵箱、日歷等核心系統(tǒng)，也沒有授予完整的數(shù)字生活權(quán)限。主要原因是，這項技術(shù)仍然比較新，整體還不夠成熟。

我對安全性和隱私問題仍然保持謹(jǐn)慎態(tài)度，因此在權(quán)限開放上有所保留。這在一定程度上限制了我進一步擴展它的使用范圍。

人不應(yīng)該成為系統(tǒng)的瓶頸

主持人：你之前提到，希望智能體能夠承擔(dān)模型訓(xùn)練或優(yōu)化這樣的任務(wù)。那么你做“Auto Research”的初衷是什么？

Karpathy：核心動機是：人不應(yīng)該成為系統(tǒng)的瓶頸。要充分利用當(dāng)前這些工具，就必須把自己從執(zhí)行鏈路中移除，而不是每一步都依賴人工提示。目標(biāo)是構(gòu)建完全自主運行的系統(tǒng)，讓任務(wù)可以持續(xù)推進，而無需人工干預(yù)。

換句話說，就是最大化“token 吞吐量”，同時盡可能減少人類參與。理想狀態(tài)是：我只需偶爾提供極少量輸入，系統(tǒng)就能在后臺完成大量工作。

“Auto Research”正是這一思路的體現(xiàn)。我不希望自己成為研究過程中的一環(huán)，而是希望設(shè)定好目標(biāo)、評價指標(biāo)和邊界條件，然后讓系統(tǒng)自行運行。

主持人：Auto Research 的效果是否超出了你的預(yù)期？

Karpathy：確實如此。我最初并不認為它會有效。

我一直在做 GPT 模型訓(xùn)練，這對我來說更像是一個實驗平臺，用來探索更核心的問題：遞歸自我改進（recursive self-improvement）——也就是讓模型優(yōu)化模型。

我用傳統(tǒng)方法對模型進行了大量調(diào)優(yōu)，包括超參數(shù)搜索等，這些是我過去二十年一直在做的事情。我認為模型已經(jīng)被調(diào)到一個相對不錯的狀態(tài)。

但當(dāng)我讓 Auto Research 運行一夜后，它發(fā)現(xiàn)了一些我忽略的優(yōu)化點，例如權(quán)重衰減參數(shù)和優(yōu)化器參數(shù)之間的聯(lián)動關(guān)系。這些調(diào)整帶來了改進。

這說明，人類不應(yīng)該成為調(diào)參過程的瓶頸。只要有明確的目標(biāo)函數(shù)，系統(tǒng)完全可以自行探索。

主持人：這是否意味著未來的研究過程會更加高效？

Karpathy：是的。一個重要方向是：在小模型上進行大量自動化實驗，然后將結(jié)果外推到更大規(guī)模模型。

當(dāng)前很多前沿實驗室本質(zhì)上也在做類似的事情：盡可能移除研究人員參與、構(gòu)建自動化實驗系統(tǒng)以及提高實驗吞吐量。

理想結(jié)構(gòu)是：有一個“想法隊列”（ideas queue），想法可以來自模型或人類，自動化執(zhí)行單元負責(zé)實驗驗證，有效結(jié)果被合并進主分支，這本質(zhì)上是將科研流程工程化、自動化。

主持人：你提到“program.md”，模型什么時候能寫出比你更好的版本？

Karpathy：“program.md”本質(zhì)上是我用來描述 Auto Research 工作流程的一個文檔，相當(dāng)于一個研究組織的操作手冊。

可以把一個研究機構(gòu)抽象為一組 Markdown 文件：定義角色、描述流程和指定協(xié)作方式。不同的“program.md”就代表不同的研究組織結(jié)構(gòu)。例如有的更激進、有的更保守、有的減少無效會議，一旦這些結(jié)構(gòu)被形式化為代碼，就可以進行優(yōu)化。

未來完全可以同時運行多個“研究組織” ，然后比較它們的效果，用數(shù)據(jù)反過來訓(xùn)練模型生成更優(yōu)的“program.md”，這就是一個元優(yōu)化（meta-optimization）過程。

主持人：在當(dāng)前階段，這種自動化循環(huán)對“技能”的要求意味著什么？

Karpathy：這種方法非常適用于可驗證、有明確評價指標(biāo)的任務(wù)。例如：

CUDA 內(nèi)核優(yōu)化
提高代碼執(zhí)行效率

這些任務(wù)有清晰的“對 / 錯”和性能指標(biāo)，非常適合自動化研究。但對于難以評估的任務(wù)，這種方法效果有限。這是第一個限制。第二個問題是：當(dāng)前模型仍然不夠穩(wěn)定。雖然能力很強，但“邊緣行為”很多。一個典型感受是：它既像一個頂級系統(tǒng)程序員，又像一個 10 歲的孩子。這種“能力不均勻”（jaggedness）非常明顯。例如在復(fù)雜任務(wù)中表現(xiàn)極強，但有時會犯非常基礎(chǔ)的錯誤，甚至在錯誤路徑上反復(fù)循環(huán)，浪費算力。

主持人：這種“不均勻能力”說明模型還不具備真正的通用智能嗎？

Karpathy：可以這么理解。當(dāng)前模型在“可驗證任務(wù)”上進步很快，因為這些任務(wù)可以通過強化學(xué)習(xí)優(yōu)化。但在“模糊任務(wù)”上，比如理解意圖、提出澄清問題，表現(xiàn)仍然較弱。

一個典型例子是講笑話：盡管模型整體能力大幅提升，但笑話質(zhì)量幾乎沒有變化。這說明這些能力沒有被優(yōu)化，這意味著：不同能力之間并沒有完全聯(lián)動提升。

主持人：這是否意味著未來模型需要“分化”（speciation）？

Karpathy：是的，我認為未來會出現(xiàn)更多“智能分化”。當(dāng)前趨勢是構(gòu)建一個“通用大模型”，試圖在所有領(lǐng)域都表現(xiàn)優(yōu)秀。但更合理的方向可能是：保留一個通用認知核心，在此基礎(chǔ)上發(fā)展專用模型

類似生物進化，不同物種在不同能力上高度專化。例如會有數(shù)學(xué)模型、編程模型、特定領(lǐng)域推理模型這種分化可以帶來更高的效率，例如更低延遲、更高吞吐。

主持人：算力限制是否會推動這種“分化”發(fā)生？

Karpathy：這是一個合理的推測。如果算力無限，單一大模型可以覆蓋所有場景。但現(xiàn)實中算力是有限的，因此需要更高效的結(jié)構(gòu)。不過，目前行業(yè)仍然傾向于“單一模型”的路線，尚未出現(xiàn)明顯的分化趨勢。未來是否會因為算力壓力而加速分化，仍有待觀察。

如何改造模型，仍是一道難題

主持人：為什么當(dāng)前還沒有出現(xiàn)明顯的“模型分化”？是技術(shù)問題還是商業(yè)策略問題？

Karpathy：從根本上看，目前的實驗室是在提供一個通用模型，但他們并不知道最終用戶會提出什么具體問題。因此，這些模型必須覆蓋盡可能廣泛的任務(wù)范圍，本質(zhì)上是在做“全場景多任務(wù)”。

如果是在企業(yè)場景中，圍繞特定問題進行深度合作，或者在一些高價值、垂直領(lǐng)域中，可能會更早看到模型的專門化。但目前整體策略仍然是覆蓋“盡可能多的能力邊界”。

此外，一個重要原因是：我們對“如何改造模型本身”的技術(shù)還不夠成熟。比如，如何在不損失已有能力的前提下進行微調(diào)，這仍然是一個挑戰(zhàn)。

現(xiàn)在的主要手段還是通過上下文窗口來進行調(diào)整，這種方式簡單、成本低，也確實有效。但如果要真正“深入修改模型”，比如持續(xù)學(xué)習(xí)、針對特定能力優(yōu)化、直接調(diào)整模型權(quán)重，這在技術(shù)上更復(fù)雜，也更有風(fēng)險，因為這會影響整個模型的能力結(jié)構(gòu)。

因此，從這個角度來看，“模型分化”本身還是一個尚未完全成熟的技術(shù)方向，同時也需要在成本上足夠可行，才能真正落地。

未來即使有錢，也難獲得足夠算力

主持人：你提到 Auto Research，如果進一步擴展，它是否需要更多“協(xié)作界面”，讓更多人參與進來？

Karpathy：是的。當(dāng)前的 Auto Research 本質(zhì)上還是一個“單線程循環(huán)”，即系統(tǒng)不斷嘗試和優(yōu)化。但更有價值的方向其實是“并行化”。

如果有大量計算節(jié)點，那么很容易讓多個 Auto Research 系統(tǒng)同時運行，并通過某種共享機制協(xié)作。但我更感興趣的是：如何讓一個“不可信的外部計算資源池”參與進來。

以 Auto Research 為例，其目標(biāo)是找到能夠讓模型達到更低驗證損失的代碼。如果有人提交一個候選方案，其實是可以很容易驗證其效果的。雖然生成這個方案可能需要大量計算，但驗證成本相對較低。

這就帶來一個結(jié)構(gòu)：生成候選方案的成本很高，驗證方案的成本很低。

這種結(jié)構(gòu)和區(qū)塊鏈有些類似：“提交”類似區(qū)塊中的變更（commit），進行大量計算用于探索有效方案（類似工作量證明），最終有效結(jié)果可以被驗證并累積。

當(dāng)然，這個類比不需要過度延伸，但核心問題在于：如何設(shè)計一個系統(tǒng)，讓不可信的參與者與可信的驗證系統(tǒng)協(xié)作，同時保證安全性。

主持人：這種模式是否類似于 SETI@home 或 Folding@home？

注：SETI@home 是由加州大學(xué)伯克利分校發(fā)起的，通過互聯(lián)網(wǎng)將射電望遠鏡數(shù)據(jù)分發(fā)給志愿者電腦分析，目的是尋找地外文明的無線電信號。 Folding@home，有個來自賓夕法尼亞大學(xué)醫(yī)學(xué)院的頁面介紹了項目的現(xiàn)任負責(zé)人 Gregory Bowman 博士，以及項目如何通過模擬蛋白質(zhì)折疊來研究阿爾茨海默癥、癌癥等疾病。

Karpathy：是的，本質(zhì)非常類似。例如蛋白質(zhì)折疊問題，找到低能量結(jié)構(gòu)非常困難，但一旦找到，驗證卻很容易。Auto Research 也具備類似特征。因此，這類問題非常適合分布式協(xié)作。

從這個角度來看，可以設(shè)想一種“互聯(lián)網(wǎng)規(guī)模的智能體群體”，它們協(xié)同優(yōu)化模型，甚至可能在某些情況下超過大型實驗室的效率。

大型實驗室擁有大量“可信算力”，但整個世界擁有更龐大的“不可信算力”。如果系統(tǒng)設(shè)計得當(dāng)，這些資源是可以被整合利用的。

主持人：這是否意味著未來算力本身會成為一種“可貢獻資源”，類似今天的金錢？

Karpathy：這是一個有趣的方向。未來，個人或企業(yè)可能不只是捐錢，而是直接貢獻算力。例如，你可以為某個研究項目提供計算資源，參與其 Auto Research 過程。

在這種模式下，“算力”會成為核心資源。甚至可以設(shè)想一種變化：人們關(guān)注的不再只是金錢，而是“你掌握多少 FLOPs（算力）”。

當(dāng)然，這未必會完全取代金錢，但當(dāng)前已經(jīng)可以看到一個趨勢：即使有資金，也很難獲得足夠的算力資源。這說明算力在某種程度上已經(jīng)成為更稀缺的資源。

AI 對就業(yè)市場的影響

主持人：你最近分析了一些就業(yè)市場數(shù)據(jù)，當(dāng)時你的關(guān)注點是什么？

Karpathy：我主要是想了解 AI 對就業(yè)市場會產(chǎn)生什么影響。

我查看了不同職業(yè)的分布，以及未來的增長預(yù)期，并嘗試思考：隨著 AI 的發(fā)展，這些職業(yè)會如何變化。例如哪些職業(yè)會被增強、哪些可能被替代以及是否會出現(xiàn)新的職業(yè)形態(tài)

這些分析更多是為了幫助我構(gòu)建對行業(yè)未來的理解。

主持人：你從數(shù)據(jù)中有沒有得到一些關(guān)鍵觀察？

Karpathy：一個重要觀察是：AI 當(dāng)前主要作用于“數(shù)字世界”。這些系統(tǒng)更像是可以操作信息的“數(shù)字實體”，它們擅長處理文本、代碼等數(shù)字內(nèi)容，但還沒有真正進入物理世界。

相比之下，物理世界的變化會更慢，因為涉及的是“原子操作”，而不是“比特操作”。數(shù)字信息可以復(fù)制、傳播，速度極快，而物理過程受到能量和材料限制。

因此，未來一段時間內(nèi)，數(shù)字領(lǐng)域會出現(xiàn)大量重構(gòu)，包括信息處理流程、軟件系統(tǒng)結(jié)構(gòu)以及工作方式，而物理世界的變化則相對滯后。

主持人：這對求職者或?qū)W習(xí)方向有什么啟示？

Karpathy：目前很難給出統(tǒng)一答案，因為就業(yè)市場非常復(fù)雜。

但有一點是明確的：這些工具非常新且非常強大，因此首先要做的是盡量理解并跟上它們的發(fā)展。很多人對 AI 持懷疑或恐懼態(tài)度，這可以理解。但從當(dāng)前來看，它仍然主要是一種“增強工具”。

職業(yè)本質(zhì)上是由一系列任務(wù)構(gòu)成的，而 AI 可以顯著提升其中一部分任務(wù)的效率。因此，更合理的視角是：把它當(dāng)作工具來使用。至于長期影響，目前仍然存在較大不確定性，這更適合由經(jīng)濟學(xué)領(lǐng)域來系統(tǒng)分析。

主持人：目前工程師需求仍在增長，這是否只是暫時現(xiàn)象？你對軟件工程未來的需求持什么看法？

Karpathy：有一種可能是“杰文斯悖論”（Jevons Paradox）在起作用。當(dāng)某種資源變得更便宜時，其使用量反而會增加。軟件開發(fā)也是如此：過去軟件昂貴且稀缺，如果開發(fā)成本降低，需求反而會增長。

一個經(jīng)典例子是 ATM：自動取款機降低了銀行運營成本，結(jié)果銀行網(wǎng)點增加，柜員數(shù)量反而上升。類似地，如果軟件開發(fā)變得更容易、更便宜，那么社會對軟件的需求可能會大幅增長。

所以我對軟件工程未來的需求相對持謹(jǐn)慎樂觀態(tài)度。軟件本質(zhì)上是對數(shù)字信息的處理能力，而這種能力非常強大。隨著開發(fā)門檻降低，更多人可以構(gòu)建和修改軟件系統(tǒng)。

未來的軟件將更加“臨時化”（ephemeral）：可以快速生成、可以隨時修改、不再依賴固定工具。這會帶來大量系統(tǒng)重構(gòu)需求，從而推動軟件領(lǐng)域的活躍度和需求增長。

主持人：但從長期來看，自動化是否會取代研究人員本身？

Karpathy：這是一個不可回避的問題。事實上，很多研究人員正在構(gòu)建的正是“自動替代自身”的系統(tǒng)。他們的目標(biāo)是實現(xiàn)研究自動化。

這帶來一種矛盾感：一方面，這些系統(tǒng)確實有效；另一方面，它們也在削弱人的角色。我和一些研究人員交流時，他們也能感受到這種趨勢，甚至?xí)a(chǎn)生某種不安。

OpenAI 這類前沿實驗室，
存在結(jié)構(gòu)性困局

主持人：既然如此，為什么不直接加入這些前沿實驗室推進這一進程？

Karpathy：這是一個復(fù)雜的問題。我確實曾在相關(guān)機構(gòu)工作過，也認同其中的一些方向。但我認為，在前沿實驗室之外，同樣存在重要的貢獻空間。不僅是在產(chǎn)業(yè)層面，也包括更廣泛的生態(tài)層面。不同角色都可以對這一技術(shù)進程產(chǎn)生影響。

主持人：你現(xiàn)在的角色更偏“生態(tài)位層面”，這種位置的價值體現(xiàn)在哪里？

Karpathy：是的，我現(xiàn)在的角色更偏向于生態(tài)層面，你也是類似的情況。我認為在這種位置上，人其實可以產(chǎn)生非常好的影響力。

相對來說，如果你過度綁定在前沿實驗室內(nèi)部，反而會出現(xiàn)一些問題。因為這些實驗室本身具有強烈的經(jīng)濟激勵，而與此同時，它們正在構(gòu)建的技術(shù)又可能對人類社會產(chǎn)生極其深遠的影響。在這種情況下，你既在推動技術(shù)發(fā)展，又從中獲益，這本身就是一個結(jié)構(gòu)性困境。

這其實也是 OpenAI 在早期試圖解決的核心問題之一，但到現(xiàn)在為止，這個問題并沒有被完全解決。

主持人：具體來說，在前沿實驗室內(nèi)部會面臨哪些限制？

Karpathy：首先，你不再是一個完全獨立的個體。你無法完全自由地參與公共討論，因為在組織內(nèi)部，總會存在一些你不能說的話。同時，也會存在一些你“應(yīng)該說”的話。

雖然沒有人會直接強迫你，但你會感受到一種隱性的壓力：你需要與組織的立場保持一致，否則就會出現(xiàn)尷尬的氛圍，比如異樣的目光、微妙的關(guān)系變化等等。

因此，從這個角度來看，在實驗室之外，我反而感覺更接近“為整個人類發(fā)聲”的位置，因為我不需要承受這些組織內(nèi)部的約束。

主持人：但在實驗室內(nèi)部，你也能參與關(guān)鍵決策，這是否是一種優(yōu)勢？

Karpathy：確實如此。在實驗室內(nèi)部，你可以參與重要討論，也可能有機會在關(guān)鍵決策中發(fā)聲。如果你的想法足夠好，你可能會產(chǎn)生實際影響。

但需要注意的是，當(dāng)前階段整體“風(fēng)險還不算特別高”，所以很多事情看起來比較寬松。但一旦未來風(fēng)險真正提高，一個普通員工在組織中的實際影響力其實是有限的。

你可以參與討論，但你并不真正掌控這個組織。因此，從結(jié)構(gòu)上來看，這里仍然存在一定程度的“錯配”。

主持人：那在實驗室外部是否也存在劣勢？

Karpathy：有的。前沿實驗室本身是高度不透明的，而且它們處在能力邊界的最前沿，掌握著未來發(fā)展方向。如果你長期在外部，你的判斷很可能會逐漸“漂移”，因為你無法接觸到最前沿的信息，也不了解這些系統(tǒng)的真實內(nèi)部機制。

這也是我自己會擔(dān)心的一個問題：隨著時間推移，我可能會逐漸失去對技術(shù)發(fā)展方向的準(zhǔn)確感知。

主持人：有沒有一種折中的方式？

Karpathy：我認為一種比較理想的方式是“在內(nèi)外之間切換”。例如，你可以在某個時間段進入前沿實驗室，參與核心工作，保持對前沿的理解；然后再回到外部，從更獨立的視角思考問題。

這種方式既能保持對現(xiàn)實的連接，又不會完全受制于組織。從這個角度來看，我認為無論是在實驗室內(nèi)部還是外部，都可以產(chǎn)生很大的影響，關(guān)鍵在于如何平衡。

閉源模型仍然領(lǐng)先

主持人：開源模型與閉源模型之間的差距，目前是什么狀態(tài)？

Karpathy：大體來看，閉源模型仍然領(lǐng)先，但人們通常用“時間差”來衡量差距。最早開源幾乎沒有能力，后來落后大約 18 個月，現(xiàn)在已經(jīng)收斂到大約 6 到 8 個月左右。

我是非常支持開源的。從歷史來看，比如操作系統(tǒng)領(lǐng)域：有 Windows 和 macOS 這樣的閉源系統(tǒng)也有 Linux 這樣的開源系統(tǒng)。Linux 實際上非常成功，占據(jù)了大量計算資源，因為行業(yè)始終需要一個“開放、可控”的基礎(chǔ)平臺。我認為在 AI 領(lǐng)域也存在類似需求。

主持人：那為什么開源仍然難以追趕？

Karpathy：最大的差異在于資本投入。訓(xùn)練先進模型需要巨額算力和資金，這使得開源在某些方面更難競爭。不過，當(dāng)前開源模型已經(jīng)足夠好，可以覆蓋大量日常使用場景，甚至未來很多任務(wù)可以在本地運行。但與此同時，對“前沿智能”的需求仍然存在，比如解決重大科研問題，這類需求可能仍然集中在閉源系統(tǒng)中。

主持人：未來會形成什么樣的格局？

Karpathy：我預(yù)計會形成一種長期結(jié)構(gòu)：前沿實驗室提供最強、最先進的閉源模型，開源模型以一定時間延遲跟進。而且今天的前沿能力，很可能在不久后就會成為開源能力。

我認為這種結(jié)構(gòu)其實是健康的。因為如果所有智能系統(tǒng)都完全閉源，會帶來系統(tǒng)性風(fēng)險。歷史上，無論是政治還是經(jīng)濟系統(tǒng)，過度集中化通常都不是一個好的結(jié)果。因此，我們需要一個“稍微落后但開放”的公共平臺，讓整個行業(yè)都可以使用。

主持人：你怎么看當(dāng)前行業(yè)的集中化趨勢？

Karpathy：我對集中化本能上是警惕的。我希望有更多實驗室參與競爭，而不是少數(shù)幾家主導(dǎo)一切。就像機器學(xué)習(xí)中的集成方法（ensemble）通常優(yōu)于單一模型一樣，我也希望在關(guān)鍵決策中有更多不同視角參與。如果未來的關(guān)鍵決策只在少數(shù)人之間完成，那不是一個理想的狀態(tài)。

機器人的發(fā)展落后于數(shù)字世界

主持人：關(guān)于機器人和自動化，你怎么看近期的發(fā)展？

Karpathy：我的看法很大程度上來自自動駕駛領(lǐng)域的經(jīng)驗。自動駕駛其實可以看作是第一個大規(guī)模機器人應(yīng)用。十年前有大量創(chuàng)業(yè)公司進入這個領(lǐng)域，但最終能存活下來的不多，因為這個問題極其復(fù)雜，需要巨額資本投入和長期堅持。因此，我認為機器人領(lǐng)域的發(fā)展仍然會落后于數(shù)字世界。

主持人：為什么數(shù)字世界發(fā)展更快？

Karpathy：因為數(shù)字世界處理的是“比特”，而物理世界處理的是“原子”。

比特可以復(fù)制、傳播，成本極低；而原子操作涉及能量、材料、時間等限制。因此，數(shù)字世界的效率提升空間要大得多。未來一段時間，我們會看到數(shù)字領(lǐng)域發(fā)生巨大的效率提升，而物理世界的變化會相對滯后。

主持人：那未來的發(fā)展路徑會是什么？

Karpathy：我認為會分三個階段：第一階段是數(shù)字世界的大規(guī)模優(yōu)化和重構(gòu)；第二階段是數(shù)字與物理之間的接口，例如傳感器和執(zhí)行器；第三階段才是大規(guī)模物理世界自動化。

隨著智能體越來越多，它們會逐漸“用完”已有的數(shù)字信息，然后必須通過實驗和感知來獲取新的信息，這就會推動它們進入物理世界。

主持人：你提到“信息市場”，這具體指什么？

Karpathy：我認為未來會出現(xiàn)更多“按需獲取信息”的市場。例如，如果某個事件正在發(fā)生，理論上應(yīng)該有人愿意付費獲取現(xiàn)場數(shù)據(jù)（圖片、視頻等），而這些數(shù)據(jù)可能直接被智能體使用，而不是給人類看。

目前我們還沒有成熟的機制來實現(xiàn)這一點，但在“智能體互聯(lián)網(wǎng)”（agentic web）中，這種模式是很自然的。在這種結(jié)構(gòu)下，人類既是“傳感器”（提供數(shù)據(jù)），也是“執(zhí)行器”（完成任務(wù)），整個社會結(jié)構(gòu)可能會圍繞智能系統(tǒng)重新組織。

主持人：最后，談?wù)勀愕捻椖?MicroGPT，它的核心價值是什么？

Karpathy：MicroGPT 是我長期以來一個核心追求：把大模型的本質(zhì)壓縮到最簡單的形式。完整訓(xùn)練一個語言模型通常需要大量復(fù)雜代碼，但這些復(fù)雜性主要來自“效率優(yōu)化”。如果不追求速度，核心算法其實可以用大約 200 行 Python 實現(xiàn)。

它揭示了模型的“本質(zhì)結(jié)構(gòu)”。

主持人：這對教育意味著什么變化？

Karpathy：我認為教育正在發(fā)生根本變化。

過去我們是直接向人解釋知識，比如寫文檔、做講解。但現(xiàn)在更有效的方式是“讓模型理解”，然后由模型去向人解釋。也就是說，知識傳播正在從“人 → 人”，轉(zhuǎn)變?yōu)椤叭?→ 模型 → 人”。

未來的“教學(xué)”可能更像是在設(shè)計一套“教學(xué)流程（skill）”，讓模型知道如何引導(dǎo)學(xué)習(xí)者。

主持人：那人類的價值在哪里？

Karpathy：人類的價值在于做那些“模型還做不到的事情”。例如，MicroGPT 的設(shè)計本身，就是我長期思考的結(jié)果，這部分目前模型還無法自主完成。但一旦結(jié)果存在，模型可以很好地理解并傳播它。因此，一個很實用的原則是模型已經(jīng)能做的事情，不要重復(fù)做，把精力集中在模型尚不能完成的部分這將成為未來工作的一個重要策略。

https://www.youtube.com/watch?v=kwSVtQ7dziU&list=PLMKa0PxGwad7jf8hwwX8w5FHitXZ1L_h1&index=1&t=171s

聲明：本文為 InfoQ 前線整理，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

OpenClaw 出圈，“養(yǎng)蝦”潮狂熱，開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下，自托管 Agent 形態(tài)迅速普及：多入口對話、持久記憶、Skills 工具鏈帶來強大生產(chǎn)力。但這背后也暴露了工程化落地的真實難題——權(quán)限邊界與隔離運行、Skills 供應(yīng)鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發(fā) / 運維流程并形成穩(wěn)定收益。

針對這一系列挑戰(zhàn)，在 4 月 16-18 日即將舉辦的 QCon 北京站上，我們特別策劃了「OpenClaw 生態(tài)實踐」專題，將聚焦一線實踐與踩坑復(fù)盤，分享企業(yè)如何構(gòu)建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質(zhì)量 / 效率指標(biāo)體系，最終把自托管 Agent 從可用的 Demo 升級為可靠的生產(chǎn)系統(tǒng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.