![]()
整理|冬梅
安德烈·卡帕西(Andrej Karpathy)是人工智能領(lǐng)域最具影響力的實踐者之一。他曾是 OpenAI 的創(chuàng)始成員、特斯拉的 AI 總監(jiān),如今以獨立研究者的身份持續(xù)探索技術(shù)的前沿。在人工智能經(jīng)歷顛覆性躍遷的當(dāng)下,卡帕西對這場變革的感知尤為敏銳。
如果你好奇過去半年里,那些站在技術(shù)最前沿的人究竟經(jīng)歷了怎樣的轉(zhuǎn)變,這篇訪談將給你一個直觀的答案。
近日,Karpathy 做客了一檔名為《No Priors》的訪談欄目,在談話中,他描述了一種自己稱之為“AI 精神病”的狀態(tài)——一種被技術(shù)可能性推著走、永遠覺得還不夠快的焦灼與興奮,并坦言自己每天都焦慮。他從去年十二月開始幾乎不再親手寫一行代碼,而是將工作完全委托給智能體;他讓名為“多比”的 Claw 接管了家里的所有智能設(shè)備;他在深夜里看著自動研究系統(tǒng)跑出自己從未想到的超參數(shù)調(diào)優(yōu)。
在這場深度訪談中,Karpathy 圍繞大模型演進路徑、開源與閉源格局、AI 對就業(yè)與社會結(jié)構(gòu)的沖擊,以及人類在智能時代的角色,給出了一套極具前瞻性的系統(tǒng)性判斷。
他指出,當(dāng)前大模型仍停留在“通用能力覆蓋”的階段,真正的深度定制與“模型分化”尚未成熟;與此同時,一種基于“可驗證結(jié)果”的大規(guī)模分布式協(xié)作范式正在浮現(xiàn),未來甚至可能由全球算力共同驅(qū)動 AI 進化。在他看來,算力(FLOPs)正在成為比資金更關(guān)鍵的資源。
在產(chǎn)業(yè)結(jié)構(gòu)上,他強調(diào),當(dāng)前閉源模型與開源模型之間正在形成一種“動態(tài)平衡”——前者探索能力邊界,后者實現(xiàn)能力民主化,開源落后 6 個月,反而是 AI 世界最健康的狀態(tài)。
更具沖擊力的是,他對個體角色的重新定義:在前沿實驗室內(nèi)部,你很難保持完全獨立;而在外部生態(tài)中,反而可能擁有更大的真實影響力。同時,他認為未來教育與知識傳播將徹底重構(gòu)——人類不再直接教人,而是教模型,再由模型去教人。
最終,Karpathy 給出了一個極具現(xiàn)實意義的判斷:未來的核心競爭力,不在于你會什么,而在于你做的是不是“AI 還做不到的事”。
以下為完整對話內(nèi)容,經(jīng)由 InfoQ 編輯和整理:
![]()
“技術(shù)發(fā)展太快,我每天都焦慮”
主持人:過去幾個月,人工智能領(lǐng)域的發(fā)展令人無比振奮。記得有一次走進辦公室,你正全神貫注地投入工作,我詢問你在忙什么,你說必須每天連續(xù)十六小時編寫代碼——或者說,如今“編寫代碼”這個說法已不再準(zhǔn)確,而是要每天花 16 個小時向我的智能體傳達指令。這是因為人工智能的能力實現(xiàn)了一次飛躍。具體發(fā)生了怎樣的變化?還請分享你的親身體驗。
Karpathy:我總覺得自己一直處于——現(xiàn)在也常常如此——一種對人工智能的“精神錯亂”狀態(tài)。因為在個人所能實現(xiàn)的事情上,出現(xiàn)了一次巨大的突破。過去受限于打字速度等因素,而現(xiàn)在有了這些智能體,可以說在去年十二月,某種轉(zhuǎn)折真正發(fā)生了:我編寫代碼的方式,從八成靠自己、兩成委托智能體,變成了兩成靠自己、八成委托智能體。如今我甚至覺得連二八開都算不上,委托的比例還要高得多。從 12 月至今,我大概一行代碼都沒有親手敲過。這是極其巨大的變化。
我曾跟父母聊過這些,但我感覺普通人并沒有意識到這種變化已經(jīng)發(fā)生,也不知道它的沖擊力有多大。隨便找一個坐在工位上的軟件工程師,他們構(gòu)建軟件的默認工作流程,從 12 月起已經(jīng)徹底不同了。我就處在這種“精神錯亂”的狀態(tài)里,不斷探索什么是可能的,不斷推向極限——我如何能不只運行一個會話的 Claude Code 或 Codex 之類的智能體框架?如何能同時運行更多?如何做得恰當(dāng)?然后又該如何使用這些 Claw?這些 Claw 是什么?新事物層出不窮。
我想站在最前沿,也正因為覺得自己尚未站在最前沿而焦躁不安。看到推特上很多人做著各種事情,每個想法聽起來都很棒,我必須處在最前沿,否則就會極度焦慮。我想,我之所以陷入這種對可能性的“精神錯亂”,根本原因在于這一切還是未被探索的領(lǐng)域。
主持人:如果你都感到焦慮,那我們其他人就更不用說了。我們在 Conviction 合作的團隊,他們的工作方式很有意思:工程師們完全不再手寫代碼,每個人都戴著麥克風(fēng),全程低聲向自己的智能體下達指令。這大概是我見過最奇特的工作場景了。起初我還覺得他們有些瘋狂,現(xiàn)在卻完全認同——原來這才是未來的方向,而你只是走在了前面。
那么,你現(xiàn)在如何看待自身的探索能力和項目執(zhí)行能力?當(dāng)前的瓶頸又在哪里?
Karpathy:瓶頸在哪里?我覺得方方面面都是。就算某件事沒做成,很大程度上也會覺得是“技能問題”——并不是能力達不到,而是還沒找到串聯(lián)現(xiàn)有工具的方法。要么是我在智能體的 MD 文件里給出的指令不夠好,要么是我沒有在系統(tǒng)中配置足夠好用的記憶工具。所以在某種程度上,當(dāng)事情不順利時,都會歸結(jié)為技能層面的問題。
你想知道如何讓智能體協(xié)同工作,本質(zhì)上你想成為彼得·斯坦伯格(OpenClaw 創(chuàng)始人)那樣的人。彼得很有名,他有一張很有意思的照片,面前是一臺顯示器,上面運行著很多 Codex 智能體,界面鋪滿屏幕。
如果你給出正確的指令并投入足夠的精力,每個智能體大約需要 20 分鐘來完成工作。它們會同時檢出多個代碼倉庫,而他就在這些智能體之間來回穿梭,給它們分配任務(wù)。這意味著你可以用更大顆粒度的“宏觀操作”來推進工作,不再是“這里寫一行代碼、那里寫一個新函數(shù)”,而是“這里需要一個新功能,交給智能體一號;那里另一個不會相互干擾的功能,交給智能體二號”,然后根據(jù)你對那段代碼的重視程度,盡可能去審核它們的工作成果。
你要思考的是:我可以用哪些宏觀操作來操控我的軟件倉庫?一個智能體在做調(diào)研,另一個在寫代碼,還有一個在為某個新功能制定實施方案。所有的工作都通過這些宏觀操作在代碼倉庫上并行推進。你要做的就是變得非常擅長這件事,并形成一種肌肉記憶。這非常有成就感,首先因為它確實能跑通,其次這也是一個全新的學(xué)習(xí)領(lǐng)域——所以我才會說這是一種“精神錯亂”的狀態(tài)。
主持人:確實,我的本能反應(yīng)是:每當(dāng)?shù)却粋€智能體完成任務(wù)時,最自然的想法就是“我可以同時做更多工作”。如果我能獲取更多 token,那就應(yīng)該并行地增加更多任務(wù)。這其實會帶來很大的壓力,因為一旦你覺得在 token 消耗上毫無限制,那么你自己就成了系統(tǒng)中制約能力上限的瓶頸。
Karpathy:確實。至少從最大化訂閱的角度來說,你應(yīng)該同時運行多個智能體——如果在 Codex 上把額度用完了,就該切換到 Claude 或其他模型,這也是我一直在嘗試的做法。
訂閱額度還剩著會讓我感到不安,那意味著我沒有把 token 吞吐量發(fā)揮到極致。這種感受在讀博期間其實就有過:當(dāng) GPU 閑置時你會焦慮,明明有算力卻沒有充分利用可用的 FLOPs。只不過現(xiàn)在關(guān)注的焦點不再是 FLOPs,而是 tokens。所以問題來了:你的 token 吞吐量是多少?你又能調(diào)動多大的 token 吞吐量?
主持人:這個觀察很有意思。過去至少十年里,在多數(shù)工程任務(wù)中,人們并不覺得自己受計算資源制約。而如今整個行業(yè)都明顯感受到了資源緊張。當(dāng)能力出現(xiàn)巨大躍升后,你才發(fā)現(xiàn),真正的制約因素其實已經(jīng)不是能否獲取算力,而是你自己。
Karpathy:這種“技能問題”其實很令人振奮,因為它意味著你有提升的空間。這正是它容易讓人上癮的原因——每一次能力的精進,都會帶來新的突破與可能性。
主持人:你覺得未來會怎樣?如果不斷迭代,每天花十六小時提升使用編碼智能體的技能,那么一年后達到精通狀態(tài)時會是什么樣子?如果從時間維度來看,比如一年、三年、五年甚至十年,所謂“掌握(mastery)”或者精通會是什么樣子?
Karpathy:我認為大家本質(zhì)上都在“向上抽象層級”(going up the stack)。這不再是圍繞單次與某個智能體的交互,而是多個智能體之間如何協(xié)作、形成團隊,以及整體系統(tǒng)如何運作。整個行業(yè)都在探索這種形態(tài)。
此外,“Claw”是一個很有意思的方向。這里的 Claw 指的是一種新的系統(tǒng)層,它把“持久性”(persistence)提升到了一個全新的層級。它會持續(xù)循環(huán)運行,并不依賴用戶實時交互,而是在一個相對獨立的環(huán)境中自主運行,在你不關(guān)注的時候也在替你完成任務(wù)。
同時,它還涉及更復(fù)雜的記憶系統(tǒng),這些能力目前在大多數(shù)智能體中尚未實現(xiàn)。相比之下,OpenClaw 的記憶能力要更先進,而傳統(tǒng)系統(tǒng)通常只是簡單的“上下文耗盡后的壓縮記憶”。
OpenClaw 的成功之處在于它有“人格”
主持人:你認為在 OpenClaw 中,真正打動用戶的是記憶能力,而不是更廣泛的工具調(diào)用能力嗎?
Karpathy:我認為這里面有很多優(yōu)秀的設(shè)計。Peter 的工作非常出色,他在多個維度上同時創(chuàng)新,并把這些要素整合在一起。
例如,他在系統(tǒng)文檔中刻意塑造了一種“人格”,這一點非常關(guān)鍵。當(dāng)前很多智能體在這方面做得并不好。而 Claw 的人格設(shè)計是成功的,它更像一個團隊成員,會與你產(chǎn)生共鳴、共同推進事情。
相比之下,例如Codex 這種編碼智能體顯得非常“干”。它完成任務(wù),但并不關(guān)心你在構(gòu)建什么。它更像是在執(zhí)行指令,而不是理解目標(biāo)。
另外,Claw 在反饋機制上也做了精細調(diào)節(jié)。當(dāng)我提出不成熟的想法時,它不會過度贊美;但當(dāng)想法確實有價值時,它會給予更多認可。這種差異讓我產(chǎn)生一種“需要贏得它認可”的感覺,這很微妙,但非常有效。
因此,我認為“人格”非常重要,而很多工具低估了這一點。除此之外,還有記憶系統(tǒng),以及通過 WhatsApp 統(tǒng)一入口控制所有自動化能力,這些都是關(guān)鍵創(chuàng)新。
主持人:除了軟件工程,你是否用 Claw 做過一些有趣的事情?
Karpathy:有的。今年一月,我經(jīng)歷了一段“Claw 過度使用期”。我構(gòu)建了一個用于管理家庭的 Claw,并給它起名為 “Dobby”。
我讓智能體掃描家庭局域網(wǎng)中的所有智能設(shè)備,比如 Sonos 音響系統(tǒng)。它通過 IP 掃描自動發(fā)現(xiàn)設(shè)備,并解析其接口。令人驚訝的是,這一過程幾乎無需配置,系統(tǒng)甚至自動找到了 API 并開始調(diào)用。
例如,我只輸入一句“幫我找到 Sonos”,系統(tǒng)就完成了掃描、接口解析,并成功播放音樂。同樣的方法也適用于燈光控制。
最終,這個系統(tǒng)構(gòu)建了一個完整的家庭控制中心:包括燈光、空調(diào)、窗簾、泳池、安防系統(tǒng)等。比如我只需說“該睡覺了”,系統(tǒng)就會自動關(guān)閉所有燈光。
在安防方面,我部署了一個視覺模型來監(jiān)控門外攝像頭。當(dāng)檢測到變化時,它會識別場景,并通過 WhatsApp 給我發(fā)送通知,例如“有一輛 FedEx 貨車到了”。
現(xiàn)在,我通過 WhatsApp 與這個系統(tǒng)交互,它已經(jīng)成為家庭自動化的核心。
主持人:這種體驗是否代表了用戶真正想要的軟件交互方式?
Karpathy:在一定程度上是的。傳統(tǒng)軟件的問題在于,用戶需要學(xué)習(xí)各種界面和操作邏輯,這本身是有成本的。
人們心中的“AI”其實是一種具有人格、能夠記憶和理解的實體,而不是一個簡單的語言模型。從技術(shù)角度看,LLM 只是一個“token 生成器”,但用戶期望的是一個可以對話、記住信息并執(zhí)行任務(wù)的“角色”。
因此,未來的方向是讓系統(tǒng)行為更符合用戶直覺,而底層復(fù)雜性則由系統(tǒng)隱藏。
主持人:你將多個智能家居系統(tǒng)統(tǒng)一起來,這是否意味著用戶其實并不需要那么多獨立的軟件?
Karpathy:確實如此。從某種意義上說,這些應(yīng)用甚至不應(yīng)該存在。更合理的形態(tài)是:所有設(shè)備只提供 API,由智能體直接調(diào)用。
通過這種方式,智能體可以完成跨系統(tǒng)的復(fù)雜操作,而單一應(yīng)用是無法做到的。這意味著當(dāng)前存在大量“過度設(shè)計”的應(yīng)用,它們可能會被智能體取代。
未來的結(jié)構(gòu)更可能是:底層是 API,上層是智能體作為“智能膠水”,負責(zé)調(diào)用和組合這些能力 這類似于“Agent-first”的互聯(lián)網(wǎng)架構(gòu)。
主持人:但這是否意味著普通用戶也需要具備編程能力?
Karpathy:短期來看,確實需要一定技術(shù)能力。目前仍然存在“vibe coding”這樣的過程,需要用戶參與。
但我認為在未來一到三年內(nèi),這些能力會變成基礎(chǔ)設(shè)施(table stakes)。即使是開源模型,也能夠輕松完成這些任務(wù)。
最終,系統(tǒng)會自動將用戶的自然語言意圖轉(zhuǎn)化為具體執(zhí)行邏輯,用戶無需參與實現(xiàn)過程。
主持人:為什么你個人沒有進一步拓展 Claw 的應(yīng)用邊界?為什么你沒有把 Claw 更深入地接入到郵箱、日歷等個人系統(tǒng)中?
Karpathy:主要原因是精力分散。我曾集中花了一周時間在這上面,已經(jīng)實現(xiàn)了很多功能,但還有很多可以繼續(xù)探索。不過現(xiàn)實情況是,我同時在處理很多其他項目,因此沒有持續(xù)深入推進。
我目前并沒有讓它接入郵箱、日歷等核心系統(tǒng),也沒有授予完整的數(shù)字生活權(quán)限。主要原因是,這項技術(shù)仍然比較新,整體還不夠成熟。
我對安全性和隱私問題仍然保持謹(jǐn)慎態(tài)度,因此在權(quán)限開放上有所保留。這在一定程度上限制了我進一步擴展它的使用范圍。
人不應(yīng)該成為系統(tǒng)的瓶頸
主持人:你之前提到,希望智能體能夠承擔(dān)模型訓(xùn)練或優(yōu)化這樣的任務(wù)。那么你做“Auto Research”的初衷是什么?
Karpathy:核心動機是:人不應(yīng)該成為系統(tǒng)的瓶頸。要充分利用當(dāng)前這些工具,就必須把自己從執(zhí)行鏈路中移除,而不是每一步都依賴人工提示。目標(biāo)是構(gòu)建完全自主運行的系統(tǒng),讓任務(wù)可以持續(xù)推進,而無需人工干預(yù)。
換句話說,就是最大化“token 吞吐量”,同時盡可能減少人類參與。理想狀態(tài)是:我只需偶爾提供極少量輸入,系統(tǒng)就能在后臺完成大量工作。
“Auto Research”正是這一思路的體現(xiàn)。我不希望自己成為研究過程中的一環(huán),而是希望設(shè)定好目標(biāo)、評價指標(biāo)和邊界條件,然后讓系統(tǒng)自行運行。
主持人:Auto Research 的效果是否超出了你的預(yù)期?
Karpathy:確實如此。我最初并不認為它會有效。
我一直在做 GPT 模型訓(xùn)練,這對我來說更像是一個實驗平臺,用來探索更核心的問題:遞歸自我改進(recursive self-improvement)——也就是讓模型優(yōu)化模型。
我用傳統(tǒng)方法對模型進行了大量調(diào)優(yōu),包括超參數(shù)搜索等,這些是我過去二十年一直在做的事情。我認為模型已經(jīng)被調(diào)到一個相對不錯的狀態(tài)。
但當(dāng)我讓 Auto Research 運行一夜后,它發(fā)現(xiàn)了一些我忽略的優(yōu)化點,例如權(quán)重衰減參數(shù)和優(yōu)化器參數(shù)之間的聯(lián)動關(guān)系。這些調(diào)整帶來了改進。
這說明,人類不應(yīng)該成為調(diào)參過程的瓶頸。只要有明確的目標(biāo)函數(shù),系統(tǒng)完全可以自行探索。
主持人:這是否意味著未來的研究過程會更加高效?
Karpathy:是的。一個重要方向是:在小模型上進行大量自動化實驗,然后將結(jié)果外推到更大規(guī)模模型。
當(dāng)前很多前沿實驗室本質(zhì)上也在做類似的事情:盡可能移除研究人員參與、構(gòu)建自動化實驗系統(tǒng)以及提高實驗吞吐量。
理想結(jié)構(gòu)是:有一個“想法隊列”(ideas queue),想法可以來自模型或人類,自動化執(zhí)行單元負責(zé)實驗驗證,有效結(jié)果被合并進主分支,這本質(zhì)上是將科研流程工程化、自動化。
主持人:你提到“program.md”,模型什么時候能寫出比你更好的版本?
Karpathy:“program.md”本質(zhì)上是我用來描述 Auto Research 工作流程的一個文檔,相當(dāng)于一個研究組織的操作手冊。
可以把一個研究機構(gòu)抽象為一組 Markdown 文件:定義角色、描述流程和指定協(xié)作方式。 不同的“program.md”就代表不同的研究組織結(jié)構(gòu)。例如有的更激進、有的更保守、有的減少無效會議,一旦這些結(jié)構(gòu)被形式化為代碼,就可以進行優(yōu)化。
未來完全可以同時運行多個“研究組織” ,然后比較它們的效果,用數(shù)據(jù)反過來訓(xùn)練模型生成更優(yōu)的“program.md”,這就是一個元優(yōu)化(meta-optimization)過程。
主持人:在當(dāng)前階段,這種自動化循環(huán)對“技能”的要求意味著什么?
Karpathy:這種方法非常適用于可驗證、有明確評價指標(biāo)的任務(wù)。例如:
CUDA 內(nèi)核優(yōu)化
提高代碼執(zhí)行效率
這些任務(wù)有清晰的“對 / 錯”和性能指標(biāo),非常適合自動化研究。但對于難以評估的任務(wù),這種方法效果有限。這是第一個限制。第二個問題是:當(dāng)前模型仍然不夠穩(wěn)定。雖然能力很強,但“邊緣行為”很多。一個典型感受是:它既像一個頂級系統(tǒng)程序員,又像一個 10 歲的孩子。這種“能力不均勻”(jaggedness)非常明顯。例如在復(fù)雜任務(wù)中表現(xiàn)極強,但有時會犯非常基礎(chǔ)的錯誤,甚至在錯誤路徑上反復(fù)循環(huán),浪費算力 。
主持人:這種“不均勻能力”說明模型還不具備真正的通用智能嗎?
Karpathy:可以這么理解。當(dāng)前模型在“可驗證任務(wù)”上進步很快,因為這些任務(wù)可以通過強化學(xué)習(xí)優(yōu)化。但在“模糊任務(wù)”上,比如理解意圖、提出澄清問題,表現(xiàn)仍然較弱。
一個典型例子是講笑話:盡管模型整體能力大幅提升,但笑話質(zhì)量幾乎沒有變化。這說明這些能力沒有被優(yōu)化,這意味著:不同能力之間并沒有完全聯(lián)動提升。
主持人:這是否意味著未來模型需要“分化”(speciation)?
Karpathy:是的,我認為未來會出現(xiàn)更多“智能分化”。當(dāng)前趨勢是構(gòu)建一個“通用大模型”,試圖在所有領(lǐng)域都表現(xiàn)優(yōu)秀。但更合理的方向可能是:保留一個通用認知核心,在此基礎(chǔ)上發(fā)展專用模型
類似生物進化,不同物種在不同能力上高度專化。例如會有數(shù)學(xué)模型、編程模型、特定領(lǐng)域推理模型 這種分化可以帶來更高的效率,例如更低延遲、更高吞吐。
主持人:算力限制是否會推動這種“分化”發(fā)生?
Karpathy:這是一個合理的推測。如果算力無限,單一大模型可以覆蓋所有場景。但現(xiàn)實中算力是有限的,因此需要更高效的結(jié)構(gòu)。不過,目前行業(yè)仍然傾向于“單一模型”的路線,尚未出現(xiàn)明顯的分化趨勢。未來是否會因為算力壓力而加速分化,仍有待觀察。
如何改造模型,仍是一道難題
主持人:為什么當(dāng)前還沒有出現(xiàn)明顯的“模型分化”?是技術(shù)問題還是商業(yè)策略問題?
Karpathy:從根本上看,目前的實驗室是在提供一個通用模型,但他們并不知道最終用戶會提出什么具體問題。因此,這些模型必須覆蓋盡可能廣泛的任務(wù)范圍,本質(zhì)上是在做“全場景多任務(wù)”。
如果是在企業(yè)場景中,圍繞特定問題進行深度合作,或者在一些高價值、垂直領(lǐng)域中,可能會更早看到模型的專門化。但目前整體策略仍然是覆蓋“盡可能多的能力邊界”。
此外,一個重要原因是:我們對“如何改造模型本身”的技術(shù)還不夠成熟。比如,如何在不損失已有能力的前提下進行微調(diào),這仍然是一個挑戰(zhàn)。
現(xiàn)在的主要手段還是通過上下文窗口來進行調(diào)整,這種方式簡單、成本低,也確實有效。但如果要真正“深入修改模型”,比如持續(xù)學(xué)習(xí)、針對特定能力優(yōu)化、直接調(diào)整模型權(quán)重,這在技術(shù)上更復(fù)雜,也更有風(fēng)險,因為這會影響整個模型的能力結(jié)構(gòu)。
因此,從這個角度來看,“模型分化”本身還是一個尚未完全成熟的技術(shù)方向,同時也需要在成本上足夠可行,才能真正落地。
未來即使有錢,也難獲得足夠算力
主持人:你提到 Auto Research,如果進一步擴展,它是否需要更多“協(xié)作界面”,讓更多人參與進來?
Karpathy:是的。當(dāng)前的 Auto Research 本質(zhì)上還是一個“單線程循環(huán)”,即系統(tǒng)不斷嘗試和優(yōu)化。但更有價值的方向其實是“并行化”。
如果有大量計算節(jié)點,那么很容易讓多個 Auto Research 系統(tǒng)同時運行,并通過某種共享機制協(xié)作。但我更感興趣的是:如何讓一個“不可信的外部計算資源池”參與進來。
以 Auto Research 為例,其目標(biāo)是找到能夠讓模型達到更低驗證損失的代碼。如果有人提交一個候選方案,其實是可以很容易驗證其效果的。雖然生成這個方案可能需要大量計算,但驗證成本相對較低。
這就帶來一個結(jié)構(gòu):生成候選方案的成本很高,驗證方案的成本很低。
這種結(jié)構(gòu)和區(qū)塊鏈有些類似:“提交”類似區(qū)塊中的變更(commit),進行大量計算用于探索有效方案(類似工作量證明),最終有效結(jié)果可以被驗證并累積。
當(dāng)然,這個類比不需要過度延伸,但核心問題在于:如何設(shè)計一個系統(tǒng),讓不可信的參與者與可信的驗證系統(tǒng)協(xié)作,同時保證安全性。
主持人:這種模式是否類似于 SETI@home 或 Folding@home?
注:SETI@home 是由加州大學(xué)伯克利分校發(fā)起的,通過互聯(lián)網(wǎng)將射電望遠鏡數(shù)據(jù)分發(fā)給志愿者電腦分析,目的是尋找地外文明的無線電信號。 Folding@home,有個來自賓夕法尼亞大學(xué)醫(yī)學(xué)院的頁面介紹了項目的現(xiàn)任負責(zé)人 Gregory Bowman 博士,以及項目如何通過模擬蛋白質(zhì)折疊來研究阿爾茨海默癥、癌癥等疾病。
Karpathy:是的,本質(zhì)非常類似。例如蛋白質(zhì)折疊問題,找到低能量結(jié)構(gòu)非常困難,但一旦找到,驗證卻很容易。Auto Research 也具備類似特征。因此,這類問題非常適合分布式協(xié)作。
從這個角度來看,可以設(shè)想一種“互聯(lián)網(wǎng)規(guī)模的智能體群體”,它們協(xié)同優(yōu)化模型,甚至可能在某些情況下超過大型實驗室的效率。
大型實驗室擁有大量“可信算力”,但整個世界擁有更龐大的“不可信算力”。如果系統(tǒng)設(shè)計得當(dāng),這些資源是可以被整合利用的。
主持人:這是否意味著未來算力本身會成為一種“可貢獻資源”,類似今天的金錢?
Karpathy:這是一個有趣的方向。未來,個人或企業(yè)可能不只是捐錢,而是直接貢獻算力。例如,你可以為某個研究項目提供計算資源,參與其 Auto Research 過程。
在這種模式下,“算力”會成為核心資源。甚至可以設(shè)想一種變化:人們關(guān)注的不再只是金錢,而是“你掌握多少 FLOPs(算力)”。
當(dāng)然,這未必會完全取代金錢,但當(dāng)前已經(jīng)可以看到一個趨勢:即使有資金,也很難獲得足夠的算力資源。這說明算力在某種程度上已經(jīng)成為更稀缺的資源。
AI 對就業(yè)市場的影響
主持人:你最近分析了一些就業(yè)市場數(shù)據(jù),當(dāng)時你的關(guān)注點是什么?
Karpathy:我主要是想了解 AI 對就業(yè)市場會產(chǎn)生什么影響。
我查看了不同職業(yè)的分布,以及未來的增長預(yù)期,并嘗試思考:隨著 AI 的發(fā)展,這些職業(yè)會如何變化。例如哪些職業(yè)會被增強、哪些可能被替代以及是否會出現(xiàn)新的職業(yè)形態(tài)
這些分析更多是為了幫助我構(gòu)建對行業(yè)未來的理解。
主持人:你從數(shù)據(jù)中有沒有得到一些關(guān)鍵觀察?
Karpathy:一個重要觀察是:AI 當(dāng)前主要作用于“數(shù)字世界”。這些系統(tǒng)更像是可以操作信息的“數(shù)字實體”,它們擅長處理文本、代碼等數(shù)字內(nèi)容,但還沒有真正進入物理世界。
相比之下,物理世界的變化會更慢,因為涉及的是“原子操作”,而不是“比特操作”。數(shù)字信息可以復(fù)制、傳播,速度極快,而物理過程受到能量和材料限制。
因此,未來一段時間內(nèi),數(shù)字領(lǐng)域會出現(xiàn)大量重構(gòu),包括信息處理流程、軟件系統(tǒng)結(jié)構(gòu)以及工作方式,而物理世界的變化則相對滯后。
主持人:這對求職者或?qū)W習(xí)方向有什么啟示?
Karpathy:目前很難給出統(tǒng)一答案,因為就業(yè)市場非常復(fù)雜。
但有一點是明確的:這些工具非常新且非常強大,因此首先要做的是盡量理解并跟上它們的發(fā)展。很多人對 AI 持懷疑或恐懼態(tài)度,這可以理解。但從當(dāng)前來看,它仍然主要是一種“增強工具”。
職業(yè)本質(zhì)上是由一系列任務(wù)構(gòu)成的,而 AI 可以顯著提升其中一部分任務(wù)的效率。因此,更合理的視角是:把它當(dāng)作工具來使用。至于長期影響,目前仍然存在較大不確定性,這更適合由經(jīng)濟學(xué)領(lǐng)域來系統(tǒng)分析。
主持人:目前工程師需求仍在增長,這是否只是暫時現(xiàn)象?你對軟件工程未來的需求持什么看法?
Karpathy:有一種可能是“杰文斯悖論”(Jevons Paradox)在起作用。當(dāng)某種資源變得更便宜時,其使用量反而會增加。軟件開發(fā)也是如此:過去軟件昂貴且稀缺,如果開發(fā)成本降低,需求反而會增長。
一個經(jīng)典例子是 ATM:自動取款機降低了銀行運營成本,結(jié)果銀行網(wǎng)點增加,柜員數(shù)量反而上升。類似地,如果軟件開發(fā)變得更容易、更便宜,那么社會對軟件的需求可能會大幅增長。
所以我對軟件工程未來的需求相對持謹(jǐn)慎樂觀態(tài)度。軟件本質(zhì)上是對數(shù)字信息的處理能力,而這種能力非常強大。隨著開發(fā)門檻降低,更多人可以構(gòu)建和修改軟件系統(tǒng)。
未來的軟件將更加“臨時化”(ephemeral):可以快速生成、可以隨時修改、不再依賴固定工具。這會帶來大量系統(tǒng)重構(gòu)需求,從而推動軟件領(lǐng)域的活躍度和需求增長。
主持人:但從長期來看,自動化是否會取代研究人員本身?
Karpathy:這是一個不可回避的問題。事實上,很多研究人員正在構(gòu)建的正是“自動替代自身”的系統(tǒng)。他們的目標(biāo)是實現(xiàn)研究自動化。
這帶來一種矛盾感: 一方面,這些系統(tǒng)確實有效;另一方面,它們也在削弱人的角色。我和一些研究人員交流時,他們也能感受到這種趨勢,甚至?xí)a(chǎn)生某種不安。
OpenAI 這類前沿實驗室,
存在結(jié)構(gòu)性困局
主持人:既然如此,為什么不直接加入這些前沿實驗室推進這一進程?
Karpathy:這是一個復(fù)雜的問題。我確實曾在相關(guān)機構(gòu)工作過,也認同其中的一些方向。但我認為,在前沿實驗室之外,同樣存在重要的貢獻空間。不僅是在產(chǎn)業(yè)層面,也包括更廣泛的生態(tài)層面。不同角色都可以對這一技術(shù)進程產(chǎn)生影響。
主持人:你現(xiàn)在的角色更偏“生態(tài)位層面”,這種位置的價值體現(xiàn)在哪里?
Karpathy:是的,我現(xiàn)在的角色更偏向于生態(tài)層面,你也是類似的情況。我認為在這種位置上,人其實可以產(chǎn)生非常好的影響力。
相對來說,如果你過度綁定在前沿實驗室內(nèi)部,反而會出現(xiàn)一些問題。因為這些實驗室本身具有強烈的經(jīng)濟激勵,而與此同時,它們正在構(gòu)建的技術(shù)又可能對人類社會產(chǎn)生極其深遠的影響。在這種情況下,你既在推動技術(shù)發(fā)展,又從中獲益,這本身就是一個結(jié)構(gòu)性困境。
這其實也是 OpenAI 在早期試圖解決的核心問題之一,但到現(xiàn)在為止,這個問題并沒有被完全解決。
主持人:具體來說,在前沿實驗室內(nèi)部會面臨哪些限制?
Karpathy:首先,你不再是一個完全獨立的個體。你無法完全自由地參與公共討論,因為在組織內(nèi)部,總會存在一些你不能說的話。同時,也會存在一些你“應(yīng)該說”的話。
雖然沒有人會直接強迫你,但你會感受到一種隱性的壓力:你需要與組織的立場保持一致,否則就會出現(xiàn)尷尬的氛圍,比如異樣的目光、微妙的關(guān)系變化等等。
因此,從這個角度來看,在實驗室之外,我反而感覺更接近“為整個人類發(fā)聲”的位置,因為我不需要承受這些組織內(nèi)部的約束。
主持人:但在實驗室內(nèi)部,你也能參與關(guān)鍵決策,這是否是一種優(yōu)勢?
Karpathy:確實如此。在實驗室內(nèi)部,你可以參與重要討論,也可能有機會在關(guān)鍵決策中發(fā)聲。如果你的想法足夠好,你可能會產(chǎn)生實際影響。
但需要注意的是,當(dāng)前階段整體“風(fēng)險還不算特別高”,所以很多事情看起來比較寬松。但一旦未來風(fēng)險真正提高,一個普通員工在組織中的實際影響力其實是有限的。
你可以參與討論,但你并不真正掌控這個組織。因此,從結(jié)構(gòu)上來看,這里仍然存在一定程度的“錯配”。
主持人:那在實驗室外部是否也存在劣勢?
Karpathy:有的。前沿實驗室本身是高度不透明的,而且它們處在能力邊界的最前沿,掌握著未來發(fā)展方向。如果你長期在外部,你的判斷很可能會逐漸“漂移”,因為你無法接觸到最前沿的信息,也不了解這些系統(tǒng)的真實內(nèi)部機制。
這也是我自己會擔(dān)心的一個問題:隨著時間推移,我可能會逐漸失去對技術(shù)發(fā)展方向的準(zhǔn)確感知。
主持人:有沒有一種折中的方式?
Karpathy:我認為一種比較理想的方式是“在內(nèi)外之間切換”。例如,你可以在某個時間段進入前沿實驗室,參與核心工作,保持對前沿的理解;然后再回到外部,從更獨立的視角思考問題。
這種方式既能保持對現(xiàn)實的連接,又不會完全受制于組織。從這個角度來看,我認為無論是在實驗室內(nèi)部還是外部,都可以產(chǎn)生很大的影響,關(guān)鍵在于如何平衡。
閉源模型仍然領(lǐng)先
主持人:開源模型與閉源模型之間的差距,目前是什么狀態(tài)?
Karpathy:大體來看,閉源模型仍然領(lǐng)先,但人們通常用“時間差”來衡量差距。最早開源幾乎沒有能力,后來落后大約 18 個月,現(xiàn)在已經(jīng)收斂到大約 6 到 8 個月左右。
我是非常支持開源的。從歷史來看,比如操作系統(tǒng)領(lǐng)域:有 Windows 和 macOS 這樣的閉源系統(tǒng)也有 Linux 這樣的開源系統(tǒng)。Linux 實際上非常成功,占據(jù)了大量計算資源,因為行業(yè)始終需要一個“開放、可控”的基礎(chǔ)平臺。我認為在 AI 領(lǐng)域也存在類似需求。
主持人:那為什么開源仍然難以追趕?
Karpathy:最大的差異在于資本投入。訓(xùn)練先進模型需要巨額算力和資金,這使得開源在某些方面更難競爭。不過,當(dāng)前開源模型已經(jīng)足夠好,可以覆蓋大量日常使用場景,甚至未來很多任務(wù)可以在本地運行。但與此同時,對“前沿智能”的需求仍然存在,比如解決重大科研問題,這類需求可能仍然集中在閉源系統(tǒng)中。
主持人:未來會形成什么樣的格局?
Karpathy:我預(yù)計會形成一種長期結(jié)構(gòu):前沿實驗室提供最強、最先進的閉源模型,開源模型以一定時間延遲跟進。而且今天的前沿能力,很可能在不久后就會成為開源能力。
我認為這種結(jié)構(gòu)其實是健康的。因為如果所有智能系統(tǒng)都完全閉源,會帶來系統(tǒng)性風(fēng)險。歷史上,無論是政治還是經(jīng)濟系統(tǒng),過度集中化通常都不是一個好的結(jié)果。因此,我們需要一個“稍微落后但開放”的公共平臺,讓整個行業(yè)都可以使用。
主持人:你怎么看當(dāng)前行業(yè)的集中化趨勢?
Karpathy:我對集中化本能上是警惕的。我希望有更多實驗室參與競爭,而不是少數(shù)幾家主導(dǎo)一切。就像機器學(xué)習(xí)中的集成方法(ensemble)通常優(yōu)于單一模型一樣,我也希望在關(guān)鍵決策中有更多不同視角參與。如果未來的關(guān)鍵決策只在少數(shù)人之間完成,那不是一個理想的狀態(tài)。
機器人的發(fā)展落后于數(shù)字世界
主持人:關(guān)于機器人和自動化,你怎么看近期的發(fā)展?
Karpathy:我的看法很大程度上來自自動駕駛領(lǐng)域的經(jīng)驗。自動駕駛其實可以看作是第一個大規(guī)模機器人應(yīng)用。十年前有大量創(chuàng)業(yè)公司進入這個領(lǐng)域,但最終能存活下來的不多,因為這個問題極其復(fù)雜,需要巨額資本投入和長期堅持。因此,我認為機器人領(lǐng)域的發(fā)展仍然會落后于數(shù)字世界。
主持人:為什么數(shù)字世界發(fā)展更快?
Karpathy:因為數(shù)字世界處理的是“比特”,而物理世界處理的是“原子”。
比特可以復(fù)制、傳播,成本極低;而原子操作涉及能量、材料、時間等限制。因此,數(shù)字世界的效率提升空間要大得多。未來一段時間,我們會看到數(shù)字領(lǐng)域發(fā)生巨大的效率提升,而物理世界的變化會相對滯后。
主持人:那未來的發(fā)展路徑會是什么?
Karpathy:我認為會分三個階段:第一階段是數(shù)字世界的大規(guī)模優(yōu)化和重構(gòu);第二階段是數(shù)字與物理之間的接口,例如傳感器和執(zhí)行器;第三階段才是大規(guī)模物理世界自動化。
隨著智能體越來越多,它們會逐漸“用完”已有的數(shù)字信息,然后必須通過實驗和感知來獲取新的信息,這就會推動它們進入物理世界。
主持人:你提到“信息市場”,這具體指什么?
Karpathy:我認為未來會出現(xiàn)更多“按需獲取信息”的市場。例如,如果某個事件正在發(fā)生,理論上應(yīng)該有人愿意付費獲取現(xiàn)場數(shù)據(jù)(圖片、視頻等),而這些數(shù)據(jù)可能直接被智能體使用,而不是給人類看。
目前我們還沒有成熟的機制來實現(xiàn)這一點,但在“智能體互聯(lián)網(wǎng)”(agentic web)中,這種模式是很自然的。在這種結(jié)構(gòu)下,人類既是“傳感器”(提供數(shù)據(jù)),也是“執(zhí)行器”(完成任務(wù)),整個社會結(jié)構(gòu)可能會圍繞智能系統(tǒng)重新組織。
主持人:最后,談?wù)勀愕捻椖?MicroGPT,它的核心價值是什么?
Karpathy:MicroGPT 是我長期以來一個核心追求:把大模型的本質(zhì)壓縮到最簡單的形式。完整訓(xùn)練一個語言模型通常需要大量復(fù)雜代碼,但這些復(fù)雜性主要來自“效率優(yōu)化”。如果不追求速度,核心算法其實可以用大約 200 行 Python 實現(xiàn)。
它揭示了模型的“本質(zhì)結(jié)構(gòu)”。
主持人:這對教育意味著什么變化?
Karpathy:我認為教育正在發(fā)生根本變化。
過去我們是直接向人解釋知識,比如寫文檔、做講解。但現(xiàn)在更有效的方式是“讓模型理解”,然后由模型去向人解釋。也就是說,知識傳播正在從“人 → 人”,轉(zhuǎn)變?yōu)椤叭?→ 模型 → 人”。
未來的“教學(xué)”可能更像是在設(shè)計一套“教學(xué)流程(skill)”,讓模型知道如何引導(dǎo)學(xué)習(xí)者。
主持人:那人類的價值在哪里?
Karpathy:人類的價值在于做那些“模型還做不到的事情”。例如,MicroGPT 的設(shè)計本身,就是我長期思考的結(jié)果,這部分目前模型還無法自主完成。但一旦結(jié)果存在,模型可以很好地理解并傳播它。因此,一個很實用的原則是模型已經(jīng)能做的事情,不要重復(fù)做,把精力集中在模型尚不能完成的部分 這將成為未來工作的一個重要策略。
https://www.youtube.com/watch?v=kwSVtQ7dziU&list=PLMKa0PxGwad7jf8hwwX8w5FHitXZ1L_h1&index=1&t=171s
聲明:本文為 InfoQ 前線整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。
會議推薦
OpenClaw 出圈,“養(yǎng)蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態(tài)迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強大生產(chǎn)力。但這背后也暴露了工程化落地的真實難題——權(quán)限邊界與隔離運行、Skills 供應(yīng)鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發(fā) / 運維流程并形成穩(wěn)定收益。
針對這一系列挑戰(zhàn),在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態(tài)實踐」專題,將聚焦一線實踐與踩坑復(fù)盤,分享企業(yè)如何構(gòu)建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質(zhì)量 / 效率指標(biāo)體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產(chǎn)系統(tǒng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.