<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI大神卡帕西自曝:玩龍蝦玩出“AI精神病”,token不燒完就焦慮

      0
      分享至


      智東西
      編譯 陳駿達(dá)
      編輯 李水青

      智東西3月23日報(bào)道,在上周六發(fā)布的播客中,OpenAI聯(lián)合創(chuàng)始人、AI大牛Andrej Karpathy(安德烈·卡帕西)系統(tǒng)梳理了自己在AI編程和OpenClaw浪潮中的一線體感與方法論,他笑稱由于AI領(lǐng)域的飛速發(fā)展,自己仿佛出現(xiàn)某種“精神錯(cuò)亂”,在不同新事物之間疲于奔命。他還發(fā)現(xiàn),當(dāng)下AI編程智能體的瓶頸已不只是模型能力:“Agent做不好,多半是Skill問題。”

      “我現(xiàn)在幾乎一行代碼都沒再親自寫過。”在Karpathy看來,軟件工程的工作流已經(jīng)在短短幾個(gè)月內(nèi)被Agent徹底改寫。現(xiàn)在不是人寫代碼,而是人用自然語言調(diào)度一群智能體完成系統(tǒng)級任務(wù)。過去他80%代碼靠自己,如今變成80%交給Agent完成,甚至更高。

      除了將Agent用于編程之外,OpenClaw的爆發(fā)也改變了Karpathy的生活。他打造了一個(gè)名為“多比”的OpenClaw,直接“接管”家庭,自動掃描并接入音箱、燈光、安防等設(shè)備,自主尋找API、建立控制面板,還能在陌生人接近時(shí)發(fā)預(yù)警。

      這一經(jīng)歷讓Karpathy得出判斷:許多App都應(yīng)該是Agent可調(diào)用的API,Agent就是粘合劑。OpenClaw之所以特別,不是因?yàn)槟硞€(gè)功能最強(qiáng),而是它更接近人們心目中的AI形態(tài)。

      值得一提的是,在預(yù)告這期播客的推文下,Karpathy在OpenAI的前同事、OpenAI o1模型作者之一Noam Brown發(fā)了一條頗有“火藥味”的推文,質(zhì)疑Karpathy在這一關(guān)鍵時(shí)刻,為什么不在AI前沿實(shí)驗(yàn)室好好做研究。


      對此,Karpathy也在播客中做出正面回應(yīng),如果深度綁定一家前沿AI實(shí)驗(yàn)室,就很難保持完全獨(dú)立的立場,離開后反而與人類整體的立場更為對齊。財(cái)務(wù)激勵與社會責(zé)任之間存在“利益沖突”,這也是OpenAI創(chuàng)立時(shí)就存在的問題,至今未能解決。

      Karpathy認(rèn)為,在前沿AI Lab干一段時(shí)間,做一些高質(zhì)量工作,然后再離開,是個(gè)不錯(cuò)的方式——既能跟上真實(shí)進(jìn)展,又不至于完全被某個(gè)實(shí)體控制,還給生態(tài)做了貢獻(xiàn)。這番表態(tài),頗有點(diǎn)“普羅米修斯盜火”的意味,或許真是他從OpenAI急流勇退的原因。

      在這期播客中,Karpathy還就自動化研究、大模型能力“鋸齒化”、開源與閉源競爭格局,以及AI對就業(yè)與軟件形態(tài)的重構(gòu)分享了自己的思考,以下是這期播客的核心內(nèi)容:

      1、AI編程:去年12月以來,AI編程的范式已經(jīng)徹底改變,如今人其實(shí)不是在編程,而是在向Agent表達(dá)自己的想法。

      2、生產(chǎn)力焦慮:行業(yè)目前最焦慮的已經(jīng)不是能不能跑滿GPU了,而是能不能用完token,“訂閱沒用完我就焦慮,說明我的token吞吐量沒拉滿。”

      3、自動研究:AI已經(jīng)能高度自動化地完成復(fù)雜研究任務(wù),人類要做就是把人從所有流程中撤走,盡可能自動化,追求極高的Token吞吐量。

      4、模型能力呈鋸齒狀分布:模型在不同領(lǐng)域的能力仍然參差不齊,如今與AI對話的感覺,就像是同時(shí)在和一個(gè)天才程序員和一個(gè)10歲小孩對話。

      5、泛化問題:智能并沒有全面溢出,可驗(yàn)證能力的提升并不會帶動模型軟性能力的提升。比如,模型在代碼上變強(qiáng)了,但講笑話還是五年前的爛梗。

      6、職業(yè)選擇:在前沿實(shí)驗(yàn)室工作并不自由,有太多利益糾葛和立場約束,在這些機(jī)構(gòu)之外,反而更接近“人類整體”的立場。

      7、開源v.s.閉源:完全封閉的智能還是有系統(tǒng)性風(fēng)險(xiǎn)的。開源模型如果并非最強(qiáng),最好也只是稍微落后,扮演行業(yè)的“共同工作空間”角色,確保權(quán)力平衡。

      8、單一大模型v.s.專用小模型:大模型會出現(xiàn)更多“物種分化”,但是持續(xù)學(xué)習(xí)、微調(diào)和權(quán)重修改等相關(guān)技術(shù)仍未成熟。

      9、機(jī)器人:操作原子(物理世界)要比操作比特(數(shù)字世界)難上100萬倍,但物理世界的總潛在市場(TAM)可能比純數(shù)字世界還大。

      10、AI與教育:人類互相教授知識的時(shí)代要結(jié)束了,未來教育的模式可能是先讓agent搞懂,然后讓它來教人。

      以下是播客內(nèi)容的完整編譯:

      一、AI“龍蝦”編程效果不佳?多半還是Skill問題!

      主持人:我記得有段時(shí)間走進(jìn)你的辦公室,看到你非常專注,我問你在做什么,你說“我必須每天‘編程’16小時(shí)”。編程甚至都不是正確的動詞了,你其實(shí)是在向Agent表達(dá)自己的想法。跟我說說你的體驗(yàn)。

      Karpathy:我感覺自己一直處在一種“AI精神錯(cuò)亂”(AI psychosis)的狀態(tài),現(xiàn)在也經(jīng)常如此。因?yàn)樽鳛閭€(gè)體,你能實(shí)現(xiàn)的事情變得更多了。過去你會受限于打字速度之類的因素,但現(xiàn)在有了這些Agent,情況完全不同了。

      從去年12月開始,我的工作方式迎來真正的轉(zhuǎn)折點(diǎn):原本我手寫80%的代碼,剩余20%交給Agent,現(xiàn)在變成了20%自己寫、80%交給Agent,甚至可能還不止80%。從那時(shí)起,我?guī)缀跻恍写a都沒再親自寫過。

      隨便找一個(gè)軟件工程師,去看看他們在做什么,你會發(fā)現(xiàn)他們構(gòu)建軟件的默認(rèn)工作流,從去年12月開始已經(jīng)徹底改變了。

      這是一個(gè)極其巨大的變化。我也跟我父母聊過這件事,其實(shí)普通人并沒有意識到改變正在發(fā)生,或者沒有意識到它有多戲劇性。

      所以我現(xiàn)在的狀態(tài)就像是“精神錯(cuò)亂”了一樣,試圖搞清楚到底哪些事是可行的,并把這些可能性推向極限。我會想:怎么能不局限于單次會話的Claude Code或Codex?怎么能擁有更多?怎么才能更合理地利用這些能力?這些OpenClaw到底能用在什么場景?新東西實(shí)在太多了。

      我覺得自己必須站在最前沿。我在Twitter上看到很多人在做各種嘗試,聽起來都頭頭是道。如果我不處在前沿,就會感到非常焦慮。這種“精神錯(cuò)亂”狀態(tài),本質(zhì)上是因?yàn)槲覀冞€在探索“什么是可能的”,而這個(gè)領(lǐng)域從根本上說仍是未知的.

      主持人:如果你都感到焦慮,那我們其他人就更不用說了。我們有個(gè)合作團(tuán)隊(duì),他們的工程師完全不手寫代碼,所有人都戴著麥克風(fēng),一直對Agent低語。這是有史以來最奇怪的工作場景。我以前覺得他們瘋了,現(xiàn)在我完全接受了,“哦,這才是正道”。你只是領(lǐng)先了一步。你覺得現(xiàn)在自己探索或做項(xiàng)目的能力受限于什么?

      Karpathy:Agent做不好,多半是人沒掌握好Skill。不是它不行,是你還沒摸清楚怎么把現(xiàn)成的東西組合起來。比如agents.md文件里的指令寫得不夠好,或者沒配個(gè)好用的記憶工具,歸根結(jié)底都是Skill問題。

      最好的辦法是讓Agent并行干活,就像Peter Steinberg(OpenClaw作者)那樣。Peter有張?zhí)貏e逗的照片——他坐在顯示器前,屏幕上鋪滿了一堆Codex Agent。如果提示詞寫得對,再開個(gè)高強(qiáng)度推理模式,每個(gè)任務(wù)差不多要跑20分鐘。他手上大概有10個(gè)repo要檢查,就來回切換著給Agent分配工作。

      這樣你就能用更大的顆粒度去操作了,不是“這兒改一行代碼,那兒加個(gè)新函數(shù)”這種小打小鬧,而是“這個(gè)新功能交給Agent 1,那個(gè)新功能不沖突,給Agent 2”,然后根據(jù)你對代碼的重視程度去審查它們的產(chǎn)出。

      這些就是操作代碼倉庫的“宏觀動作”。一個(gè)Agent在做研究,一個(gè)在寫代碼,另一個(gè)在規(guī)劃新的實(shí)現(xiàn)方案,所有事都在這些宏觀動作里推進(jìn)。你得努力精通這套玩法,練出肌肉記憶。這事兒特別有回報(bào),一來是真的有用,二來是你在學(xué)新東西。所以才會“精神錯(cuò)亂”。

      二、“訂閱沒用完我就焦慮,說明我的token吞吐量沒拉滿”

      主持人:我的直覺是,每次等Agent干完活兒,都覺得自己應(yīng)該多干點(diǎn)別的,對吧?如果token還富余,就該并行塞更多任務(wù)進(jìn)去。這挺有壓力的,因?yàn)橐悄悴挥X得token花費(fèi)是瓶頸,那系統(tǒng)里真正的瓶頸就是你自己了。

      Karpathy:起碼說明你訂閱的額度沒用滿。理想情況下,Codex跑滿了就該切到Claude或者別的。我最近一直在試這個(gè)模式,訂閱沒用完我就焦慮,說明我的token吞吐量沒拉滿。

      我讀博的時(shí)候其實(shí)也經(jīng)歷過這種事,GPU沒跑起來就焦慮——明明有GPU算力,F(xiàn)LOPS卻沒榨干。但現(xiàn)在不是FLOPS了,是token。你的token吞吐量是多少?你指揮著多少token在跑?

      主持人:我覺得挺有意思的,過去至少十年,很多工程任務(wù)里大家都不覺得受計(jì)算限制,而目前整個(gè)行業(yè)突然變得受資源限制了。現(xiàn)在能力突然躍升了,你就會發(fā)現(xiàn)“哦,原來不是我搞不到算力,瓶頸是我自己”。

      Karpathy:是Skill問題。研究這事兒能讓你變得更好。我覺得挺上頭的,因?yàn)槟阕儚?qiáng)了就會解鎖新東西。

      主持人:你覺得會往哪兒發(fā)展?比如Karpathy每天迭代16小時(shí),其他人也在用編程Agent變強(qiáng),一年后你達(dá)到的精通水平,會是什么樣?

      Karpathy:精通是什么樣?年底,還是兩年、三年、五年、十年后?我覺得大家都想往技術(shù)棧的上層走。不是單次和Agent聊天,而是多個(gè)Agent怎么協(xié)作、團(tuán)隊(duì)怎么配合,大家都在摸索那會是什么樣。

      然后我覺得OpenClaw也是個(gè)有意思的方向,因?yàn)槲艺f的OpenClaw是指那種把持久性提升到新層次的東西。它是那種持續(xù)循環(huán)運(yùn)行的,不是你交互式參與的,它有自己的小沙盒,自己干事兒,哪怕你不盯著,還有更復(fù)雜的記憶系統(tǒng)之類的,這些Agent里還沒實(shí)現(xiàn)。

      OpenClaw的記憶系統(tǒng)就比默認(rèn)的大模型復(fù)雜多了,默認(rèn)只是上下文滿了就壓縮記憶。

      主持人:你覺得OpenClaw是不是憑借這一點(diǎn)打動了用戶,還是更廣泛的工具訪問?

      Karpathy:我覺得OpenClaw有很多非常好的想法。Peter做得特別棒。我最近見到他聊過,他挺謙虛的,但我覺得他同時(shí)在五個(gè)不同維度創(chuàng)新,然后整合到一起。比如那個(gè)“靈魂文檔(soul.md)”,他真的精心打造了一種有吸引力、有意思的人格。我覺得現(xiàn)在很多Agent都沒做對這點(diǎn)。

      Claude的人格就不錯(cuò),感覺像隊(duì)友,跟你一起興奮。有意思的是ChatGPT里的Codex很活潑、很有活力,但Codex這個(gè)編程Agent就很枯燥,好像不在乎你在創(chuàng)造什么,雖然完成了,但是它好像不理解我們在構(gòu)建什么。

      主持人:確實(shí)。

      Karpathy:還有一點(diǎn),比如Claude,我覺得他們把模型的“人格”調(diào)得挺好。Claude夸我的時(shí)候,我確實(shí)覺得配得上。因?yàn)楫?dāng)我給它的想法不太成熟的時(shí)候,它反應(yīng)就不強(qiáng)烈。但按我自己的標(biāo)準(zhǔn),真是好想法的時(shí)候,它好像會多獎勵一點(diǎn)。我有點(diǎn)想贏得它的夸獎,這真挺奇怪的。

      人格很重要,很多其他工具可能沒那么重視。Peter真的很在乎這個(gè),所以做對了。然后是記憶系統(tǒng),還有通過單一WhatsApp入口,訪問所有功能,這個(gè)設(shè)計(jì)很不錯(cuò)。

      三、“一切都應(yīng)該是API端點(diǎn),Agent是粘合劑”

      主持人:你個(gè)人用OpenClaw做過什么編程之外的有意思的事嗎?

      Karpathy:1月份的時(shí)候,我經(jīng)歷了一段“OpenClaw精神錯(cuò)亂”時(shí)期。我搭了個(gè)照顧家的OpenClaw,叫它“家養(yǎng)小精靈多比”。我用Agent找家里局域網(wǎng)上所有智能家居子系統(tǒng),還挺驚訝居然開箱即用。

      我只是跟它說“家里有Sonos,你能找找嗎?”它就做了IP掃描,找到Sonos音箱,結(jié)果沒密碼保護(hù),直接登進(jìn)去了。然后它開始逆向工程,看看這些系統(tǒng)是怎么工作的,也做了些網(wǎng)絡(luò)搜索,直接找到API端點(diǎn),問我想試試嗎,然后音樂就出來了。

      燈光也一樣。它基本上是黑進(jìn)了系統(tǒng),搞清楚了整個(gè)系統(tǒng),創(chuàng)建了API,創(chuàng)建了儀表盤,我能看到家里所有燈的指揮中心,然后開關(guān)燈。我可以跟它說:“多比,要睡覺了”。這條指令就可以把所有燈關(guān)掉,它還控制著我所有的燈、空調(diào)、窗簾、泳池、水療吧,以及安保系統(tǒng)。

      我有攝像頭對著房子外面,每次有人進(jìn)來,首先會進(jìn)行變化檢測,然后基于變化檢測去調(diào)Qwen,最后給我發(fā)WhatsApp消息,顯示外面的圖像,比如:“嘿,F(xiàn)edEx卡車剛到了,你可能想檢查一下,你收到郵件了。”這是多比剛給我發(fā)的,真的很不可思議。

      多比管著房子,我通過WhatsApp跟它發(fā)消息,這些宏觀動作真的很有意思。我還沒真正推得更遠(yuǎn),我覺得有人在做更瘋狂的事。但就算只是家庭自動化設(shè)置,我以前要用六個(gè)完全不同的App,現(xiàn)在不用了,多比用自然語言控制一切,很神奇。我覺得我還沒完全推到這個(gè)范式的極限,但已經(jīng)很有幫助、很有啟發(fā)了。

      主持人:你覺得這從用戶體驗(yàn)角度說明了人們想要什么嗎?因?yàn)閷W(xué)習(xí)新軟件、新UI是需要人類努力的,這在過去被忽視了。

      Karpathy:某種程度上是對的。OpenClaw實(shí)現(xiàn)的東西,本質(zhì)上是從“人們覺得AI應(yīng)該是什么樣”這個(gè)角度倒推出來的。人們心目中的AI其實(shí)不是原始意義上的大模型——大模型就是個(gè)token生成器,但人們想象中的AI是那種有人格、有身份的存在,你可以跟它分享事情,它也會記得,就像WhatsApp背后的某個(gè)實(shí)體,更好理解。

      所以某種程度上說,OpenClaw匹配了人類對AI行為的既有期望,但底層有很多技術(shù)細(xì)節(jié)。比如大模型作為原始原語對大多數(shù)人來說太“原始”了,對很多人來說不能真正被當(dāng)成AI來看待。

      主持人:我覺得這就是我們理解AI的方式,把它描述成多比或某種人格顯然能引起共鳴。我覺得你把六個(gè)不同的軟件系統(tǒng)統(tǒng)一起來做家庭自動化,也指向另一個(gè)問題:人們真的想要我們今天擁有的所有這些軟件嗎?你所做的就是把這些硬件的軟件層或UX層扔掉了。你覺得這是人們想要的嗎?

      Karpathy:我覺得有種感覺是,應(yīng)用商店里那些配套智能家居設(shè)備的App,某種意義上根本不應(yīng)該存在——不應(yīng)該就是個(gè)API嗎,Agent不應(yīng)該直接調(diào)用嗎?我能做各種家庭自動化,任何單個(gè)App都做不到。大模型能驅(qū)動工具、調(diào)用所有正確的工具、做相當(dāng)復(fù)雜的事。

      這說明業(yè)界可能生產(chǎn)了太多定制App,它們不應(yīng)該存在,因?yàn)锳gent把它們都統(tǒng)一起來了,一切都應(yīng)該更像是暴露出來的API端點(diǎn),Agent是粘合劑,是實(shí)際調(diào)用所有部分的智能。

      另一個(gè)例子是我的跑步機(jī),有個(gè)跑步機(jī)App,我想記錄做有氧的頻率,但我不想登錄網(wǎng)頁UI、走流程什么的。這些都應(yīng)該只是開放的API,這是走向Agent化網(wǎng)絡(luò)或Agent優(yōu)先工具的方向。所以行業(yè)必須在很多方面重新配置,客戶不再是人類,而是代表人類行事的Agent,這種重構(gòu)可能會相當(dāng)徹底。

      有人反駁說,我們期望人們vibe code這些工具嗎?普通人要做我剛才描述的這些嗎?但某種程度上這只是今天的技術(shù)現(xiàn)狀,現(xiàn)在有vibe coding,我在觀察、在跟系統(tǒng)合作。

      但我覺得我剛才說的這些,一兩年或三年后應(yīng)該是免費(fèi)的,沒有vibe coding參與,這是微不足道的,是基本要求,任何AI甚至開源模型都能做這個(gè)。

      主持人:大模型應(yīng)該能很容易地把不熟悉技術(shù)的人的意圖,翻譯回去。

      Karpathy:今天還是需要vibe coding,但沒多少人會做。

      主持人:而且你還得做些設(shè)計(jì)決策,對吧?比如取幀。

      Karpathy:但我覺得門檻會降下來,只是為你服務(wù)的臨時(shí)軟件,某個(gè)OpenClaw處理所有細(xì)節(jié),你不參與。它有臺機(jī)器,會搞清楚,只給你呈現(xiàn)UI,你說話就行。

      主持人:你為什么沒把個(gè)人用OpenClaw的邊界推得更遠(yuǎn)?是因?yàn)槟銓W⒏匾捻?xiàng)目,比如自動研究,還是在研究如何精通Vibe Coding,或者其他原因?

      Karpathy:我覺得我分心了。我花了一周在OpenClaw的東西上,但還有更多嘗試可以做。我沒給它郵件、日歷和其他東西的訪問權(quán)限,因?yàn)槲疫€有點(diǎn)懷疑。它還很新、很粗糙。我不想給它我數(shù)字生活的完全訪問權(quán)。部分原因是安全、隱私,也許這是主導(dǎo)因素。但部分也確實(shí)是因?yàn)槲冶环中牧恕?/p>

      四、AI已能“自動研究”,人類別拖后腿

      主持人:你探索“自動研究”的動機(jī)是什么?你一直在說,想讓Agent做訓(xùn)練或至少優(yōu)化模型的任務(wù)。

      Karpathy:我早先有條推文,大意是為了充分利用現(xiàn)在可用的工具,你必須把自己從瓶頸中移除,你不能在那里寫提示詞,指揮模型做下一件事,需要把自己抽離出來,安排好任務(wù)讓它們完全自主。怎么在不參與循環(huán)的情況下,最大化你的token吞吐量,這才是目標(biāo)。

      現(xiàn)在要做的就是增加你的杠桿,我只輸入很少的token,偶爾一次,但是有大量事情正在發(fā)生。

      人們喜歡這個(gè)概念,但可能沒完全想通含義。對我來說,自動研究員就是上述觀點(diǎn)的案例之一——我不想做研究者,看結(jié)果什么的,我在拖系統(tǒng)后腿,所以問題是怎么重構(gòu)所有抽象層。

      我們要做的就是讓Agent能運(yùn)行更長時(shí)間、不用你參與、代表你做事。所謂的自動研究員就是,你告訴Agent,這是目標(biāo),這是指標(biāo),這是能做和不能做的事情,放手去做吧。

      主持人:你對它的有效性感到驚訝。

      Karpathy:對,我沒想到會有效。我有nanoGPT這個(gè)項(xiàng)目,很多人不理解我對訓(xùn)練GPT-2模型的著迷,但對我來說,訓(xùn)練GPT模型只是個(gè)小工具、小游樂場。我真正更感興趣的是遞歸自我改進(jìn)這個(gè)想法,以及大模型能在多大程度上改進(jìn)大模型。所有前沿實(shí)驗(yàn)室都在做這件事,他們都在大致嘗試遞歸自我改進(jìn)。

      這個(gè)項(xiàng)目對我來說就是一個(gè)小游樂場。我已經(jīng)用經(jīng)典的手工方式調(diào)過nanoGPT了——我是研究者,做了大概二十年。我做了很多實(shí)驗(yàn),做了超參數(shù)調(diào)優(yōu),做了所有事,非常熟練,達(dá)到了某個(gè)點(diǎn),我覺得調(diào)得相當(dāng)好了。

      然后我讓自動研究跑了一晚上,它給我?guī)砹宋液雎缘恼{(diào)優(yōu)空間,比如我確實(shí)忘了值嵌入的權(quán)重衰減,我的Adam beta沒充分調(diào)好,這些東西是聯(lián)合交互的,一旦調(diào)一個(gè),其他的也可能要變。

      我不應(yīng)該是瓶頸,我不應(yīng)該跑這些超參數(shù)搜索優(yōu)化,我不應(yīng)該看結(jié)果,這種情況有客觀標(biāo)準(zhǔn)。所以你只需安排好Agent,讓它能一直跑下去。我很驚訝它找到了這些調(diào)優(yōu)空間,代碼庫已經(jīng)高度優(yōu)化了。

      而這還只是單循環(huán),前沿AI實(shí)驗(yàn)室有數(shù)以萬計(jì)GPU的集群。不難想象,可以在較小模型上進(jìn)行大量這種研究。所有前沿AI模型都是關(guān)于外推和Scaling損失的,可以在較小模型上做大量探索,然后嘗試外推出去。

      主持人:你的意思是,如果能更好地進(jìn)行這種實(shí)驗(yàn),那研發(fā)效率會大幅提升,在擴(kuò)大模型規(guī)模時(shí),也會有更明確的方向。

      Karpathy:是的。我覺得目前最有趣、可能也是頂尖實(shí)驗(yàn)室正在攻克的項(xiàng)目,就是在小模型上做實(shí)驗(yàn)。你會試圖讓實(shí)驗(yàn)過程盡可能自動化,把研究員從環(huán)節(jié)中踢出去。研究員們往往有種“過度自信”,其實(shí)他們不該插手這些過程。你得重寫整個(gè)流程,雖然現(xiàn)在研究員還能提供點(diǎn)想法,但不該由他們?nèi)?zhí)行。

      想象一下,有一個(gè)點(diǎn)子隊(duì)列,可能還有一個(gè)“自動化研究員”,它根據(jù)所有的arXiv論文和GitHub倉庫產(chǎn)生靈感并輸入隊(duì)列;人類研究員也可以貢獻(xiàn)點(diǎn)子,但它們都進(jìn)入同一個(gè)隊(duì)列。然后由自動化Agent去抓取任務(wù)并嘗試。行得通的代碼就進(jìn)入功能分支,人工只需偶爾監(jiān)控一下并合并到主分支。

      總之,就是把人從所有流程中撤走,盡可能自動化,追求極高的Token吞吐量。這需要重新思考所有的抽象層,一切都要推倒重來。這非常令人興奮。

      五、AI能力呈“鋸齒狀”分布:有時(shí)像天才,有時(shí)像10歲小孩

      主持人:如果我們再往深處推演一級,模型什么時(shí)候能寫出比你更好的“program.md”?

      Karpathy:“program.md”是我嘗試描述自動化研究員如何工作的一個(gè)簡陋草案——比如“先做這個(gè),再做那個(gè),嘗試這些架構(gòu)或優(yōu)化器的點(diǎn)子”。我只是用Markdown隨手寫出來的。你肯定想要一種自動化研究循環(huán),去尋找更優(yōu)的方案。你可以想象,不同的“program.md”會帶來不同的進(jìn)展。

      每一個(gè)研究機(jī)構(gòu)其實(shí)都可以由一個(gè)“program.md”來描述。一個(gè)研究機(jī)構(gòu)就是一組描述角色和連接方式的Markdown文件。你可以想象一個(gè)更高效的機(jī)構(gòu):也許他們早上的會更少,因?yàn)槟羌儗倮速M(fèi)時(shí)間。既然這一切都是代碼,你就可以微調(diào)它:有的開會少,有的偏好高風(fēng)險(xiǎn)。

      你可以打造多個(gè)不同的研究機(jī)構(gòu),每個(gè)機(jī)構(gòu)都以代碼表示,有了代碼就可以對其進(jìn)行優(yōu)化。你可以分析進(jìn)步是從哪兒來的,然后調(diào)整“program.md”,讓它多做有效的事,少做沒用的事。

      主持人:這就是元優(yōu)化(Meta Optimization)。

      Karpathy:這主意很棒,但得一步步來。這就像剝洋蔥:現(xiàn)在大模型部分已經(jīng)是常態(tài)了,智能體部分也是常態(tài)了,像OpenClaw也是常態(tài)了。現(xiàn)在你可以擁有多個(gè)實(shí)體,給它們指令,甚至對指令進(jìn)行優(yōu)化。這信息量確實(shí)有點(diǎn)大,甚至讓人感覺有點(diǎn)“精神錯(cuò)亂”,因?yàn)樗菬o限嵌套的,而且一切都還處于早期階段。

      主持人:如果我們要判斷當(dāng)下,什么樣的技術(shù)才是核心?我們是否應(yīng)該在各個(gè)領(lǐng)域都嘗試實(shí)現(xiàn)這種“去人化”的自動化循環(huán)?核心是建立指標(biāo),還是創(chuàng)造讓Agent在沒有你的情況下持續(xù)工作的能力。那“性能工程”(Performance Engineering)還有地位嗎?

      Karpathy:關(guān)于AI生態(tài)我有幾點(diǎn)想提醒。第一,這種模式極其適合那些有客觀指標(biāo)、易于評估的領(lǐng)域。比如編寫更高效的CUDA算子。有一段低效代碼,想要一段行為完全一致但速度更快的高效代碼,這是自動化研究的完美場景。但如果你無法評估,你就沒法對其進(jìn)行自動化研究。

      第二,雖然我們能看到下一步,但模型的基本功層面其實(shí)還有很多不足,沒完全跑通。如果你步子跨得太大,最后可能反而沒用。現(xiàn)在的模型雖然進(jìn)步很大,但在某些方面還是比較粗糙。我感覺自己同時(shí)在和一個(gè)天才級的系統(tǒng)程序員以及一個(gè)10歲小孩對話。

      這種“鋸齒狀”(Jaggedness)的能力分布很奇怪,人類的能力通常更均衡。有時(shí)候我要求一個(gè)功能,結(jié)果Agent給我的完全是錯(cuò)的,然后陷入完全錯(cuò)誤的循環(huán),我就特別崩潰。明明能感覺到它的強(qiáng)大,但它偶爾還是會干出完全沒道理的事情。

      六、模型能力“泛化”仍然存疑,一切都卷在不透明的神經(jīng)網(wǎng)絡(luò)里

      主持人:當(dāng)我發(fā)現(xiàn)Agent在一些顯而易見的問題上浪費(fèi)了大量算力時(shí),我會非常惱火。

      Karpathy:我猜這背后的深層原因是:這些模型是通過強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的。它們也面臨我們剛才聊到的問題:實(shí)驗(yàn)室只能在可驗(yàn)證、有獎勵反饋的領(lǐng)域提升模型。代碼寫對了嗎?單元測試過了嗎?這些好辦。

      但它們在比較“軟”的東西上就掙扎了,比如:我到底想要什么細(xì)微差別?我意圖是什么?什么時(shí)候該反問我求澄清?凡是感覺比較模糊、不明確的領(lǐng)域,它們就明顯差很多。

      所以你要么就在軌道上,屬于超級智能的一部分,要么就偏離軌道,進(jìn)入了不可驗(yàn)證的領(lǐng)域,然后一切就開始漫無目的地游蕩。

      換個(gè)說法:你今天去用最強(qiáng)的ChatGPT,說“給我講個(gè)笑話”,你大概率知道會得到哪個(gè)笑話。

      主持人:我猜ChatGPT大概翻來覆去就那三個(gè)笑話。

      Karpathy:沒錯(cuò)。所有大模型最愛講的笑話永遠(yuǎn)是:“為什么科學(xué)家不信任原子(Atoms)?因?yàn)樗鼈儤?gòu)成了(Make up,也有編造之意)一切。”

      這是三四年前模型講的笑話,現(xiàn)在依然是。盡管模型在Agent任務(wù)上已經(jīng)能移山填海,可你一讓它講笑話,它還是五年前的爛梗。

      因?yàn)檫@不在強(qiáng)化學(xué)習(xí)的優(yōu)化范圍內(nèi),它是“鋸齒狀能力”中的洼地。模型能力提升的同時(shí),講笑話的能力并沒有提升。它沒有優(yōu)化,而是停留在了原地。

      主持人:這是否說明我們在“泛化”意義上并沒有看到更廣的智能——比如講笑話的聰明度并沒有跟寫代碼的聰明度綁定在一起?

      Karpathy:對,我覺得確實(shí)存在一定程度的解耦。有些東西可驗(yàn)證、被重點(diǎn)優(yōu)化;有些東西沒有被優(yōu)化。有些領(lǐng)域?qū)嶒?yàn)室根據(jù)訓(xùn)練數(shù)據(jù)隨意優(yōu)化,有些根本沒動。

      主持人:有一些研究組的前提是:如果你在代碼生成等可驗(yàn)證領(lǐng)域變得更聰明,就應(yīng)該在所有領(lǐng)域都更聰明。但笑話這個(gè)例子說明,至少目前并沒有發(fā)生全面的溢出。

      Karpathy:我也不覺得發(fā)生了。我覺得有一點(diǎn)點(diǎn),但遠(yuǎn)沒有達(dá)到讓人滿意的程度。

      主持人:人類也有這種特質(zhì)。你可以數(shù)學(xué)極其厲害,但講笑話巨爛。

      Karpathy:但這也說明,我們并沒有得到那種“模型越強(qiáng),所有領(lǐng)域的智能都自然而然跟著變強(qiáng)”的故事。并不是這樣。存在盲區(qū),有些東西根本沒被優(yōu)化。這一切都卷在不透明的神經(jīng)網(wǎng)絡(luò)里。

      如果是獲得針對性訓(xùn)練的能力,就會光速前進(jìn),如果不在這一范圍內(nèi),表現(xiàn)就不佳。這就是能力的參差不齊。

      即使方向很明顯,也還不能完全放手讓它跑,因?yàn)樗€沒完全跑通——要么是技術(shù)還沒成熟,要么是我們還沒搞明白怎么用。

      七、大模型會出現(xiàn)更多“物種分化”,但相關(guān)技術(shù)仍不成熟

      主持人:我能問一個(gè)有點(diǎn)大逆不道的問題嗎?我們現(xiàn)在還是把模型打包成一個(gè)單體模型,但如果這種參差不齊的能力分布會一直存在,那是否應(yīng)該把模型拆開,拆成可以在不同智能領(lǐng)域分別優(yōu)化、分別改進(jìn)的東西?比如拆成多個(gè)專家模型(Mixture of Experts),每個(gè)專注不同領(lǐng)域。

      而不是現(xiàn)在這樣:一個(gè)大模型什么都行,但為什么在這件事上表現(xiàn)很好、在另一件事上表現(xiàn)極差,讓人非常困惑。

      Karpathy:我現(xiàn)在的感覺是:前沿實(shí)驗(yàn)室還是想做一個(gè)單一的“單文化”模型,在所有領(lǐng)域都盡可能聰明,然后把一切都塞進(jìn)參數(shù)里。但我認(rèn)為未來應(yīng)該會出現(xiàn)更多的“物種分化”(speciation)。

      就像動物界,大腦形態(tài)極其多樣,有各種生態(tài)位。有些動物視覺皮層超級發(fā)達(dá),有些其他部分超發(fā)達(dá)。我們應(yīng)該也會看到更多這種分化。

      不需要一個(gè)無所不知的神諭(oracle)。你可以讓它分化,然后針對特定任務(wù)部署。而且這樣可以出現(xiàn)更小的模型,但仍然保留認(rèn)知核心,仍然很能干,只是在特定任務(wù)上做了特化。

      這樣在延遲、吞吐量上都會更高效。比如專門為Lean定理證明做優(yōu)化的模型,已經(jīng)有幾家在發(fā)布了。應(yīng)該會出現(xiàn)越來越多這種解耦的場景。

      主持人:我有一個(gè)問題是:當(dāng)前計(jì)算基礎(chǔ)設(shè)施的容量限制,會不會反過來推動這種分化?因?yàn)樾首兊酶匾恕R驗(yàn)槿绻懔ν耆幌蓿闶裁炊寄芘埽呐率且粋€(gè)超大單模型。但如果你真切感受到:我不可能為每一個(gè)用例都開一個(gè)巨型模型。你覺得這會不會推動分化?

      Karpathy:這個(gè)問題很有道理。但我現(xiàn)在的困惑是:我們其實(shí)還沒看到太多分化。目前還是單一模型占主導(dǎo)。

      主持人:業(yè)界明顯有壓力,要做一個(gè)好的編程模型,然后再合并回主干。

      Karpathy:盡管模型本身已經(jīng)有很大壓力了。

      主持人:也許現(xiàn)在是短期供給極度緊張,反而會造成更多分化。

      Karpathy:對。我覺得本質(zhì)上,實(shí)驗(yàn)室在對外提供模型時(shí),他們并不知道終端用戶會問什么。所以他們必須在所有可能的問題上進(jìn)行多任務(wù)規(guī)劃。

      如果你是跟某個(gè)企業(yè)深度合作、針對特定問題,那可能會出現(xiàn)更多特化。或者某些極高價(jià)值的細(xì)分應(yīng)用。但目前他們還是在追求“包羅萬象”。

      另外,操控這些“腦”的科學(xué)本身還沒完全成熟。比如在不損失通用能力的情況下做微調(diào),同時(shí),我們也還沒有很好的原語(primitives)。現(xiàn)在基本上靠上下文窗口來操控,它確實(shí)很好用、很便宜,所以我們用它做各種定制化。

      但如果想更深層地調(diào)整模型,比如持續(xù)學(xué)習(xí)(continual learning)、在特定領(lǐng)域微調(diào)、真正動權(quán)重而不是只動上下文窗口,這要復(fù)雜得多。動權(quán)重實(shí)際上是在改變整個(gè)模型的智能,很容易出問題。所以“物種分化”的科學(xué)本身還不成熟。

      主持人:而且成本也要足夠低,才值得去做。

      八、AI研究“并行化”展現(xiàn)潛力,“散戶”也能貢獻(xiàn)算力

      主持人:我能再問一個(gè)關(guān)于你之前提到的“自動研究”(auto research)的問題嗎?你談到過“開放地帶”(open ground),說我們需要圍繞它建立更多的協(xié)作表面,讓大家都能參與到整體研究中。你能再講講這部分嗎?

      Karpathy:好的。我們之前聊到,研究本質(zhì)上是一條單線程:我不斷嘗試、循環(huán)迭代。但真正有趣的部分其實(shí)是它的并行化。我嘗試過一些想法,但目前還沒有找到特別簡單、讓我特別滿意的方案,所以這只是我業(yè)余時(shí)間、在不做OpenClaw時(shí)順手搗鼓的一個(gè)方向。

      一個(gè)很直接的思路是:如果你有很多并行節(jié)點(diǎn),很容易就能讓多個(gè)自動研究員(auto researchers)通過一個(gè)共享系統(tǒng)互相討論。但我更感興趣的是,如何讓互聯(lián)網(wǎng)上大量不被信任的工人(untrusted pool of workers)參與進(jìn)來。

      舉個(gè)例子,在自動研究里,我們的目標(biāo)是找到一段能把模型訓(xùn)練到非常低驗(yàn)證損失的代碼。如果有人從互聯(lián)網(wǎng)上提交一個(gè)候選commit,你很容易驗(yàn)證它到底好不好——直接跑一下就知道。

      但驗(yàn)證本身雖然簡單,卻可能要消耗大量算力。而且對方完全可能撒謊。所以這里其實(shí)有點(diǎn)像我之前設(shè)計(jì)的一些系統(tǒng),引入了不信任的工人池,結(jié)構(gòu)上有點(diǎn)像區(qū)塊鏈。

      這些commit可以互相建立在前面,包含代碼的改進(jìn)。所謂的“工作量證明”其實(shí)就是大量實(shí)驗(yàn),找到真正有效的commit。現(xiàn)在的獎勵只是上排行榜,沒有任何金錢激勵。

      我不想把這個(gè)類比推得太遠(yuǎn),但核心問題是:搜索的成本非常高,但驗(yàn)證一個(gè)候選方案是否優(yōu)秀卻非常便宜——你只需要訓(xùn)練一次模型,看看它到底行不行。前面可能試了1萬個(gè)想法失敗了,但你只要驗(yàn)證那個(gè)成功的就夠了。

      簡單來說,你需要設(shè)計(jì)一套系統(tǒng),讓不被信任的工人池和可信任的驗(yàn)證工人協(xié)同工作,整個(gè)流程是異步的、安全的。從安全角度看,如果有人隨便發(fā)一段代碼給你,你直接跑它是非常危險(xiǎn)的。但理論上這是完全可行的。

      你應(yīng)該很熟悉SETI@home(在家搜尋地外文明)、Folding@home(在家研究蛋白質(zhì)折疊)這些項(xiàng)目,它們都有非常相似的性質(zhì):找到一個(gè)低能量蛋白質(zhì)構(gòu)象非常難,但一旦有人找到了,你很容易驗(yàn)證它就是低的。

      所以凡是符合“生成極貴、驗(yàn)證極便宜”這個(gè)特性的問題,都很適合用“@home”模式,比如Folding@home、SETI@home,或者未來的“Auto Research @ home”。

      一句話總結(jié):互聯(lián)網(wǎng)上的一大群智能體有可能合作來改進(jìn)大語言模型,甚至有可能跑贏前沿實(shí)驗(yàn)室,誰知道呢?前沿實(shí)驗(yàn)室擁有大量可信算力,但地球上不被信任的閑散算力總量要大得多。

      如果能把機(jī)制設(shè)計(jì)好,讓安全驗(yàn)證到位,也許真的有可能讓這群“散戶”貢獻(xiàn)算力,共同推動某些他們關(guān)心的方向。

      再延伸一點(diǎn),很多公司、機(jī)構(gòu)、甚至個(gè)人研究方向都可以有自己的自動研究賽道。比如你特別關(guān)心某種癌癥,你不只是捐錢給機(jī)構(gòu),你還可以買一些算力,然后加入那個(gè)癌癥方向的自動研究“池子”。這樣算力就變成了一種你可以貢獻(xiàn)的東西,所有研究者最終都在共享、競爭、迭代這些算力成果。

      主持人:這真的很振奮人心。而且很有意思的一點(diǎn)是,現(xiàn)在至少有一部分人——不管是硅谷排隊(duì)買顯卡的,還是中國商場里搶設(shè)備的——突然又覺得擁有個(gè)人算力變得有意思了。

      Karpathy:對。

      主持人:他們可能為了自己的OpenClaw去買算力,然后順便貢獻(xiàn)給自動研究。

      Karpathy:現(xiàn)在大家都在乎美元,但未來會不會變成大家都在乎FLOP(浮點(diǎn)運(yùn)算次數(shù))?會不會出現(xiàn)一種“翻轉(zhuǎn)”——算力變成真正稀缺和主導(dǎo)的東西?當(dāng)然我不認(rèn)為會完全這樣,但這個(gè)想法挺有意思的。

      九、AI是數(shù)字世界的“幽靈”,進(jìn)入物理世界仍會滯后

      主持人:你最近發(fā)布的好像是對一些就業(yè)數(shù)據(jù)的分析,對吧?好像還稍微觸動了一些人的神經(jīng),雖然你只是可視化了公開數(shù)據(jù)。你當(dāng)時(shí)主要是好奇什么?

      Karpathy:對。我就是很好奇AI對就業(yè)市場的真實(shí)影響到底會怎樣。每個(gè)人都在討論這個(gè)話題。所以我就想看看現(xiàn)在的職業(yè)分布是什么樣子、各個(gè)職業(yè)有多少人,然后逐個(gè)去想:以AI目前和未來可能的演化路徑,這些職業(yè)是會被AI當(dāng)作工具來增強(qiáng),還是會被取代?它們是會增長、萎縮,還是會發(fā)生很大變形?會不會出現(xiàn)全新的職業(yè)?

      所以這其實(shí)主要是喂養(yǎng)我自己對整個(gè)行業(yè)的思考鏈條。我看的是美國勞工統(tǒng)計(jì)局(BLS)的數(shù)據(jù),他們對每個(gè)職業(yè)未來十年(大概是基于2024年的預(yù)測)都有一個(gè)預(yù)期增長百分比。

      主持人:我們需要很多醫(yī)療工作者。

      Karpathy:對,他們已經(jīng)做了這些預(yù)測。我不清楚他們的具體方法論是什么。我當(dāng)時(shí)主要按“數(shù)字vs物理”來給這些職業(yè)分類。

      因?yàn)槲矣X得目前主流發(fā)展的AI更多是數(shù)字世界的“幽靈”——它們能非常高效地操縱數(shù)字信息,但還沒有真正的物理具身。操控原子永遠(yuǎn)比操縱比特慢很多個(gè)數(shù)量級。

      所以我預(yù)期數(shù)字空間會發(fā)生爆炸式的活動、重寫、沸騰,而物理世界會相對滯后一段時(shí)間。數(shù)字領(lǐng)域的“神經(jīng)系統(tǒng)”會被AI大幅升級,帶來大量原本由人和傳統(tǒng)計(jì)算機(jī)完成的數(shù)字信息處理工作被重構(gòu)(refactoring)。而物理世界會慢半拍。

      所以我特別把那些本質(zhì)上就是在家里操縱數(shù)字信息的職業(yè)標(biāo)出來——因?yàn)檫@些領(lǐng)域會發(fā)生劇烈變化。不是說崗位數(shù)量一定減少或增加(那取決于需求彈性等很多因素),而是說這些職業(yè)的工作內(nèi)容、技能要求會發(fā)生巨大改變。這就像給人類超級有機(jī)體升級了一套新的神經(jīng)系統(tǒng)。

      主持人:從你看數(shù)據(jù)的感受來說,對于現(xiàn)在面臨就業(yè)市場、或者在考慮學(xué)什么、發(fā)展什么技能的人,你有什么觀察或者建議嗎?

      Karpathy:這個(gè)真的很難一概而論,因?yàn)槁殬I(yè)太多樣了,情況千差萬別。但總體來說,這些工具出現(xiàn)得太新、太強(qiáng)大了,所以第一件事就是盡量跟上它們的發(fā)展。

      很多人會選擇忽視它,或者因?yàn)楹ε露乇堋@完全可以理解。但我覺得最重要的是保持好奇、主動去接觸和使用它們。因?yàn)樗鼈兇_實(shí)是極其強(qiáng)大的新生產(chǎn)力工具。

      現(xiàn)在AI其實(shí)就是一個(gè)非常強(qiáng)大的工具。很多工作本質(zhì)上是一堆任務(wù)的集合,其中一部分任務(wù)可以用AI讓速度變得非常快。所以大家現(xiàn)在應(yīng)該主要把它看成一個(gè)工具。至于長遠(yuǎn)未來會怎樣,其實(shí)挺難預(yù)測的,我也不是專業(yè)做這方面預(yù)測的人,這應(yīng)該交給經(jīng)濟(jì)學(xué)家去認(rèn)真研究。

      十、OpenAI的研究員,正“光榮地”把自己自動化掉

      主持人:你是工程師啊。我覺得有意思的一點(diǎn)是,現(xiàn)在對工程崗位的需求其實(shí)還在持續(xù)上升。我不確定這是不是暫時(shí)的現(xiàn)象。你怎么看?

      Karpathy:對,我覺得現(xiàn)在軟件其實(shí)是稀缺的。正因?yàn)橄∪薄⑻F,所以需求才沒有爆發(fā)。如果門檻大幅降低,就會出現(xiàn)“杰文斯悖論”——東西變得更便宜,人員需求反而增加了。

      經(jīng)典例子就是ATM機(jī)和銀行柜員。很多人一度擔(dān)心ATM和電腦會把柜員徹底取代,但實(shí)際上因?yàn)殂y行開支店的運(yùn)營成本大幅下降,反而開了更多分行,最后柜員數(shù)量反而增加了。這是大家常引用的例子。本質(zhì)就是:某樣?xùn)|西變便宜了,很多之前被壓抑的需求就被釋放出來了。

      所以我在軟件工程這個(gè)領(lǐng)域其實(shí)是謹(jǐn)慎樂觀的。我覺得軟件的需求會變得極大,因?yàn)樗兊帽阋颂嗔恕?/strong>

      而且軟件本身太強(qiáng)大了——它是數(shù)字信息處理,你不再被迫使用那些不完美的、別人給你的工具,你也不用只能接受現(xiàn)成的東西。代碼現(xiàn)在是臨時(shí)的、可變的、可修改的。所以我認(rèn)為未來會在數(shù)字世界里出現(xiàn)大量“重構(gòu)一切”的活動,這會創(chuàng)造非常多的需求。

      長遠(yuǎn)來看呢,像OpenAI、Anthropic這些前沿實(shí)驗(yàn)室,現(xiàn)在也就雇一千來個(gè)研究員吧。這些研究員某種意義上是在“光榮地”把自己自動化掉,他們其實(shí)就是在主動做這件事。

      我有時(shí)候去OpenAI轉(zhuǎn)轉(zhuǎn),就會跟他們說:你們有沒有意識到,如果我們真的成功了,我們?nèi)家I(yè)啊?我們就是在給Sam(OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman)或者董事會造一個(gè)能取代我們的東西啊。

      有些研究員自己也開始有那種“精神錯(cuò)亂”的感覺,因?yàn)樗娴脑诎l(fā)生。他們會想:完了,連我也完了。

      十一、在前沿AI Lab之外,跟“人類整體”立場對齊度更高

      主持人:你為什么不干脆去前沿實(shí)驗(yàn)室,用海量算力跟一大群同事一起做自動研究(auto research)?就像前幾天Noam Brown所問的那樣?

      Karpathy:其實(shí)我之前在那里待過一段時(shí)間,也算是重新出來過。我覺得這個(gè)問題可以從很多角度看,有點(diǎn)復(fù)雜。

      我現(xiàn)在感覺,在前沿實(shí)驗(yàn)室之外,人們其實(shí)也能產(chǎn)生非常大的影響,不管是行業(yè)外還是生態(tài)層面的角色。比如你現(xiàn)在做的就是生態(tài)層面的工作,我目前也更多是在生態(tài)層面,我覺得這類角色能帶來的影響其實(shí)挺好的。

      反過來,如果太深度綁定到某一家前沿實(shí)驗(yàn)室,其實(shí)也有問題。因?yàn)槟銜芯薮蟮呢?cái)務(wù)激勵,而你自己也承認(rèn)AI會極大地改變?nèi)祟惡蜕鐣瑓s在里面一邊建技術(shù)一邊從中獲利。這個(gè)難題其實(shí)從OpenAI剛創(chuàng)立時(shí)就存在,一直沒完全解決。

      你在公司里面就不是完全自由的個(gè)體。有些話你不能說,有些話組織希望你說。雖然不會強(qiáng)迫你,但那種壓力是存在的——說錯(cuò)話會很尷尬,會被側(cè)目,會被問“你在干嘛”。所以你在里面其實(shí)很難保持完全獨(dú)立的立場。

      我在實(shí)驗(yàn)室外面,反而覺得自己跟“人類整體”的立場對齊度更高,因?yàn)槲規(guī)缀醪皇苣切毫τ绊懀胝f什么就說什么。當(dāng)然,前沿實(shí)驗(yàn)室里你也能做出很大貢獻(xiàn),尤其是如果你想法很強(qiáng)、能參與核心決策。現(xiàn)在整體風(fēng)險(xiǎn)還不算特別高,大家都還挺友善。

      可一旦真正到高風(fēng)險(xiǎn)、利害攸關(guān)的時(shí)候,作為一個(gè)員工,你對公司最終決策到底有多大影響力,其實(shí)我是不太確定的。你可以在會議室里提想法,但你并不是真正掌舵的那個(gè)人。的確存在一些錯(cuò)位。

      另一方面,我也同意一個(gè)觀點(diǎn):如果你完全在實(shí)驗(yàn)室外面,判斷力確實(shí)會慢慢漂移。因?yàn)槟憬佑|不到最前沿的東西,看不到模型到底是怎么工作的,未來會怎么發(fā)展。

      所以從這個(gè)角度,我確實(shí)有點(diǎn)擔(dān)心。我覺得保持跟前沿的接觸是重要的。如果有機(jī)會去前沿實(shí)驗(yàn)室干一段時(shí)間,做一些高質(zhì)量工作,然后再出來,也許是個(gè)不錯(cuò)的方式——既能跟上真實(shí)進(jìn)展,又不至于完全被某個(gè)實(shí)體控制。

      所以我覺得Noam如果在OpenAI應(yīng)該也能做出非常好的工作,但他的最高影響力也許恰恰是在OpenAI外面。

      理想狀態(tài)可能就是來回切換、在里面和外面都待一待。這是一個(gè)復(fù)雜的問題,我自己就是先進(jìn)去,又出來,未來可能還會再進(jìn)去。我大概就是這么看待這件事的。

      十二、開閉源模型差距明顯收斂,AI生態(tài)需維持健康的權(quán)力平衡

      主持人:開源模型到底離前沿模型有多近,這個(gè)差距會持續(xù)嗎?我覺得整個(gè)事情的發(fā)展其實(shí)挺讓人意外的。從一開始只有少數(shù)幾個(gè)中國模型和全球模型,到現(xiàn)在大家都在持續(xù)發(fā)布,而且能力上比很多人預(yù)想的要更接近前沿。

      你長期做開源,對此怎么看?會不會覺得驚訝?

      Karpathy:我大概的觀察是:閉源模型仍然領(lǐng)先,但大家都在盯著“開源模型落后幾個(gè)月”這個(gè)差距。一開始是完全沒得比,后來拉到18個(gè)月左右,現(xiàn)在已經(jīng)明顯在收斂,可能現(xiàn)在落后6–8個(gè)月的樣子吧。

      我當(dāng)然是非常支持開源的。拿操作系統(tǒng)舉例:有封閉的Windows和macOS這樣的大型軟件項(xiàng)目,就像未來的大模型一樣;但同時(shí)也有Linux,它其實(shí)極其成功,跑在全球絕大多數(shù)計(jì)算機(jī)上(我記得上次看是60%還是更多)。因?yàn)樾袠I(yè)需要一個(gè)大家覺得安全、可信的共同開放平臺。

      現(xiàn)在大模型也是同樣的邏輯,行業(yè)其實(shí)有強(qiáng)烈的需求,希望有這樣一個(gè)東西存在。唯一的區(qū)別是,現(xiàn)在做這件事需要巨量的資本投入,這讓競爭變得更難。

      但我認(rèn)為現(xiàn)在的開源模型已經(jīng)非常好用了。對于絕大多數(shù)消費(fèi)級場景,甚至終端開源模型都足夠強(qiáng)。往前再走幾年,很多簡單用例都會被很好地覆蓋,甚至可以本地跑。

      當(dāng)然,永遠(yuǎn)都會有一部分對“最前沿智能”的需求,而且這個(gè)需求可能占很大一塊市場。但也許未來的“前沿”會變成那種諾貝爾獎級別的工作,或者像把Linux從C重寫成Rust這樣的大工程。封閉的最強(qiáng)模型可能會主要服務(wù)這類高難度任務(wù),而開源則會吃掉大量基礎(chǔ)和日常用例。

      而且現(xiàn)在封閉實(shí)驗(yàn)室的“前沿”模型,過幾個(gè)月可能就開源了,然后繼續(xù)干很多活。所以我預(yù)計(jì)這個(gè)動態(tài)會持續(xù):前沿實(shí)驗(yàn)室保持封閉的最強(qiáng)模型當(dāng)“神諭”,開源模型落后幾個(gè)月,但差距可控。我覺得這其實(shí)是個(gè)挺不錯(cuò)的整體格局。

      因?yàn)槲覍ν耆忾]的智能還是有系統(tǒng)性風(fēng)險(xiǎn)的。歷史上看,極度中心化的東西(不管是政治、經(jīng)濟(jì)還是其他系統(tǒng))表現(xiàn)都不太好。

      我希望開源就算不是最強(qiáng)的,但最好也只是稍微落后一點(diǎn),作為整個(gè)行業(yè)都能用的共同工作空間。這樣權(quán)力平衡會比較健康。

      主持人:另一方面,我也覺得有很多大問題要靠持續(xù)推進(jìn)最前沿的智能才能解決。人類面臨的一些超級難題,沒法只靠今天的能力搞定,所以我們還是得支持那些愿意花大錢往前推的實(shí)驗(yàn)室。

      但正如你說的,今天的“前沿”如果過一陣子就開源,那本身就已經(jīng)是非常大的能力釋放了。這種智能的普惠化,我覺得既實(shí)用又有益。

      Karpathy:所以某種意義上,我們現(xiàn)在這個(gè)局面其實(shí)挺意外地還不錯(cuò),甚至可以說是個(gè)相對健康的生態(tài)。

      主持人:而且只要這種動態(tài)能持續(xù)得久一點(diǎn),整個(gè)生態(tài)的“面積”(累積的能力)就會越來越大。

      Karpathy:不過最近閉源模型好像反而更集中了,因?yàn)楹芏嘣九茉谇懊娴耐婕椰F(xiàn)在掉隊(duì)了,所以頭部更集中。我其實(shí)不太喜歡這個(gè)趨勢。我希望有更多前沿實(shí)驗(yàn)室,越多越好。我對集中這件事就很警惕。

      機(jī)器學(xué)習(xí)里ensemble(集成)總是比單個(gè)模型強(qiáng),所以我也希望最難的問題是有多組人在思考、最難的決策是有多組知情的人在房間里討論,而不是關(guān)起門來兩三個(gè)人說了算。我覺得那不是好的未來。

      所以長話短說:我希望會有更多的AI實(shí)驗(yàn)室,開源模型能一直存在,目前稍微落后一點(diǎn)其實(shí)是好事。

      十三、與操作“比特”相比,操作原子“難上100萬倍”

      主持人:你之前做過通用機(jī)器人的前期工作,也就是自動駕駛相關(guān)的研究。最近幾個(gè)月機(jī)器人公司也加速了,很多公司在泛化能力、長時(shí)序任務(wù)上進(jìn)步很大,還有很多錢涌進(jìn)來。你覺得機(jī)器人真的要起來了?最近有沒有什么變化讓你改觀?

      Karpathy:我的看法還是受當(dāng)年自動駕駛的影響比較大。自動駕駛其實(shí)就是第一個(gè)真正落地的機(jī)器人應(yīng)用。十年前那波,有一大堆初創(chuàng)公司,最后能活下來的其實(shí)沒幾個(gè)。

      我看到的是:機(jī)器人這東西太難了,很多臟活累活,需要巨量的資本、時(shí)間和信念。“原子世界”就是要比“比特世界”難很多。所以我認(rèn)為物理世界的機(jī)器人會明顯落后于數(shù)字世界。

      數(shù)字世界現(xiàn)在就出現(xiàn)了巨大的“解鎖效應(yīng)”——很多原本低效的東西,效率可以提升100倍。因?yàn)楸忍鼐褪潜仍雍酶闾嗔恕?/p>

      目前最活躍、最會發(fā)生巨變的還是數(shù)字空間。然后才會慢慢到數(shù)字-物理的接口部分。

      為什么會有接口?因?yàn)橐坏┠阌辛烁郃gents代表人類做事、互相協(xié)作、參與“Agent經(jīng)濟(jì)”,純數(shù)字的任務(wù)總有一天會做完。到那時(shí)你必須去問宇宙問題,必須做實(shí)驗(yàn),讓物理世界給你反饋,才能學(xué)到新東西。

      現(xiàn)在數(shù)字世界還有大量“過剩工作”——人類以前根本沒足夠腦力把所有已數(shù)字化的信息都思考一遍。現(xiàn)在AI來了,我們會先把這些過剩的部分榨干。

      但遲早會榨完。然后就開始需要跟物理世界交互的接口:傳感器(讀世界)、執(zhí)行器(改世界)。所以我覺得真正有趣的公司會出現(xiàn)在這個(gè)接口地帶——能不能給超級智能喂數(shù)據(jù),能不能按它的指令去操控物理世界。

      而純物理世界的機(jī)會其實(shí)更大,總潛在市場(TAM)可能比純數(shù)字世界還大。但因?yàn)樵与y搞太多,所以會滯后。我認(rèn)為要難上100萬倍。時(shí)間線大概是先數(shù)字大爆發(fā),然后是數(shù)字-物理接口,最后才是純物理的大規(guī)模起飛。

      主持人:當(dāng)然,有些物理任務(wù)其實(shí)沒那么難。比如只是在物理世界及逆行“讀寫”——讀可以用現(xiàn)成攝像頭、傳感器;寫可以用現(xiàn)成機(jī)械臂。如果你足夠聰明,不用投太多錢也能搞出很有價(jià)值的東西。

      Karpathy:比如我最近去拜訪的朋友Liam,他是Periodic的CEO,他們在用AI做材料科學(xué)的自動研究。那里傳感器的成本就很高,是實(shí)驗(yàn)室設(shè)備。生物學(xué)也一樣,很多人在搞生物工程,傳感器遠(yuǎn)不止攝像頭。

      還有些公司在做“付費(fèi)采集訓(xùn)練數(shù)據(jù)”的生意,直接把人類當(dāng)傳感器給AI喂數(shù)據(jù)。

      主持人:所以我覺得未來我會很期待能直接給Agent一個(gè)物理世界任務(wù)、標(biāo)個(gè)價(jià)格,說“你自己想辦法搞定,去拿數(shù)據(jù)”。

      Karpathy:現(xiàn)在居然還沒有足夠發(fā)達(dá)的“信息市場”,我覺得挺意外的。

      比如Polymarket、股票市場這些,如果未來Agent參與度越來越高,為什么不能出現(xiàn)“我出10美元,讓人在德黑蘭某個(gè)地方拍張照或視頻”這樣的機(jī)制?拍完直接喂給Agent,讓它們?nèi)ゲ沦€局或炒股。

      我覺得“Agent化的web”還很早期,還缺很多這樣的基礎(chǔ)設(shè)施。但這種方向我覺得是會發(fā)生的。

      有一本書可能挺有啟發(fā),叫《惡魔》(Demon),里面智能最后有點(diǎn)像在操縱人類——人類既是它的傳感器,也是它的執(zhí)行器。未來整個(gè)社會可能會集體重塑,去服務(wù)于機(jī)器的某種需求,而不是單純服務(wù)于彼此。

      主持人:我們之前聊到訓(xùn)練數(shù)據(jù)缺口、自動研究(auto research)的問題。要把人類從訓(xùn)練閉環(huán)里拿掉,讓模型自己提需求、自己收集數(shù)據(jù)、自己優(yōu)化,得把SFT(監(jiān)督微調(diào))這一環(huán)也高度自動化才行。

      Karpathy:對,100%同意。但對于大語言模型訓(xùn)練,其實(shí)這個(gè)范式特別合適。因?yàn)樗星逦膬?yōu)化目標(biāo)、損失函數(shù),代碼跑得快,還有可量化的指標(biāo)。

      當(dāng)然,如果完全閉環(huán)優(yōu)化某個(gè)指標(biāo),可能會出現(xiàn)大量“對指標(biāo)的作弊”,或者說過擬合。但可以用系統(tǒng)自己再發(fā)明新指標(biāo),做到更好的覆蓋。所以整體來說,語言模型訓(xùn)練其實(shí)是目前最容易實(shí)現(xiàn)自主閉環(huán)的領(lǐng)域之一。

      十四、人類互相教授知識的時(shí)代要結(jié)束了:先讓agent搞懂,然后讓它來教人

      主持人:最后聊個(gè)你的小項(xiàng)目吧——micro GPT。

      Karpathy:對,micro GPT是我這十幾年一直在干的一件事:把LLM盡可能地簡化、提純到最本質(zhì)。

      我之前做過nano GPT等等項(xiàng)目,現(xiàn)在micro GPT是我目前能做到的最極致版本——整個(gè)從頭訓(xùn)練一個(gè)小型語言模型的代碼,只有200行Python(包括注釋)。

      大家看到那么多復(fù)雜的訓(xùn)練代碼,其實(shí)絕大部分復(fù)雜度都來自“要跑得快”。如果不在乎速度,只關(guān)心算法本身,那真的就200行,非常好讀:數(shù)據(jù)集、50行網(wǎng)絡(luò)結(jié)構(gòu)、前向傳播、100行autograd引擎算梯度、10行Adam優(yōu)化器,再加個(gè)訓(xùn)練循環(huán),就結(jié)束了。

      以前我會想錄個(gè)視頻一行行講,或者寫個(gè)教程。但現(xiàn)在我覺得沒太大必要了。因?yàn)榇a已經(jīng)簡單到隨便丟給一個(gè)agent,它就能給你各種角度解釋。

      我現(xiàn)在更多是在跟agent解釋東西,而不是直接跟人解釋。如果agent能懂,那它就能按用戶的語言水平、無限耐心、反復(fù)講解各種方式。人類反而從agent那里能學(xué)得更好。

      我甚至可以寫一個(gè)“skill”,就是告訴agent應(yīng)該按什么順序、用什么方式把micro GPT講給不同水平的人。這樣我只負(fù)責(zé)設(shè)計(jì)課程的骨架,剩下的執(zhí)行交給agent。

      所以我覺得教育的形式正在被重塑。以前是講義、講座、文檔;現(xiàn)在更像是:先讓agent搞懂,然后讓它來教人。

      當(dāng)然現(xiàn)在agent還不是完全取代我——我還是能比它們講得稍微好一點(diǎn)。但模型進(jìn)步太快了,我覺得這是一場必輸?shù)膽?zhàn)斗。

      所以教育可能會大幅重構(gòu),那種人類互相教授知識的時(shí)代可能快要結(jié)束了。打個(gè)比方,如果我有一個(gè)代碼庫或者其他什么項(xiàng)目,以前你會為使用這個(gè)庫的人寫文檔,但現(xiàn)在你不應(yīng)該這么做了。

      你不應(yīng)該再寫給人看的HTML文檔,而應(yīng)該寫給智能體看的markdown文檔。因?yàn)槿绻悄荏w理解了,它們就能解釋其中的各個(gè)部分。這是一種通過智能體的間接傳遞,我覺得我們會看到越來越多這樣的情況發(fā)生。

      我嘗試過讓智能體來寫micro GPT。我讓它試著把神經(jīng)網(wǎng)絡(luò)提煉成最簡單的東西,但它做不到。micro GPT是我癡迷一生研究出的結(jié)晶,就200行代碼。我思考了很久,這就是解決方案。相信我,不可能更簡單了。

      這就是我的價(jià)值所在。其他所有東西,智能體都能搞定。它可能想不出來,但它完全能理解,也明白為什么要用某種方式實(shí)現(xiàn)。

      我的貢獻(xiàn)大概就是這幾個(gè)關(guān)鍵部分,但之后所有的教育工作就不再是我的領(lǐng)域了。也許教育的模式確實(shí)會改變——你只需要注入那些你特別在意、你覺得是課程核心的少數(shù)幾個(gè)點(diǎn),或是補(bǔ)充更好的講解方式。

      那些智能體做不到的事,現(xiàn)在成了你的工作;而那些智能體能做的事,它們可能比你做得更好,或者很快就會比你做得更好。你應(yīng)該戰(zhàn)略性地思考,到底把時(shí)間花在什么事情上。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      紐約客機(jī)迎頭撞上消防車,機(jī)頭完全撞碎!

      紐約客機(jī)迎頭撞上消防車,機(jī)頭完全撞碎!

      勝研集
      2026-03-23 15:32:19
      隨著塔猜亞奪冠,巡回錦標(biāo)賽12人對陣出爐!趙心童8強(qiáng)對手確定了

      隨著塔猜亞奪冠,巡回錦標(biāo)賽12人對陣出爐!趙心童8強(qiáng)對手確定了

      球場沒跑道
      2026-03-23 08:22:38
      鹿晗關(guān)曉彤再爆猛料,熱搜都炸了

      鹿晗關(guān)曉彤再爆猛料,熱搜都炸了

      In風(fēng)尚
      2026-03-23 17:36:24
      “你這輩子也考不上清北”,小學(xué)女生曬聽寫滿分,無知發(fā)言被群嘲

      “你這輩子也考不上清北”,小學(xué)女生曬聽寫滿分,無知發(fā)言被群嘲

      妍妍教育日記
      2026-03-23 20:22:36
      三安光電實(shí)控人林秀成被國家監(jiān)委留置 此前卷入一則179萬元行賄案

      三安光電實(shí)控人林秀成被國家監(jiān)委留置 此前卷入一則179萬元行賄案

      經(jīng)濟(jì)觀察報(bào)
      2026-03-23 13:41:04
      10連勝!穩(wěn)居積分榜第一,球迷:CBA總冠軍已經(jīng)失去懸念

      10連勝!穩(wěn)居積分榜第一,球迷:CBA總冠軍已經(jīng)失去懸念

      體育哲人
      2026-03-24 00:32:45
      伊朗徹底豁出去了

      伊朗徹底豁出去了

      牛彈琴
      2026-03-23 07:56:31
      續(xù)航2000km!奇瑞官宣:3月25日,新車正式預(yù)售

      續(xù)航2000km!奇瑞官宣:3月25日,新車正式預(yù)售

      高科技愛好者
      2026-03-21 23:07:41
      悲哀!WTT興起致國乒衰落,創(chuàng)始人兼掌門劉國梁,離任后被踢開

      悲哀!WTT興起致國乒衰落,創(chuàng)始人兼掌門劉國梁,離任后被踢開

      羅納爾說個(gè)球
      2026-03-24 00:17:35
      900億打水漂,歐盟援烏決議被否,兩國拒絕簽字,俄烏已無兵可打

      900億打水漂,歐盟援烏決議被否,兩國拒絕簽字,俄烏已無兵可打

      環(huán)球Talk
      2026-03-23 23:36:47
      阿司匹林走下神壇:一個(gè)長達(dá)40年的錯(cuò)誤,F(xiàn)DA改變了態(tài)度;柳葉刀都說了,你的阿司匹林得按胖瘦來吃

      阿司匹林走下神壇:一個(gè)長達(dá)40年的錯(cuò)誤,F(xiàn)DA改變了態(tài)度;柳葉刀都說了,你的阿司匹林得按胖瘦來吃

      醫(yī)脈圈
      2026-03-20 20:37:21
      你做初一我做十五,,伊朗一刀封喉致命,以色列真正的麻煩來了

      你做初一我做十五,,伊朗一刀封喉致命,以色列真正的麻煩來了

      隨遇而安之心
      2026-03-24 00:46:50
      1980年張铚秀因戰(zhàn)功升軍區(qū)司令,徐帥為何連連搖頭表示不滿

      1980年張铚秀因戰(zhàn)功升軍區(qū)司令,徐帥為何連連搖頭表示不滿

      嘮叨說歷史
      2025-12-25 14:29:19
      胡軍和兒子康康現(xiàn)身機(jī)場,康康寸頭造型長胖不少,但很有男子氣概

      胡軍和兒子康康現(xiàn)身機(jī)場,康康寸頭造型長胖不少,但很有男子氣概

      科普100克克
      2026-03-24 00:25:56
      萬科2027年到期美元債勢創(chuàng)3個(gè)月最大跌幅

      萬科2027年到期美元債勢創(chuàng)3個(gè)月最大跌幅

      財(cái)聯(lián)社
      2026-03-23 11:33:19
      凌晨6點(diǎn)我軍編隊(duì)遇襲!兩艘不明軍艦突然逼近,南昌艦果斷亮劍

      凌晨6點(diǎn)我軍編隊(duì)遇襲!兩艘不明軍艦突然逼近,南昌艦果斷亮劍

      音樂時(shí)光的娛樂
      2026-03-20 20:10:22
      廣東81-97慘敗上海、徐杰被冷落、看看賽后各大媒體怎么說

      廣東81-97慘敗上海、徐杰被冷落、看看賽后各大媒體怎么說

      阿錯(cuò)田間生活
      2026-03-23 22:34:09
      我今年55了,想用血淚教訓(xùn)告訴你:永遠(yuǎn)不要在朋友圈曬4樣?xùn)|西,真的很傻!

      我今年55了,想用血淚教訓(xùn)告訴你:永遠(yuǎn)不要在朋友圈曬4樣?xùn)|西,真的很傻!

      東林夕亭
      2026-03-20 09:02:31
      這跟不穿有啥區(qū)別?黃多多穿三點(diǎn)式比基尼,卻被200斤閨蜜搶風(fēng)頭

      這跟不穿有啥區(qū)別?黃多多穿三點(diǎn)式比基尼,卻被200斤閨蜜搶風(fēng)頭

      涵豆說娛
      2026-03-20 10:34:12
      廣州99-98險(xiǎn)勝山西,威金頓31分,徐昕10分9板

      廣州99-98險(xiǎn)勝山西,威金頓31分,徐昕10分9板

      懂球帝
      2026-03-23 21:54:04
      2026-03-24 01:39:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
      11414文章數(shù) 117011關(guān)注度
      往期回顧 全部

      科技要聞

      裁掉2萬多名員工后,扎克伯格對自己下手了

      頭條要聞

      特朗普:伊朗還有最后一次機(jī)會

      頭條要聞

      特朗普:伊朗還有最后一次機(jī)會

      體育要聞

      不敢放手一搏,你拿什么去爭冠?

      娛樂要聞

      鐘麗緹就女兒考拉爭議道歉:女兒還小

      財(cái)經(jīng)要聞

      市場見底了嗎?誰在拋售?機(jī)構(gòu)火線解讀

      汽車要聞

      東風(fēng)雪鐵龍新凡爾賽C5X上市 官方一口價(jià)11.37萬起

      態(tài)度原創(chuàng)

      旅游
      藝術(shù)
      手機(jī)
      本地
      公開課

      旅游要聞

      10條線路一站式解鎖賞花新體驗(yàn)

      藝術(shù)要聞

      砸10億!蘇寧易購總部大樓,張近東雄心的象征

      手機(jī)要聞

      傳聞?wù)郫B屏iPhone采用雙層玻璃設(shè)計(jì),進(jìn)一步弱化折痕

      本地新聞

      這里是寶雞 嫽滴很!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版