看了 Andrej Karpathy 的播客,信息量巨大
開篇潑冷水:
未來十年沒有 AGI,只有 Agent
這里說一下,Karpathy 是 OpenAI 早期成員,參與過 GPT 背后的技術路線,在一線干了 15 年
同時,Karpathy 也是前特斯拉 AI 總監
原始視頻在這里
同時,我制作了一份中文版音頻
使用的工具,是
(我弄了一整個周日,非常良心)
這里,我還準備了一份文字實錄,中英雙語
![]()
中英雙語,非常貼心
在 Andrej Karpathy 眼中,當前的 AI Agent,核心問題有三個:
?continual learning:你告訴它一個事,它記不住
?multimodal:真正的多模態還沒做到
?computer use:不能像人一樣操作電腦
這三個問題,每一個都得花好幾年解決
AGI 還要十年
有人說今年是 Agent 之年
Karpathy 表示:應該叫「agents 的十年」
在他的觀點里
我們未來十年沒有 AGI,只有 Agent
業界有很多 over-prediction
對于 AGI 大家都太樂觀了
![]()
Andrej Karpathy:AGI 需要十年
他舉了個例子
你現在有 Claude、有 Codex,對吧,很厲害
但你會讓它們替你干活嗎?不會
為什么?
因為它們就是不行
智能不夠、多模態不夠、記不住東西、不能操作電腦
這些問題,每一個都是硬骨頭
要花時間一個個啃
continual learning 這個事,很多人可能沒意識到有多重要
現在的 LLM,你跟它聊天
它看起來「記住」了你說的話
但那只是因為對話歷史還在 context window 里
你關掉窗口,重新開一個對話,它什么都不記得
這不是 bug,這是設計就這樣
要讓它真的「學習」新知識
不只是記住,而是真正理解并融入已有知識體系
目前沒有好辦法
你可能會想,那就擴大 context window 不就行了
問題是這治標不治本,學習不能只是把內容簡單地塞進上下文
真正的學習,是要把新知識整合到模型的參數里
這需要重新訓練,或者找到新的架構,成本高得嚇人
![]()
當前的AI, 無法真正學習新知識 強化學習:terrible, but everything else is worse
播客里有個特別有意思的部分
Karpathy 說:
強化學習是個糟糕的選擇
但緊接著他又說:
但其他方法更糟糕
這話聽著矛盾,但其實是對現狀最準確的描述
RL 的問題主要是數據效率太低
你想讓模型學會一個東西,得讓它試錯無數次
AlphaGo 下圍棋,self-play 了幾百萬局
才達到世界冠軍水平
這種訓練方式,放在真實世界根本不現實
你不可能讓自動駕駛撞車幾百萬次來學習
你也不可能讓醫療 AI 誤診幾百萬次來進步
所以:RL 在真實世界的應用,始終受限于數據效率

強化學習,需要海量試錯
但為什么還要用 RL?
因為supervised learning也有問題:
需要大量標注數據
而真正難的任務,根本標注不出來
比如「寫一個好的代碼」、「做一個好的決策」
什么叫「好」
人類自己都說不清楚
你讓標注員去標注什么是「好代碼」
每個人的標準都不一樣
有人覺得簡潔就是好,有人覺得性能高就是好
這種主觀性太強的任務,標注成本高得離譜
而且質量還沒保證
所以最后還是得回到 RL,讓模型自己在反饋中學
通過獎勵信號,而不是人工標注,是目前唯一可行的路
Karpathy 的判斷是:
未來會是 SL + RL 的混合
先用 supervised learning 學個大概,建立基礎能力
再用 RL 精調,在具體任務上優化
但這條路,還有很長的路要走
需要解決的技術問題一堆
比如怎么設計好的獎勵函數,怎么平衡探索和利用
每一個都不容易
未來的訓練方式:監督學習 + 強化學習 人類怎么學習,AI 為什么學不會
播客里有一段特別精彩
主持人問:
人類是怎么學習的,為什么 AI 學不會
Karpathy 給了個很有意思的觀點
人類的學習,是多模態 + embodied + continual 的
什么意思?
對于一個蘋果,在人類的認識中:
? 視覺上看到紅色、圓形
? 觸覺上感受到光滑、硬度
? 味覺上嘗到甜味
? 聽覺上聽到咬下去聲音
這些信息是同時發生的,互相強化的
而且你一輩子都在學,不斷更新認知
你小時候對「蘋果」的理解
和你現在對「蘋果」的理解
肯定不一樣
正如...
小時候對「絡腮胡」的理解
和你現在對「絡腮胡」的理解
也不一樣(霧
這種持續的、多模態的學習方式,是人類智能的基礎
![]()
人的學習能力,很牛逼
但 LLM 呢?它只有文本
雖然現在有了 vision model,但那還不是真正的 multimodal
真正的 multimodal,是所有模態在同一個 latent space 里
信息是融合的,不是翻譯的
現在的做法,更像是把圖片翻譯成文本描述,再喂給 LLM
這不是真正的融合
就像你把一個視頻的每一幀都寫成文字描述
這個描述再詳細,也不等于你真的看了視頻
丟失的信息太多了
而且,LLM 不能 continual learning
你今天告訴它一個新知識,明天它就忘了
除非你重新訓練整個模型,但那成本太高
一個模型訓練一次,可能要花幾百萬美元
你不可能每次有新知識就重新訓練一遍
Karpathy 說:
這是個根本性的架構問題
當前的 transformer 架構,就不是為 continual learning 設計的
它的參數是固定的,訓練完就凍結了
要解決這個問題,可能需要新的架構
能夠動態更新參數,而不影響已有知識
這是一個很難的問題
學術界在研究,但還沒有成熟的方案
![]()
Transformer 架構不支持持續學習 model collapse:AI 不能吃自己
播客里還提到一個很有意思的概念:
model collapse
什么意思?
就是 AI 生成的數據,不能用來訓練 AI
為什么?
因為會越來越糟
人類可以從人類寫的東西里學習,對吧
你讀別人寫的書,你變聰明了
代際之間互相學習,知識不斷積累
但 AI 不行
如果你用 AI 生成的文本,再去訓練下一代 AI,模型就會越來越偏
最后輸出變得越來越單調、越來越重復
![]()
打個比喻...算了,不解釋了...
這個問題其實挺嚴重的
現在網上越來越多 AI 生成的內容
文章、代碼、圖片、視頻
如果下一代 AI 訓練的時候,把這些內容也當成「真實數據」
那就完了
模型會學到 AI 的偏見和錯誤
然后放大這些偏見和錯誤
循環往復,越來越糟
這就是為什么 AI 不能像人類那樣自我學習
人類可以互相學習、代際傳承
但 AI 必須依賴人類產生的真實數據
這是個很大的瓶頸
而且隨著 AI 生成內容越來越多
「干凈」的人類數據會越來越少
將來怎么辦?值得思考
有人提出:
可以標注 AI 生成的內容,訓練時過濾掉
但這也不容易
AI 生成的內容越來越逼真,很難區分
而且標注成本也很高
這個問題,目前還沒有好的解決方案
![]()
AI 生成內容,正在污染整個互聯網 AGI 會是什么樣:融入 2% 的 GDP 增長
很多人對 AGI 有個幻想
覺得會有個奇點,突然爆炸
某一天,AGI 出現了,然后世界完全變了
Karpathy 說:不會的
他的判斷是:
AGI 會融入過去 2.5 個世紀的 2% GDP 增長
什么意思?
過去 250 年,人類社會一直在以每年 2% 的速度增長
蒸汽機來了,2%
電力來了,2%
互聯網來了,2%
為什么?
因為技術革命不是一瞬間的
它需要時間擴散、需要基礎設施、需要人適應
蒸汽機發明了,不是第二天所有工廠都換成蒸汽動力
需要幾十年時間,建鐵路、建工廠、培訓工人
互聯網也一樣
1990 年代就有了,但真正普及到每個人手機上,用了 20 多年
![]()
windows xp,發布于 2001 年
AGI 也一樣
它會逐漸滲透到各行各業
但不會在某一天突然改變一切
先是一些簡單的任務被自動化
然后是復雜的任務
一步步來
期間會有陣痛,會有失業,會有適應期
但不會是突然的、劇烈的
Karpathy 說
他不相信「hard takeoff」
他相信的是:
AGI 會像之前所有技術革命一樣,緩慢、漸進地改變世界
這個判斷,其實挺重要的
如果 AGI 真的是這樣,那我們有時間準備
不用擔心明天醒來世界就變了
可以慢慢調整教育體系、社會保障、法律法規
這是一個好消息
當然,2% 的增長也不是絕對的
可能某些年份會高一些,某些年份低一些
但長期來看,會是一個相對穩定的、可預測的過程
而不是指數爆炸式的奇點
自動駕駛:為什么花了這么久
播客里還聊了自動駕駛
Karpathy 在特斯拉干了 5 年 Autopilot,他太清楚這里面的坑了
主持人問:
為什么自動駕駛這么難,為什么花了這么久
Karpathy 給了幾個理由
第一個,是 long tail problem
你以為自動駕駛就是識別車道線、識別紅綠燈
太天真了,真實世界有無數種情況
施工路段、臨時路牌、突然竄出的小孩、逆行的瘋子、路上的大坑、掉落的貨物
這些「長尾情況」,占比很小,但每一個都可能致命
你必須把它們全部解決
不能說「我 99% 的情況都能處理」,剩下的 1% 就會是事故
而且這個長尾,真的很長
你以為處理完 100 種情況就夠了
結果發現還有 1000 種
處理完 1000 種,還有 10000 種
永遠有新的邊緣情況
這就是為什么自動駕駛這么難
第二個,是 safety bar
自動駕駛不是「比人類平均水平好」就行
它必須遠好于人類
為什么?
人們對機器的容忍度,遠低于對人的容忍度
人類司機每天撞車,大家習慣了
美國每年 4 萬人死于車禍,大家也接受了
但如果是自動駕駛撞了一次
新聞頭條、國會聽證、股價暴跌
所以 safety bar 特別高
(所以... AGI Bar 呢?)
不是做到人類水平就行,要做到遠超人類水平
這個標準,其實挺不公平的
但現實就是這樣
技術要被接受,必須遠好于現狀
不能只是「稍微好一點」
第三個,是 data problem
自動駕駛,需要海量的真實駕駛數據
再次劃重點:真實世界的
這需要時間積累
特斯拉為什么現在做得好
因為它有幾百萬輛車在路上跑,每天收集數據
這是花錢買不來的
你可以造一個很貴的實驗室,雇一堆博士
但你造不出幾百萬輛車在路上跑的數據
這個優勢,其他公司很難追上
Karpathy 說:
自動駕駛花了這么久,其實是給 AGI 的一個預警
AGI 會遇到同樣的問題
long tail、safety、data
每一個都需要時間
不是說模型做出來就完事了
還要在真實世界里打磨,處理各種邊緣情況
這個過程,可能比模型訓練本身還要長
教育的未來:untangling knowledge
播客最后聊了教育
Karpathy 現在在做 Eureka Labs,一個 AI 教育公司
他對教育有個很有意思的理解
好的教育,是 untangling knowledge
什么意思?
知識本身是一團亂麻
所有概念互相纏繞、互相依賴
但學習需要一個線性的路徑
你得先學 A,才能學 B
好的老師,就是把這團亂麻理清楚
讓學生按照一個清晰的順序,一步步往上爬
每一步都只依賴前面學過的東西
不會突然冒出一個新概念,讓你措手不及
Karpathy 舉了個例子
他的 transformer 教程,為什么大家覺得好
因為他從 bigram 開始
bigram 是什么?
就是個 lookup table:上一個詞是 A,下一個詞是 B
就這么簡單
一個 2 維表格,誰都能看懂
然后一步步加東西
加 embedding、加 attention、加 layer norm
好的教育,每一步都會解釋:為什么要加東西,這是在解決什么問題這就是 untangling
比如,把復雜的 transformer 拆成一步步的演進,每一步都有章可循
![]()
emmmmm...
他還說了個特別重要的教育原則:
present the pain before you present the solution
別上來就告訴學生答案,先讓他們感受到問題,然后再給解決方案,這樣學得才深
為什么?
因為如果你直接給答案,學生不知道這個答案解決了什么問題
就像你告訴學生「attention 機制是這樣的」
學生學會了公式,但不知道為什么需要 attention
如果你先展示問題:
之前的模型處理長序列有這個問題
先讓學生自己思考怎么解決
然后你再給出 attention 這個方案
學生會恍然大悟:原來是這樣解決的
這種學習,才是深刻的,才能記得住
這個原則,其實不只適用于技術教育
任何教育都一樣
先讓學生感受到問題的存在,再給解決方案,這樣學習效果最好
最后說兩句
這個播客值得一看
Karpathy 是一個在一線干了 15 年的人
很誠實地說出他看到的東西
在 Karpaty 眼中,AGI 還需要十年
不是因為技術不行,而是因為問題太多、太難
continual learning、multimodal、safety、long tail、data
每一個都是硬骨頭,需要時間一個個啃,但也不是遙不可及
十年,聽起來很長
但 iPhone 發布到現在,也就 17 年
不用焦慮,也不用盲目樂觀
踏踏實實做事就好
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.