![]()
譯注:本文作者Dwarkesh Patel是一位播客,因采訪硅谷知名人士而聞名,據報道,他采訪過馬克·扎克伯格和薩蒂亞·納德拉等知名人士。 他作為播客迅速成名,成為頗具影響力的人物的熱門采訪對象。
"事情的發展總是比你想象的要慢,但一旦發生,速度又會比你想象的要快。" - Rudiger Dornbusch
我在播客上經常討論 AGI 的時間表問題。有些嘉賓認為還需要 20 年,有些則認為只需要 2 年。以下是我在 2025 年 6 月的看法。
持續學習能力
有人說,即使 AI 的發展完全停滯,現在的系統也會比互聯網帶來更大的經濟變革。我不這么認為。我承認當前的 LLM 很神奇,但 Fortune 500 強企業不用它們來改造工作流程,并不是因為管理層太保守,而是因為很難從 LLM 中獲得類似人類的正常勞動力。這涉及到這些模型缺乏的一些基本能力。
我覺得自己在 Dwarkesh Podcast 上算是 "AI 先鋒" 了。我花了上百個小時嘗試為后期制作構建各種 LLM 小工具。這種讓它們變得實用的嘗試經歷,反而讓我對時間表的預期變得更長。我試過讓 LLM 把自動生成的轉錄稿重寫得更易讀,就像人類會做的那樣。我也試過讓它們從轉錄稿中挑選片段用來發推。有時我會讓它們和我一起逐段寫文章。這些都是簡單、獨立、短期的語言任務 - 正是 LLM 應該擅長的核心任務。但它們的表現只有 5/10 分。別誤會,這已經很厲害了。
但根本問題是,LLM 不會像人類那樣隨著時間推移而進步。缺乏持續學習能力是個大問題。LLM 在許多任務上的起點可能比普通人還高,但你沒辦法給模型高層次的反饋。你只能使用它們開箱即用的能力。你可以不斷調整系統提示,但實際上這根本無法產生人類員工那種學習和改進的效果。
人類之所以如此有用,主要不是因為他們的原始智力,而是因為他們能夠積累上下文、反思自己的失敗,并在練習過程中獲得小的改進和效率提升。
你怎么教孩子吹薩克斯?讓她試著吹,聽聲音,然后調整。現在想象用這種方式教薩克斯:學生試一次,一犯錯就被趕走,然后你寫詳細的說明解釋哪里出錯了。下一個學生讀你的筆記,然后試著直接演奏 Charlie Parker 的作品。失敗后,你再為下一個學生完善說明。
這根本行不通。無論你的提示多么完善,沒有孩子能僅憑閱讀說明就學會吹薩克斯。但這就是我們用來 "教" LLM 的唯一方式。
![]()
確實有 RL 微調,但這不是像人類學習那樣的主動適應過程。我的編輯已經變得非常出色,如果我們必須為他們工作中的每個子任務構建定制的 RL 環境,他們根本達不到現在的水平。他們只是自己注意到了很多細節,深入思考了什么能引起觀眾共鳴,什么內容讓我興奮,以及如何改進日常工作流程。
現在,可以想象一個更智能的模型為自己構建一個專門的 RL 循環,從外部看起來很自然。我給出高層次的反饋,模型就想出一堆可驗證的練習問題來進行 RL 訓練,甚至創建一個完整的環境來練習它認為自己缺乏的技能。但這聽起來真的很難實現。而且我不知道這些技術能否很好地推廣到不同類型的任務和反饋上。最終,模型肯定能夠像人類那樣以微妙有機的方式在工作中學習。但考慮到沒有明顯的方法將在線持續學習集成到當前這類 LLM 中,我很難看到這在未來幾年內會實現。
LLM 在會話過程中確實會變得更聰明和有用。比如,有時我會和 LLM 一起寫文章。我給它一個大綱,讓它逐段起草。前面 4 段的所有建議都很糟糕,所以我會重新寫整段,然后告訴它:"你寫的太爛了,這是我的版本。" 這時它才能開始為下一段給出好建議。但這種對我偏好和風格的微妙理解在會話結束時就消失了。
也許簡單的解決方案是像 Claude Code 那樣的長滾動上下文窗口,每 30 分鐘將會話記憶壓縮成摘要。我只是覺得,將所有這些豐富的隱性經驗提煉成文本摘要,在軟件工程以外的領域會很脆弱 (軟件工程本身就很依賴文本)。再次想想用學習心得的長文本摘要來教人吹薩克斯的例子。即使是 Claude Code 也經常會逆轉我們之前一起精心設計的優化方案,在我點擊 /compact 之前,因為做出那個決定的原因沒有被寫入摘要。
這就是為什么我不同意 Sholto 和 Trenton 在我播客上的觀點 (這里引用 Trenton 的話):
"即使 AI 發展完全停滯 (你認為模型很尖銳,沒有通用智能),它在經濟上仍然極其有價值,而且在所有這些不同的白領工作任務上收集數據相當容易,所以按照 Sholto 的觀點,我們應該期待在未來五年內看到它們被自動化。"
如果 AI 發展今天完全停滯,我認為只有不到 25% 的白領工作會消失。當然,許多任務會被自動化。Claude 4 Opus 技術上可以為我重寫自動生成的轉錄稿,但由于我無法讓它隨時間改進并學習我的偏好,我仍然雇用人類來做這件事。即使我們獲得更多數據,如果沒有持續學習方面的進展,我認為我們在白領工作方面的處境基本相似 - 是的,技術上 AI 可能能夠在一定程度上完成許多子任務,但它們無法建立上下文,這使得它們不可能作為公司的真正員工來運作。
雖然這讓我對未來幾年的變革性 AI 持悲觀態度,但這讓我對未來幾十年的 AI 特別樂觀。當我們真正解決了持續學習問題時,我們會看到模型價值的巨大飛躍。即使沒有純軟件奇點 (模型快速構建更智能的后繼系統),我們仍可能看到類似廣泛部署的智能爆炸的現象。
AI 將在整個經濟中廣泛部署,從事不同的工作并在工作中學習,就像人類一樣。但與人類不同的是,這些模型可以在所有副本之間共享學習成果。所以一個 AI 基本上在學習如何完成世界上的每一項工作。一個具備在線學習能力的 AI 可能會在沒有任何進一步算法進展的情況下,相當快速地從功能上成為超級智能。
不過,我不指望看到 OpenAI 的某個直播宣布持續學習問題已經完全解決。因為實驗室有動力快速發布任何創新,在我們看到真正像人類那樣學習的系統之前,我們會先看到持續學習 (或測試時訓練,隨你怎么叫) 的不完善早期版本。我預期在這個大瓶頸完全解決之前會有很多預警信號。
計算機操作
![]()
當我在播客上采訪 Anthropic 的研究人員 Sholto Douglas 和 Trenton Bricken 時,他們說期待明年年底能有可靠的計算機操作代理。我們現在確實已經有了計算機操作代理,但它們很糟糕。他們設想的是完全不同的東西。他們預測,到明年年底,你應該能夠對 AI 說:"去幫我報稅。" 然后它會瀏覽你的郵件、Amazon 訂單和 Slack 消息,與所有需要發票的人來回郵件溝通,整理所有收據,判斷哪些是商業支出,在邊緣情況下尋求你的批準,然后向 IRS 提交 1040 表格。
我對此持懷疑態度。我不是 AI 研究人員,所以不便在技術細節上反駁他們。但根據我了解的情況,以下是我為什么會賭它不會實現的原因:
隨著時間跨度增長,執行過程必須變得更長。AI 需要執行兩小時的代理計算機操作任務,我們才能看到是否做對了。更不用說計算機操作需要處理圖像和視頻,這本身就更耗計算資源,即使不考慮更長的執行時間。這似乎會拖慢進展。
我們沒有大量的多模態計算機操作數據的預訓練語料庫。我喜歡 Mechanize 在自動化軟件工程文章中的這段話:"過去十年的擴展中,我們被大量可免費使用的互聯網數據寵壞了。這足以攻克自然語言處理,但不足以讓模型成為可靠、有能力的代理。想象一下試圖用 1980 年可獲得的所有文本數據來訓練 GPT-4 - 即使有必要的算力,數據也遠遠不夠。"
再次強調,我不在實驗室里。也許純文本訓練已經為不同 UI 的工作方式以及各組件間的關系提供了很好的先驗知識。也許 RL 微調的樣本效率非常高,不需要那么多數據。但我還沒看到任何公開證據表明這些模型突然變得不那么依賴數據了,特別是在它們練習相對較少的這個領域。
或者,也許這些模型作為前端編程工具非常出色,可以為自己生成數百萬個玩具 UI 來練習。關于這點的看法,請看下面的要點。
即使是回過頭看似乎相當簡單的算法創新,似乎也需要很長時間才能完善。DeepSeek 在 R1 論文中解釋的 RL 程序在高層次上看起來很簡單。但從 GPT-4 發布到 o1 發布還是花了 2 年時間。當然我知道說 R1/o1 很容易是極其傲慢的 - 需要大量的工程、調試、替代方案的篩選才能達到這個解決方案。
但這正是我想說的!看到實現 "訓練模型解決可驗證的數學和編程問題" 這個想法需要多長時間,讓我覺得我們低估了解決計算機操作這個更復雜問題的難度,你要在完全不同的模式下操作,而且數據要少得多。
推理能力
![]()
好了,潑冷水就到這里。我不想成為 Hackernews 上那些被寵壞的孩子之一,給他們一只會下金蛋的鵝,他們還要抱怨鵝叫得太吵。
你看過 o3 或 Gemini 2.5 的推理軌跡嗎?它真的在推理!它在分解問題,思考用戶想要什么,對自己的內部獨白做出反應,當注意到自己走向了無效方向時會自我糾正。我們怎么能若無其事地說:"當然了,機器會思考一堆東西,想出一堆主意,然后帶著聰明的答案回來。機器本來就是這樣的。"
一些人過于悲觀的部分原因是,他們沒有在最智能的模型最擅長的領域里真正體驗過。給 Claude Code 一個模糊的規格,然后坐等 10 分鐘直到它零樣本生成一個可工作的應用程序,這是一種瘋狂的體驗。它是怎么做到的?你可以談論電路、訓練分布、RL 什么的,但最直接、簡潔、準確的解釋就是:它由初級通用智能驅動。到了這個程度,你內心一定會想:"它真的在工作。我們真的在制造智能機器。"
那么我的預測是什么?
我的概率分布非常寬泛。我想強調我確實相信概率分布的概念。這意味著為 2028 年可能出現的失控 ASI 做準備的工作仍然很有意義 - 我認為這是完全可能的結果。
但以下是我愿意接受 50/50 賭注的時間線:
AI 能夠像有能力的總經理一樣在一周內為我的小企業端到端完成報稅工作:包括在各個網站上追蹤所有收據,找到所有缺失的材料,與任何需要發票的人來回郵件,填寫表格,并提交給 IRS:2028 年
我認為我們在計算機操作方面還處于 GPT-2 時代。但我們沒有預訓練語料庫,而且模型要在更長的時間跨度內,使用不熟悉的操作原語來優化更稀疏的獎勵。話雖如此,基礎模型已經相當聰明,可能對計算機操作任務有良好的先驗,加上世界上有更多的算力和 AI 研究人員,所以可能會平衡掉。為小企業準備稅務對計算機操作來說,就像 GPT-4 對語言一樣。從 GPT-2 到 GPT-4 花了 4 年時間。
澄清一下,我并不是說 2026 年和 2027 年不會有非常酷的計算機操作演示 (GPT-3 就超級酷,但不夠實用)。我是說這些模型不會有能力端到端處理一個為期一周且相當復雜的涉及計算機操作的項目。
AI 能夠像人類一樣輕松、自然、無縫、快速地在任何白領工作中邊做邊學。比如,如果我雇用一個 AI 視頻編輯,六個月后,它對我的偏好、我們頻道的特點、什么內容對觀眾有效等的理解,應該和人類一樣深入和實用:2032 年
雖然我看不出將持續在線學習融入當前模型的明顯方法,但 7 年是很長的時間!GPT-1 就是在 7 年前的這個時候剛剛發布的。在未來 7 年里,我們找到某種讓模型在工作中學習的方法,對我來說似乎并非不可能。
你可能會想:"等等,你剛才大費周章地說持續學習是如此大的障礙。但然后你的時間線卻是我們距離至少是廣泛部署的智能爆炸只有 7 年。" 是的,你說得對。我確實在預測一個在相對短時間內會變得相當瘋狂的世界。
AGI 時間線非常符合對數正態分布。要么就在這個十年,要么就沒戲了。(不是真的沒戲,更像是每年的邊際概率降低 - 但這樣說不夠抓人眼球)。過去十年的 AI 進展主要靠擴大前沿系統的訓練算力推動 (每年超過 4 倍)。這種趨勢在這個十年后無法繼續,無論從芯片、電力,還是用于訓練的 GDP 占比來看都是如此。2030 年之后,AI 進展主要得靠算法進展。但即使在這方面,容易摘取的果實也會被摘完 (至少在深度學習范式下)。所以 AGI 的年度概率會急劇下降。
![]()
這意味著如果我們最終走向我 50/50 賭注的較長時間線,我們很可能會看到一個相對正常的世界一直持續到 2030 年代甚至 2040 年代。但在所有其他的可能世界中,即使我們對 AI 當前的局限性保持清醒認識,我們也必須預期一些真正瘋狂的結果。
本文由「AI 范兒」出品
我每天都在更新,如果你覺得這些內容對你有用,
那我們就加個關注、交個朋友。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.