![]()
Sutton老爺子最新采訪討論《LLM是否吸取了‘慘痛教訓’?》,這次討論算是前一段時間老爺子《LLM是死路一條》的采訪的補充
參與討論的嘉賓:
Sutton老爺子
Sendhil Mullainathan:麥克阿瑟天才獎獲得者、麻省理工學院教授
Niamh Gavin:應用人工智能科學家、Emergent Platforms 首席執行官
Suzanne Gildert:Nirvanic Consciousness Technologies 創始人兼首席執行官
![]()
LLMs是否真正遵循了“慘痛教訓” (The Bitter Lesson) 的原則,從而能夠實現其被大肆宣傳的巨大潛力?圖靈獎得主,強化學習之父 Richard Sutton認為答案是否定的。他主張,LLMs 過度依賴于模仿和提煉有限的人類知識(例如整個互聯網的文本數據),并且需要大量的人工雕琢與微調。這種方法違背了“慘痛教訓”的核心思想——即真正可擴展的、強大的 AI 來自于那些能夠充分利用巨大計算能力的通用方法(如搜索和學習),而非依賴于人類的先驗知識。因此,Sutton 預測,LLMs 的發展將很快遇到瓶頸,其能力上限遠比人們想象的要近,當前圍繞它們產生的巨大投資和期望,最終可能導致泡沫的破滅
LLM是否吸取了“慘痛教訓”?
這場被主持人 Ajay Agrawal 形容為“萬億美元級別觀點沖突”的討論,源于 AI 社區內部一個深刻的理念分歧。辯論的核心是一個術語:“慘痛教訓信徒” (bitter lesson pilled),這個詞源自 Sutton 老爺子 在 2019 年發表的一篇影響深遠的文章——《慘痛教訓》(The Bitter Lesson)
什么是“慘痛教訓”?
根據 Sutton 的闡述,The Bitter Lesson總結了 AI 研究七十年來的一個反復出現的模式:
研究人員最初總是試圖將人類的知識、直覺和理解構建到 AI 系統中。例如,在計算機視覺領域,早期研究者會嘗試為系統編寫關于邊緣、紋理和形狀的明確規則;在棋類游戲中,他們會編寫復雜的評估函數來體現人類棋手的策略
然而,從長遠來看,這些依賴人類知識的方法最終總會被那些更通用的、利用大規模計算能力的方法所超越。這些通用方法主要包括兩大類:搜索 (Search) 和 學習 (Learning)
搜索是指系統通過探索海量的可能性來找到最優解,就像 AlphaGo 探索無數種棋局走法一樣。學習則是指系統從原始數據或與環境的交互中自動提取模式和知識,而無需人類為其預設規則
慘痛的教訓在于,研究人員花費大量心血構建的精巧知識體系,其擴展性非常有限。而隨著計算成本的持續指數級下降(摩爾定律),那些能夠充分利用計算能力進行大規模搜索和學習的“蠻力”方法,最終總是能取得更好的性能。Sutton 明確指出,如果你將所有的賭注都押在人類知識這個籃子里,那就需要格外小心,因為人類知識本身是無法像計算那樣無限擴展的
LLMs 為何被認為未能吸取“慘痛教訓”?
Sutton 在前段時間與 Dwarkesh Patel 的播客訪談中明確表示,他認為當前的 LLMs 并未充分吸取這一教訓。他的論點可以分解為以下幾個層面:
對人類數據的根本依賴:LLMs 的基礎訓練數據是整個互聯網的文本和代碼,這本質上是人類知識和行為的集合。它們通過預測下一個詞元 (token) 的方式,學習模仿人類的語言模式。這與“慘痛教訓”所警示的“依賴人類知識”的做法高度一致
大量的人工雕琢與微調:一個原始的、僅通過預測下一個詞元訓練出來的 LLM,并不能成為一個好用的工具。為了讓它成為一個有用的摘要器、翻譯器或問答系統,需要進行大量的后續工作。這包括指令微調 (fine-tuning) 和基于人類反饋的強化學習 (Reinforcement Learning from Human Feedback, RLHF)。在這個過程中,人類操作員會花費大量時間來評估模型的輸出、編寫高質量的范例,從而將模型“雕琢”成符合人類期望的樣子。Sutton 認為,這種對人類專家進行“ad nauseam”(令人厭煩地反復)微調的依賴,是其不可擴展性的一個關鍵標志
有限的數據源:盡管互聯網的數據量極其龐大,但它終究是有限的。Sutton 和其他嘉賓暗示,隨著模型規模的增長,LLMs 很快就會耗盡高質量的互聯網數據,從而觸及其性能的天花板。當模型的發展受限于一個靜態、有限的數據集時,它就陷入了“慘痛教訓”所描述的困境。
因此,Sutton 的核心觀點是,LLMs 當前的成功路徑,本質上是又一個將寶押在人類知識上的案例。盡管其規模空前,但其基本方法論存在脆弱性。他預測,這種對人類知識和輸入的依賴,將使其在未來被那些能夠通過與環境直接交互、從經驗中持續學習的系統所超越。這也就引出了關于強化學習與當前主流方法的對比
強化學習與模仿學習
在討論中,特邀嘉賓 Suzanne Gildert 提出了一個問題,:我們為什么不能構建一個像松鼠大腦一樣學習的 AI?
Sutton 曾在播客中提到,如果我們能造出一個心智水平相當于松鼠的系統,那么我們距離實現AGI的目標就已經不遠了。這個觀點讓人感到困惑,因為人類能登上月球,而松鼠只會藏堅果,兩者之間似乎存在著天壤之別。然而,Gildert 和 Sutton 的觀點是,構建松鼠心智的難度,可能遠高于構建一個基于現有方法的、看似強大的 LLM
松鼠心智的核心能力:自主學習
松鼠和當前 AI 系統之間最根本的區別在于學習能力本身
一個真正的智能體,比如松鼠,當你把它放入一個全新的、從未見過的環境中時,它能夠自主地開始學習。它會探索環境,理解其中的因果關系,并形成自己的行為策略以達成生存目標(如尋找食物、躲避天敵)
相比之下,我們今天所有的 AI 系統,包括最先進的 LLMs,都不具備這種能力。它們在被部署之前,已經通過一個龐大的靜態數據集完成了學習過程。如果你把一個 LLM 放入一個它訓練數據中從未包含過的新場景或新用例中,它無法自主地學習和適應。它的能力是“已經學到了什么”,而不是“如何學習新東西”
因此,關鍵的區別在于“學習”這個動作本身。松鼠的智能體現在其持續學習和適應的能力,而 LLMs 的“智能”則體現在它對已經見過的海量數據的模式識別和復現能力上
強化學習的挑戰與現狀
理論上,強化學習正是致力于解決這種自主學習問題的框架。RL 的核心思想是讓一個智能體在環境中通過試錯來學習,通過最大化某種累積的“獎勵” (reward) 信號來優化其行為策略。然而,在實踐中實現“純粹的 RL”是極其困難甚至不可能的
獎勵函數的定義難題:最大的障礙在于我們無法定義一個通用的、適用于所有情境的獎勵函數 。獎勵函數告訴智能體什么行為是好的,什么是壞的。對于一個特定任務(如下棋),定義獎勵很簡單(贏了就獎勵,輸了就懲罰)。但對于一個像松鼠一樣需要在復雜現實世界中生存的通用智能體,我們該如何定義“獎勵”?是食物、安全感,還是其他更復雜的目標?這個問題的懸而未決,導致純粹的 RL 難以落地
向模仿學習的退化:由于定義通用獎勵函數的困難,研究人員們在實踐中往往會退而求其次,采用模仿學習。他們不再讓智能體自己探索,而是為其提供專家的演示數據(例如人類駕駛員的駕駛記錄),讓智能體去模仿這些專家的行為。目前所有看似在進行 RL 的工作,最終都或多或少地變成了模仿學習
整個 LLM 的發展路徑可以看作是一種極端形式的模仿。為了解決從零開始學習的“冷啟動問題” ,研究人員選擇了一個代理方案:直接消化整個互聯網。他們假設,人類的書寫是思維的良好體現,語言是區分人類與其他物種的關鍵,因此模仿人類語言應該是一個不錯的起點。然而,這種方法從一開始就側重于利用 現有的知識,而非探索未知的世界,這導致了系統更擅長模式識別而非真正的理解,更傾向于模仿而非直覺思維
總而言之,松鼠的智慧代表了一種理想的 AI 范式:一個能夠在任何新環境中自主學習的通用智能體。而當前以 LLMs 為代表的系統,則更接近于一種高級的、大規模的監督學習或模仿學習,它們的核心是復現和內化已存在的人類知識,而非從與世界的直接交互中生成新的理解。
模仿輸出 vs. 模仿行動:人與 LLM 的根本認知差異
MacArthur 天才獎得主 Sendhil Mullainathan 進一步深化了關于模仿的討論,他引用了一條 Rich Sutton 轉發并高度認可的推文,揭示了人類與 LLM 在模仿方式上的一個微妙而深刻的區別。這個區別或許是理解兩者能力差異的關鍵所在
這條推文的核心思想是:
當人類模仿時,他們模仿的是“輸出” (output),但必須自己“發現” (discover) 達成該輸出所需的“行動” (action)
當 LLMs 模仿時,它們直接模仿的是“行動” (action) 本身
Mullainathan 認為,這個區別的核心在于“發現”這個詞
人類的模仿:一個構建內在模型的過程
為了闡釋這個觀點,Mullainathan 舉了幾個例子:
斑胸草雀 (Zebra Finch) 的鳴唱:一只幼鳥聽到成年鳥的歌聲(輸出),它想要模仿這種聲音。但它無法直接看到或感知到成年鳥是如何控制其聲帶、呼吸和肌肉來發出這種聲音的(行動)。因此,幼鳥必須通過自己的聲帶進行反復的試錯和練習,逐步“發現”能夠產生同樣聲音的肌肉控制方法。在這個過程中,它被迫在自己的大腦中建立一個關于“聲帶肌肉運動”與“產生的聲音”之間關系的內在模型
代數證明:一個學生看到老師在黑板上完成了一個代數證明(輸出)。即便老師解釋了每一步,學生看到的仍然是表層結果。為了真正理解,學生必須用自己的認知機制去思考:老師是如何想到第一步的?為什么選擇這個引理而不是另一個?學生需要自己“發現”通往最終答案的邏輯路徑。這個過程迫使學生構建關于代數規則和解題策略的內在心智模型
馮·諾依曼與蒼蠅問題:Mullainathan 提到了一個關于數學家馮·諾依曼的軼事。在一個經典的謎題中(兩輛火車相向而行,一只蒼蠅在中間來回飛),馮·諾依曼立刻給出了正確答案。當被問及是否發現了那個可以簡化問題的“技巧”時,他回答說:“什么技巧?” 原來,他直接用蠻力計算了那個無窮級數。這個故事說明,即使是面對同一個問題和同一個答案(輸出),不同的人可能會通過完全不同的內部認知過程(行動)來達到
在所有這些例子中,人類的模仿都不是簡單的復制。我們面對的是一個結果,然后必須調動我們自身的認知或生理器官,去探索和發現能夠產生這個結果的一系列行動。這個“發現”的過程,強制我們建立起關于世界如何運作的、更深層次的、具有生成能力的模型
LLMs 的模仿:表層序列的復現
相比之下,LLMs 的模仿方式是根本不同的。當一個 LLM 被訓練來預測文本序列中的下一個詞元時,它實際上是在直接模仿“行動”。這里的“行動”就是人類作者寫下的一個又一個詞。它不需要去構建一個關于世界如何運作的復雜模型來“生成”這些詞;它只需要學習在給定上文的情況下,哪個詞出現的概率最高
Niamh Gavin 指出,LLMs 的自回歸機制本質上就像是神經網絡的順序展開,是一個接一個的序列模式激活,而不是一個基于真正目標的、可以被長期優化的函數
Mullainathan 總結說,正因為 LLMs 沒有強制去思考在某個行動空間中,哪些行動能夠產生我們看到的輸出,所以我們有理由懷疑它們是否擁有一個真正穩健的世界模型
當然,在某些領域,AI 確實被迫建立了世界模型,例如在國際象棋或圍棋中。在這些領域,算法必須從行動空間(落子)映射到結果空間(勝負),并且通過自我對弈等方式從經驗中學習。而這恰恰不是在靜態文本語料庫上訓練的語言模型的主要學習方式
這個關于模仿方式的深刻區別,為 Sutton 的“慘痛教訓”論點提供了認知層面的解釋:僅僅模仿人類行為的表層序列,可能永遠無法通向對世界因果關系的真正理解,而后者正是AGI的核心
萬億美元的觀點沖突
這場討論不僅僅是技術路線之爭,更深刻地反映了 AI 領域的社會學和經濟學動態。正如主持人 Ajay Agrawal 所言,這不僅僅是學術觀點的分歧,而是一場“萬億美元級別的觀點沖突”。巨額的資本投入正在深刻地影響著科學研究的方向和節奏
資本驅動下的“時尚”與路徑依賴
Rich Sutton 坦言,當他談論“慘痛教訓”時,他不僅在做一個科學論斷,更是在評論這個領域的社會學。他觀察到,AI 領域存在著時尚,某些思想和方法會在特定時期變得極具經濟實力,從而主導整個領域的發展
LLMs 作為主導范式:當前,LLMs 就是這種主導范式。數千億美元的資金正涌入這一領域,這種經濟力量改變了科學討論的格局。傳統 AI 思想中,目標 和經驗一直是核心;而 LLM 的興起帶來了一種全新的、甚至是激進的主張:我們不需要明確的目標,只需要足夠大規模地模仿人類,某種質變就會發生,從而涌現出理解和推理能力
話語權的轉變:Sutton 認為,“通過模仿就能獲得理解”是一種需要非凡證據來支持的非凡主張。然而,在當前的輿論環境中,堅持經驗和目標重要性的傳統觀點,反而被視為是極端的。討論的中心已經無可避免地轉移到了 LLMs 上
投資回報的壓力與泡沫風險:巨大的投資帶來了巨大的回報壓力。有人表示,如果 AI 的投資需要在 15 年后才能看到回報,那將是一場災難。因為已經許下了太多承諾,如果這些技術不能在 3 年內產生足夠的回報,就可能引發一場信心的崩盤和泡沫的破裂。Sutton 認為,這正是我們目前所處的境地。LLMs 無疑會在某些方面非常有用,但它們很可能無法證明投入其中的巨額資本是合理的,從而導致一場期望的破滅
工程與研究的張力:創新者的困境
Niamh Gavin 作為身處行業前沿的實踐者,為這種現象提供了一個內部視角。她指出了研究和工程之間存在的持續張力,這種張力解釋了為什么整個行業似乎會“夢游般地走向自己的滅亡”,反復陷入相似的困境
修補而非重構:當模型在實踐中遇到瓶頸或限制時,理想的做法是退后一步,從根本上重新思考和設計模型架構。然而,在商業化和產品迭代的壓力下,工程師的本能反應通常是我能修復它。他們會設計出各種工程上的變通方案 來支撐這個有局限性的模型
走向脆弱和過擬合:這種不斷修補的迭代方式,而不是徹底的創新,導致系統變得越來越復雜、越來越脆弱,并且對訓練數據過擬合。它阻礙了對全新、可能更具擴展性的方法的探索
創新者的困境 :這正是典型的創新者困境。一個已經投入巨資并圍繞某種技術路徑建立了整個生態系統的組織,很難去擁抱一種可能顛覆現有路徑的、全新的、不確定的技術。他們傾向于在既有路徑上進行漸進式改進,直到整個系統變得不再可擴展,最終被迫進行重構
Gavin 認為,LLM 領域也正在經歷這個過程。從業者們已經看到了純粹依賴 Transformer 架構和計算擴展定律的局限性,并開始逐步轉向更復雜的、基于推理的方法(如思維鏈,Chain of Thought),并試圖將其與類似 RL 的環境相結合。然而,這種轉變是在現有框架下的修補,而非徹底的范式革命。這場萬億美元的豪賭,其背后蘊含著深刻的路徑依賴和商業慣性,這或許是“慘痛教訓”難以被真正吸取的主要原因
承認 LLM 的非凡成就,但需正確定義
盡管對 LLMs 的最終潛力及其是否符合“慘痛教訓”存在激烈辯論,但參與討論大大佬也一致承認,LLMs 本身是一項了不起的技術成就。Sendhil Mullainathan 提出,當前討論中的一個悲劇,在于我們將對 LLMs 的兩種評判混為一談了
區分潛力推斷與實際能力
Mullainathan 認為,我們需要清晰地區分兩件事:
1.人們通過觀察 LLMs 的行為而推斷出的、其未來可能達到的能力(例如,通往通用人工智能 AGI)
2. 這些模型已經能夠并且將能夠做到的、令人驚嘆的事情
他認為,將 LLMs 的現有能力外推至通用智能的水平,很可能是一種誤導 。然而,這并不意味著 LLMs 本身沒有價值。恰恰相反,它們的能力是驚人的
一個被錯誤命名的奇跡
Mullainathan 指出,真正的悲劇不在于 LLMs 有其局限性,而在于我們對它產生了錯誤的期望,并因此無法公正地評價它已經取得的成就
純粹模仿產生的涌現屬性:一個核心的、令人著迷的科學問題是:為什么純粹的、大規模的模仿學習能夠產生如此多、如此驚人的涌現屬性?我們是如何從簡單的“預測下一個詞”任務中,得到能夠進行一定程度推理、翻譯和代碼生成的能力的?這本身就是一個值得深入研究的奇跡
價值在于其本身,而非其是否是“智能”:歷史上出現過許多偉大的創新,它們為人類帶來了巨大的價值,但它們并不是智能。Mullainathan 覺得,LLMs 也是如此。如果我們給它換個名字,不叫它人工智能,而是稱之為一種強大的算法工具,或許我們就能更客觀地看待它的價值和用途
這場討論最終回歸到一個更為冷靜和建設性的視角。雖然 LLMs 可能不是通往 AGI 的康莊大道,也可能再次印證了“慘痛教訓”,但這并不妨礙它們成為一種極具變革性的工具。當前公眾和資本市場的巨大熱情,或許源于一種概念上的混淆。與其糾結于它是否是真正的智能,不如將注意力集中在理解其能力的來源、探索其應用的邊界,并承認它作為一種前所未有的算法奇跡所具有的非凡價值。這或許是穿越炒作周期、實現技術長期健康發展的關鍵
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.