網易首頁 > 網易號 > 正文申請入駐

AI已迷失方向？強化學習教父Sutton最新發布OaK架構，挑戰當前AI范式，提出超級智能新構想

2025-08-22 16:13:30　來源: AI科技大本營

北京舉報

分享至

作者 | 理查德·薩頓（Richard Sutton）

原標題 | OaK 架構：一個源于經驗的超級智能構想

來源 | RLC 2025 會議文章（youtu.be/gEbbGyNkR2U）

編譯 | 王啟隆

出品丨AI 科技大本營（ID：rgznai100）

隨著人工智能發展成為一個龐大的產業，它在很大程度上已經迷失了方向。

我們需要什么才能重回正軌，去探尋真正的智能？

我們需要能夠持續學習的智能體、世界模型和規劃能力，以及學習高層次知識和通過元學習掌握泛化的能力。

OaK 架構正是對所有這些需求的一個系統性回應。從整體上看，它是一個基于模型的強化學習架構，并具備三個鮮明特點：

1）其所有組件都能持續學習；

2）每一個學習到的權重，都配有一個專門的步長參數，該參數通過在線交叉驗證進行元學習；

3）狀態和時間上的抽象概念，通過一個我們稱之為 FC-STOMP 的五步演進路徑被持續創造出來，即：特征構建（ F eature C onstruction）、基于特征提出子任務（posing a S ub T ask）、學習一個選項來解決該子任務（learning an O ption）、學習該選項的模型（learning a M odel）、以及使用該選項的模型進行規劃（ P lanning）。

OaK 架構的內容相當豐富。在本文中，我們將勾勒其輪廓，并闡明那些為這一宏大構想——即超級智能如何從智能體的經驗中涌現——做出貢獻的諸多既有和同期的研究工作。

引言

OaK 架構是一個關于超級智能如何從經驗中誕生的構想，它凝結了我為探尋人工智能核心問題而進行的長期思考與探索。在深入細節之前，我想首先強調人工智能這項任務的艱巨性與重要性。

人工智能的探索，本質上是一場偉大的遠征。我們試圖理解人類心智的運作方式，創造出與人類相仿的智能，并最終賦予我們自身更強大的力量。這無疑是一個意義深遠的智力里程碑，其影響將是革命性的。盡管這一認知已是共識，但我們仍有必要時常停下腳步，去真正體味我們所從事事業的非凡難度與深遠意義。從智力里程碑的意義上講，其重要性或可與地球上生命的起源相提并論——至少，當這個星球上的智能體終于開始理解自身如何運作、如何思考，并意識到這種理解將如何顛覆一切時，其意義是同等重大的。

當然，這也是人類文明發展歷程的自然延續，只是開啟了一個更為宏大的新篇章。

我堅信，這一進程只會導向一個美好的未來。盡管許多人對此心存憂慮，但我認為其本質是純粹向善的。并且，最偉大的進步仍在前方，這是一場需要耐心與毅力的馬拉松。對于強化學習領域的研究者而言，一個值得慶幸的觀點是，通往完全人工智能（即強人工智能）的必經之路，是強化學習這類經驗性方法，而非大語言模型等非經驗性路徑。然而，一個看似矛盾的現實是，當前最大的瓶頸恰恰在于我們缺乏足夠優秀的學習算法。人們或許會認為，擁有了深度學習，我們最擅長的領域便是學習算法。但在我看來，事實遠非如此。我們現有的算法還相當粗糙，亟待改進，而這，正應是我們全力以赴的方向。

在過去半個世紀對智能本質的持續探索中，我每一天都在科研一線，致力于為強化學習、為從經驗中學習，設計更優的算法。我的研究遵循著《阿爾伯塔人工智能研究計劃》的指引——那是我與 Michael Bowling 和 Patrick Pilarski 在幾年前共同制定的藍圖。

今天，我將要探討的 OaK 架構，正是一個旨在構建通用人工智能智能體的整體性構想。我深信，它為我們指明了一條通往“理解心智”這一終極目標的清晰路徑。

OaK 架構：命名與愿景

讓我們從 OaK 這個名字開始。這個名字源于兩個核心概念：“選項”（ O ptions）和“知識”（ K nowledge）。

在座的許多研究者都對“選項”這一概念非常熟悉。通常，一個選項被定義為一個三元組，但經過我過去二十年的研究演進，我已經舍棄了起始集（initiation set）的設定。

因此，對我而言，選項是一個更為簡潔的組合，僅包含一個策略（policy）——即一種行為方式，和一個終止條件（termination condition）——即決定何時停止該行為的方式。在 OaK 架構中，智能體的核心構成是海量的選項，而它的“知識”，則具體表現為關于執行某個選項后世界會發生何種變化的知識。通過這種方式，智能體旨在學習一個關于世界的高層次轉換模型。這個模型使其能夠以更長的時間跨度進行規劃，并有望深刻洞察世界內在的結構，如同“庖丁解牛”般游刃有余。

這就是 OaK 名稱的由來。我認為，我們所面對的是一項宏大的挑戰，一場偉大的遠征。因此，我常將其比作追尋人工智能的“圣杯”。

為了更清晰地闡述其核心理念，我們可以將其設計目標歸納為以下三點：

領域通用性（Domain-General） ：該設計不應包含任何針對特定世界的預設知識，而應具備普適性。
經驗性（Empirical） ：心智的成長應完全源于運行時的經驗積累，而非依賴于某個特殊的訓練階段。
開放式復雜性（Open-ended Complexity） ：智能體應能在其心智中形成處理當前世界所必需的任何概念，其復雜性和抽象能力的上限僅受限于其計算資源。

這三大核心訴求，將是我們接下來探討的重點。

核心理念：運行時學習與“大世界”視角

首先，有必要對兩個關鍵術語——“設計時”（design-time）與“運行時”（run-time）——加以界定。“設計時”指代智能體在“工廠”中被構建的階段，任何領域知識都應在此時被編碼進去。而“運行時”則是智能體進入真實世界后，通過與環境的實際互動來學習、生活并制定計劃的階段。

以大語言模型為例，其幾乎所有的“智能”都在設計時完成。一旦被部署使用，它便不再從新的交互中學到任何東西。而我所倡導的理念恰恰相反：所有重要的事情都應在運行時發生，即所謂的“在線學習”、“在崗學習”。

這便引出了“大世界”（Big World）視角。

“大世界”假說，這一概念在阿爾伯塔的研究環境中已醞釀多年，并深刻地影響了我們的思維與設計方式。其核心思想十分簡單：世界遠比智能體更龐大、更復雜——其程度遠超想象。世界必然遠大于智能體，因為它包含了數十億其他智能體，以及萬物復雜的原子結構和細節。其他智能體（無論是朋友、伙伴還是競爭對手）頭腦中的信息都與自身息息相關，必須被納入考量。

由此得出的一個關鍵結論是：智能體所做的任何事都不可能是精確的、最優的，而只能是近似的。其構建的價值函數必然是近似價值函數；其策略也不可能是最優策略；其對世界的轉換模型，也必然是經過高度簡化的。智能體頭腦中的世界模型，與外部那個龐大得多的真實世界相比，顯得微不足道。智能體永遠無法在心智中容納世界的單個完整狀態，更不用說容納其他所有智能體的心智狀態了。

這一視角最重要的推論是，世界對于智能體而言，最終將呈現出非平穩性（non-stationarity）。正如我和 Dave Silver、Anna Koop 在一篇論文中所指出的，當智能體缺乏對世界狀態的完美感知和精確模型時，龐大世界中許多看似相似的區域，其實存在著函數逼近器無法捕捉的細微差別。這使得世界看起來是動態變化的。因此，運行時的學習和規劃變得至關重要。智能體必須具備在運行時根據實際遭遇的情境，發現任何所需抽象的能力。這也意味著，在設計時預置的抽象概念，不僅是不充分的，甚至應該被摒棄。

運行時的學習總是優于設計時的學習，原因有三：

覆蓋范圍 ：“大世界”視角決定了設計時無法預見所有可能情況。
適應性 ：運行時學習可以針對智能體實際遇到的那部分世界進行高度定制和優化。
可擴展性 ：運行時學習的能力隨可用的計算資源而擴展，而設計時學習則受限于可用的人類專業知識?；仡櫄v史，“慘痛的教訓”（the bitter lesson）明確指出，隨計算資源擴展的一方終將勝出。

然而，我們必須承認，當今的深度學習方法在持續學習（continual learning）方面表現不佳，這是一個亟待解決的痛點。此外，運行時學習還有一個關鍵優勢：它使得元學習（meta-learning）成為可能。元學習的精髓在于“在學習中提升學習能力”——智能體可以嘗試不同的學習策略，評估其效果，并選擇更優者用于未來的學習。這種自我改進的過程，要求學習本身必須是一個持續的、在運行時發生的過程。

問題設定：強化學習與獎勵假說

在探討解決方案之前，讓我們先明確問題的范疇。人工智能的根本問題，是設計一個能在世界中有效行動以達成目標的智能體。經典的強化學習問題與之本質相同，只是更具體地指出：目標由一個稱為“獎勵”（reward）的標量信號來定義，且世界是通用的、不完全已知的。這個世界可以是任何形態，從簡單的網格世界到復雜的人類社會，它可以是隨機的、非線性的、非馬爾可夫的。在“大世界”中，狀態空間實際上是無限的，其動態變化也呈現非平穩性。

在此，我想重申“獎勵假說”（The Reward Hypothesis）的重要性。這個假說并非一個草率的選擇，而是經過深思熟慮的理論基石。它主張：我們所說的一切“目標”和“目的”，其含義都可以被嚴謹地理解為對一個接收到的標量信號（即“獎勵”）的累積和的期望值的最大化。

這個定義中的“期望值”、“累積和”等設定都經過了仔細推敲?！皹肆开剟睢北旧硎且粋€偉大的思想，它以一種極為清晰的方式指定了目標，并已在人工智能、經濟學、心理學、控制論等多個學科中得到廣泛應用。長久以來，學術界不乏對其進行修改的嘗試，例如引入約束、多目標、風險敏感性等概念。但我個人傾向于保持其簡潔性，因為我追求的是概念上的清晰與簡約。

真正的問題是：我們是否需要這些額外的復雜性來獲得通用性？Michael Bowling 及其同事在一篇題為《為獎勵假說正名》的論文中給出了有力的論證。他們證明，增加多目標、風險敏感性或約束等機制，并不會增加通用性。這從側面驗證了我們選擇的正確性。此外，在另一篇《獎勵即足夠》的論文中，我們進一步論證了，在一個足夠復雜的世界里，即使是簡單的獎勵信號也足以引出智能的所有屬性。

OaK 架構的解決方案

現在，讓我們轉向解決方案，即架構本身。一個顯而易見的起點是無模型的強化學習，智能體在運行時構建一個策略和一個價值函數。如果能從數據中構建自己的狀態表示，就可以處理非馬爾可夫問題。然而，一個更優的方案或許是建立一個世界模型，并利用該模型進行規劃。

OaK 架構正是在這條演進路徑上的又一次飛躍。其核心特點在于引入了輔助問題（或稱子問題），并且每個子問題都擁有各自的價值函數和策略。此外，每一個子問題都將基于狀態特征表示的不同組成部分。我們可以將狀態想象成一個特征向量，而每個子問題都聚焦于該向量的不同維度。

該架構的核心可概括為在運行時并行完成的八個步驟。下文將對這些步驟逐一展開，并會反復審視這一整體框架。

學習主策略與價值函數 ：學習用于最大化主獎勵信號的策略和價值函數。這類似于標準的強化學習。這一項可標記為“概念上已完成，但有待工程實現上的完善”，因為它依賴于我們尚未完全解決的持續深度學習問題。
生成新狀態特征 ：從現有特征中生成新的、可能更有用的狀態特征。這是一個核心挑戰，我們稍后會詳細討論。
對特征進行排序 ：維護關于所有特征效用的元數據，并根據其重要性進行排序。
創建子問題 ：為排名最高的特征創建子問題。例如，若“身處演講廳”被評估為一個重要特征，系統就會創建一個子問題，其目標是“在不損失過多主獎勵的前提下，成功到達演講廳”。
學習選項 ：為每個子問題學習一個解決方案，這個解決方案就是一個“選項”（Option），即 OaK 中“O”的來源。
學習選項模型 ：學習每個選項的轉換模型，即預測執行某個選項后世界會發生什么。這是 OaK 中“K”（Knowledge）的體現，構成了高層次的世界模型。
使用模型進行規劃 ：利用學習到的選項模型進行規劃，以改進主策略和價值函數。
管理與維護 ：持續管理所有組件，評估其效用，淘汰無用部分，并不斷生成新的組件。

子問題、玩耍與開放式抽象

在 OaK 架構中，子問題的創建是一個核心環節。智能體必須能夠自己生成子問題，這一觀點回應了關于好奇心、內在動機和輔助任務研究中的一系列關鍵開放性問題：子問題應該是什么？它們從何而來？智能體能否自己創造子問題？它們如何幫助解決主問題？OaK 的貢獻在于，它對這些問題提出了一個統一的答案，并肯定了智能體自我創造子問題的能力，從而實現了開放式的抽象。

我們可以將其想象成一個“問題”與“解決方案”相互促進的循環：我們提出一個要解決的問題，然后去解決它；在解決問題的過程中，會創造出新的特征；這些新特征又成為新子問題的基礎，而這些新子問題又必須被解決，從而催生更新的特征，如此循環往復，永無止境。

自然界中的“玩?！保╬lay）行為能為我們提供生動的啟示。一只蕩秋千的年輕猩猩，并非為了覓食，而很可能是被搖蕩時的感覺所吸引，并試圖復現和控制這種體驗。一只虎鯨反復將浮標頂到背上，也顯然是在探索和完善一個自創的目標。人類嬰兒的玩耍更是如此，他們從一個物體轉向另一個，了解其特性，感到厭煩，再轉向下一個，逐步建立起對世界越來越豐富的理解。

這些行為的本質，可以被看作是智能體在為自己提出子問題——一些需要去了解、理解、預測和控制的事物。因此，子問題不能由設計者預先給定，它們必須由智能體在與世界的互動中自主創造，因為它們數量繁多且與具體環境高度相關。

那么，如何以一種領域無關的方式創造子問題呢？OaK 提出了一種具體機制，稱為“尊重獎勵的特征達成子問題”（Reward-Respecting, Feature-Achieving Subproblem）。當智能體遇到或創造一個新特征時（例如，聽到搖鈴的聲音），它可以將其作為子問題的基礎。這個子問題的目標是： 在不損失過多主獎勵的前提下，將世界驅動到一個該特征值很高的狀態。

該目標的數學表達如下：

在這個方程中，智能體試圖找到一個選項（策略 π 和終止函數 γ），以最大化一個期望值。該期望值包含三部分：1）執行選項期間獲得的累積獎勵 ∑R ；2）終止時達成特征 i 所獲得的額外獎勵 κ·φ?(S_T) ，其中 κ 代表對該特征的渴望程度；3）終止時所處狀態的價值 V(S_T) ，這確保了智能體不會為了達成子目標而陷入一個長期來看很糟糕的狀態（例如，為了喝到咖啡而摔斷腿）。

FC-STOMP：從特征到規劃的演進路徑

這個子問題創造機制，是 OaK 架構中一個更宏大流程的核心。我們可以將這個流程總結為一條五步走的演進路徑，我們稱之為 FC-STOMP ：

特征構建 (Feature Construction) ：感知過程負責構建有趣的狀態特征。
提出子任務 (posing a SubTask) ：基于高排名的特征，構建“尊重獎勵的特征達成子問題”。
學習選項 (learning an Option) ：通過強化學習求解子問題，得到一個選項作為其解決方案。
學習模型 (learning a Model) ：學習這個新選項的轉換模型，即預測其后果。
規劃 (Planning) ：將新選項及其模型整合到已有的世界模型中，用于規劃，從而改進整體策略和價值函數。

這五個步驟構成了一個發現與改進的閉環。所有依賴特征的步驟（如學習選項、學習模型、規劃）都會向特征構建過程提供反饋，告知哪些特征被證明是有用的，從而引導新特征的生成。

在算法層面，學習選項的價值函數、學習選項模型等任務，都可以利用現有的、成熟的離策略（off-policy）通用價值函數（GVF）學習算法，如 GTD、Emphatic TD、Retrace、ABQ 等。規劃過程則可以被視為價值迭代（value iteration）的近似。有趣的是，使用選項模型進行規劃，其數學形式與傳統的基于單步動作的價值迭代驚人地相似，只是將“動作”替換為了“選項”，將“單步獎勵”替換為了“選項執行期間的累積獎勵”。這使得“任何可以被學習的東西，也同樣可以被規劃”這一原則得以實現。

面臨的挑戰：持續學習與特征生成

盡管 OaK 架構為我們描繪了一幅清晰的藍圖，但仍有兩個關鍵的技術挑戰有待攻克。

1. 可靠的持續深度學習 ：OaK 的所有組件都要求能夠持續學習。在線性和表格情況下，我們已有可靠的方法。但在非線性的深度學習場景中，災難性遺忘（catastrophic forgetting）和災難性可塑性喪失（catastrophic loss of plasticity）等問題依然存在。盡管目前有持續反向傳播（continual backpropagation）等一系列解決方案正在涌現，但這仍是一個活躍且尚未完全解決的研究領域。

2. 新狀態特征的生成 ：這個問題，也被稱為“表示學習”或“新術語問題”，歷史悠久，可追溯至上世紀 60 年代。盡管反向傳播被認為部分解決了這個問題，但它并非萬能。除梯度下降外，大多數方法都遵循“生成與測試”的范式：生成大量候選特征，然后通過評估其在解決問題中的效用來進行篩選。我認為，諸如 IDBD 這類根據每個特征的個體學習情況來調整其學習率的元學習算法，將是解決這一問題的關鍵部分。我相信，這個問題有望在未來幾年內取得突破，屆時將徹底改變我們使用深度學習的方式。

結論與展望

OaK 架構的構想，是否成功回應了我們最初設定的遠征目標？它在設計上是完全領域通用的，不包含任何針對特定世界的內容；它完全是經驗性的，所有知識和能力都從運行時經驗中成長；并且，它致力于實現無限的、開放式的抽象發現，其唯一的限制是計算資源。

我認為，強化學習與 OaK 架構為人工智能領域的幾個根本性問題，提供了第一個合理的、機制性的答案：

知識的起源 ：高層次的知識如何從低層次的經驗中學習而來？
概念的形成 ：概念從何而來？它們可以被視為為了解決自創子問題而形成的內部表示。
推理的本質 ：什么是推理？或許它就是基于學習到的高層次世界模型進行的規劃。
玩耍的目的 ：玩耍的目的是什么？是為了發現和構建認知基石的子問題。
感知的意義 ：在沒有人類標簽的情況下，感知如何運作？感知可以是為了解決子問題而形成的概念化過程。

對于從事強化學習研究的 AI 科學家而言，OaK 提供了一個思考人工智能各個部分如何協同工作的框架，能夠指導未來的研究方向。它提出了一個關于如何用學習到的模型進行規劃的構想，這正是當今 AI 所缺失的關鍵能力。它提供了一種植根于經驗和認知，而非匹配人類標簽的感知觀。最重要的是，它為強化學習中的“發現”問題——即子問題、選項和特征從何而來——提供了綱領性的答案。

綜上所述，OaK 是一個關于如何獲得一個完全從經驗中成長起來的、開放式的超級智能的構想。它描繪了一個在運行時從經驗中培育超級智能的藍圖，整合了行動、學習、規劃、模型學習、子問題和選項等核心能力，并結合了函數逼近、部分可觀測性、非平穩性等現實挑戰。所有這一切，都在一個良性的、開放式的發現循環中協同工作：狀態特征的發現，激發了問題、選項和模型的發現，而這些新產生的組件又反過來促進了新的、更抽象特征的形成。作為一個完全通用、不含任何領域特定組件的架構，OaK 具有強大的可擴展性，并有望對人工智能的未來產生深遠而持久的影響。

【活動分享】2025 全球機器學習技術大會（ML-Summit）北京站將于 2025 年 10 月 16-17 日在北京威斯汀酒店舉辦。大會共 12 大主題、50+ 海內外專家，聚焦大模型技術和應用變革。詳情參考官網： https://ml-summit.org (或點擊原文鏈接）。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.