楊立昆等聯(lián)合發(fā)文：為何AI還不能自學習？如何實現(xiàn)？

2026-03-21 16:09:11　來源: 人工智能學家

北京舉報

分享至

當前，人工智能（AI）在自主學習方面存在一個根本性缺陷：缺乏像人一樣學習的能力。

兒童從出生起就在學習和行動，他們能靈活選擇關(guān)注什么、學習什么、何時行動、何時觀察，并在不同學習模式間自由切換。

相比之下，AI 模型一旦部署，它的學習模式就固定了，每一次適配，都需要一支人類工程師團隊重新介入，負責準備數(shù)據(jù)、構(gòu)建訓練?案并根據(jù)性能指標進?調(diào)整。換句話說，AI 的自主學習能力被“外包”給了人類。

最近，來自 Meta、紐約大學和加州大學伯克利分校的Emmanuel Dupoux、楊立昆（Yann LeCun）、Jitendra Malik三位研究者，對當前 AI 范式提出了系統(tǒng)性批判，并給出了一套受人類和動物認知啟發(fā)的學習架構(gòu)。

該框架整合了基于觀察的學習（System A）和基于主動行為的學習（System B），并能夠根據(jù)內(nèi)部生成的元控制信號在這些學習模式之間靈活切換。

此外，他們也借鑒生物體在進化與發(fā)育時間尺度上適應(yīng)現(xiàn)實世界動態(tài)環(huán)境的方式，探討了該框架的構(gòu)建方法。

論文鏈接：https://arxiv.org/pdf/2603.15381

為什么AI還無法自主學習？

那么，當前的 AI 難以實現(xiàn)自學習，問題究竟出在哪里？研究團隊在論文中點出了4 個結(jié)構(gòu)性困境：

高質(zhì)量文本數(shù)據(jù)的供給已接近天花板；
由于缺乏與環(huán)境的真實交互，模型無法學習超越人類現(xiàn)有知識的新內(nèi)容；
過度依賴語言，而忽視了空間感知、具身認知以及對物理世界的扎根推理物理世界中的空間、具身和接地（grounded）推理；
模型在部署之后便停止自我改進，無法實現(xiàn)終身學習。

在論文中，研究團隊詳細探討了限制自主學習發(fā)展的三方面技術(shù)障礙，并提出了可能的解決方案。

1.學習范式的碎片化

現(xiàn)有學習方法分散于各個子領(lǐng)域，彼此之間缺乏交互，難以整合到統(tǒng)一框架之中。研究團隊認為，整合的起點是認識到兩種基本學習模式：通過觀察學習（System A）與通過行動學習（System B），系統(tǒng)梳理兩者之間可能的交互方式。

2.學習能力的外部化

當前 AI 的學習實際上是由人類完成的。數(shù)據(jù)篩選、訓練方案設(shè)計、性能監(jiān)控，全部依賴人類 MLOps 流水線。為此，他們提出了元控制架構(gòu)（System M），這是一個協(xié)調(diào)各學習組件間信息流的中央調(diào)度器，能夠自動重現(xiàn)通常需要人工完成的學習與數(shù)據(jù)過濾流程。

3.缺乏規(guī)模化構(gòu)建方法

研究團隊表示，目前還沒有一種有效手段在大規(guī)模架構(gòu)上實現(xiàn)上述組件的聯(lián)合訓練。他們提出了一種受進化機制啟發(fā)的雙層優(yōu)化方法，聯(lián)合學習元控制模型與 System A、System B 的初始狀態(tài)，以實現(xiàn)魯棒的真實世界性能。

圖｜標準機器學習（左）：機器本?并不能學習，它需要?條由研究?程師和數(shù)據(jù)科學家組成的流?線，負責收集、整理和處理各種類型的數(shù)據(jù)，每?種數(shù)據(jù)都?于依次訓練模型的不同組件，每個組件都使?專?設(shè)計的損失函數(shù)和獎勵函數(shù)。這樣一來，機器就無法從自身經(jīng)驗中學習。自主機器學習（右）：Agent 直接通過與世界的交互進行學習；數(shù)據(jù)源由 Agent 自身通過不同的學習模式（通過觀察、行動學習，以及可擴展為更高階的模式，例如通過語言互動或自我博弈進行學習）生成。團隊提出的架構(gòu)包含一個元控制器，使 Agent 能夠在真實世界中運行的同時進行學習。(圖片來自 ChatGPT）。

讓機器像人一樣學習

具體而言，研究團隊的核心思路，是將學習拆解為兩種基本模式，再由元控制系統(tǒng)動態(tài)調(diào)度兩者之間的協(xié)作。前兩者是學習模式，后者是調(diào)度兩者的元控制器。

System A：觀察學習

System A 對應(yīng)機器學習中的自監(jiān)督學習（SSL）。嬰兒 6 個月時能同時辨別人類與猴子面孔，至 9 個月則專精于人類面孔；新生兒能區(qū)分多種語言的音素，至 6 至 12 個月逐漸專精于母語語音，正是這一機制的典型體現(xiàn)。

System A 的優(yōu)勢在于可擴展性強，能有效擴展處理大規(guī)模數(shù)據(jù)集，能夠提取具有層次感的抽象特征，并在各類下游任務(wù)中表現(xiàn)出強大的遷移能力。局限在于依賴人工設(shè)計的數(shù)據(jù)分布與任務(wù)生成器，缺乏主動決定獲取哪些數(shù)據(jù)的內(nèi)置機制，表征與 Agent 的行動能力脫節(jié)，導致學習成果難以與現(xiàn)實行為場景有效對接，在區(qū)分相關(guān)性與因果關(guān)系時存在顯著困難。

System B：行動學習

System B 對應(yīng)強化學習（RL）與控制理論。System B 算法類包含通過交互運作的學習機制。行動是指通過一系列動作干預環(huán)境以達成特定目標，即在時間范圍 T 內(nèi)優(yōu)化獎勵 r。例如，兒童學習走路并非模仿他人步態(tài)，而是經(jīng)由翻滾、爬行等非雙足階段，在反復試錯中逐步發(fā)展出成熟步態(tài)。

System B 的優(yōu)勢在于天然適用于實時自適應(yīng)行為，能夠直接從稀疏或延遲結(jié)果中學習；但缺點是樣本效率極低，即使學習簡單任務(wù)也常需大量交互；在高維或開放式動作空間中表現(xiàn)欠佳；且高度依賴具有明確定義的獎勵函數(shù)和可解釋的動作，而這些在自然環(huán)境中往往難以實現(xiàn)。

兩個System的雙向支撐

從直觀層面來看，當可能的動作數(shù)量有限、世界狀態(tài)易于追蹤時，通過行動學習相對容易。但在現(xiàn)實中，動作空間隨自由度的增加呈指數(shù)級擴張，世界狀態(tài)也幾乎無窮無盡。這正是 System A 能夠發(fā)揮作用的地方，通過為狀態(tài)與動作提供壓縮表征、構(gòu)建預測世界模型，以及生成內(nèi)在獎勵信號，使 System B 的學習與規(guī)劃變得更加可處理。

System A 為 System B 提供三類關(guān)鍵支撐：第一，通過自監(jiān)督學習方法，將原始感知數(shù)據(jù)（像素或聲波）壓縮為更抽象、更緊湊的狀態(tài)與動作表征，降低強化學習的搜索空間維度；第二，構(gòu)建預測世界模型，捕捉環(huán)境動態(tài)，當模型以自身動作為條件時，可將 System B 從無模型強化學習轉(zhuǎn)變?yōu)榛谀Ｐ偷囊?guī)劃，以規(guī)劃代替盲目試錯；第三，提供預測誤差的內(nèi)在獎勵信號，引導 Agent 高效探索，并在獲得足夠置信后轉(zhuǎn)向利用。

System B 同樣反過來支撐 System A。System A 的局限在于依賴被動或靜態(tài)數(shù)據(jù)，沒有引導或數(shù)據(jù)篩選，它無法從無信息量、嘈雜或無關(guān)的數(shù)據(jù)流中學到有用的表征。System B 通過主動行為，可以從兩個方向支持 System A 的學習：通過主動自監(jiān)督學習顯式優(yōu)化 System A 的表征能力。例如選擇不確定性高或預測誤差大的數(shù)據(jù)片段，或通過干預行動揭示被動觀察無法觸及的因果關(guān)系；通過目標導向的自監(jiān)督學習優(yōu)化自身任務(wù)獎勵，將數(shù)據(jù)作為副產(chǎn)品提供給 System A，為其表征提供現(xiàn)實世界的行為錨點。

圖｜System A 和 System B 之間的交互模式概述：System A 根據(jù)過去狀態(tài)和動作向 System B 提供未來狀態(tài)的預測，并提供可能動作的層級抽象，以及可?于探索/好奇的 SSL 損失函數(shù)。System B 通過其動作為 System A 提供豐富且與任務(wù)相關(guān)的輸?，供其學習。

然而，兩個 System 之間的協(xié)作并非是自然發(fā)生的。研究團隊基于兒童“模仿學習”的例子，指出這一能力依賴于 System A 與 System B 的緊密集成與協(xié)同運作，直觀呈現(xiàn)了兩個 System 協(xié)作的復雜性。

圖 | 模仿學習中的學習模式交互。（a）自我博弈（Self Play）。System B 向 System A 提供動作和狀態(tài)軌跡，System A 據(jù)此學習世界模型，并向 System B 提供基于預測的內(nèi)在獎勵信號。（b）社會觀察。System B 將注意力引導到為 System A 提供復雜軌跡（用于推斷潛在動作）的對等節(jié)點。（c）重定向模仿。System A 學會將外在行為和狀態(tài)映射到以自我為中心的行為和狀態(tài)，幫助 System B 實現(xiàn)目標導向的行為。（圖?來? ChatGPT）

System M：元控制

System M 作為中央調(diào)度器，并不直接處理原始感知輸入或運動指令，而是監(jiān)控三類低維內(nèi)部元狀態(tài)：預測誤差、不確定性、新奇度等認知信號。并據(jù)此動態(tài)連接或斷開 System A、System B 與情節(jié)記憶之間的數(shù)據(jù)通路，即時組裝和拆解學習與推理流水線。

System M 的就位還讓兩種高階學習模式成為可能。通過交流學習，識別社會性觸發(fā)信號并根據(jù)信源可信度動態(tài)調(diào)節(jié)學習權(quán)重；通過想象學習，以記憶替代感官輸入、以內(nèi)部模擬替代真實動作，對應(yīng)生物中的記憶回放與睡眠鞏固機制。

圖 | 認知架構(gòu)藍圖，其中 System M 作為?主協(xié)調(diào)器。System M 作為中央控制平臺，可?動執(zhí)?數(shù)據(jù)路由和訓練?案。

如何從零構(gòu)建？

A、B、M 三系統(tǒng)的藍圖已然成型，但隨之而來的是一個冷啟動難題：System A 依賴 System B 產(chǎn)生的數(shù)據(jù)，System B 依賴 System A 提供的感知結(jié)構(gòu)，System M 又依賴兩者產(chǎn)生的誤差信號。三者相互依賴，學習如何開始？

研究團隊借鑒生物學中進化與發(fā)育尺度的區(qū)分，提出雙層優(yōu)化框架來破解這一困境。內(nèi)層對應(yīng)發(fā)育尺度：智能體在環(huán)境中交互，System A 與 B 在固定的 System M 調(diào)控下持續(xù)更新參數(shù)。外層對應(yīng)進化尺度：通過評估智能體整個生命周期的適應(yīng)度，優(yōu)化系統(tǒng)的初始元參數(shù)，類比于遺傳信息對神經(jīng)系統(tǒng)初始狀態(tài)的規(guī)定。

整個系統(tǒng)中唯一需要人工設(shè)計的，只有適應(yīng)度函數(shù)與訓練環(huán)境。參數(shù)初始化、數(shù)據(jù)過濾、學習課程，全部由 System M 自動提供。

圖 | Evo/Devo 框架用于構(gòu)建自主學習 Agent。學習過程分為兩個層級：在發(fā)展層級中，學習者架構(gòu)（A、B和M）通過元參數(shù) ? 進行初始化。A 和 B 通過與由固定控制器M控制的環(huán)境交互來更新參數(shù)；在進化層級中，phi 參數(shù)會持續(xù)更新以優(yōu)化系統(tǒng)生命周期內(nèi)的適應(yīng)度函數(shù) L。（圖片來自ChatGPT）

為什么依然很難？

研究團隊表示，自 AI 誕生以來，打造一臺像兒童一樣學習的機器始終是這一領(lǐng)域的核心愿景，但實現(xiàn)路上仍橫亙著多重現(xiàn)實障礙：

模擬環(huán)境。訓練緊耦合的 A、B、M 三系統(tǒng)，需要同時滿足兩個要求：足夠真實又足夠快速。在大規(guī)模情況下，引入社會性 Agent 或?qū)崿F(xiàn)師生交互尤其具有挑戰(zhàn)性。

評估體系。當 Agent 趨于通用，任務(wù)特定基準便逐漸失去診斷價值。論文建議轉(zhuǎn)向以人類兒童學習速度為參照的評估體系。

雙層優(yōu)化的可擴展性。在復雜環(huán)境中優(yōu)化終身學習過程，既需要大量計算資源，又對課程設(shè)計高度敏感。

倫理問題。自主學習在靈活性、安全性與社會監(jiān)管之間引入了全新的權(quán)衡。

自主性越強，系統(tǒng)與預期目標的對齊就越難保證，這可能需要明確的審計機制與對 System M 的干預能力。
依賴內(nèi)部代理信號驅(qū)動的系統(tǒng)，可能像生物一樣因信號與環(huán)境錯位而產(chǎn)生目標偏移乃至類似成癮或自我傷害的行為。
隨著 Agent 行為愈發(fā)類人，用戶越容易產(chǎn)生情感依附與錯位信任，應(yīng)對這一風險需要對系統(tǒng)能力與局限性保持充分透明。
一旦軀體信號被以類似疼痛或恐懼的方式處理，此類 Agent 的道德地位問題將真正無可回避。

這些問題遠超當前 AI 技術(shù)所面臨的倫理挑戰(zhàn)，自主學習在靈活性、安全性與社會監(jiān)管之間引入了全新的權(quán)衡，沒有一項可以被輕易忽視。

未來與展望

A 與 B 的深度整合已在受限領(lǐng)域取得成功，在 MuZero、Dreamer 等系統(tǒng)將學習到的潛在動力學與動作規(guī)劃結(jié)合，實現(xiàn)了超人類水平的游戲性能；視覺-語言-動作（VLA）模型也正將大規(guī)模被動預訓練表征直接用于引導機器人運動執(zhí)行。然而，這些系統(tǒng)的學習方案與運行邏輯依然由人類工程師固定設(shè)定，遠不及生物體中自主、流動的協(xié)作方式。

研究團隊認為，距離完全自主、廣域?qū)W習系統(tǒng)的實現(xiàn)，可能還有數(shù)十年時間。自主學習不是 AI 的加分項，而是其在真實世界可靠運行的必要前提。

研究團隊同時強調(diào)，構(gòu)建這類系統(tǒng)的過程本身就具有獨立的科學價值，這將為我們理解生物有機體如何在真實環(huán)境中學習與適應(yīng)提供不可替代的定量模型，并推動 AI 與認知科學的雙向深度融合。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.