當前,人工智能(AI)在自主學習方面存在一個根本性缺陷:缺乏像人一樣學習的能力。
兒童從出生起就在學習和行動,他們能靈活選擇關(guān)注什么、學習什么、何時行動、何時觀察,并在不同學習模式間自由切換。
相比之下,AI 模型一旦部署,它的學習模式就固定了,每一次適配,都需要一支人類工程師團隊重新介入,負責準備數(shù)據(jù)、構(gòu)建訓練?案并根據(jù)性能指標進?調(diào)整。換句話說,AI 的自主學習能力被“外包”給了人類。
最近,來自 Meta、紐約大學和加州大學伯克利分校的Emmanuel Dupoux、楊立昆(Yann LeCun)、Jitendra Malik三位研究者,對當前 AI 范式提出了系統(tǒng)性批判,并給出了一套受人類和動物認知啟發(fā)的學習架構(gòu)。
該框架整合了基于觀察的學習(System A)和基于主動行為的學習(System B),并能夠根據(jù)內(nèi)部生成的元控制信號在這些學習模式之間靈活切換。
此外,他們也借鑒生物體在進化與發(fā)育時間尺度上適應(yīng)現(xiàn)實世界動態(tài)環(huán)境的方式,探討了該框架的構(gòu)建方法。
![]()
論文鏈接:https://arxiv.org/pdf/2603.15381
為什么AI還無法自主學習?
那么,當前的 AI 難以實現(xiàn)自學習,問題究竟出在哪里?研究團隊在論文中點出了4 個結(jié)構(gòu)性困境:
高質(zhì)量文本數(shù)據(jù)的供給已接近天花板;
由于缺乏與環(huán)境的真實交互,模型無法學習超越人類現(xiàn)有知識的新內(nèi)容;
過度依賴語言,而忽視了空間感知、具身認知以及對物理世界的扎根推理物理世界中的空間、具身和接地(grounded)推理;
模型在部署之后便停止自我改進,無法實現(xiàn)終身學習。
在論文中,研究團隊詳細探討了限制自主學習發(fā)展的三方面技術(shù)障礙,并提出了可能的解決方案。
1.學習范式的碎片化
現(xiàn)有學習方法分散于各個子領(lǐng)域,彼此之間缺乏交互,難以整合到統(tǒng)一框架之中。研究團隊認為,整合的起點是認識到兩種基本學習模式:通過觀察學習(System A)與通過行動學習(System B),系統(tǒng)梳理兩者之間可能的交互方式。
2.學習能力的外部化
當前 AI 的學習實際上是由人類完成的。數(shù)據(jù)篩選、訓練方案設(shè)計、性能監(jiān)控,全部依賴人類 MLOps 流水線。為此,他們提出了元控制架構(gòu)(System M),這是一個協(xié)調(diào)各學習組件間信息流的中央調(diào)度器,能夠自動重現(xiàn)通常需要人工完成的學習與數(shù)據(jù)過濾流程。
3.缺乏規(guī)模化構(gòu)建方法
研究團隊表示,目前還沒有一種有效手段在大規(guī)模架構(gòu)上實現(xiàn)上述組件的聯(lián)合訓練。他們提出了一種受進化機制啟發(fā)的雙層優(yōu)化方法,聯(lián)合學習元控制模型與 System A、System B 的初始狀態(tài),以實現(xiàn)魯棒的真實世界性能。
![]()
圖|標準機器學習(左):機器本?并不能學習,它需要?條由研究?程師和數(shù)據(jù)科學家組成的流?線,負責收集、整理和處理各種類型的數(shù)據(jù),每?種數(shù)據(jù)都?于依次訓練模型的不同組件,每個組件都使?專?設(shè)計的損失函數(shù)和獎勵函數(shù)。這樣一來,機器就無法從自身經(jīng)驗中學習。自主機器學習(右):Agent 直接通過與世界的交互進行學習;數(shù)據(jù)源由 Agent 自身通過不同的學習模式(通過觀察、行動學習,以及可擴展為更高階的模式,例如通過語言互動或自我博弈進行學習)生成。團隊提出的架構(gòu)包含一個元控制器,使 Agent 能夠在真實世界中運行的同時進行學習。(圖片來自 ChatGPT)。
讓機器像人一樣學習
具體而言,研究團隊的核心思路,是將學習拆解為兩種基本模式,再由元控制系統(tǒng)動態(tài)調(diào)度兩者之間的協(xié)作。前兩者是學習模式,后者是調(diào)度兩者的元控制器。
System A:觀察學習
System A 對應(yīng)機器學習中的自監(jiān)督學習(SSL)。嬰兒 6 個月時能同時辨別人類與猴子面孔,至 9 個月則專精于人類面孔;新生兒能區(qū)分多種語言的音素,至 6 至 12 個月逐漸專精于母語語音,正是這一機制的典型體現(xiàn)。
System A 的優(yōu)勢在于可擴展性強,能有效擴展處理大規(guī)模數(shù)據(jù)集,能夠提取具有層次感的抽象特征,并在各類下游任務(wù)中表現(xiàn)出強大的遷移能力。局限在于依賴人工設(shè)計的數(shù)據(jù)分布與任務(wù)生成器,缺乏主動決定獲取哪些數(shù)據(jù)的內(nèi)置機制,表征與 Agent 的行動能力脫節(jié),導致學習成果難以與現(xiàn)實行為場景有效對接,在區(qū)分相關(guān)性與因果關(guān)系時存在顯著困難。
System B:行動學習
System B 對應(yīng)強化學習(RL)與控制理論。System B 算法類包含通過交互運作的學習機制。行動是指通過一系列動作干預環(huán)境以達成特定目標,即在時間范圍 T 內(nèi)優(yōu)化獎勵 r。例如,兒童學習走路并非模仿他人步態(tài),而是經(jīng)由翻滾、爬行等非雙足階段,在反復試錯中逐步發(fā)展出成熟步態(tài)。
System B 的優(yōu)勢在于天然適用于實時自適應(yīng)行為,能夠直接從稀疏或延遲結(jié)果中學習;但缺點是樣本效率極低,即使學習簡單任務(wù)也常需大量交互;在高維或開放式動作空間中表現(xiàn)欠佳;且高度依賴具有明確定義的獎勵函數(shù)和可解釋的動作,而這些在自然環(huán)境中往往難以實現(xiàn)。
兩個System的雙向支撐
從直觀層面來看,當可能的動作數(shù)量有限、世界狀態(tài)易于追蹤時,通過行動學習相對容易。但在現(xiàn)實中,動作空間隨自由度的增加呈指數(shù)級擴張,世界狀態(tài)也幾乎無窮無盡。這正是 System A 能夠發(fā)揮作用的地方,通過為狀態(tài)與動作提供壓縮表征、構(gòu)建預測世界模型,以及生成內(nèi)在獎勵信號,使 System B 的學習與規(guī)劃變得更加可處理。
System A 為 System B 提供三類關(guān)鍵支撐:第一,通過自監(jiān)督學習方法,將原始感知數(shù)據(jù)(像素或聲波)壓縮為更抽象、更緊湊的狀態(tài)與動作表征,降低強化學習的搜索空間維度;第二,構(gòu)建預測世界模型,捕捉環(huán)境動態(tài),當模型以自身動作為條件時,可將 System B 從無模型強化學習轉(zhuǎn)變?yōu)榛谀P偷囊?guī)劃,以規(guī)劃代替盲目試錯;第三,提供預測誤差的內(nèi)在獎勵信號,引導 Agent 高效探索,并在獲得足夠置信后轉(zhuǎn)向利用。
System B 同樣反過來支撐 System A。System A 的局限在于依賴被動或靜態(tài)數(shù)據(jù),沒有引導或數(shù)據(jù)篩選,它無法從無信息量、嘈雜或無關(guān)的數(shù)據(jù)流中學到有用的表征。System B 通過主動行為,可以從兩個方向支持 System A 的學習:通過主動自監(jiān)督學習顯式優(yōu)化 System A 的表征能力。例如選擇不確定性高或預測誤差大的數(shù)據(jù)片段,或通過干預行動揭示被動觀察無法觸及的因果關(guān)系;通過目標導向的自監(jiān)督學習優(yōu)化自身任務(wù)獎勵,將數(shù)據(jù)作為副產(chǎn)品提供給 System A,為其表征提供現(xiàn)實世界的行為錨點。
![]()
圖|System A 和 System B 之間的交互模式概述:System A 根據(jù)過去狀態(tài)和動作向 System B 提供未來狀態(tài)的預測,并提供可能動作的層級抽象,以及可?于探索/好奇的 SSL 損失函數(shù)。System B 通過其動作為 System A 提供豐富且與任務(wù)相關(guān)的輸?,供其學習。
然而,兩個 System 之間的協(xié)作并非是自然發(fā)生的。研究團隊基于兒童“模仿學習”的例子,指出這一能力依賴于 System A 與 System B 的緊密集成與協(xié)同運作,直觀呈現(xiàn)了兩個 System 協(xié)作的復雜性。
![]()
圖 | 模仿學習中的學習模式交互。(a)自我博弈(Self Play)。System B 向 System A 提供動作和狀態(tài)軌跡,System A 據(jù)此學習世界模型,并向 System B 提供基于預測的內(nèi)在獎勵信號。(b)社會觀察。System B 將注意力引導到為 System A 提供復雜軌跡(用于推斷潛在動作)的對等節(jié)點。(c)重定向模仿。System A 學會將外在行為和狀態(tài)映射到以自我為中心的行為和狀態(tài),幫助 System B 實現(xiàn)目標導向的行為。(圖?來? ChatGPT)
System M:元控制
System M 作為中央調(diào)度器,并不直接處理原始感知輸入或運動指令,而是監(jiān)控三類低維內(nèi)部元狀態(tài):預測誤差、不確定性、新奇度等認知信號。并據(jù)此動態(tài)連接或斷開 System A、System B 與情節(jié)記憶之間的數(shù)據(jù)通路,即時組裝和拆解學習與推理流水線。
System M 的就位還讓兩種高階學習模式成為可能。通過交流學習,識別社會性觸發(fā)信號并根據(jù)信源可信度動態(tài)調(diào)節(jié)學習權(quán)重;通過想象學習,以記憶替代感官輸入、以內(nèi)部模擬替代真實動作,對應(yīng)生物中的記憶回放與睡眠鞏固機制。
![]()
圖 | 認知架構(gòu)藍圖,其中 System M 作為?主協(xié)調(diào)器。System M 作為中央控制平臺,可?動執(zhí)?數(shù)據(jù)路由和訓練?案。
如何從零構(gòu)建?
A、B、M 三系統(tǒng)的藍圖已然成型,但隨之而來的是一個冷啟動難題:System A 依賴 System B 產(chǎn)生的數(shù)據(jù),System B 依賴 System A 提供的感知結(jié)構(gòu),System M 又依賴兩者產(chǎn)生的誤差信號。三者相互依賴,學習如何開始?
研究團隊借鑒生物學中進化與發(fā)育尺度的區(qū)分,提出雙層優(yōu)化框架來破解這一困境。內(nèi)層對應(yīng)發(fā)育尺度:智能體在環(huán)境中交互,System A 與 B 在固定的 System M 調(diào)控下持續(xù)更新參數(shù)。外層對應(yīng)進化尺度:通過評估智能體整個生命周期的適應(yīng)度,優(yōu)化系統(tǒng)的初始元參數(shù),類比于遺傳信息對神經(jīng)系統(tǒng)初始狀態(tài)的規(guī)定。
整個系統(tǒng)中唯一需要人工設(shè)計的,只有適應(yīng)度函數(shù)與訓練環(huán)境。參數(shù)初始化、數(shù)據(jù)過濾、學習課程,全部由 System M 自動提供。
![]()
圖 | Evo/Devo 框架用于構(gòu)建自主學習 Agent。學習過程分為兩個層級:在發(fā)展層級中,學習者架構(gòu)(A、B和M)通過元參數(shù) ? 進行初始化。A 和 B 通過與由固定控制器M控制的環(huán)境交互來更新參數(shù);在進化層級中,phi 參數(shù)會持續(xù)更新以優(yōu)化系統(tǒng)生命周期內(nèi)的適應(yīng)度函數(shù) L。(圖片來自ChatGPT)
為什么依然很難?
研究團隊表示,自 AI 誕生以來,打造一臺像兒童一樣學習的機器始終是這一領(lǐng)域的核心愿景,但實現(xiàn)路上仍橫亙著多重現(xiàn)實障礙:
模擬環(huán)境。訓練緊耦合的 A、B、M 三系統(tǒng),需要同時滿足兩個要求:足夠真實又足夠快速。在大規(guī)模情況下,引入社會性 Agent 或?qū)崿F(xiàn)師生交互尤其具有挑戰(zhàn)性。
評估體系。當 Agent 趨于通用,任務(wù)特定基準便逐漸失去診斷價值。論文建議轉(zhuǎn)向以人類兒童學習速度為參照的評估體系。
雙層優(yōu)化的可擴展性。在復雜環(huán)境中優(yōu)化終身學習過程,既需要大量計算資源,又對課程設(shè)計高度敏感。
倫理問題。自主學習在靈活性、安全性與社會監(jiān)管之間引入了全新的權(quán)衡。
自主性越強,系統(tǒng)與預期目標的對齊就越難保證,這可能需要明確的審計機制與對 System M 的干預能力。
依賴內(nèi)部代理信號驅(qū)動的系統(tǒng),可能像生物一樣因信號與環(huán)境錯位而產(chǎn)生目標偏移乃至類似成癮或自我傷害的行為。
隨著 Agent 行為愈發(fā)類人,用戶越容易產(chǎn)生情感依附與錯位信任,應(yīng)對這一風險需要對系統(tǒng)能力與局限性保持充分透明。
一旦軀體信號被以類似疼痛或恐懼的方式處理,此類 Agent 的道德地位問題將真正無可回避。
這些問題遠超當前 AI 技術(shù)所面臨的倫理挑戰(zhàn),自主學習在靈活性、安全性與社會監(jiān)管之間引入了全新的權(quán)衡,沒有一項可以被輕易忽視。
未來與展望
A 與 B 的深度整合已在受限領(lǐng)域取得成功,在 MuZero、Dreamer 等系統(tǒng)將學習到的潛在動力學與動作規(guī)劃結(jié)合,實現(xiàn)了超人類水平的游戲性能;視覺-語言-動作(VLA)模型也正將大規(guī)模被動預訓練表征直接用于引導機器人運動執(zhí)行。然而,這些系統(tǒng)的學習方案與運行邏輯依然由人類工程師固定設(shè)定,遠不及生物體中自主、流動的協(xié)作方式。
研究團隊認為,距離完全自主、廣域?qū)W習系統(tǒng)的實現(xiàn),可能還有數(shù)十年時間。自主學習不是 AI 的加分項,而是其在真實世界可靠運行的必要前提。
研究團隊同時強調(diào),構(gòu)建這類系統(tǒng)的過程本身就具有獨立的科學價值,這將為我們理解生物有機體如何在真實環(huán)境中學習與適應(yīng)提供不可替代的定量模型,并推動 AI 與認知科學的雙向深度融合。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.