The Bayesian Approach to Continual Learning: An Overview
貝葉斯持續學習方法概述
https://arxiv.org/pdf/2507.08922
![]()
摘要
持續學習(Continual Learning)是一種在線學習范式,學習者在連續的時間步中不斷從不同任務中積累知識。關鍵在于,學習者需在不遺忘過往學習經驗的前提下擴展并更新其知識,同時避免從頭開始重新訓練。鑒于其序列化特性及其與人類認知方式的相似性,持續學習為解決當前深度模型在拓展至更多現實問題時所面臨的若干挑戰提供了契機。持續學習中數據以序列方式不斷到達,這與貝葉斯推理存在內在一致性:貝葉斯推理提供了一個基本框架,使模型可在接納新數據時持續更新其先驗信念,而不會徹底遺忘舊數據中的已有知識。本綜述考察了貝葉斯持續學習(Bayesian Continual Learning)的不同設定,主要包括任務增量學習(task-incremental learning)與類增量學習(class-incremental learning)。我們首先討論持續學習的定義及其貝葉斯設定,并梳理其與相關領域(如領域自適應、遷移學習和元學習)之間的關聯;隨后提出一種分類法,對屬于貝葉斯持續學習范式的各類算法進行全面歸類;同時,我們剖析當前最新進展,重點分析若干最具代表性的貝葉斯持續學習算法;此外,我們還探討了持續學習與發展心理學之間的聯系,并相應引入兩領域間的類比;繼而討論當前面臨的主要挑戰;最后總結并展望貝葉斯持續學習未來潛在的研究方向。
- 引言持續學習(亦稱增量學習或終身學習)是一種在線學習范式,其中(非獨立同分布的)數據持續到達,其數據分布可能隨時間發生變化(Schlimmer & Fisher, 1986;Sutton & Whitehead, 1993;Ring, 1995, 1997;Kirkpatrick 等, 2017;Lee 等, 2017;Shin 等, 2017;Schmidhuber, 2018;Ahn 等, 2019;Riemer 等, 2019;Buzzega 等, 2020;Liu 等, 2020;Mirzadeh 等, 2020;Yoon 等, 2020;Beaulieu 等, 2021;Mundt 等, 2022;Romero 等, 2022;Wu 等, 2022)。在學習新到數據的過程中,持續學習者不應遺忘此前數據所習得的知識——該現象稱為災難性遺忘(catastrophic forgetting)(McCloskey & Cohen, 1989;Ratcliff, 1990;Robins, 1993, 1995;French, 1999;Pape 等, 2011;Srivastava 等, 2013;Achille 等, 2018;Diaz-Rodriguez 等, 2018;Kemker 等, 2018;Zeno 等, 2018;Parisi 等, 2019;Pfulb & Gepperth, 2019;Ebrahimi 等, 2020;Gupta 等, 2020;Banayeeanzade 等, 2021;Ke 等, 2021;Ostapenko 等, 2021;Wang 等, 2021;Karakida & Akaho, 2022;Lin 等, 2022;Miao 等, 2022)。同時,持續學習者也需適應各階段學習過程中發生的分布偏移(distributional shift)。因此,在持續學習中必須取得一種平衡:穩定性(stability)用于維持已有知識,適應性(adaptation)用于吸收新知識。學界通常將此稱為持續學習中的穩定性–可塑性權衡(stability-plasticity tradeoff)(Kim 等, 2023;Adel, 2024, 2025)。其中,穩定性指模型保有既有知識的能力,可塑性則指模型適應并學習新信息的能力。模型更新須以增量方式進行,每階段可用數據僅限于當前新數據;出于隱私、安全與計算約束,通常禁止訪問歷史數據(Adel 等, 2020;Smith 等, 2023)。
人類具備基于有限經驗從過往學習的強大能力,遠超當前機器(Taylor & Stone, 2009;Chen & Liu, 2016;Finn 等, 2017;Li 等, 2018;Rostami 等, 2020)。部分原因在于,人類擁有一套在其生命各階段高效獲取與調適知識的機制(Li 等, 2018;Parisi 等, 2019)。相比之下,直到最近,機器學習模型(尤其是神經網絡)仍主要針對獨立同分布(i.i.d.)數據建模,因而面對序列到達、非平穩數據時遭遇諸多挑戰,例如前述的災難性遺忘現象。
因此,持續學習框架應能在不存儲歷史數據的前提下保留既有知識,并依據新數據對其進行更新。這與貝葉斯推理范式高度契合:模型參數上的概率分布表征了迄今所見數據下的當前知識狀態;當新數據到達時,該狀態可自然視為先驗,結合由新數據導出的知識(似然),可推斷出后驗;該后驗又可作為后續數據到達時的新先驗,依此類推。已有諸多持續學習框架正是基于這一持續學習與貝葉斯推理間的深刻一致性展開構建。
本文首先界定持續學習(CL)與貝葉斯持續學習(BCL),并形式化本文所涵蓋的CL設定(即任務增量學習與類增量學習)(第2節);繼而厘清其與相關領域(如元學習、領域自適應)之區別(第3節);隨后提出BCL的算法分類體系(第4節),并概要介紹迄今若干具有里程碑意義的BCL算法;進而建立BCL與發展心理學之間的若干關聯(第5節);最后總結我們認為直接影響BCL算法性能的關鍵挑戰(如災難性遺忘),并提出若干我們認為在未來BCL研究中頗具前景的方向(第6節)。
公式化
最廣泛使用的持續學習(CL)設置是任務增量學習和類別增量學習。
在任務增量學習中,訓練過程被分為不同的階段,每個階段對應一個任務。任務增量學習的主要假設是任務身份在訓練和測試過程中都能被觀察到。
![]()
![]()
![]()
![]()
例如,考慮一個手寫數字識別模型,其中需要識別每個手寫數字的特征以進行預測。假設類別增量學習者遇到的問題是將數字“1”與“2”分類作為第一個任務。鑒于它們相當不同的特征,類別增量學習者可能相對容易地在第一個任務中識別出所有的“1”數字。假設類別增量學習者遇到的第二個(或更一般地,連續的)任務是將數字“7”與“8”分類。此時,類別增量學習者的任務變得更加具有挑戰性,因為它現在需要同時區分所有四種手寫數字,這涉及到區分數字“1”和“7”的棘手問題(圖2)。相比之下,一個任務增量學習者在遇到相同任務時,將永遠不需要區分手寫數字“1”和“7”,因為它們屬于不同的任務,并且在訓練或推理過程中,由于任務身份始終被觀察到(即在訓練和測試過程中作為輸入),因此不需要進行區分。
與上述標準類增量學習(CIL)設定相比,少樣本類增量學習(FSCIL)因在首個任務之后每個新出現的類別可用數據稀缺而引入了額外的難度層級。FSCIL 中的首個任務(t = 1)通常被稱為基礎任務,而后續任務(即從第二個任務開始,t ≥ 2)則被稱為少樣本任務。對于少樣本任務,每個類別僅提供少量數據(Rebuffi 等, 2017;Gidaris & Komodakis, 2018;Tao 等, 2020;Achituve 等, 2021;Ahmad 等, 2022;Peng 等, 2022;Song 等, 2023;Wang 等, 2023b;Zhou 等, 2023;Zhao 等, 2024),而基礎數據集 D? 是一個大規模訓練數據集,包含多個基礎類別,且每個類別擁有相對充足的數據(相較于后續的少樣本任務,t > 1)。換句話說,對于任何少樣本任務 t > 1:N? >> Nt。此外,對于少樣本任務 t > 1,在 FSCIL 設定下每個類別可用的數據量也比標準 CIL 設定中對應任務的數據量更為有限。對于增量少樣本任務的數據集 Dt(t > 1),C 類 K 樣本 FSCIL 設定指的是相應任務包含 C 個類別,且每個類別有 K 個訓練數據點。這意味著,對于一個少樣本任務 t > 1,其訓練數據集的總大小為 Nt = C × K。
![]()
2.1 評估指標
我們在此處闡明持續學習(CL)中最廣泛使用的評估指標。
在測試過程中,持續學習器可以訪問迄今為止遇到的所有任務的測試數據。假設持續學習器迄今已遇到 m 個任務,則相應的性能評估將包括來自每個任務 t(t ∈ {1, 2, ..., m})的測試集。令 Ai,j 表示持續學習器在完成任務 t = i 的訓練后,在任務 t = j 上的測試分類準確率。此外,令 Aj 表示一個參考模型在隨機初始化后,僅從屬于同一任務 t = j 的數據中學習時,在任務 t = j 上的測試分類準確率(Lopez-Paz & Ranzato, 2017a)。因此,持續學習器在學習完 m 個任務后的總體平均準確率可定義如下:
![]()
在完成 m 個任務后,總體平均準確率(AA?)的值越大越好。評估災難性遺忘也同樣至關重要。反向遷移(BWT)是用于此目的的主要任務增量學習指標之一。BWT 指標的基本功能是評估學習任務 t = i 對先前任務 t = j(其中 j < i)學習性能的影響(圖3)。同樣,較大的正 BWT 值是可取的,因為它表明學習后續任務 t = i 導致了先前任務 t = j 性能的提升;而另一個極端情況——即意味著高度災難性遺忘(先前任務 t = j 的性能大幅下降)——則對應于較大的負 BWT 值。反向遷移(BWT)指標定義如下:
![]()
請注意,在最終任務 t = m 上嘗試評估 BWT 指標是毫無意義的。另一個重要指標,稱為前向遷移(FWT),用于衡量學習任務 t = j 對未來任務 t = i(i > j)性能的影響(圖3)。FWT 指標值越大越好。我們采用最廣泛使用的 FWT 定義(Lopez-Paz & Ranzato, 2017b),該定義將學習任務 t = j - 1 對未來任務 t = j 的影響,與在任務 t = j 上隨機初始化后的性能 Aj 進行比較:
![]()
![]()
公式 (3) 中求和的索引從任務 t = 2 開始,因為在第一個任務上評估前向遷移(FWT)指標是毫無意義的。較大的 FWT 值表示性能更優。
在 (1) 中定義的總體平均準確率也被用于 CIL 和 FSCIL,以評估迄今為止遇到的所有類別的整體分類準確率。由于在連續增量任務的演進過程中持續監控分類準確率的變化至關重要,而不僅僅是在最終任務之后,在 CIL 設定中,還采用了另一種平均準確率指標(Wang 等, 2023a; Zhou 等, 2023),以便追蹤平均準確率的歷史變化。這被稱為平均增量準確率(average incremental accuracy),記為 AIA,其計算方式如下:
![]()
![]()
![]()
![]()
2.2 基于貝葉斯推理的持續學習
![]()
![]()
![]()
![]()
![]()
![]()
![]()
- 相關范式
鑒于存在一些機器學習范式,其表象上可能與持續學習相似,因此強調這些范式與持續學習在特性上的細微差別至關重要。在本節中,我們簡要描述這些密切相關范式,并總結它們與持續學習的主要區別(圖4)。
![]()
![]()
領域泛化(Domain Generalization, DG)。在 DG 中,學習者以若干不同但相關的領域作為輸入,目標是學習如何泛化至一個未見過的測試領域。領域泛化亦被稱為分布外泛化(out-of-distribution generalization)。與 DA 類似,在 DG 中,訓練數據與測試數據滿足獨立同分布(i.i.d.)的假設同樣不成立。但與 DA 不同的是,DG 學習者在訓練階段既無法訪問測試領域的任何數據(無論有標簽或無標簽),也無法獲得關于該測試領域的任何信息。與 DA 和 TL 類似,DG 僅關注前向遷移(forward transfer)視角,完全不考慮知識保留或遺忘問題,因其性能僅依據測試領域進行評估。
多任務學習(Multi-Task Learning, MTL)。MTL 模型的訓練過程基于一組多個相關(但并不相同)的訓練任務。多任務學習者的核心目標是同時聯合學習所有訓練任務,以優化模型在每一項訓練任務上的表現。換言之,MTL 模型并不旨在泛化至其他(未見過的)任務;其訓練與測試均在同一組任務上進行。
元學習(Meta-Learning)。元學習亦被稱為“學會學習”(learning to learn),因其向學習者提供大量不同但相關的學習任務,而其核心目標是學習一個具有良好泛化能力的學習算法(即“學會如何學習”),該算法經優化后可用于在元訓練階段未見過的其他任務——這些任務被稱為測試任務(test tasks)。在元訓練完成后,元學習者通常被允許訪問每個測試任務中的少量有標簽訓練樣本。與持續學習不同,元學習以離線方式進行訓練:在元訓練開始前,所有訓練任務即已一次性全部提供給學習者。此外,元學習不考慮災難性遺忘問題,因為元學習者的性能僅依據其在測試任務上的表現進行評估。
- 方法本節將介紹具有代表性的貝葉斯持續學習算法,提出相應的分類體系,并概述該分類中各類算法的核心特征。
4.1 基于正則化的方法
該類別中的持續學習(CL)算法采用基于正則化的訓練策略,旨在對參數更新機制進行調控,以應對任務的序列式到達。簡而言之,那些對預測結果具有重大影響的參數將被加以保護,避免發生劇烈變動;而其余參數則被賦予更大的更新自由度。其基本前提是:通過該策略進行參數更新,有望在適應新任務與緩解災難性遺忘之間取得平衡(Li & Hoiem, 2016;Kirkpatrick 等, 2017;Zenke 等, 2017;Zeno 等, 2018;Nguyen 等, 2018;Adel 等, 2020)。
![]()
基于精確貝葉斯推理構建貝葉斯持續學習(CL)模型是難以實現的,尤其考慮到絕大多數持續學習器均采用深度神經網絡建模。這正是近似推理在貝葉斯 CL 框架中通常成為必要手段的主要原因。
4.1.1 最大后驗估計(MAP Estimation)
在基于正則化的貝葉斯 CL 中,一種常見策略是將神經網絡內的推理建立在正則化的最大似然估計(regularized maximum likelihood estimation)基礎之上,通常得到如下形式的目標函數:
![]()
![]()
![]()
在第一個任務(t = 1)時,Σ?1??? = Σ?1? 的值通過高斯先驗的協方差進行初始化。通常采用對角拉普拉斯傳播(Diagonal Laplace propagation),即僅保留 Σ?1? 的對角項,因為否則計算似然函數的完整海森矩陣在計算上將是不可行的。
![]()
突觸智能(Synaptic Intelligence, SI)。在該算法中(Zenke 等, 2017),前述公式 (9) 中的矩陣 是依據各參數在每個任務中的重要性進行計算的。重要性度量基于各參數對全局損失變化的相應貢獻進行量化;最終,越重要的參數被賦予越小的變化自由度。從宏觀層面來看,這與 EWC 算法頗為相似——即對于被認為最具影響力的參數,在遭遇新任務時施加更強的約束以限制其變化。然而,其核心區別在于:參數重要性估計是與任務學習過程同步進行的,因而無需像 EWC 那樣單獨近似 Fisher 信息矩陣的對角元。
其他相關算法:
類似工作還包括 Chaudhry 等(2018)提出的 EWC 在線變體,其計算效率更高:該方法為所有任務維護單一的對角 Fisher 矩陣,并借助滑動平均更新該矩陣;滑動平均還有助于降低算法對超參數取值的敏感性。
另一 EWC 的在線版本見于進展與壓縮(Progress & Compress, P&C;Schwarz 等, 2018)算法,旨在解決 EWC 中 Fisher 正則項極易對網絡參數施加過度約束的問題——這最終可能阻礙新任務的學習。此外,作者指出:EWC 中各先前任務的重要性由 Fisher 矩陣任意縮放,這是不理想的;P&C 通過歸一化每個任務的 Fisher 信息矩陣加以解決,從而確保對所有歷史任務一視同仁。
Ritter 等(2018)提出了一種可擴展的拉普拉斯近似方法,其基于分塊對角化與因子分解近似(Martens & Grosse, 2015;Botev 等, 2017)。
Lee 等(2017)提出的算法對貝葉斯神經網絡(BNN)后驗分布的矩進行增量式匹配:即依次將第一個任務訓練所得 BNN 的后驗矩,與第二個任務的對應后驗矩進行匹配,依此類推,隨各新任務依次到達而持續更新。其基礎版本通過取舊 BNN 與新 BNN(即學習新任務后所得參數)參數的平均值實現。然而,增量矩匹配算法所得近似結果高度依賴原始問題的搜索空間特性(Foster & Brintrup, 2023);為取得良好性能,需滿足搜索空間光滑且近似凸性的前提條件。
Ebrahimi 等(2020)依據網絡權重概率分布中估計的不確定性水平,動態調整學習率。
受信息論思想啟發,分類器投影正則化(Classifier-Projection Regularization, CPR;Cha 等, 2021)算法將分類器輸出所給出的條件概率投影至均勻分布,據稱可最終提升持續學習性能。
Kao 等(2021)則通過權重正則化與梯度投影相結合的方式應對災難性遺忘:即將新任務的梯度投影至不與先前任務梯度發生干擾的子空間中。
4.1.2 變分推斷方法
![]()
![]()
![]()
![]()
公式 (13) 右側第一項是持續學習(CL)模型在當前任務 t t 數據集上的期望對數似然;第二項旨在懲罰當前近似后驗分布與其在前一任務中對應分布之間的差異。然而,整個 (13) 中的下界表達式在持續學習中無法以閉式計算。因此,對該變分目標的梯度計算通常需結合局部重參數化技巧(local reparameterization trick)與簡單的蒙特卡洛采樣方法(Salimans & Knowles, 2013;Kingma & Welling, 2014;Kingma 等, 2015;Nguyen 等, 2018)。
與采用 MAP 估計的方法(如 EWC 和 SI)不同,VCL 所需在驗證集上調節的自由超參數更少。這一特性在在線場景中尤為有利,因為過多的自由參數及其對應的驗證集可能帶來顯著負擔(Nguyen 等, 2018)。
其他相關算法:
其他基于變分推斷的算法包括 Joseph 與 Balasubramanian(2020)的工作:其為每個任務訓練一個模型集成,并從中學習網絡權重的任務特異性元分布,進而將該集成用作一個任務條件變分自編碼器(task-conditioned VAE;Kingma & Welling, 2014;Kingma 等, 2014)的訓練集;每個任務的 VAE 均以其對應的任務特異性先驗為條件。
Egorov 等(2021)也在持續學習背景下應用了 VAE:其首先為 CL-VAE 定義一個最優先驗,繼而推斷當前先驗的最優加性擴展(additive expansion),以適配每一個新出現的任務。
Ahn 等(2019)的方法則旨在緩解 EWC 所依賴的 Fisher 信息矩陣與 VCL 所依賴的變分推斷(其中每個權重參數至少關聯一個方差項)帶來的過高內存開銷;其策略是將可學習的方差項與神經網絡的隱藏單元關聯,而非與網絡權重參數本身關聯。
Chen 等(2019)指出,自然梯度法(natural gradient methods;Pascanu & Bengio, 2014)可能優于傳統梯度下降,因為前者在黎曼空間(而非歐幾里得空間)中給出了最陡下降方向——這意味著自然梯度傾向于在參數分布意義上實現更小的更新步長;而更小的參數變化是更優選擇,因其最終可使持續學習模型對災難性遺忘更具魯棒性。
4.2 基于回放的方法(Replay-based Approach)
該方法依賴于存儲或回放先前任務的數據,從而為模型帶來額外開銷,例如數據存儲、回放操作,以及為選擇(或生成)數據點而進行的優化過程(Titsias 等,2020)。出于安全與/或隱私考慮,實踐中存儲歷史任務數據往往頗具挑戰。另一類方法則通過學習一個生成模型來生成先前任務的數據(Farquhar & Gal,2019),這可在存儲開銷方面有所降低;但其代價是需額外訓練生成模型。下文我們將介紹基于回放的貝葉斯持續學習中最具代表性的算法。
變分生成回放(Variational Generative Replay, VGR)。VGR 算法(Farquhar & Gal, 2019)可視為 VCL 在回放范式下的對應方法。VGR 被提出作為一種以似然為中心(likelihood-focused)的貝葉斯替代方案,與以先驗為中心(prior-focused)的 VCL 形成對比。VGR 并不依賴于先前任務的后驗分布,而是通過持續調整似然項來適配持續學習模型。依據 Farquhar 與 Gal(2019)所建立的術語,VCL 被歸類為“先驗中心式”,因其在新任務到來時,始終將舊后驗直接作為新先驗處理;而 VGR 則昂貴得多,主要因其需在每個任務上利用對應訓練數據訓練一個生成對抗網絡(GAN;Goodfellow 等, 2014b;Goodfellow, 2016),且需保存所有先前任務的 GAN,并從中采樣以生成用于后續任務的回放數據。
![]()
為在貝葉斯框架下刻畫這一行為,標準的證據下界(ELBO)被擴展,以納入多個先前數據集(即屬于舊任務的數據)的影響:
![]()
![]()
![]()
![]()
核心集 VCL(Coreset VCL)。VCL 的核心集版本(Nguyen 等, 2018)旨在解決前述標準 VCL 存在的問題:即在后續任務中反復進行近似可能導致算法越來越容易發生災難性遺忘。核心集版本的 VCL 通過存儲每個先前任務的一部分數據子集,并在學習未來任務時回放這些子集來緩解此問題。因此,從每個先前任務中選取的舊數據子集(稱為“核心集”)被用來刷新 VCL 模型對舊任務的記憶,從而潛在地降低災難性遺忘的風險。顯然,這需要付出持續選擇、存儲和回放核心集所帶來的計算與存儲代價。
![]()
![]()
![]()
![]()
![]()
基于高斯過程的持續學習函數正則化方法(Functional Regularization for Continual Learning using Gaussian Processes, FRCL)。FRCL 算法(Titsias 等, 2020)將其貝葉斯推理建立在函數空間之上,而非深度神經網絡的參數空間。其通過將神經網絡最后一層的權重視為高斯分布,從而獲得一個高斯過程(Gaussian Process),并在該底層函數空間中記憶近似的后驗信念。
![]()
其中核函數由共享表示 ? ? 的點積定義。
記憶功能通過誘導點(inducing points)實現,這些誘導點由一個稀疏高斯過程(sparse Gaussian Process, GP)構建而成。誘導點指從每個任務數據中選出的一個固定大小子集,其選取目標是能最優地表征該任務。隨后,這些子集通過類似于公式 (13) 中 VCL 形式的 KL 散度項,對后續任務的學習過程進行正則化——但此時正則化基于的是誘導點而非原始參數。
因此,FRCL 算法既可視為基于回放的方法,也可視為基于正則化的方法。相應地,其需承擔為獲得誘導點而進行稀疏 GP 優化所帶來的計算開銷;此外,還存在可擴展性問題:誘導點不僅需為每個任務單獨優化,還需予以存儲。
FRCL 算法(Titsias 等, 2020)也為后續相關方法奠定了基礎,例如(Pan 等, 2020;Rudner 等, 2022)。Pan 等(2020)采用拉普拉斯近似,并通過強制核函數使用神經網絡的全部權重(而非僅最后一層)來構建高斯過程。Rudner 等(2022)則未采用拉普拉斯近似,而是直接通過變分推斷優化方差參數。
其他相關算法:其他基于高斯過程的持續學習算法包括變分自回歸高斯過程(VAR-GPs;Kapoor 等, 2021),其結合自回歸變分分布與誘導點來記憶舊任務。
Kurle 等(2020)則結合兩類記憶:一是對舊任務原始數據的補充性記憶,二是通過變分后驗以對角高斯分布近似貝葉斯神經網絡(BNN)權重。
Sun 等(2022)引入了一種基于信息論準則的在線記憶選擇機制。
其他基于回放的范例還包括:
- Borsos 等(2020)的工作:通過基數約束的雙層優化構建概括舊任務的核心集(coreset),并采用基于加權數據摘要的貪心前向選擇求解該問題;
- Lyu 等(2023)的工作:采用概率策略調整任務間權重,以適配批歸一化(batch normalization),并結合記憶緩沖區使用;其基本假設是:對于某一層,每個批次的統計量服從一個概率分布,其隨機性源于神經網絡參數的取值;
- Ye 與 Bors(2022a)提出的基于 VAE 的記憶緩沖方法:包含一個持續存儲近期樣本的短期記憶(STM),以及一個旨在維持所有已存樣本廣泛多樣性的長期記憶(LTM);部分樣本可根據信息多樣性選擇準則從 STM 轉移至 LTM;
- Henning 等(2021)學習一個共享的元分布,回放所有先前任務特異性后驗的參數,但其局限在于帶來顯著的計算開銷。
4.3 基于架構的方法(Architecture-based Approach)
該方法的核心目標是:通過將模型架構劃分為兩類組件,來調控穩定性與適應性之間的權衡:
i)全局性組件(global parts)——可在各任務間復用,且隨任務演進而較少變化;
ii)任務特異性組件(task-specific parts)——專用于處理特定任務。
此類增量式結構學習(incremental structure learning)方法用于持續學習(CL)的一大優勢在于:其可通過為各任務分配專屬參數,提升模型在對應任務上的性能,同時不影響其他任務——因為其余任務由受控共享參數所保護,從而有效緩解災難性遺忘。
另一方面,當持續學習任務數量龐大時,該方法可能面臨可擴展性挑戰:模型架構的潛在指數級擴張可能帶來難以承受的計算與存儲開銷。
自適應權重持續學習(Continual Learning with Adaptive Weights, CLAW)。
這是另一種基于 VCL 的算法,但具備自動架構適應能力(Adel 等, 2020)。
區別于傳統多任務學習中固定劃分的剛性架構(底層為共享組件、頂層為任務專屬組件),CLAW 采用一種靈活的數據驅動方法(基于變分推斷),自適應地判定網絡中哪些部分應被共享,從而在緩解災難性遺忘與提升任務間知識遷移之間取得優化平衡。
在涉及異構任務的持續學習場景中,CLAW 的數據驅動策略能有效確定任務間合適的共享程度:其通過自動化架構適配過程實現——對每個隱藏神經元,或保持其不變(即作為全局神經元),或針對每個新任務進行局部適配。后一路徑(局部適配)通過靈活學習適配參數的變化范圍來實現:對每個神經元額外引入共三個參數:
- 一個二元參數,用于學習該神經元是否需要適配;
- 另外兩個參數,用于控制適配幅度——即適配程度本身亦被學習。
所有參數均通過變分推斷聯合優化。
CLAW 的另一優勢在于:整個過程中架構本身無顯著擴張(不新增神經元),且無需存儲或生成歷史任務數據。
印度自助餐神經網絡(Indian Buffet Neural Networks)。
Kessler 等(2021)在貝葉斯神經網絡(BNN)結構上施加了印度自助餐過程(Indian Buffet Process, IBP)先驗,從而構建出一種可根據所遇數據量動態調整自身復雜度的模型。該基于 IBP 的持續學習模型采用在線變分推斷,并通過對伯努利分布與貝塔分布進行重參數化來構建 IBP 先驗。
具體而言,IBP 先驗(Griffiths & Ghahramani, 2011)被賦予一個無限維二元隱變量矩陣Z Z 上。這使得模型可對每層所需隱藏單元(即神經元)數量進行推斷。隨后,BNN 的權重被視為從互不耦合的高斯分布(Blundell 等, 2015)中獨立抽取的隨機樣本,并以類似 VCL 的方式迭代執行變分貝葉斯更新。
![]()
少數其他貝葉斯持續學習算法也屬于架構驅動型。另一個例子見于 Wang 等(2021),該方法在學習每個新任務時動態擴展參數,然后有選擇地合并這些擴展后的參數。作者認為,該方法與生物主動遺忘的底層機制一致。另一個使用 IBP 先驗的持續學習算法例子見于 Mehta 等(2021),該算法基于斷棒公式,采用一種貝葉斯非參數方法;其 IBP 先驗與神經網絡權重矩陣的因子分解相結合,從而允許因子復用,進而實現不同任務間的正向知識遷移。
4.4 類增量學習(Class-Incremental Learning, CIL)
與任務增量學習設定不同,目前極少有類增量學習(CIL)算法將其在線更新機制建立在貝葉斯推理和/或貝葉斯學習思想之上。需要特別強調的是:本文所稱的貝葉斯持續學習(Bayesian CL),主要指在持續學習框架所需的在線更新過程中采納貝葉斯方法——例如在 VCL 中,將舊后驗作為新先驗,等等。換言之,我們不將那些僅對每個任務獨立地應用貝葉斯分類器,卻未對底層持續學習模型參數θ θ 的情形納入“貝葉斯 CL”范疇。
基于潛變量模型的少樣本類增量學習適應方法(Class-Incremental Adaptation via Latent variable Models, CIAM)
因此,嚴格依據上述定義,Adel(2025)所提出的少樣本類增量學習(FSCIL)算法,迄今可被視為文獻中唯一的貝葉斯 CIL 算法。相較于標準 CIL 設定,FSCIL 引入了額外的難度層級:絕大多數類別的訓練數據極為稀缺——即首個任務中的類別擁有相對充足的數據,而后續所有任務(即第二個任務及之后)中的類別則僅有少量樣本。除災難性遺忘風險外,此類數據稀缺性還會加劇 FSCIL 中的其他問題,如類別偏差(bias)與過擬合。
CIAM 算法通過一種專為緩解 FSCIL 中偏差與災難性遺忘而定制的變分自編碼器(VAE),構建了一個潛變量模型,并據此調整少樣本類別的表征(即首個任務之后所有任務中的類別),使其與相關歷史知識達成平衡。在學習少樣本類別時,該算法利用了 Adel(2025)所引入 VAE 的推斷共享(amortization)特性——不僅適配當前的少樣本類別,同時也對先前相關類別進行協同調整。
以下我們將介紹兩種較為接近貝葉斯 CIL 算法(但仍非嚴格意義上的貝葉斯 CIL):
高斯過程樹(Gaussian Process Tree)
高斯過程(GPs)的推理在計算上頗具挑戰性,尤其面對大規模數據集時;而在 CIL 設定下,此類挑戰進一步加劇。Achituve 等(2021)通過引入一種基于樹狀層次化 GP 模型的多類分類方法來應對該問題:在該樹結構中,每個內部節點均利用Polya-Gamma 擴增方案(Polson 等, 2013)為數據擬合一個 GP。依據前述針對任務增量學習的分類體系,該算法可歸類為基于回放的方法,因其使用了充當先前任務訓練數據代理的誘導點。
在本工作之前,前述的 Polya-Gamma 擴增方案通過將高斯過程(GP)后驗分布條件化于一個擴增的 Polya-Gamma 變量上,實現了二分類任務的推理。Achituve 等(2021)的工作將此方法擴展至多類 CIL 分類。他們的解決方案基于一個樹狀模型:其中每個節點利用一個 GP 映射到一個二分類任務,并從每一個先前任務中引入誘導點。盡管由二分類 GP 構成的樹結構確實構成了一個 CIL 框架,但隨著類別數量增多,最終層級分類器所涉及的二分類器數量、每個 GP(即每個節點)所需的優化以及與整棵樹相關的整體優化,其計算復雜度會變得極其龐大,最終導致嚴重的計算負擔。
![]()
- 與發展心理學的關聯
人類在持續學習方面遠比機器更擅長。與機器不同,(健康的)人類幾乎不會僅僅因為獲取了更新的信息,便遺忘過去習得的重要知識。換言之,諸如災難性遺忘以及穩定性–可塑性權衡等問題,在人腦中能被本能且高效地加以應對(Finn 等, 2017;Rostami 等, 2020)。
此前已有研究嘗試探討人類在持續學習方面無可爭議的優越性(Hadsell 等, 2020;McCaffary, 2021),但此類探索大多僅聚焦于神經科學視角。本文提供了一個嶄新的視角——基于發展心理學,旨在通過對記憶、遺忘,以及人類一生中持續適應不同情境的非凡能力等相關概念的分析,為持續學習(CL)研究獲得更深層次的洞見。
發展心理學關注人類在其整個生命周期中(Grotuss 等, 2007;Greenfield, 2009),如何適應各類變化(如認知、社會、情感與智力等層面的變化)。盡管人類所面臨的持續學習挑戰比機器更為復雜——個體生命歷程中發生的變化涵蓋多種范圍與性質(如認知、人格等)——人類適應此類艱巨變化的能力仍遠超當前機器。這正是發展心理學視角對持續學習研究具有啟發意義的核心原因之一。
5.1 人類與機器持續學習方式的相似之處
人類與機器在持續學習能力上存在為數不多的相似點之一是:隨著所遇任務數量持續增加,二者的持續學習能力均呈下降趨勢。盡管人類在持續學習方面具有顯著優勢,但隨年齡增長,其學習、記憶及適應動態環境的能力亦會減弱;同時,人類的可塑性水平亦隨年齡增長而呈現一致性的下降趨勢(Hensch, 2004)。年齡增長必然意味著個體經歷了更多任務——既需獲取新知識,又需維系過往多年所積累的知識。這與機器的情形相仿:隨著任務數量增多,機器亦更易陷入災難性遺忘,并表現出可塑性水平下降的現象。
另一相似之處體現為兒童發展中的“支架式支持”(scaffolding;Margolis, 2020)。當兒童面臨一項新任務(在維果茨基理論中稱之為“最近發展區”,zone of proximal development),成人會通過引導,幫助兒童在既有知識基礎上建構新技能,最終使其成功完成該任務。因此我們推測:“支架”可被視為人類實現正向遷移(在 CL 術語中)的一種方式,亦即在不損害既有知識的前提下,促進對新信息的適應。
5.2 穩定性–可塑性權衡與發展心理學的關聯
在發展心理學中,“認知靈活性”指個體根據情境或需求變化,調整自身思維與行為的能力,通常涉及在不同任務或概念之間切換(Ca?as 等, 2006);而“認知穩定性”則指個體在面對干擾(尤其是競爭性任務或環境變化)時,持續專注于當前任務的能力(Ca?as 等, 2006)。
發展心理學中若干(但非全部)學派持有一種觀點:認知靈活性的提升可能以犧牲認知穩定性為代價(Ca?as 等, 2003);反之亦然——穩定性增強可能削弱靈活性。據此觀點,發展心理學中的穩定性–靈活性權衡可被理解為一個連續譜系,其兩端分別為:
? 一端是極度靈活但難以長時間專注單一任務的個體;
? 另一端是能高度專注單一任務,卻難以在任務完成前應對突發變化的個體。
因此,該學派將發展心理學中的穩定性–靈活性權衡,概念化為與持續學習中“穩定性–可塑性權衡”高度等價的框架:二者均體現為兩個相互競爭、存在潛在張力的目標,提升其一往往需削弱其二——換言之,無法同時實現二者最優。發展心理學中支持此觀點的主要理論是“控制困境理論”(control dilemma theory;Qiao 等, 2023),該理論指出認知穩定性與靈活性之間存在互斥關系,并強調達成某一目標常需犧牲另一目標。
然而必須指出:發展心理學領域與持續學習領域存在一項關鍵差異——前者內部存在另一重要學派,主張認知穩定性與靈活性可被獨立調控(Egner, 2023)。依據此觀點,個體未必需要在“專注當前任務”與“切換至新任務”之間進行權衡;其原因包括:
- 個體差異性(人類特有,機器則無):某些人天生具備在任務切換過程中保持專注且不降低任一任務表現的能力;這類個體在需要頻繁切換與適應的環境中反而表現更優。此時,穩定性與靈活性之間的權衡并非實現最優表現的必要條件——換言之,與機器不同,人類有可能同時兼具穩定性與靈活性(Geddert & Egner, 2022)。
- 人類大腦具備智能的情境自適應能力:即在某些情境下保持靈活,在其他情境中則保持穩定。這意味著人類擁有所謂“情境適應”(contextual adaptation;Sigi-Liu & Egner, 2020)能力,可根據具體情境動態優先選擇穩定性或靈活性中的一項。通俗而言,人類天生具備一種策略性優先化能力:為達成特定情境下的最優結果,可自主選擇側重穩定性或靈活性,而無需在二者間制造張力。
- 例如:外科醫生在進行精細手術時,會本能地優先穩定性(保持手部穩定與注意力集中),直至手術完成;
- 又如:個體可能主動選擇遺忘某些信息——當確信其未來不再相關時。例如,若過去習得的某知識與當下確信為真的新知識相沖突,大腦更可能主動遺忘舊的(錯誤)知識。
- 遺忘對人類而言可能具有積極意義(機器則無):遺忘在人類知識精煉過程中發揮著基礎性作用(Martínez-Plumed 等, 2015)。這種“有益遺忘”機制進一步削弱了穩定性與靈活性之間必然存在權衡的假設。
綜上,發展心理學揭示:人類的認知調控遠比當前持續學習模型所假設的“剛性權衡”更為動態、靈活且具情境依賴性——這為構建更類人、更具適應性的持續學習系統提供了重要啟示。
5.3 遺忘
在發展心理學中,共有五種廣為接受的遺忘理論(Brainerd 等, 1990;Mcleod, 2023)。本文聚焦于其中可與持續學習(CL)建立類比關系的理論。
最引人注目的類比可通過五種理論之一——“干擾遺忘理論”(interference theory of forgetting)加以闡釋。根據該理論,新信息會中斷對先前知識的提取。例如,一個人可能在周五記不起周日早餐吃了什么,原因是在此期間攝入了大量其他餐食(Brainerd 等, 1990)。在此背景下,兩個相互對立的概念——“逆向干擾”(retroactive interference)與“前向干擾”(proactive interference)——與這一遺忘解釋緊密相關。
如圖5所示,逆向干擾發生在新記憶破壞舊記憶時,如同上述早餐的例子。相反,前向干擾指舊記憶干擾新記憶的現象(即方向相反)(Ebert & Anderson, 2009)。我們在圖6中通過一個實例說明這兩種現象:某人過去曾學習意大利語,目前正在學習法語。在此情形下:
![]()
![]()
- 逆向干擾表現為:由于近期學習法語的經歷,該個體在回憶意大利語詞匯時遇到困難;
- 前向干擾則表現為:當該個體試圖講法語時,卻發現其先前掌握的意大利語知識干擾了法語表達。
人們認為,前向干擾與逆向干擾現象更易發生在相似的記憶內容之間(類似于前述拉丁語系語言的例子)。例如,舊電話號碼與新電話號碼彼此干擾的可能性,遠高于它們與其他存儲在記憶中的數字(如公寓號碼等)之間的干擾。同樣,同時學習相似學科的學生比學習不同學科的學生更容易遭遇干擾(Chandler, 1991)。
當前持續學習(CL)的研究方向與遺忘的取代理論(displacement theory of forgetting)頗為相似。CL 領域的主流趨勢圍繞著通過“穩定性–可塑性權衡”來平衡遺忘與可塑性展開;同樣,取代理論將遺忘強烈關聯于短時記憶——其存儲容量有限,僅能維持少量信息。因此,該理論聚焦于如下問題:在固定容量的短時記憶中,哪些信息得以保留?在容量受限條件下,個體又該如何分配注意力,以留存關鍵知識?
與之相反,提取失敗理論(retrieval theory of forgetting)對遺忘給出了截然不同的解釋。該理論認為,信息的遺忘并不必然意味著其已徹底丟失;遺忘也可能源于個體無法從(長時)記憶中成功提取該信息(Spear, 1971)。換言之,信息仍存儲于長時記憶之中(即未被真正抹除),但個體在特定時刻未能成功調取。一個常見例子是:某人在對話中一時想不起某個詞,卻有強烈的“話到嘴邊”之感;數小時后,該詞卻又能被順利回憶起。由此可見,此前未能提取的知識并未真正丟失——這純粹是一次提取失敗。
這種對遺忘的“提取失敗”式理解,與當前 CL 研究的主流方向幾乎無法建立關聯。
- 本節旨在簡要總結本文所呈現的部分核心思想,一方面梳理當前貝葉斯持續學習(BCL)面臨的主要挑戰,另一方面提出我們認為未來研究中值得探索的潛在方向。
6.1 主要挑戰
我們首先討論阻礙 BCL 進一步發展的若干關鍵挑戰。
6.1.1 災難性遺忘
該問題不僅是 BCL,更是整個持續學習(CL)范式中的核心挑戰。BCL 模型必須具備足夠穩定性,以確保新近任務所習得的知識不會過度覆蓋過往任務中獲得的舊知識;同時,模型還需在保留舊知識所需的穩定性與吸納新知識所需的可塑性之間取得平衡。本文已系統梳理了不同 BCL 算法用以應對災難性遺忘的多種機制,此處僅作總結性歸納:
各類 BCL 方法均旨在提供一種緩解災難性遺忘的途徑。例如,在基于正則化的方法中,通過保護那些預計對大多數先前任務預測過程具有重大影響的參數免受劇烈變動,而允許其余參數更自由地更新,從而減輕遺忘。值得注意的是,得益于其天然的不確定性量化能力,貝葉斯 CL 算法在估計哪些參數更具影響力方面,相較非貝葉斯 CL 算法更具優勢。
如前所述,BCL 中的精確推理不可行,因而各類算法均依賴近似推理——而這通常涉及在后續 CL 任務中反復進行近似操作。基于回放的方法試圖通過存儲或生成每個歷史任務的部分舊數據子集,以刷新模型記憶,從而緩解由此引發的災難性遺忘風險。盡管該策略行之有效,卻引入了額外的存儲與計算負擔(源于舊數據的存儲和/或回放)。
基于架構的方法則通過(剛性地)將模型架構劃分為兩部分——受保護、避免劇烈變動的共享組件,以及允許更自由更新的任務特異組件——為平衡新舊知識提供了結構性解決方案。此類標準架構方法的弊端在于:面對大量任務時,架構擴張可能引發可擴展性問題;此外,其剛性劃分未考慮任務間的異質性程度——例如,若預設的共享部分過大,即便與新任務高度差異化的舊任務仍可能被遺忘。
另一種應對災難性遺忘的思路,是通過調節學習率以控制模型所需捕獲的適應程度,從而平衡穩定性與可塑性(Pham 等, 2021)。類似地,Ebrahimi 等(2020)依據神經網絡權重概率分布中估計的不確定性水平,逐任務動態調整學習率。
6.1.2 任務干擾
持續學習(CL)依賴于任務間知識的遷移。當任務足夠相似、所遷移的知識確實有用時,此類知識遷移可帶來益處,即所謂的正向遷移(positive transfer);反之,若在不相似任務間共享知識,則可能引發不良干擾(undesirable interference),進而導致負向遷移(negative transfer)。
正則化類 BCL 方法(Kirkpatrick 等, 2017;Nguyen 等, 2018;Loo 等, 2021)可對“哪些參數應被保護以避免劇烈變動”提供不確定性估計,這在區分可遷移知識與不可遷移知識方面可發揮關鍵作用。
此外,基于架構的方法(Adel 等, 2020;Kessler 等, 2021)所采用的任務特異組件與共享組件之劃分,亦有助于緩解任務干擾:由于各任務專屬的知識主要由架構中的任務特異部分承載并加以保護,從而降低了任務間干擾風險,并在穩定性與可塑性之間達成更優平衡。
6.1.3 可擴展性
貝葉斯方法通常帶來顯著的計算開銷,因其需在每個新任務到來時連續地近似后驗分布。貝葉斯持續學習方法在處理高維數據時亦可能面臨可擴展性困境:對神經網絡每個權重逐一更新后驗分布的復雜性急劇上升。例如,在 EWC 算法(Kirkpatrick 等, 2017)中,后驗更新依賴于計算 Fisher 信息矩陣——這一操作計算成本極高。該問題已為貝葉斯持續學習(BCL)學界所公認,學界亦已提出若干應對變體,如計算效率更高的 EWC 在線版本(Chaudhry 等, 2018)。可擴展性問題還與以下兩點緊密相關:其一,對持續學習問題而言,精確貝葉斯推理通常不可行;其二,更高保真度的后驗近似往往比粗糙近似更具計算負擔。
6.1.4 貝葉斯類增量學習算法的匱乏
如前所述,除 Adel(2025)提出的貝葉斯少樣本類增量學習(FSCIL)算法外,目前類增量學習(CIL)算法幾乎未從貝葉斯范式中獲益。以貝葉斯后驗更新為基礎構建增量學習過程的 CIL 算法嚴重不足。造成貝葉斯 CIL 研究滯后的主因之一在于:CIL 的難度顯著高于任務增量學習(TIL)。除 TIL 中已存在的后驗近似需求外,CIL 測試階段任務標識不可用,引入了額外挑戰——例如需無差別地區分所有已遇類別(無論其所屬任務)。因此,前述諸多挑戰(尤其是計算開銷與可擴展性問題)在 CIL 中更為嚴峻。
6.1.5 無任務持續學習(Task-Free Continual Learning)
現有文獻中絕大多數 CL 算法(包括 TIL 與 CIL)均假設任務間存在預定義的硬性邊界(即任務感知型 CL)。此類邊界使訓練過程可被劃分為對應各任務的階段,對鞏固各任務學習至關重要:清晰邊界是多項關鍵決策的基礎,例如為避免災難性遺忘,應保留哪些歷史任務的信息;又如,在任務內對數據重排(因任務內數據滿足條件獨立同分布假設)。
相比之下,更富挑戰性但也更貼近現實的無任務持續學習(task-free CL;Zeno 等, 2018;Aljundi 等, 2019;Lee 等, 2020;Jin 等, 2021;Pourcel 等, 2022;Wang 等, 2022;Ye & Bors, 2022b, 2023;Adel, 2024;Ye & Bors, 2025)設定,假設數據分布漸進式變化,要求以流式方式處理數據,且無明確任務劃分概念——即無法獲知各任務數據的起止位置,任務間亦無硬性邊界。多數貝葉斯 CL 方法依賴任務標識(至少在訓練階段),而無任務設定下任務邊界(及標識)在訓練與測試階段均不可得,這對貝葉斯方法(尤其是參數化貝葉斯方法)構成了另一重挑戰。
盡管如此,Lee 等(2020)的工作已嘗試為無任務 CL 提供貝葉斯解決方案:其采用基于架構的策略,通過混合專家模型(MoE;Jacobs 等, 1991)動態擴展模型架構以適應新數據;每個專家負責數據流中的一部分。該工作將 MoE 建模為狄利克雷過程混合模型(DPM;Antoniak, 1974;Ferguson, 1983),并采用變分推斷近似 DPM 后驗。
6.2 潛在未來研究方向
6.2.1 構建更具可擴展性的貝葉斯 CL 算法
可擴展性問題是貝葉斯持續學習中的突出瓶頸。宏觀而言,當任務數量激增時,BCL 算法越來越難以通過后驗近似實現穩定性–可塑性權衡的均衡處理。預先剛性指定所有關鍵建模選擇的 BCL 算法對此類問題尤為敏感。為此,自適應貝葉斯持續學習(adaptive BCL)提供了一條替代路徑:允許關鍵決策以數據驅動方式靈活制定。我們推測(亦有前期工作佐證),自適應 BCL 對提升貝葉斯 CL 的可擴展性至關重要。
在基于架構的方法中,可擴展性挑戰尤為顯著:當中等至大規模任務數量出現時,模型架構擴張將變得不可承受。一種頗具前景的應對方向是:以數據驅動方式自適應確定任務間共享程度。前述 CLAW 算法(Adel 等, 2020)即在此方向上具有開創性——它僅通過為每個神經元增加三個參數,即可實現架構的自動數據驅動適配,且不新增任何神經元或層,從而有望構建更可擴展的架構自適應型 BCL 算法,在緩解災難性遺忘與提升任務遷移之間實現動態優化。拓展 CLAW 的思想是未來研究中極具吸引力的方向:其自適應理念可經修改后推廣至其他 BCL 范式(如基于回放的方法)。
另一例證是 Ahn 等(2019)的工作:正則化 BCL 的內存需求極為高昂(如 MAP 估計中的 Fisher 矩陣、VCL 中每個權重對應的方差項)。該工作通過約束同一隱藏單元的所有權重共享單一可學習方差,將方差參數與隱藏單元而非權重本身關聯,顯著降低了內存需求。我們推測,此思想可推廣至其他場景——關鍵在于平衡“約束可學習參數”與“后驗近似保真度潛在損失”之間的權衡。
6.2.2 知識遷移的均衡調控
如第 6.1.2 節所述,CL 中的知識遷移可帶來正向或負向效果。理論上,基于架構的方法可通過任務特異組件保護專屬知識,從而緩解干擾。然而,在任務適應與(緩解)任務干擾間取得恰當平衡仍是核心挑戰,尤其當架構的共享/任務特異組件為預先設定時。Adel(2024)提出的(非貝葉斯)算法為此提供了一種思路:通過評估當前任務與歷史任務的相似性,自適應調整 CL 架構,并在共享與任務特異組件間引入一個自適應層,以數據驅動方式平衡任務適應與干擾抑制。基于相同理念構建貝葉斯解決方案,是應對 BCL 中任務干擾問題的極具前景的方向。
6.2.3 貝葉斯類增量學習
我們已強調當前貝葉斯 CIL 算法的嚴重匱乏。嚴格依據本文定義,Adel(2025)所提算法目前仍是文獻中唯一的貝葉斯 CIL 與貝葉斯 FSCIL 原型。盡管挑戰復雜,貝葉斯方法亦可為 CIL 中的突出問題提供新思路:例如,基于貝葉斯范式內在的不確定性量化能力,可設計模型以動態權衡——哪些信息應被捕捉(用于學習新類),哪些歷史信息子集應被保留(用于維持舊類記憶)。此類基于貝葉斯不確定性的均衡策略,有望緩解當前多數 CIL 算法面臨的過擬合這一關鍵難題。
6.2.4 發展心理學的啟發
第 5 節已討論持續學習與發展心理學的類比。此處聚焦幾點可能為 BCL 研究提供新方向的啟示:
情境適應性(contextual adaptation):人類天生具備根據情境需求,策略性優先選擇穩定性或靈活性的能力。這為 BCL 算法提供了新靈感——當前多數 CL 算法采用固定策略處理穩定性–可塑性權衡;而情境自適應框架可使權衡策略本身具備適應性,根據具體任務動態偏向穩定性或可塑性。一種實現途徑是:自動化選擇控制穩定性/可塑性水平的關鍵超參數,使其值可通過數據驅動方式學習。
尤為關鍵的是,發展心理學五大遺忘理論之一的提取失敗理論(retrieval failure theory),可為 BCL 中的遺忘問題提供另一全新視角。
當前持續學習(CL)研究幾乎單一地將算法遺忘現象解釋為相關信息的徹底丟失。而提取失敗理論提供了一種更全面的遺忘解釋:遺忘的另一潛在原因可能是無法訪問所需信息——換言之,所需信息或許并未完全丟失,僅是暫時無法被提取。BCL 研究可從中獲益:例如設計充當高級提取線索(advanced retrieval cues)的機制,以促進信息提取——尤其當任務數量急劇增長時,此類機制將尤為重要。
另一可為 BCL 提供進一步啟發的方向是:構建具有信息量的先驗(informative priors),以引導 BCL 策略促進正向遷移——類似 Schnaus 等(2023)已開展的工作。該方向還可通過借鑒“支架式支持”(scaffolding)理念加以推進:當成年人面對兒童所遇新任務時,會基于自身對任務的理解,引導兒童在既有知識基礎上習得新技能——這本質上是一種高效的正向遷移促進方式。據此,信息性先驗有望替代成年人在支架式支持中所扮演的角色,從而系統性增強正向知識遷移。
- 結論
本文全面綜述了貝葉斯持續學習(Bayesian Continual Learning, BCL)范式的多個方面——其中,貝葉斯推理被用于對模型參數進行在線更新。在 BCL 中,持續學習模型的知識體現為一個關于其參數的概率分布,且該分布持續演化:舊后驗不斷轉化為新先驗,從而以比傳統持續學習方法更穩健、更具適應性的方式,實現新知識的整合與舊知識的保留。
在厘清持續學習、貝葉斯持續學習及相關評估指標的定義之后,我們系統探討了貝葉斯持續學習范式的兩種主要設定:任務增量學習(task-incremental learning)與類增量學習(class-incremental learning);同時考察了持續學習與若干相關范式(如元學習、多任務學習與領域自適應)之間的關聯;繼而提出了一種 BCL 算法的分類體系,并詳述了各類中最具代表性的經典算法;此外,我們首次深入構建了(貝葉斯)持續學習與發展心理學之間的類比——這一關聯此前尚未被系統探討,其引入旨在強調:此類跨學科類比可為貝葉斯持續學習的未來研究方向提供潛在啟發;最后,我們討論了當前最緊迫的挑戰,并提出了若干值得探索的未來研究方向。
原文: https://arxiv.org/pdf/2507.08922
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.