Learning to Continually Learn with the Bayesian Principle
運用貝葉斯原理進行持續學習
https://arxiv.org/pdf/2405.18758
![]()
摘要:
在當前深度學習時代,持續學習(continual learning)研究主要聚焦于:當使用隨機梯度下降(SGD)在非平穩數據流上訓練神經網絡時,如何緩解災難性遺忘(catastrophic forgetting)。另一方面,在更經典的統計機器學習文獻中,許多模型具備序貫貝葉斯更新規則(sequential Bayesian update rules),其學習結果與批量訓練(batch training)完全一致,即它們對災難性遺忘完全免疫。然而,這類模型往往過于簡單,難以建模復雜的現實世界數據。
本文采用元學習(meta-learning)范式,將神經網絡強大的表征能力與簡單統計模型對遺忘的魯棒性相結合。在我們提出的新型元持續學習框架(meta-continual learning framework)中,持續學習僅在統計模型中進行,并通過理想的序貫貝葉斯更新規則實現;而神經網絡則通過元學習被訓練,用以搭建原始數據與統計模型之間的橋梁。由于神經網絡在持續學習過程中保持固定不變,因此免受災難性遺忘的影響。
該方法不僅顯著提升了性能,還展現出優異的可擴展性。由于我們的方法領域無關(domain-agnostic)且模型無關(model-agnostic),因此可廣泛應用于各類問題,并易于與現有模型架構集成。
- 引言持續學習(Continual Learning, CL)——即在獲取新知識或技能的同時不遺忘已有知識——是智能體的一項基本能力。盡管深度學習近期取得了顯著進展,CL 仍是一個重大挑戰。Knoblauch 等人(2020)嚴格證明:一般而言,CL 是一個 NP-難問題。這意味著,只要 P ≠ NP,構建通用的 CL 算法就是不可能的。
為有效應對 CL,首先應限定某一具體領域,并設計一種能充分利用該領域特有結構的、針對性的 CL 算法。即便人類也具備任務特異性的 CL 能力:例如,學習新面孔的能力很強,但在記憶隨機數字等任務上則表現平平。這種特異性源于進化過程——它優化了我們的 CL 能力,以服務于生存與繁衍。
基于這一視角,元持續學習(Meta-Continual Learning, MCL)成為極具前景的研究方向。與僅依賴人類先驗知識手工設計 CL 算法不同,MCL 旨在以數據驅動方式元學習(meta-learn)持續學習能力本身——即“學會如何持續學習”。由此,我們可設計一個通用的 MCL 算法,再通過輸入特定領域的數據,自動生成適配于該領域的專用 CL 算法。MCL 在許多實際場景中更具優勢:它可以在部署 CL 智能體之前,利用大規模數據集預先提升其持續學習能力,而非從零開始學習。
MCL 遵循元學習的標準雙層優化框架:在內層循環(inner loop)中,模型由某一 CL 算法進行持續訓練;在外層循環(outer loop)中,該 CL 算法則跨多個持續學習“任務序列”(episodes)進行優化。盡管隨機梯度下降(SGD)一直是深度學習中的主流學習機制,但這種雙層結構提供了靈活性——它允許我們將神經網絡與根本不同的學習機制相結合。具體而言,我們可在外層循環中僅使用 SGD 對神經網絡進行元訓練,而在內層循環中采用另一種更新規則執行持續學習。
在此背景下,序貫貝葉斯更新(sequential Bayesian update)脫穎而出,成為最富前景的候選機制:它為知識狀態的更新提供了一種理想框架。盡管已有大量 CL 方法受到神經網絡參數后驗分布貝葉斯更新的啟發(如 Kirkpatrick 等,2016;Zenke 等,2017;Chaudhry 等,2018;Nguyen 等,2018;Farquhar & Gal,2019),但它們均需依賴各類近似手段以確保計算可行性,因而偏離了理想貝葉斯更新的本質。
與此不同,我們引入Fisher–Darmois–Koopman–Pitman 定理(Fisher, 1934;Darmois, 1935;Koopman, 1936;Pitman, 1936)指出:指數族分布(exponential family)是唯一一類能實現高效且無損的序貫貝葉斯更新的分布族(詳見 §2.2 更精確描述)。我們不再處理復雜神經網絡后驗的不可解性問題,轉而考慮具備指數族后驗的簡單統計模型的序貫貝葉斯推斷——其結果與批量推斷完全一致。這類模型天生免疫于災難性遺忘,但通常因過于簡單而難以建模復雜、高維的現實數據。幸運的是,MCL 框架允許我們元訓練神經網絡,使其充當現實世界與統計模型之間的橋梁。
我們將“結合簡單統計模型與元學習神經網絡”這一思想提煉為一種通用 MCL 框架,命名為序貫貝葉斯元持續學習(Sequential Bayesian Meta-Continual Learning,SB-MCL)。由于 SB-MCL 是領域無關(domain-agnostic)且模型無關(model-agnostic)的,因此可廣泛適用于各類問題領域,并能以極小改動集成進現有模型架構。SB-MCL 涵蓋了若干先前工作(如 Banayeeanzade 等,2021;Snell 等,2017;Harrison 等,2018)作為其特例,并同時支持監督與無監督學習。
我們在大量基準任務上進行了廣泛實驗,結果表明:SB-MCL 不僅取得了卓越性能,且顯著降低了資源消耗。代碼已開源:https://github.com/soochan-lee/SB-MCL。
2. 背景
2.1 元持續學習
![]()
![]()
2.2 指數族后驗的序貫貝葉斯更新
貝葉斯法則提供了一種基于前一時刻的后驗分布作為當前時刻先驗、從而逐步更新知識的原則性方法,即:(Bishop, 2006; Murphy, 2022)。因此,貝葉斯視角已被廣泛應用于 CL 研究(Kirkpatrick 等人,2016;Zenke 等人,2017;Chaudhry 等人,2018;Nguyen 等人,2018;Farquhar & Gal, 2019)。然而,先前的工作主要集中在序貫更新神經網絡參數的后驗分布上,而這些后驗通常是難以精確計算的。因此,它們必須依賴各種近似方法,導致理想貝葉斯更新與現實之間存在巨大差距。
那么,哪種模型適合高效的序貫貝葉斯更新?根據 Fisher–Darmois–Koopman–Pitman 定理(Fisher, 1934; Darmois, 1935; Koopman, 1936; Pitman, 1936),指數族分布是唯一一類充分統計量維度保持不變的分布族,無論樣本數量多少。充分統計量是指能捕獲數據中關于感興趣參數全部信息的最小統計量。因此,如果充分統計量的維度保持固定,我們就可以在一個固定大小的內存系統中存儲所有必要信息。該定理對 CL 具有重要啟示:如果模型的后驗不屬于指數族(如神經網絡的情況),并且沒有足夠大的內存系統來存儲不斷增長的充分統計量,遺忘就不可避免。從這一角度看,采用重放緩沖區(replay buffer)(Lopez-Paz & Ranzato, 2017; Chaudhry 等人, 2019)是一種有助于部分保留充分統計量的方法。
另一方面,該定理也暗示了一種替代方案:通過采用指數族分布,我們可以在固定維度內存儲充分統計量,從而實現高效且無妥協的序貫貝葉斯更新。盡管指數族的表達能力有限,但在 MCL 設置下,可通過元學習神經網絡來協調真實世界數據與指數族之間的關系,從而有效解決這一挑戰。
我們的方法:SB-MCL
3.1 元學習目標
![]()
![]()
目標是最大化測試集 E 的(條件)對數似然,即在連續學習訓練流 D (上標 e 現在為簡潔起見省略)后。假設模型由 θ 參數化,該目標可以總結為:
![]()
3.2 將持續學習視為序貫貝葉斯更新
在公式 1 和 2 中,CL 過程被抽象為變分后驗分布 q_φ(z|D) 內部的過程,該分布是通過序貫貝葉斯更新獲得的:
![]()
![]()
![]()
![]()
![]()
![]()
3.3 元訓練
在元訓練階段,模型和學習器通過多個 CL 任務序列進行元更新,以最大化公式 1 或 2。對于每個任務序列,§3.2 中的 CL 過程會利用學習器來獲得 q_φ(z|D)。與基于 SGD 的 MCL 不同,我們的方法無需按順序處理訓練流。如果所有訓練樣本均可獲得(這在元訓練期間通常是成立的),我們可以將它們并行地輸入給學習器,并使用批量推斷規則而非序貫更新規則來合并結果。例如,對于高斯后驗,我們可以使用以下公式代替公式 5 來得到相同的結果:
![]()
與基于 SGD 的方法(需對每個樣本依次執行前向-反向傳播)相比,我們方法的元訓練可充分利用 GPU 或 TPU 等并行處理器帶來的加速優勢。
一旦獲得變分后驗分布 q ? ( z ∣ D )
,我們采用蒙特卡洛近似(Monte Carlo approximation)來計算關于 q ? ( z ∣ D )
的期望(Kingma & Welling, 2014)。對于高斯后驗,可進一步使用重參數化技巧(reparameterization trick)(Kingma & Welling, 2014)進行采樣——即采樣 z z 的方式支持梯度反向傳播:
![]()
在給定 z 的條件下,我們在訓練樣本和測試樣本上運行模型,以計算公式 1 或 2 中的第一項。該項鼓勵模型與學習器協作,以提高數據的似然性。第二項是變分后驗分布 q ? ( z ∣ D ) 與先驗分布 p θ ( z ) 之間的 Kullback-Leibler (KL) 散度,可視為一項正則化項。我們將先驗設定為與后驗同屬指數族的分布,例如,對于高斯后驗,采用單位高斯分布作為先驗,這使得 KL 散度可以進行解析計算。最后,最后一項 log ? p θ ( D)是一個常數,在優化過程中可以忽略。
在為一個任務序列或一批任務序列計算完公式 1 或 2 后,我們使用 SGD 算法對模型和學習器進行元更新,并通過整個任務序列進行反向傳播。與現有的基于 SGD 的 MCL 方法(Javed & White, 2019; Beaulieu 等, 2020)不同,我們無需計算任何二階導數,這對可擴展性而言是一個顯著優勢。
3.4. SB-MCL 的若干現有特例
若干先前工作可被視為 SB-MCL 在特定領域下的特例。我們在表 1 中總結了其關鍵特性,并在下文給出高層描述。
![]()
GeMCL(Banayeeanzade 等,2021)
GeMCL 可視為本框架在圖像分類領域中的一個具體實例。它利用一個經元學習的神經網絡編碼器,為每幅圖像提取一個嵌入向量。在訓練過程中,它在嵌入空間中為每個類別維護一個高斯后驗分布;每當出現屬于某類別的樣本時,即通過序貫貝葉斯更新規則對該類別的高斯后驗進行更新。這些高斯分布共同構成嵌入空間中的高斯混合模型(GMM)。在測試階段,每幅測試圖像同樣經該編碼器映射為嵌入向量,再通過推斷其所屬的 GMM 成分(即類別)完成預測。
若將 GeMCL 視為 SB-MCL 的一個實例,可認為該編碼器兼具雙重角色:一為“學習器”(learner),二為“模型組件”(model component)。在訓練階段,編碼器作為學習器,用于更新后驗分布 q ? ( z ∣ x 1 : t , y 1 : t ) ,其中 z z 為 GMM 的參數;在測試階段,編碼器則作為模型組件,將測試輸入轉換為嵌入,而 GMM 則利用訓練階段習得的參數對嵌入進行分類。Banayeeanzade 等(2021)還提出了一個最大后驗(MAP)變體,該變體直接輸出 p θ ( y ~ n ∣ x ~ n , z MAP )作為預測結果。該變體計算更簡單,且性能下降不顯著。
原型網絡(Prototypical Networks, Snell 等,2017)
雖然 GeMCL 本身已是 SB-MCL 的一個特例,但它亦可被視為對原型網絡(PN)的推廣——后者最初是為少樣本分類提出的元學習方法。因此,PN 同樣屬于 SB-MCL 家族。與 GeMCL 采用完全貝葉斯方法不同,PN 僅對每類樣本的嵌入取平均以構建“原型”(prototype)向量。由于平均操作可序貫執行,PN 可直接應用于 MCL 場景。通過假設各高斯后驗為各向同性、且先驗為無信息先驗(uninformative prior),即可將 GeMCL 簡化為 PN(Banayeeanzade 等,2021)。
ALPaCA(Harrison 等,2018)
ALPaCA 最初是為在線回歸問題提出的元學習方法,其結構與 PN 或 GeMCL 對稱:后者在編碼器之上附加 GMM 用于分類,而 ALPaCA 則附加一個線性模型用于回歸。在 ALPaCA 中,潛在變量 z z 為線性模型的權重矩陣,其后驗被假定服從矩陣正態分布(matrix normal distribution)。由于在線學習與持續學習具有相似的數據流設定,僅需少量修改即可將 ALPaCA 應用于 MCL 回歸任務。
3.5 將任意模型適配至 SB-MCL
前一節中討論的所有先前工作均采用相似架構:一個經元學習的編碼器,其后接一個簡單統計模型。當輸出類型恰好適配該統計模型、從而可解析計算后驗時,這種結構十分理想。然而,對于輸出格式更復雜的領域(例如結構化輸出),或無監督設定(此時無顯式輸出變量),這類架構往往難以直接應用。
相比之下,SB-MCL 幾乎可應用于任何現有模型架構或問題領域,原因在于:我們僅需對原模型稍作修改——使其以某個潛在變量 z z 為條件,而該 z z 的后驗被建模為指數族分布。模型修改完成后,再添加一個“學習器”(learner),負責將訓練數據流“消化”為 z z 的變分后驗分布;該學習器可與主模型共享大部分參數。
盡管實現此類修改的方式理論上無限多樣,本文目前聚焦于一種可能最簡化的實現路徑,更復雜的架構設計留待未來探索。在實驗中,我們將 z z 定義為一個512 維的因子化高斯變量(factorized Gaussian variable),并將其作為輔助輸入注入模型。若模型本身采用編碼器-解碼器結構,我們便將 z z 與編碼器輸出拼接(concatenate),再將拼接結果送入解碼器。
需強調的是,盡管該方法結構簡單,但高維高斯變量與神經網絡恰當結合時,可展現出驚人的表達靈活性——這一點已在生成模型中得到驗證:例如,變分自編碼器(VAE;Kingma & Welling, 2014)或生成對抗網絡(GAN;Goodfellow 等, 2014)均通過神經網絡將單位高斯變量變換為逼真的圖像。其選擇高斯分布的動機在于采樣便利性;而我們選擇高斯分布,則主要出于其對災難性遺忘的魯棒性(robustness to forgetting)。
- 相關工作
基于 SGD 的 MCL 方法
OML(Javed & White, 2019)在元學習得到的編碼器之上,疊加了一個小型多層感知機(MLP),并采用 MAML(Finn 等, 2017)進行優化。在 OML 的內層循環中,編碼器保持固定不變,而 MLP 則通過 SGD 依次學習每一個訓練樣本進行更新。待 MLP 在內層循環中訓練完畢后,整個模型在測試集上進行評估,以計算元損失(meta-loss);隨后,對該元損失關于編碼器參數及 MLP 初始參數的梯度進行計算,并據此更新這些參數。
受 OML 啟發,ANML(Beaulieu 等, 2020)是另一面向圖像分類任務的 MCL 方法,其引入了一個名為神經調節網絡(neuromodulatory network)的組件。該組件輸出一個 sigmoid 激活值,與編碼器輸出相乘,從而依據輸入內容自適應地調控(“門控”)部分特征通路。
關于 MCL 及元學習與持續學習其他結合方式的詳細綜述,讀者可參見 Son 等人(2023)。
![]()
從這一視角出發,將訓練數據流輸入自回歸序列模型并更新其內部狀態——在語言建模文獻中,這一過程被稱為上下文內學習(in-context learning)(Brown 等,2020)——即可視為一種持續學習(CL)。在 MCL 框架下,該序列模型可在多個持續學習任務序列(episodes)上進行元訓練,從而學會執行 CL。作者證明:Transformer(Vaswani 等,2017)及其高效變體(Katharopoulos 等,2020;Choromanski 等,2021)相較于基于 SGD 的方法,取得了顯著更優的性能表現。
神經過程(Neural Processes, NPs)
盡管動機不同,但監督版 SB-MCL(見公式 1)與神經過程(NP)相關文獻(Garnelo 等,2018a; b)之間存在引人注目的相似性。NP 最初旨在克服高斯過程(Gaussian Process)的局限性,例如計算成本高昂以及先驗設計困難等問題。NP 本身亦可視為一種元學習方法——它學習一個函數先驗(functional prior),并已被應用于元學習領域(Gordon 等,2019)。由于 NP 根植于隨機過程理論,其核心設計原則之一是可交換性(exchangeability):即模型輸出不應依賴于訓練樣本的輸入順序。為實現可交換性,NP 對每個樣本進行獨立編碼,并通過置換不變(permutation-invariant)操作(如取平均)將其聚合為一個單一變量,再將該變量送入解碼器。
我們所采用的指數族后驗的序貫貝葉斯更新,雖最初受 Fisher–Darmois–Koopman–Pitman 定理啟發,但同樣天然滿足可交換性。Volpp 等人(2021)曾為 NP 提出一種基于貝葉斯原理的聚合機制,甚至探討了序貫更新的可能性,但他們并未將其與持續學習建立聯系。據我們所知,NP 與 MCL 之間唯一的關聯是 CNAP(Requeima 等,2019),但 CNAP 是專為圖像分類任務設計的領域特定架構。
- 實驗我們在廣泛的問題領域上驗證了本框架的有效性,涵蓋監督與無監督任務。我們同時提供了 PyTorch(Paszke 等,2019)實現代碼,以確保所有實驗均可復現。受限于篇幅,本文僅呈現最核心的信息;更多細節請參閱開源代碼。
5.1 方法
基于 SGD 的 MCL 方法鑒于其簡潔性與通用性,我們選用 OML(Javed & White, 2019)作為基于 SGD 的 MCL 方法的代表性基線。盡管 OML 最初針對分類與簡單回歸任務提出,Lee 等人(2023)通過在編碼器與解碼器之間堆疊一個 MAML MLP 模塊,構造了一種適用于更廣泛領域的編碼器-解碼器變體。由于 OML 的主要計算瓶頸在于二階梯度計算,我們還測試了其一階近似版本(OML-Rep),該版本參照 Reptile 方法(Nichol 等,2018)實現。
CL-Seq我們測試了 Lee 等人(2023)實現中提供的 Transformer(TF;Vaswani 等,2017)與線性 Transformer(Linear TF;Katharopoulos 等,2020)。對于標準 Transformer,其計算開銷隨學習樣本數量增加而持續上升,這被批評為嚴重制約其可擴展性的主要缺陷(Tay 等,2022);而線性 Transformer 則與其他基線方法及本文 SB-MCL 一樣,維持恒定的計算成本,但其性能遜于標準 Transformer(Lee 等,2023)。
離線與在線學習盡管本文聚焦于 MCL,但已有大量非元學習的持續學習(non-meta-CL)方法被提出。為提供性能參照,我們報告了離線學習與在線學習的得分——它們通常被視為 CL 與在線 CL 性能的理論上限(Zenke 等,2017;Farajtabar 等,2020)。
- 離線學習:模型從零開始訓練,使用從整個訓練流中均勻采樣的小批量樣本,進行不限次數的 SGD 迭代;由于模型通常會在訓練集上過擬合,我們報告訓練過程中達到的最佳測試得分
- 在線學習:將訓練流隨機打亂,形成平穩數據流;模型從零開始,僅遍歷該流一次(一個 epoch),并報告訓練結束時的最終測試得分。
需注意:MCL 方法的性能可能超越離線與在線學習的得分,因為 MCL 可利用大規模元訓練集進行預訓練,而(非元學習的)常規 CL 方法則不具備這一優勢(Lee 等,2023)。
![]()
5.2 基準任務
我們的實驗設置主要沿用 Lee 等人(2023)的方案。由于廣為使用的 Omniglot 數據集(Lake 等,2015)規模較小(僅含 1.6K 類 / 32K 張圖像),易導致嚴重的元過擬合(meta-overfitting),Lee 等人轉而重新利用 CASIA(Liu 等,2011)與 MS-Celeb-1M(Guo 等,2016)數據集開展 MCL 研究:CASIA 是一個中文手寫字符數據集,包含 7.4K 種字符、共計 3.9M 張圖像;MS-Celeb-1M 則包含 10 萬位名人的 1000 萬張圖像。基于這些數據集,Lee 等人構建了多種監督學習基準任務,涵蓋分類與回歸兩類任務;其中,每個類別(如字符類型或名人身份)被定義為一個獨立任務。各基準任務的高層描述如下;各任務所用模型架構的可視化示意圖見附錄 B。
- 圖像分類:我們在 Omniglot、CASIA 和 Celeb(即 MS-Celeb-1M 的簡稱)數據集上開展實驗,嚴格遵循 Lee 等人(2023)的設置。所有方法共享一個含五層卷積層的 CNN 編碼器。GeMCL 作為 SB-MCL 的一個特例參與比較。
- 正弦回歸(Sine Regression):我們采用 Lee 等人(2023)提出的合成正弦波回歸設定。ALPaCA 作為 SB-MCL 的一個特例參與測試。
![]()
- 深度生成建模(Deep Generative Modeling):我們首次在 MCL 研究中評估深度生成模型的持續學習性能。我們采用兩類深度生成模型評估無監督學習性能:變分自編碼器(VAE;Kingma & Welling, 2014)與去噪擴散概率模型(DDPM;Ho 等, 2020)。VAE 采用簡單卷積編碼器-解碼器架構,DDPM 則采用 Ho 等人(2020)的 U-Net 編碼器-解碼器架構。在 SB-MCL 中,我們為學習器單獨配置一個編碼器,并將 z z 通過拼接方式注入解碼器輸入;對于 OML,我們將編碼器末尾的 MLP 與解碼器開頭的 MLP 替換為 MAML MLP 模塊。本任務未測試 Transformer,因其與深度生成模型的結合并不直接。
- 評估方案:所有 MCL 實驗均在10 任務 × 每任務 10 樣本(10-task 10-shot)設置下進行元訓練:每條訓練流由 10 個任務拼接而成,每個任務含 10 個樣本。我們主要在與元訓練相同設置(即 10-task 10-shot)的元測試集上評估性能,同時也檢驗其在其他元測試設置下的泛化能力。超參數均針對 10-task 10-shot 設置下的性能進行調優。
- 分類任務報告分類錯誤率,其他任務報告損失值;因此,分數越低越好
- 每項實驗報告五次獨立運行的均值與標準差;每次 MCL 運行中,從元測試集中采樣 512 個 CL 任務序列,并計算其平均得分。
- 對于無元訓練環節的離線與在線學習:每次從元測試集中采樣一個任務序列,在其訓練集上訓練模型并測評測試得分;重復該過程 20 次,報告均值與均值標準誤(standard error of the mean)。
5.3 結果與分析
我們在表 2、表 3 和表 4 中分別展示了分類、回歸與深度生成建模任務的實驗結果;圖 3 比較了各方法在更長訓練流下的泛化能力,而表 5 則匯總了跨數據集泛化的結果。關于定性示例與更全面的結果,請參見附錄 C 與 D。以下結合實驗結果,討論 SB-MCL 表現出的若干顯著特性:
![]()
![]()
強大的持續學習性能
在分類、回歸與生成任務的實驗中(表 2–4),SB-MCL 家族顯著優于基于 SGD 的方法及線性 Transformer(Linear TF);其性能可與標準 Transformer(TF)相媲美——但需注意,TF 的單樣本計算開銷隨已學樣本數持續增長。
更強的泛化能力
當在更長的訓練流(圖 3)或不同數據集(表 5)上進行元測試時,SB-MCL 的得分均顯著優于所有基線方法。尤為突出的是,TF 的性能因長度泛化能力差而急劇下降——這是 Transformer 廣為人知的局限性(Anil 等,2022)。另一有趣現象是:如圖 3b 所示,即使任務數量不變、僅增加每個任務的樣本數(shots),TF 與 OML 的性能仍可能出現下降。這看似違反直覺,因為為每個任務提供更多信息理應有益。然而在基于 SGD 的 MCL 中,更長的訓練流意味著更多 SGD 更新步數,反而可能加劇遺忘;而 TF 更因長度泛化失敗導致性能急劇惡化。相比之下,SB-MCL 家族在“多樣本”(many-shot)設定下展現出卓越的魯棒性:隨著樣本數增加,其性能甚至略有提升。該現象與我們的理論框架高度一致——由于后驗屬于具有固定維數充分統計量的指數族分布,在任務數不變的前提下增加樣本數,僅會提升變分后驗的估計精度,而不會引發遺忘。
![]()
![]()
更高的效率
表 6 對比了 SB-MCL 家族與 OML、TF 的元訓練耗時:
- 首先,SB-MCL 與 TF 均顯著快于 OML——后者不支持并行訓練;而并行訓練對于充分利用 GPU 等并行處理器、實現高效元訓練至關重要。
- 其次,在所有基準任務中,SB-MCL 均快于 TF,充分體現了其優越的效率——這得益于貝葉斯更新所具有的恒定計算開銷特性。
持續學習本質是表征能力問題
依設計,SB-MCL 的輸出結果與訓練數據是否按序輸入無關;換言之,理論上可完全避免遺忘。這一獨特性質為持續學習研究開辟了新路徑:我們無需再糾纏于 SGD 在非平穩數據流上復雜的動態學習行為與遺忘機制,而可將重心轉向最大化表征能力——包括設計更優/更大的網絡架構、收集更多數據等,這與離線場景下解決常規深度學習問題的思路完全一致。需注意,這一范式轉變在基于 SGD 的方法中無法實現:其 CL 性能受遺忘動態過程的復雜影響,并未與模型表征能力嚴格對齊。
- 結論
本文提出了一種通用的元持續學習(MCL)框架,將指數族分布對遺忘的魯棒性與神經網絡的靈活性相結合。其卓越的性能與效率已在多個不同領域中得到實證驗證。通過將若干先前工作統一于同一框架之下,我們旨在為 MCL 領域中未來序貫貝葉斯方法的研究奠定堅實基礎。
如 §5.3 所述,本框架將 CL 中的遺忘問題重新詮釋為表征能力問題。這使我們得以將研究重心從“如何通過優化手段防止遺忘”轉向“如何設計更優的模型架構”。探索專門用于與指數族后驗交互的神經網絡架構,將成為一個富有前景的后續研究方向。此外,為 MCL 構建新數據集亦是重要的未來工作:盡管我們的方法可從大規模數據中顯著獲益,但目前適用于 MCL 研究的高質量數據集仍十分稀缺。我們相信,結合合適的數據集,本方法有望催生一系列引人注目的實際應用。
https://arxiv.org/pdf/2405.18758
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.