Online Task-Free Continual Learning via Expansible Vision Transformer
在線免任務持續學習:基于可擴展視覺Transformer的方法
https://eprints.whiterose.ac.uk/id/eprint/227640/1/LEViT-PR25.pdf
![]()
![]()
摘要:
近期,視覺Transformer(ViT)展現出卓越的數據表征能力,在多個視覺與語言學習任務中取得了當前最優性能。得益于其強大的表征能力,一些最新研究已開始探索將ViT應用于持續學習(continual learning),并借助動態擴展機制加以實現。然而,這些方法依賴于任務信息,因而無法應對更貼近現實的場景,即任務無關持續學習(Task-Agnostic Continual Learning, TACL)。與上述基于ViT的持續學習方法不同,本文提出“終身可擴展視覺Transformer”(Lifelong Expansible Vision Transformer, LEViT)模型,以應對TACL挑戰。該模型通過動態增加自身容量,來適應持續學習過程中數據表征底層概率分布的變化。LEViT由多個Transformer組件構成,每個組件均配備多頭注意力機制及線性分類器。我們提出一種新型動態擴展機制:該機制無需任務標簽,通過評估所有已學組件所建模的聯合分布與新到來數據樣本的概率表征之間的統計相似性,來逐步擴展LEViT的容量;同時,該機制可保障LEViT各組件間所學知識的多樣性。此外,我們引入“動態知識融合”(Dynamic Knowledge Fusion, DKF)方法,以充分挖掘ViT的特征表征能力,實現知識遷移。具體而言,我們將所有先前所學組件視為一個演化的知識庫,為后續學習提供先驗知識。所提出的LEViT模型,相較于現有基于ViT的方法,無需任何任務信息,且能復用先前學習到的表征,以促進后續任務的學習。
關鍵詞:視覺Transformer;持續學習;混合模型
- 引言持續/終身學習(Continual/Lifelong Learning)作為人工智能領域新興的研究方向,旨在緩解災難性遺忘問題,并使現代計算模型具備應對諸多現實世界挑戰的能力。與依賴于固定數據域的傳統訓練范式不同,持續學習(CL)是一種訓練方法論,目標是在無法訪問全部歷史數據的前提下,學習非平穩的任務序列。盡管深度學習系統可通過大量訓練樣本在單一任務上取得優異性能,但在任務序列式學習過程中,由于模型參數需經重新訓練以適應新任務,往往導致其在過往任務上的性能顯著下降——此現象被稱為“災難性遺忘”[1]。此外,對計算資源受限的系統(如基于現場可編程門陣列FPGA、無人機或機器人等的平臺)而言,序列式訓練是訓練深度學習模型的最優策略。
多數CL研究預設:訓練與評估階段均可獲取任務標簽,而這并不符合現實場景的復雜性。近期,任務無關持續學習(Task-Agnostic Continual Learning, TACL)[2]作為一種更現實的框架被提出——其訓練全程均不披露任務身份。與傳統CL方法相比,TACL具備一項關鍵特性:支持機器隨時間推移持續增量式地從數據中學習,因而適用于眾多實際應用場景。例如,在自動駕駛系統中,模型通常依次遭遇來自不同環境的數據樣本,且往往缺乏任務特定信息。因此,TACL對諸多現實應用至關重要。然而,TACL面臨的一個重大挑戰在于:模型在任一時刻僅能處理有限批次的樣本,而底層數據分布可能不可預測地持續變化。
緩解持續學習中遺忘問題的一種思路,是在模型中引入固定長度的記憶緩沖區,為每個任務存儲部分訓練樣本[3]。但緩沖區最大容量將顯著影響模型性能[4],故基于記憶的方法難以拓展至無限任務的學習[5]。為克服上述局限,研究者提出了生成重放機制(Generative Replay Mechanism, GRM)模型[6],其通過將過往任務的知識編碼進模型參數,并借助數據生成過程重放歷史樣本。然而,隨著任務數量不斷增加,GRM模型的性能會因反復進行生成重放過程而逐步下降。
近期研究表明,視覺Transformer(ViT)[7–10]在表征學習能力方面優于卷積神經網絡(CNN)。憑借其卓越的表征學習能力,已有研究探索將ViT應用于提升各類持續學習模型的性能[11]——這些方法通常共享一個主干網絡,同時動態啟用基于自注意力機制的“專家模塊”以適配新任務,從而提升性能。然而,現有基于ViT的工作主要集中于傳統CL框架(即訓練階段可獲取任務標簽),而ViT在TACL中的應用目前仍屬空白。本文旨在從兩個方面彌補該空缺:(1)網絡遺忘問題;(2)知識遷移問題。針對前者,我們提出一種新模型——終身可擴展視覺Transformer(LEViT),其根據數據流復雜性,動態構建新的任務無關組件。為使LEViT能在TACL下應對數據分布偏移問題,我們提出一種新型動態擴展機制(見圖1):該機制通過評估所有先前訓練組件所建模的聯合分布與新到數據集之間的知識相似性,為LEViT的擴展提供恰當信號,同時保障各組件知識的多樣性。
受人類大腦啟發——人類在接觸新信息時,并不會完全替換既有記憶;相反,還能利用畢生積累的知識高效習得新概念[12]——我們提出一種探索ViT特征表征能力、從數據中學習新信息的新方法:具體而言,我們將所有先前習得的組件視為一個預訓練模型(即知識庫),用于從數據中提取圖像塊標記(patch tokens);隨后,這些patch tokens被輸入至所有先前習得的多頭注意力模塊,生成特征定義信息,進而使當前注意力模塊能夠從給定數據中學習新概念。為有效復用先前習得的注意力信息,我們設計了一種門控機制,以選擇性地執行前向知識遷移。該知識遷移方法可從兩個方面提升LEViT性能:(1)通過更新門控機制,最大化前向知識遷移收益;(2)隨著LEViT不斷訓練并新增組件,其建模能力可通過復用增強后的多頭注意力模塊而逐步提升。
本文代碼已開源:https://github.com/dtuzi123/LEViT
本文主要貢獻如下:
? 首次探索ViT在訓練與測試全程均不依賴任務信息條件下的持續學習潛力;
? 提出終身可擴展視覺Transformer(LEViT)——一種新型終身學習方法,可在訓練階段無需任務信息的前提下,通過動態擴展網絡架構應對新概念;所提出的動態擴展機制保障了各組件間統計表征的多樣性,從而使LEViT結構更緊湊;
? 提出動態知識融合(DKF)方法,在學習新概念時利用先前習得ViT組件的先驗知識;并引入門控機制至DKF中,使LEViT的建模能力可隨時間逐步提升;
? 構建一新穎理論框架,用于分析模型在動態變化學習環境下的遺忘行為;實驗表明,所提LEViT可在保持網絡架構緊湊的同時取得優異性能;
? 開展一系列TACL實驗,結果有力驗證了所提LEViT框架的有效性。
本文其余部分組織如下:第2節綜述相關背景;第3節介紹所提出的基于ViT的持續學習方法;第4節闡述支撐該CL方法的理論框架;第5節給出并討論實驗結果;第6節總結全文。
- 背景綜述當前大多數持續學習(CL)研究聚焦于單一固定網絡架構。為緩解遺忘問題,固定模型中常采用正則化方法 [13],以及基于記憶緩沖的方法 [14, 15]。前者通過對目標函數施加正則項,以限制在學習新任務時對若干被認為重要的網絡權重進行過度調整 [16];后者則利用固定長度的記憶緩沖區 [17] 來保存部分歷史數據,或訓練一個數據生成器(如生成對抗網絡GAN [18] 或變分自編碼器VAE [19]),進而在后續任務學習過程中回放生成的數據 [20]。然而,上述多數方法均需依賴任務信息。首個面向任務無關持續學習(Task-Agnostic Continual Learning, TACL)的記憶型方法由文獻 [2] 提出,并隨后由最大干擾檢索(Maximal Interfered Retrieval, MIR)[21] 進一步拓展——MIR將VAE與分類器結合,并提出一種新穎的檢索機制,在每步訓練中選擇性地將訓練樣本存入記憶緩沖區。持續原型演化(Continual Prototype Evolution, CoPE)[22] 采用學習器–評估器框架,并借助信息多樣性記憶緩沖區以應對TACL挑戰。數據編輯(data editing)方法則對數據樣本進行修改后再存儲以供后續學習 [23];此類方法也常與基于記憶的方法集成,以進一步提升性能。然而,由于模型容量與記憶存儲能力均受限于固定規模,這些方法難以拓展至無限數據流的學習場景。
2.1 動態擴展架構
動態擴展模型通過動態新增處理單元、隱藏層,或任務特定模塊至現有結構中,以擴展模型容量并適應新任務 [5, 24]。此類方法通常共享若干適用于所有任務的參數,并在適配新任務時將其凍結,以緩解遺忘 [5]。然而,這些方法均假定訓練階段已知任務標簽。近期,動態擴展模型已被嘗試用于TACL,并取得了頗具前景的結果。例如,持續無監督表征學習(Continual Unsupervised Representation Learning, CURL)[25] 在檢測到數據分布變化時,動態添加新的推理模型:CURL將對數似然低于某閾值的樣本存入緩沖區;當緩沖區滿時,即觸發架構擴展。一種類似的擴展機制被用于持續神經狄利克雷過程混合模型(Continual Neural Dirichlet Process Mixture, CNDPM)[26],其將組件擴展建模為依賴于某一閾值的狄利克雷過程。與CURL不同,CNDPM動態新增一個獨立組件,該組件由一個分類器與一個VAE模型構成;此外,CNDPM不依賴生成重放機制緩解遺忘,因而可維持對所有歷史樣本的穩定性能。然而,這些動態擴展模型在執行擴展時,并未評估當前記憶緩沖區與模型已累積知識之間的相似性,通常導致所得網絡架構并非最優。
2.2 視覺Transformer(ViT)
自注意力機制最初被用于機器翻譯任務 [27],隨后被擴展應用于語言理解任務,例如在Transformer的雙向編碼器表征(BERT)[28]中。近期,Dosovitskiy 等人 [29] 提出將圖像分割為若干圖像塊(patches),并將這些圖像塊作為標記(tokens)輸入Transformer進行處理,由此構建出視覺Transformer(Vision Transformer, ViT)。此后,一系列工作——如高效數據利用的圖像Transformer(DeiT)[9]、圖像Transformer中的類別注意力機制(CaiT)[10]、卷積視覺Transformer(Convit)[7] 以及Swin Transformer [8]——致力于從計算效率與性能兩方面改進原始ViT模型。然而,這些模型僅適用于單一數據集,無法應對持續學習中所必需的動態演化數據分布。
近期,動態標記擴展(Dynamic Token Expansion, DyTox)[11]首次將ViT應用于持續學習:DyTox在遇到新任務時動態學習一個任務特定的標記(token),同時在所有任務間共享大部分參數。然而,該方法在訓練過程中仍需任務標簽,因此無法適用于TACL場景。此外,DyTox未對擴展過程施加控制,導致在學習無限數量任務時,組件數量會持續增長。
相較之下,本文所提出的LEViT具備若干優勢:
1)LEViT在訓練與測試階段均無需訪問任務標簽,因而可適用于更為現實的持續學習任務;
2)得益于所提出的動態擴展機制——僅在TACL設定下檢測到數據分布偏移時,才增加模型容量——LEViT具備良好的可擴展性,能夠應對無限數據流的學習需求。
- 終身可擴展視覺Transformer視覺Transformer(ViT)在表征識別特征方面展現出優異能力 [30]。自注意力機制是建模圖像塊之間相關性表征的一項關鍵計算機制。然而,當試圖從新的數據集中學習額外信息時,自注意力模塊易遭受嚴重的遺忘問題。此外,ViT架構本身并不具備可擴展性,難以應對無限數據流的學習需求。本文提出一種新型動態擴展方法,可在以連續方式提供無標簽新數據的條件下,通過擴展ViT的容量,以應對任務無關持續學習(TACL)的挑戰。
3.1 問題定義
![]()
3.2 任務無關組件
![]()
![]()
![]()
![]()
3.3 動態擴展機制
固定網絡架構無法處理無限數據流,尤其當連續數據流具有非平穩特性、并以統計屬性頻繁變化為特征時。在本節中,我們提出一種新的擴展框架,即終身可擴展視覺Transformer(LEVIT),該框架能夠動態擴展Transformer網絡架構,以適應概率性數據批次表征的變化。具體而言,所提出的LEVIT框架的核心思想是:當當前專家已學習到大量新穎信息時,創建一個新的專家。
![]()
![]()
![]()
方程 (6) 中的閾值 γ 控制模型大小和泛化性能之間的權衡。如果 γ 較小,LEViT 會創建更多組件,同時捕獲額外的不同數據分布。相反,當 γ 較大時,LEViT 保持緊湊的網絡架構。方程 (6) 的評估是計算效率高的,因為它通過低維潛在空間上的距離來評估信息的新穎性。此外,所提出的擴展機制不需要監督信號,可以用于監督和無監督學習。
3.4 通過知識庫進行知識轉移
重用先前學習的信息以學習新概念可以促進正向知識轉移[31]。然而,在TACL范式下,這種方法尚未被探索。在本節中,我們引入了一種新的動態知識融合方法,旨在通過ViT探索特征建模能力以進行知識轉移。所提出的知識融合方法的核心思想是重用并整合來自所有先前學習專家的表示信息,以促進新任務的學習。
![]()
![]()
根據式(9),該模型復用所有先前習得的圖像塊標記(patch tokens)以及增強后的多頭注意力機制,從而實現了遠超式(5)的建模能力——后者僅使用單一的多頭注意力模塊。此外,式(7)中的門控機制實現了選擇性知識遷移,可避免新舊樣本之間的相互干擾。而且,隨著LEViT學習到更多組件,我們可通過復用越來越多的多頭注意力模塊,逐步提升其建模能力。我們在圖3中詳細展示了所提出的KDF(應為DKF,即Dynamic Knowledge Fusion,動態知識融合)流程,可概括為以下步驟:
![]()
![]()
3.5 算法實現
詳細的網絡架構如圖4所示,而所提出的LEVIT訓練算法的實現則在算法1中概述。我們將該算法總結為以下步驟:
![]()
![]()
![]()
![]()
![]()
- 理論框架本節借鑒領域自適應理論的相關成果 [32, 33],以分析所提出的動態擴展模型的遺忘行為。
4.1 預備知識
![]()
![]()
![]()
![]()
![]()
4.2 固定模型的理論分析
![]()
![]()
![]()
![]()
![]()
使用單一組件模型的局限性。由于基于記憶的方法采用固定大小的記憶緩沖區來存儲數據樣本,當數據流包含大規模數據集時,無法捕獲全部信息,如定理1所示。此外,基于記憶的方法需要設計一種合適的樣本選擇策略,以實現從所有數據類別中存儲多樣化樣本。然而,當數據流復雜且需要大量訓練步驟進行學習時,單一固定容量的記憶緩沖區無法存儲對應于所有類別的足夠信息,從而導致災難性遺忘。在下一節中,我們提出一種動態擴展模型,該模型在學習多個任務時被證明優于固定模型。
4.3 所提出的可擴展特征表征模型的理論結果
本節將分析所提出的終身可擴展視覺Transformer(LEViT)框架的遺忘行為。下文首先給出若干重要符號與定義。
![]()
![]()
![]()
![]()
![]()
由引理1,我們得出以下觀察:
- 所提出的LEVIT與固定模型不同,它可以通過使用多個專家來緩解遺忘問題。
- 在所提出的LEVIT框架中,專家的數量會影響其整體性能。例如,如果僅添加少量專家,則無法捕獲全部過往信息,從而導致一定程度的遺忘。
- 所提出的LEVIT能夠通過動態添加新專家以及時捕捉新穎信息,從而應對無限數據流的學習(此時 K K 非常大)。相反,固定模型在學習無限數據流時會遭受嚴重的災難性遺忘。
- 實驗
我們在MNIST [35]、CIFAR10 [36]、CIFAR100 [36] 和 MINI-ImageNet [37] 數據集上,采用TACL基準協議對LEVIT模型進行評估,并隨后進行消融研究。
5.1 實現細節與設置
實現與超參數。對于Split MNIST,圖像塊大小為7×7,嵌入維度為Q=100,批次大小b=10。我們實現的MLP包含一個具有100個處理單元的全連接層。每個VAE的編碼器和解碼器均由兩個全連接層實現,每層包含200個單元。對于Split CIFAR10和Split CIFAR100,圖像塊大小為8×8,嵌入維度為100,MLP由一個具有兩層隱藏單元(分別為500和200個單元)的全連接神經網絡實現。Split CIFAR10和Split CIFAR100所用的VAE模型由CNN網絡實現,卷積核大小為3×3。編碼器由四個卷積層和一個全連接層組成,各層單元數分別為64、128、256、512和1024。我們使用反卷積層實現VAE解碼器,各層單元數分別為512、512、256、128和3。
超參數設置。我們采用Adam優化算法 [38],學習率為0.0001。由于超參數β對所提框架性能影響不大,我們為所有數據集均采用β=0.5的配置。
所用硬件 - GPU。實驗在Tesla V100-SXM2 (32GB) GPU上運行,操作系統為RHEL 8。
基線方法。我們將我們的方法與多個TACL基線方法 [22] 進行比較,包括最大干擾檢索(MIR)[21]、增量分類器與表征學習(iCARL)[39]、貪婪樣本選擇(GSS)[3]、梯度情景記憶(GEM)[4]、Reservoir [40]、CURL [25]、持續神經狄利克雷過程混合模型(CNDPM)[26]、動態在線協同記憶(OCM)[41]、動態CAA [42](其中CAA指持續變分自編碼器)、CoPE [22]、在線遞歸變分自編碼器(ORVAE)[43]、ER + GMED以及ER? + GMED [23](其中ER代表經驗回放(Experience Replay)[44],ER?是結合了經驗回放與數據增強的模型,GMED代表基于梯度的記憶編輯)。此外,我們還實現了不包含動態知識融合(DKF)的LEVIT版本,稱為LEVIT-No-DKF;以及使用非自適應權重的DKF版本,稱為LEVIT-DKF-Fixed。在LEVIT中,若每個組件由全連接深度神經網絡(DNN)而非ViT實現,則該模型被稱為LEVIT-DNN。
5.2 TACL基準測試
我們在Split MNIST、Split CIFAR10和Split CIFAR100的持續學習場景下訓練所提出的模型。五次獨立運行的平均結果見表1。我們與其它方法進行比較,其中除“微調”(finetune)外,在像Split MNIST這樣簡單的數據集上表現良好,而“微調”在所有數據集上的表現都更差,因為它不存儲歷史樣本。一些基于記憶的方法,如GEM和iCARL,在包含更復雜圖像的數據集(如Split CIFAR10和Split CIFAR100)上表現較差。動態擴展模型,如CURL和CNDPM,通常在這三個數據集上優于大多數基于記憶的方法,因為它們可以通過增加自身容量來適應數據分布的偏移。所提出的LEVIT-DKF尤其在Split CIFAR10上優于其他動態擴展模型,其在合理規模的網絡下實現了51.74%的平均分類準確率。
![]()
從表1的結果中我們可以觀察到,LEVIT-DKF在所有三個數據集上的性能均優于LEVIT-No-DKF,后者未利用先前學習到的知識。此外,LEVIT-DKF-Fixed未能充分利用所提DKF的潛力,因為它不更新注意力參數,并且在知識遷移時認為每個先前訓練的表征貢獻相同。LEVIT-DKF與LEVIT-DKF-Fixed之間的對比結果表明,我們可以利用DKF提升模型性能。我們還將LEVIT-DNN與之進行了比較,結果表明,LEVIT中使用的ViT組件在使用更少參數的情況下,優于采用經典深度神經網絡(DNN)的情況,相關組件數量和參數量詳見表2。我們還在由復雜圖像組成的Split MiniImageNet [45] 數據集上評估了各模型的性能,結果見表3,其中基線方法的結果除CNDPM外均引自文獻[23]。這些結果表明,LEVIT-DKF在使用更少參數的情況下,仍能優于其他基線方法。
![]()
![]()
5.3 跨領域分類
我們進一步在更具挑戰性的設定下評估 LEViT-DKF 的有效性:該設定中的數據流由多個不同領域依次提供。我們構建了以下三類跨領域任務:
- 拆分 MNIST–Fashion(Split M-F):依次學習 Split MNIST 與 Split Fashion-MNIST;
- 置換 MNIST(Permuted MNIST, P-MNIST):包含 10 個任務,每個任務對應一種特定的隨機像素置換(即對 MNIST 數據庫中所有圖像統一應用相同的隨機像素重排)[23];
- 拆分 MNIST–SVHN(Split M-S):依次學習 Split MNIST 與 Split SVHN(街景門牌號數據集),其中所有圖像均被統一調整為 32 × 32 × 3 的分辨率。
對于 Permuted MNIST、Split MNIST-Fashion 和 Split MNIST-SVHN,所采用的最大記憶緩沖區容量分別為 2000、2000 和 1000。為公平比較,我們采用大規模網絡架構重新實現了 CNDPM [26]。最后,我們在 Permuted MNIST、Split MNIST-Fashion 和 Split MNIST-SVHN 上訓練所提出的模型及各基線方法,結果匯總于表 4;從中可見,在多領域設定下,LEViT-DKF 的性能優于 CNDPM。
5.4 消融研究
在本節中,我們探究所提出的 LEViT 模型中各組成部分的重要性。
首先,我們研究了在 TACL 場景下改變批次大小 b b 時模型的性能。Split MNIST 上的經驗準確率結果如圖 5 所示,從中可見,準確率對批次大小并不敏感。我們還在圖 6 中展示了在 Split MNIST、Split CIFAR10 和 Split CIFAR100 上學習時的分類準確率。可以觀察到,當持續提供新的數據集分布(任務)時,LEViT-DKF 會擴展其網絡架構,從而能夠以更少的組件學習更多任務。這些結果表明,在每個數據集上,無論記憶緩沖區大小如何配置,所提出的模型均優于 ER [44] 和 CNDPM [26],證明該模型對記憶緩沖區大小的變化具有魯棒性。
![]()
此外,我們還研究了改變式 (6) 中控制擴展模型組件數量的參數 γ 對所提 LEViT 性能的影響。我們在 CIFAR10 數據集上使用不同的閾值 γ 訓練模型,結果如圖 7 所示。隨著 γ 增大,LEViT-DKF 將使用更少的組件,但其性能會隨之下降。所提出方法的動態擴展過程如圖 8 所示,表明一個合適的 γ 可在訓練過程中生成適當數量的組件。由于 Split MNIST 和 Split CIFAR10 的 VAE 編碼器潛在維度分別為 50 和 200,因此兩者對應的閾值 γ 范圍也不同。
![]()
![]()
我們進一步研究了視覺 Transformer (ViT) 組件中嵌入維度(由式 (2) 定義)的影響。我們在 Split MNIST 上用不同的嵌入維度訓練所提出的 LEViT-DAM,并將結果繪制于圖 9。可以看出,改變嵌入空間的維度并不會導致所提 LEViT-DAM 的性能發生顯著變化。此類實驗結果表明,所提出的方法對嵌入維度的變化不敏感。
![]()
5.5 討論
與一般的持續學習(通常假設訓練過程中任務信息與任務邊界已知)不同,任務無關持續學習(TACL)代表了一種更具實用性的學習場景。遵循文獻 [2] 的設定,我們利用不同數據集(包括 CIFAR10、CIFAR100 和 TinyImageNet)構建了若干數據流,并持續評估所得分類性能。表 1、表 2 與表 3 的結果表明,相較于所比較的其他基線方法,本文所提出的方法取得了最優性能。
此外,TACL 的結果在許多實際應用中具有重要意義。例如,圖 6 的結果表明,所提出的方法能夠恰當地檢測數據分布發生重要變化的時刻,并利用此類信號隨時間動態擴展網絡架構。這些結果表明,所提出的方法具備潛在應用價值,例如:
- 在自動駕駛中,可用于實時評估車輛周圍環境條件是否發生變化;
- 在醫療監護中,可用于檢測患者生理狀態的異常改變。
總體而言,所提出框架的可擴展性使其適用于實時系統,以處理連續數據流。
- 結論與局限性
本研究提出了終身可擴展視覺Transformer(LEViT)模型,使視覺Transformer(ViT)在任務無關持續學習(TACL)范式下具備終身學習能力。LEViT采用多個ViT組成的集成架構,通過動態擴展機制,實現對TACL場景中變化數據分布的建模。該動態擴展機制使LEViT能夠表征多樣化數據的概率分布。我們還提出了動態知識融合(DKF)機制,在無需任何任務信息的前提下,高效復用過往知識以學習新概念。DKF通過挖掘ViT的內在特性實現前向知識遷移,在優化資源利用的同時保持網絡架構緊湊。對持續學習機制的理論分析表明,與固定架構模型相比,所提出的可擴展架構模型具有更優的泛化上界。
我們開展了一系列TACL實驗,結果表明:在TACL設定下,所提出的LEViT性能優于其他基線方法。該方法可應用于多種需探索新環境的建模任務,例如自動駕駛、機器人與無人機探索、患者監護與疾病進展監測及相應治療方案制定等。
未來工作中,我們將進一步探索融合深度生成模型的新TACL框架。
所提出LEViT框架的一項關鍵優勢在于其可擴展性:模型能夠持續不斷地從無限數據流中學習并吸收新信息。這一顯著特性使其適用于在線學習場景,契合多種實時應用需求。此外,LEViT在保持緊湊網絡架構的同時展現出優異性能,大幅降低了存儲開銷。
然而,LEViT框架存在以下局限性:
- 參數持續累積問題:在長時間連續學習過程中,模型參數數量可能過度增長,導致其難以部署于資源受限設備。為此,我們后續研究將引入一種創新的專家壓縮機制,自動剔除冗余或重疊的專家組件,從而維持穩定可控的網絡規模。
- 共享主干更新受限:當前框架中,共享主干僅在初始任務學習階段更新參數,后續階段保持凍結。因此,每個新實例化的專家由于活躍參數數量受限,難以高效適配新任務。為解決此問題,未來工作將設計一種新型目標函數,在優化共享主干的同時,防止訓練過程中產生有害的知識遷移效應。
原文: https://eprints.whiterose.ac.uk/id/eprint/227640/1/LEViT-PR25.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.