在人工智能飛速發展的今天,持續學習如同人類記憶般神奇:既能保留舊知識,又能吸納新信息。持續語義分割(CSS)作為其重要分支,正悄然改變我們的視覺計算世界。想象一下,一個系統能夠不斷學習識別新類別的物體,同時不忘記已學過的內容,它如同擁有持久記憶的人類大腦,在自動駕駛、醫療輔助和遙感觀測等領域展現出驚人潛力。然而,"災難性遺忘"和"語義漂移"這兩大難題如同攔路虎,阻礙著CSS的廣泛應用。本文將揭開這一技術的神秘面紗,帶您探索從理論到實踐的全景圖景。
![]()
從記憶到遺忘
持續學習作為一種不斷獲取知識的方法,在過去十年間得到了迅猛發展。它打破了傳統機器學習的一次性學習限制,使模型能夠不斷適應新數據和新任務。這種技術最早源于認知神經科學對記憶和遺忘機制的研究,可以追溯到20世紀80年代。當時,McCloskey等研究者首次發現了神經網絡在學習新任務時會"忘記"舊任務的現象。
傳統的機器學習通常建立在封閉集上,只能處理固定數量的預定義類別,所有數據需要在單步訓練中一次性呈現給模型。而在實際應用場景中,模型經常面臨不斷增加的數據挑戰。持續學習的主要目標是在有限的計算和存儲資源約束下,在穩定性與可塑性之間取得最佳平衡。這里的穩定性指保留先前知識的能力,可塑性則指整合新知識的能力。
持續語義分割作為密集預測任務的一種,因其特殊性成為一項具有挑戰性且蓬勃發展的任務。要理解CSS,我們需要先明確其基本問題定義。設D = (xi, yi)表示訓練數據集,其中xi∈RCHW表示訓練圖像,yi∈RHW表示相應的真實標簽。Dt表示t步的訓練數據集。在t步,C0:t?1表示先前學習的類別,Ct表示當前學習的類別。在訓練Dt時,舊類別的訓練數據,即{D0, D1, …, Dt?1}是不可訪問的,而Dt中的真實標簽僅覆蓋Ct。完整的訓練過程包括{Step-0, Step-1, …, Step-T}步。
CSS面臨兩大主要挑戰:災難性遺忘和語義漂移。災難性遺忘是指模型在學習新知識時會遺忘先前學到的知識。這個問題早在20世紀80年代就被發現并討論過,當時研究表明使用反向傳播訓練的算法會遭受嚴重的知識遺忘,就像人類會逐漸忘記先前學習的任務一樣。簡單地從頭開始重新訓練模型可能導致類似阿爾茨海默癥的問題,即模型由于參數更新而失去其過去的能力。
![]()
語義漂移則是CSS中另一個關鍵挑戰,指的是隨著新類別的增量學習,背景語義內容的逐漸變化或演變。從根本上說,它源于真實背景、舊類別和未來類別的混合語義。由于缺乏歷史數據,模型在持續學習步驟中容易遇到類別混淆和分類器偏差。此外,由于在每個增量步驟中只標記當前類別,背景像素的語義會發生漂移,因為它們的內涵會變化,即已知類別和未來類別被混合為單一背景類別。
根據持續學習的設定,CSS任務可以分為四種類型:任務增量CSS、域增量CSS、類別增量CSS和模態增量CSS。任務增量學習中,模型會被逐漸訓練以執行新任務,每個新任務可能涉及不同類型的預測或目標;域增量學習涉及將模型適應新的領域或環境;類別增量學習強調將新類別逐步納入模型的分類能力;模態增量學習則處理將新數據模態納入模型范圍的問題。這些CSS任務并非嚴格隔離,在許多情況下,多個CSS任務會相互交織。
關于CSS的研究在最近三年尤為活躍。從2016年的初步探索到2023年的深入研究,CSS方法已發展出兩大類:基于數據重放的方法和免數據方法。前者涉及存儲部分過去訓練數據作為范例記憶,后者則使用知識蒸餾等遷移學習技術繼承舊模型的能力。
技術路線探索
在理想情況下,持續學習模型不需要存儲舊數據。但是,一些研究建議存儲一小部分舊數據作為樣本記憶或輔助數據來幫助模型減輕災難性遺忘。樣本重放方法直接將舊圖像存儲為樣本記憶。iCaRL作為類別增量學習中的第一個樣本重放方法,提出了兩種重放方法:固定所有類別的總數目和為每個學習的類別固定數目。這兩種重放方式為后續CSS方法提供了原型。此外,樣本選擇也是多種多樣的,包括類別平衡選擇、基于損失的選擇、基于熵的選擇、基于梯度的選擇和基于表示的選擇等。當前的樣本重放方法著重于減少內存存儲,同時保留最具代表性的樣本。
特征重放方法則摒棄了直接存儲原始數據的沉重負擔,而是保留特征或邏輯并使用它們來優化新模型。該路線可以根據重放形式分為特征映射和原型對齊兩種方法。ALIFE提出了一種特征重放方案,它記憶特征而不是直接記憶圖像,以減少內存需求。SDR在批次級原型上應用原型匹配,并在潛在表示上使用對比學習。
除了直接存儲舊數據或特征外,引入輔助數據也有助于減輕災難性遺忘。此類方法通常從其他領域獲取大量未監督或弱監督的數據,比如使用網絡爬蟲從互聯網上獲取大量數據。例如,RECALL-Web從在線源檢索訓練示例。假設在t步訓練過程中可以訪問屬于C0:t?1的每個學習類別標簽,RECALL-Web會搜索網站以檢索標記為類別t的圖像,這些圖像會被輸入到CL訓練過程中。
![]()
生成式重放是另一種重要方法。在實際應用中,樣本重放通常受到存儲負擔和隱私問題的限制。因此,生成式重放方法生成重放圖像或特征,并使用先前步驟的模型提供相應的偽標簽。先前的工作引入了生成式圖像重放,它涉及從預訓練的GAN或擴散模型中生成合成的舊類別樣本進行重放。此外,也有研究者提出了生成式特征重放方法,提議重放樣本必須導致與真實樣本相同的隱藏特征來訓練分類器。
免數據方法在不存儲任何舊數據的情況下進行CSS,旨在保留有關現有類別的信息,同時使分類器逐步學習新類別。這種方法丟棄了繁重的記憶庫或從網絡獲取舊數據的額外方式。免數據方法可分為自監督方式、基于正則化方式和動態架構方式。
自監督方式在CSS背景下變得特別相關,因為它能夠使用有限的標記數據適應新類別或任務。自監督CSS方法通常涉及輔助任務,如預測缺失像素、上下文重建和圖像旋轉。這些任務引導模型從可用數據中學習有用的特征,使其能夠適應新的語義類別,同時保留從早期任務中獲得的知識。該方向可以進一步分為三個子方向:對比學習、偽標記和基于基礎模型的方法。
對比學習的典型范式是引入帶有目標函數的代理任務。例如,可以在特征或邏輯對齊中設置對比學習。關于內部特征分布,SDR、PIFS保存特定類別的原型作為對比學習的輔助監督。IDEC提出了一種無記憶的對比學習方法,名為非對稱區域對比學習。它從舊模型中提取可靠的錨定嵌入,同時從新模型中提取正面和負面嵌入,通過三元組損失進行優化。
偽標記利用舊模型的預測作為訓練新模型階段的監督補充。由于CSS情境中標記數據的稀缺,這是一種流行且有效的方式,可以減輕災難性遺忘。在CSS情境中,偽標記的主要努力方向是避免舊模型對新模型的錯誤預測帶來的負面優化問題。為了實現這一目的,出現了各種偽標簽生成方法,如基于類別的方法(PLOP、IDEC、REMINDER)和基于像素的方法(ProCA、ST-CISS)。前者為不同類別設置不同的置信度閾值,后者則著眼于測量像素級不確定性以提高偽標簽的置信度。
基于基礎模型的方法則是另一種自監督方式。作為一個快速增長的熱點,基礎模型如視覺-語言預訓練模型和自監督預訓練模型在多模態研究中發揮著重要作用。CLIP系列就是一個代表性的視覺-語言預訓練工作,它在4億圖像-文本對上聯合訓練圖像和文本編碼器,實現了零樣本性能。在CSS中,使用強大的預訓練模型(覆蓋大量語義類別)可以幫助解決下游任務中未見過的語義類別。
基于正則化的方式引入顯式正則化項,在CL步驟中平衡舊任務和新任務。根據優化目標,基于正則化的方式可分為權重正則化和約束正則化兩種方法。當前CSS方法通常凍結模型參數的一部分以保留舊能力,這可以有效限制神經網絡權重在CL步驟中的突然漂移。約束正則化通常在舊模型和新模型之間的邏輯或中間特征上建立約束函數。
![]()
知識蒸餾是一種非常流行的策略,用于將知識從一個模型(教師)轉移到另一個模型(學生)。在CSS情境中,知識蒸餾已被證明是一種有效的方法,可以在CL步驟中保留分類舊類別的能力,而不需要存儲過去的數據。一種典型的基于知識蒸餾的CSS方法是使用來自舊模型(通常參數被凍結)的輸出通過定制的蒸餾損失函數指導新模型(可訓練的)的中間表示和邏輯。
動態架構方式則通過動態擴展網絡結構來適應持續學習任務。根據模型參數利用方式,動態架構方式可分為三個子類別:參數分配、架構分解和模塊化網絡。參數分配方法為每個增量任務分配單獨的參數空間;架構分解將模型或參數分解為特定任務和共享任務的組件;模塊化網絡則利用并行子網絡或子模塊以差異化方式學習增量任務,沒有預定義的任務共享或特定任務組件。
除了上述方法,還有一些基于生物機制的CSS方法。在持續學習中,生物神經網絡通常優于人工神經網絡,這促使了對類腦網絡的研究。Caucheteux等人將深度語言模型映射到腦活動中,定量研究輸入內容相同時深度語言模型與大腦的相似性。這些研究為構建腦驅動的CSS方法提供了寶貴見解。
跨學科研究也在CSS中發揮著重要作用。作為一個前沿研究領域,CSS不僅在理論發展方面迅速推進,而且逐漸凸顯其在跨領域和跨模態研究中的重要價值。Ven等人首次明確總結了三種類型的增量學習。Dong等人將CSS擴展到聯邦環境。除了2D圖像之外,還有研究將CSS擴展到3D點云環境中,這些技術為自動駕駛領域提供了重要啟發和推動。
性能比拼與剖析
評估一個持續語義分割(CSS)模型的好壞,主要看兩點:準確性和遺忘程度。準確性是指模型在所有持續學習步驟后對所有已學任務的測試精度,用公式表示為At = (1/t)∑(i=1到t)ai,其中At表示模型在t步時對所有已見任務C0:t的性能,ai表示在i步的準確率。遺忘程度則衡量模型在所有持續學習步驟后平均性能下降的程度,計算方式為Ft = (1/t)∑(i=1到t)(|a0 - ai|/a0),其中Ft是t步時的平均遺忘度,a0是初始學習步驟的準確率。
在密集預測任務中,最常用的評估指標是平均交并比(mIoU),計算公式為IoU = TP/(TP + FP + FN),其中TP、FP和FN分別是真陽性、假陽性和假陰性像素的數量。在CSS任務中,通常會同時報告舊任務、新任務和所有任務(或領域、類別)的平均mIoU。另一個指標是Dice系數,公式為Dice = 2TP/(TP + 2FP + FN)。
從2017年EWC首次提出克服神經網絡中的災難性遺忘,到2023年的最新方法,CSS技術已經取得了顯著進步。早期的研究主要集中在分類器擴展(如LwF)和表示學習(如iCaRL)上,這些方法為CSS的發展奠定了基礎并提供了明確的方向。
現代CSS方法大致分為兩大類:依賴舊數據和不依賴舊數據的方法。為了解決災難性遺忘和分類器失效問題,ILT、MiB、PLOP、DFD-LM等方法使用多層知識蒸餾,涵蓋中間表示和輸出邏輯。后續方法繼續探索內部分布,以實現更扎實的知識繼承。例如,RCIL和DKD強調解決CSS中語義漂移的重要性。IDEC、UCD和ACD引入對比學習來緩解舊類和新類之間的語義漂移。
![]()
一個有趣的問題是:語義分割模型本身是否影響CSS性能?研究表明,確實如此。Kalb等人研究了神經網絡架構選擇如何影響類別和領域增量CSS任務中的災難性遺忘。Yuan等人討論了各種語義模型和骨干網絡對領域增量CSS的影響,并提出了一種名為歸一化適應性度量(NAM)的新指標來評估CSS性能的提升。Zhao等人通過使用CNN和Transformer架構研究了CSS性能。這些研究表明,更強大的語義分割模型可以幫助實現更出色的CSS性能。
對于基于重放的方法,核心思想可以總結為"如何選擇最佳樣本進行重放?"RECALL、SSUL-M和AMSS提出了各種樣本選擇方法來存儲舊數據。該方向的未來趨勢是存儲更少的數據以減少內存消耗。Kalb等人在類別增量和領域增量設置下研究了各種重放策略對CSS的影響。ALIFE提出了一種特征重放方案,記憶舊類別的特征。而SPPA和SDR則將原型對齊引入CSS中。這些方法不是直接重放舊樣本,而是保存高級特征作為舊知識的指導,以減輕內存負擔,同時利用舊數據的知識。
除了最小化對舊數據的依賴,減少對標記增量數據的依賴也是CSS中一個新興方向。EHNet、FSCILSS和SRAA等方法將少樣本語義分割設置引入CSS中。少樣本CSS的主要挑戰在于舊類上的特征漂移和新類上的過擬合問題。因此,通常使用超類表示嵌入、跨圖像關系建模和偽標記來實現盡可能好的性能。
在具體的數據集上,我們可以看到各種CSS方法的表現差異。在Pascal VOC 2012數據集上,對于15-5(2步)、15-1(6步)、5-3(6步)和10-1(11步)等設置進行了評估。例如,15-5表示最初學習15個類別,然后在另一步學習額外的5個類別。15-1表示最初學習15個類別,然后在另外5個步驟中每步學習額外的1個類別。
總體而言,基于重放的方法在舊類別和新類別上都獲得了比免數據方法更高的IoU,這符合客觀預期,因為基于重放的方法除了舊模型外還引入了樣本舊數據。例如,SSUL-M在VOC 10-1上達到了65.45%的所有類別mIoU,大幅超過了SSUL(58.23%)。
知識蒸餾是CSS中不可或缺的方式,負責從舊模型繼承知識。ILT和MiB率先在中間表示和輸出邏輯中使用知識蒸餾,在多步少類任務上帶來了前景。PLOP和IDEC提出了在每個中間層上的多層蒸餾策略,有效地提升了CSS性能。例如,PLOP在VOC 10-1任務上達到了30.45%的mIoU,證明了多層知識蒸餾與MiB(12.65%)相比的有效性。
為了更好地理解CSS模型的行為,可視化技術也被廣泛應用。由于持續適應新添加的數據而不改變網絡結構,CSS模型需要不斷調整參數。因此,分析模型參數的變化是實現可解釋性的前提。可解釋性分析可以幫助研究人員和利益相關者理解模型如何適應新數據,從而增強對模型的信任。例如,類簇在類別增量CSS場景中會發生變化。因此,可視化高維特征空間中的特征分布可以幫助揭示災難性遺忘的核心原因。
T-SNE是一種將高維特征映射到低維空間的技術,適用于研究增量步驟后的內部特征分布。在VOC 15-1任務中,我們可以看到UCD+PLOP和IDEC等代表性CSS方法在初始步驟和最終步驟的TSNE可視化效果。TSNE圖直觀地顯示了災難性遺忘,體現在初始學習類別的聚類中心在CL步驟后發生了偏移。它也揭示了增量學習能力,因為增量類別在特征空間中被聚類成新的簇。
落地應用展望
持續語義分割技術已經開始在多個領域展現其實際價值。在自動駕駛領域,類別增量和領域增量CSS方法使模型能夠隨著時間的推移學習新類別和新領域,這在自動駕駛場景中至關重要,因為新的物體或道路條件可能會出現。如知識蒸餾和特征重放等技術被探索用于自動駕駛中的CSS。例如,Barbato等人在2022年提出了一種多模態增量方法用于多模態3D語義分割,該方法處理激光雷達和RGB數據進行道路場景語義分割,將PMF擴展到持續學習方式。Kalb等人探索了惡劣天氣條件下領域增量CSS中災難性遺忘的原因。
![]()
考慮到RGB、激光雷達等多模態數據的聯合解釋,CSS模型需要解決與無監督領域增量適應、多模態數據對齊和多任務學習相關的挑戰。例如,在2022年的研究中,多模態數據融合被用于提高自動駕駛系統中的障礙物檢測和道路分割性能,特別是在夜間或惡劣天氣條件下,通過結合RGB相機和激光雷達的互補優勢。
在遙感觀測領域,遙感衛星不斷提供大量時間序列增量數據,如土地覆蓋變化和氣象觀測。CSS可以幫助在軌系統在不斷到來的數據條件下智能監測和分析這些數據,包括大氣污染、土壤質量、森林健康等。當出現新的監測需求或任務時,系統可以自適應地調整其監測方法。
考慮到在軌觀測計算和存儲資源的限制,邊緣計算和有限數據存儲條件下的在軌持續解釋和模型自演進也將成為研究重點。特別是在2023年的一項研究中,研究人員開發了一種輕量級CSS模型,可以部署在衛星上的邊緣設備上,僅使用很小的存儲空間就能適應新的地表特征分類任務,如識別新出現的城市擴張區域或因氣候變化而改變的植被模式。
在醫療輔助診斷方面,CSS可以提供更準確的圖像分析、更早的疾病檢測、個性化醫療護理和更高效的醫療實踐。例如,它可以用來辨別新添加的病變位置或疾病類型,根據患者的具體情況生成定制化的診斷和治療計劃,這對提高患者存活率和治療效果至關重要。
在2023年的一項研究中,研究者開發了一種用于內窺鏡檢查的持續語義分割系統(EndoCSS),可以隨著時間的推移學習識別新類型的消化道病變,而不會忘記之前學習過的病變類型。該系統在臨床試驗中表現出色,有助于醫生更早期發現早期胃癌和炎癥性腸病的跡象。
不過,在醫學成像中,最關鍵的性能方面之一是實現最準確的診斷。因此,對模型的抗遺忘能力和學習新知識的能力的要求異常嚴格。目前的困境在于,維護單獨的模型會導致計算資源成本增加,而保留統一模型則面臨著與準確性和固有隱私風險相關的挑戰。
在2023年發表的另一項醫學影像CSS研究中,研究者提出了一種隱私保護的CSS框架,通過聯邦學習技術使多家醫院能夠在不直接共享患者數據的情況下協作訓練模型,同時模型能夠隨著新疾病類型的出現而不斷適應和學習。
展望未來,CSS研究還有很長的路要走,從算法到應用都面臨著眾多困難和挑戰。以下是CSS技術挑戰和未來研究趨勢的一些觀點:
類腦建模將成為重要方向。人腦能夠有效積累知識,快速處理多模態信息,并表現出高度知識關聯能力,同時能量消耗低。相比之下,人工神經網絡通常需要大量計算資源和存儲容量來處理大規模數據和任務。因此,基于類腦機制的CSS模型研究有望解決災難性遺忘問題并實現扎實的知識積累。
可解釋性建模也需要加強。將可解釋性技術擴展到持續學習設置中,在這些設置中,模型必須適應新數據而不忘記舊知識。理解模型更新和適應對于模型的可信度至關重要。
人機協作將是發展方向之一。探索促進AI模型與人類專家之間協作的CSS方法,允許用戶提供反饋和糾正以提高模型的可解釋性。例如,在2023年的一項研究中,研究者開發了一個交互式CSS系統,允許醫生在系統錯誤分類時提供實時反饋,系統能夠從這些反饋中學習并改進其分割性能。
跨模態增量適應在開放世界理解和跨模型解釋方面具有強大的應用前景。技術挑戰在于在任務變化大和多模態數據特征差異顯著的情況下實現新舊知識的兼容與共存。比如在自動駕駛場景中,如何讓系統同時處理來自攝像頭、激光雷達和雷達的數據,并在新型傳感器加入時無縫適應。
![]()
在線學習和主動學習將成為未來CSS方法的重點,使模型能夠從實際應用中主動獲取數據并不斷演進。主動學習技術將有助于為增量學習選擇最具信息量的數據。在2022年的一項研究中,研究者提出了一種主動學習框架,使自動駕駛系統能夠識別并請求標注那些包含未知或難以分類的物體的數據樣本,從而更有效地學習新類別。
硬件加速和邊緣計算也是必不可少的。為了滿足嵌入式設備和邊緣計算應用(如自動駕駛和在軌智能解釋)的需求,未來的CSS方法將需要高效的硬件加速和模型壓縮技術,以滿足實時和資源受限的要求。例如,在2023年的一項研究中,研究者開發了一種針對FPGA的優化CSS實現,能夠在邊緣設備上實時處理高分辨率視頻流,同時保持低功耗。
參考資料
Yuan, B., &; Zhao, D. (2023). A Survey on Continual Semantic Segmentation: Theory, Challenge, Method and Application. arXiv:2310.14277v1.
Douillard, A., et al. (2021). PLOP: Learning without Forgetting for Continual Semantic Segmentation. CVPR 2021.
Cermelli, C., et al. (2020). Modeling the Background for Incremental Learning in Semantic Segmentation. CVPR 2020.
Cha, S., et al. (2021). SSUL: Semantic Segmentation with Unknown Label for Exemplar-based Class-Incremental Learning. NeurIPS 2021.
Zhao, D., et al. (2023). IDEC: An Improved Domain-Specific Continual Semantic Segmentation. TPAMI 2023.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.