在人工智能落地應用的今天,深度學習模型面臨著一個隱形卻關鍵的挑戰——當環境變化時,它們的表現往往大幅下滑。想象一個交通標志識別系統,它在晴天訓練得完美無缺,卻在雪天失效;或者一個商品識別模型,在實驗室中表現優異,但在真實商店的復雜光線下誤判連連。這種現象的根源在于數據分布偏移——訓練數據和實際使用環境的數據之間存在自然差異。非對抗性魯棒性研究正是聚焦于如何讓模型在這種自然變化面前保持穩定的表現。從增強數據多樣性到調整模型架構,從遷移已有知識到快速適應新環境,研究者們正在多角度攻克這一挑戰,以期讓深度學習系統在真實世界中更加可靠。
![]()
模型遇挑戰
深度學習模型在實驗室里表現優異,但放到現實世界中就會碰壁。這是為什么呢?想象一下,我們用一組晴天拍攝的交通標志照片訓練了一個識別系統。這個系統在測試時如果遇到同樣是晴天拍攝的照片,往往能達到95%以上的準確率。但當它面對雨天、雪天或夜間拍攝的同樣標志時,準確率可能直接跌到60%甚至更低。
這種現象在人工智能領域有個專門的名稱:非對抗性魯棒性問題,也稱為自然魯棒性問題。與故意設計來迷惑模型的對抗樣本不同,自然魯棒性關注的是那些自然發生的變化如何影響模型性能。Hendrycks和Dietterich在2019年的研究中,通過創建包含15種常見圖像變化(如噪點、模糊、天氣變化等)的ImageNet-C數據集,系統性地展示了這些自然變化如何顯著降低各種視覺模型的性能。
自然魯棒性問題的核心在于數據分布偏移。在統計學和機器學習中,我們假設訓練數據和測試數據來自同一分布,也就是說它們具有相同的統計特性。但實際應用中,這個假設很少成立。源分布(訓練數據的分布)和目標分布(測試數據的分布)之間通常存在差異,這種差異導致模型性能下降。
分布偏移可能源于多種因素。它可能是由于環境變化(如照明、天氣),或設備變化(如不同的相機),或物理世界的自然變化(如季節更替)。一些研究者嘗試構建包含各種可能變化的大規模數據集來提高模型魯棒性,但這種方法有著明顯的局限性——我們不可能預見并收集所有可能的變化。
Recht等人在2019年的研究中,遵循原始ImageNet數據集的收集方法創建了一個新測試集ImageNetV2。理論上,這兩個數據集應該非常相似。但即使是在這種情況下,在原始ImageNet上訓練的模型在新測試集上的表現仍然顯著下降。這表明,即使是微小的、難以察覺的分布變化也會對深度學習模型造成重大影響。
自然魯棒性與對抗性魯棒性雖然都關注模型在輸入變化時的表現,但它們關注的變化類型完全不同。對抗性魯棒性關注的是惡意設計的、目的是欺騙模型的微小擾動。這些擾動對人眼幾乎不可見,但能夠讓模型做出錯誤預測。而自然魯棒性關注的是那些在現實世界中自然發生的變化,如噪聲、模糊、光照變化等。
評估一個模型的自然魯棒性面臨著巨大挑戰,因為我們無法預知模型在部署后會遇到什么樣的分布偏移。為了系統性地研究這個問題,研究者們開發了多種基準測試集。除了前面提到的ImageNet-C和ImageNetV2,還有ImageNet-P(測試擾動魯棒性)、ImageNet-R(包含藝術創作中的ImageNet類別)等。這些數據集從不同角度測試模型在分布偏移下的表現。
![]()
在實際應用中,自然魯棒性問題尤為突出。一個典型例子是自動駕駛系統。這些系統通常在好天氣、良好照明條件下進行訓練和測試,但必須在各種天氣和光照條件下安全運行。醫學影像分析是另一個關鍵領域,不同的掃描設備、不同的醫院協議可能導致圖像特征的差異,如果模型缺乏自然魯棒性,這些差異可能導致關鍵的診斷錯誤。
未雨綢繆
面對無法預知的分布偏移,研究者們提出了一系列技術來提高模型的域泛化能力。域泛化的目標是訓練一個能夠在未見過的新域上表現良好的模型,即使這些新域與訓練域存在顯著差異。這些技術主要分為數據增強和網絡架構調整兩大類。
數據增強是提高模型自然魯棒性最直接的方法。通過向訓練數據應用各種變換,我們可以增加數據多樣性,幫助模型學習更加不變的特征表示。最簡單的數據增強包括幾何變換,如隨機旋轉、平移和鏡像。這些變換雖然簡單,但能有效提高模型的泛化能力。
![]()
不過,簡單的幾何變換通常不足以應對復雜的分布偏移。為此,研究者提出了更復雜的數據增強策略。例如,Cutout技術通過隨機擦除圖像的一部分,迫使模型學習利用整個圖像的信息而不是依賴于特定部分。這種方法在一定程度上模擬了現實世界中的遮擋現象。
DeVries和Taylor在2017年提出的研究表明,Cutout不僅可以提高模型在訓練分布上的表現,還能提升模型在面對遮擋時的魯棒性。他們通過實驗發現,當隨機擦除面積占圖像的16%左右時,模型在CIFAR-10數據集上的表現最佳,錯誤率降低了約1.5%。
更復雜的數據增強方法包括混合圖像塊。Yun等人在2019年提出的CutMix方法不是簡單地擦除圖像塊,而是用另一張圖像的對應部分替換它,同時混合兩張圖像的標簽。這種方法不僅保留了更多的圖像信息,還創造了新的訓練樣本,進一步擴展了訓練分布的多樣性。
實際研究表明,組合多種數據增強方法通常比單獨使用一種方法效果更好。Hendrycks等人在2020年提出的AugMix方法就是一個很好的例子。AugMix通過隨機組合多種簡單增強操作,然后將多個增強版本的圖像線性組合,創建出多樣化且自然的增強樣本。這種方法在各種基準測試上都表現出色,特別是在測試模型對自然圖像變化的魯棒性時。
盡管數據增強方法多種多樣,但選擇最佳增強策略仍然是一個挑戰。不同的數據集和任務可能需要不同的增強方法。Cubuk等人在2019年提出了AutoAugment,這是一種自動尋找最佳數據增強策略的方法。通過強化學習,AutoAugment可以為特定數據集找到最優的增強策略組合。
除了數據增強,網絡架構的設計也對模型的自然魯棒性有重要影響。研究表明,更深的網絡通常具有更好的魯棒性。Hendrycks和Dietterich在2019年的研究中發現,更深版本的DenseNet和ResNeXt在ImageNet-C和ImageNet-P基準測試上的表現明顯優于淺層版本。
網絡深度之所以能提高魯棒性,部分原因在于更深的網絡能夠學習更復雜、更抽象的特征表示,這些特征往往對分布偏移更加魯棒。但值得注意的是,網絡深度的增加需要更大的訓練數據集來防止過擬合,因此通常與數據增強結合使用。
特定的網絡架構設計也能提高模型的自然魯棒性。例如,DenseNet通過在每個卷積層使用前面所有層的特征圖,豐富了層間連接,提高了特征聚合能力。類似地,ResNeXt通過增加網絡寬度和使用組卷積,也能提高模型對數據變化的適應能力。
多尺度網絡是另一種能提高模型魯棒性的架構設計。這些網絡在不同尺度上處理輸入圖像,能夠捕捉不同層次的特征。Hendrycks和Dietterich發現,多尺度網絡在面對圖像腐蝕時表現出更好的魯棒性,但在面對擾動時并無明顯優勢。這可能是因為不同尺度的數據受到腐蝕的影響程度不同,多尺度處理能夠減輕這種影響。
研究還發現,網絡深度與架構設計結合使用時效果最佳。深層DenseNet或ResNeXt網絡通常比深層普通卷積網絡具有更好的魯棒性。這表明,增加網絡深度的同時改進網絡連接方式,能夠更有效地提高模型的自然魯棒性。
![]()
總之,域泛化技術通過提前應對未知的分布偏移,幫助模型在遇到新環境時保持良好性能。這些技術雖然無法完全解決自然魯棒性問題,但能顯著減輕分布偏移對模型性能的影響,是構建可靠AI系統的重要一環。
臨陣磨槍
與域泛化試圖提前應對未知分布偏移不同,域適應技術專注于解決已知的分布偏移問題。當模型部署后遇到明顯的性能下降,我們往往已經獲得了一定量的目標域數據。域適應技術就是利用這些數據,調整訓練好的模型使其適應新環境。
遷移學習是域適應最常用的方法。這項技術背后的理念很簡單:一個在大規模數據集上預訓練的模型已經學習到了豐富的特征表示,這些表示可以轉移到新任務中,即使新任務的數據分布與原始分布有所不同。遷移學習通常分為兩種形式:線性探測和微調。
線性探測保持預訓練模型的特征提取部分固定,只訓練最后的預測層。這種方法假設預訓練模型已經學習到足夠通用的特征表示,只需要調整如何使用這些特征進行預測。微調則更進一步,在訓練預測層的同時,也輕微調整特征提取層的參數。
Kornblith等人在2019年進行的研究表明,在ImageNet上預訓練的模型通過微調能顯著提高在其他數據集上的性能。例如,將預訓練的ResNet-50模型遷移到Food-101數據集上,準確率從隨機初始化的72.3%提高到了87.1%,提升了14.8個百分點。
![]()
雖然遷移學習廣泛應用且效果明顯,但并非總是能成功改善模型在目標域的表現。Neyshabur等人在2020年的研究發現,遷移學習的效果取決于源域和目標域的相似度。當兩個域差異較大時,遷移學習可能帶來有限甚至負面的效果。
更令人擔憂的是,Schneider等人在2020年的研究發現,不同的遷移學習方法可能對模型在目標域的表現產生不同影響。微調雖然能提高模型在分布內(ID)數據上的表現,卻可能降低模型在分布外(OOD)數據上的魯棒性。這表明在應用遷移學習時,需要仔細選擇合適的方法,并根據具體任務和數據特性進行調整。
近年來,自監督學習在域適應中展現出巨大潛力。自監督學習通過解決輔助任務來學習有用的特征表示,無需顯式的標簽。這使得它特別適合處理無標簽或標簽有限的目標域數據。
Sun等人在2020年提出的測試時訓練(TTT)方法就利用了自監督學習。TTT方法在模型部署后,利用每個測試樣本本身進行快速適應。具體來說,TTT在訓練階段除了學習主要任務外,還學習一個自監督輔助任務(如預測圖像旋轉角度)。在測試階段,模型使用每個測試樣本解決輔助任務,并據此更新模型參數,然后再用更新后的模型進行預測。這種方法在多個基準測試上都表現出色,特別是在應對分布偏移時。
進一步拓展自監督學習在域適應中的應用,Wang等人在2021年提出了多任務學習框架,將下游任務與多個自監督任務結合。通過同時訓練多個任務,模型能學習更加豐富且域不變的特征表示。實驗表明,這種方法在MNIST+MNIST-M、MNIST+SVHN等域適應基準上取得了顯著進步。
對比學習是近年來自監督學習中的重要進展,它也為域適應提供了新思路。對比學習通過拉近同一數據的不同增強版本的表示,同時推開不同數據的表示,學習有意義的特征表示。Chen等人在2020年提出的SimCLR方法在多個下游任務上取得了接近有監督方法的性能,展示了對比學習在表示學習中的潛力。
除了遷移學習和自監督學習,元學習和小樣本學習也為域適應提供了獨特視角。元學習,又稱"學習如何學習",旨在訓練一個能夠快速適應新任務的模型。在域適應背景下,元學習可以幫助模型快速適應新的數據分布。
Finn等人在2017年提出的模型無關元學習(MAML)算法就是為快速適應新任務而設計的。MAML通過找到對新任務敏感的初始參數,使模型能在少量梯度更新后適應新任務。這一思路被Li等人在2018年應用到域適應中,他們提出了元學習域適應網絡(MDAN),通過元學習框架學習域不變的特征表示。
小樣本學習關注如何在每個類別只有少量樣本的情況下訓練模型。在域適應中,特別是當目標域的標簽稀缺時,小樣本學習技術可以派上用場。原型網絡(Prototypical Networks)就是一種常用的小樣本學習方法,它通過計算每個類別的原型(平均特征向量)來進行分類。
![]()
Triantafillou等人在2019年提出的元數據集(Meta-Dataset)為評估小樣本學習方法提供了一個統一框架。他們發現,不同方法在不同領域的表現差異很大,沒有一種方法能在所有領域都表現最佳。這一發現強調了在域適應中選擇合適方法的重要性,需要根據特定領域和任務特性進行選擇。
在線域適應是域適應研究的一個新興方向,它關注模型如何在持續接收新數據的同時不斷適應變化的分布。Wang等人在2021年擴展TTT方法支持在線域適應,使模型能夠在不斷變化的環境中保持性能。
衡量標尺
如何客觀評估深度學習模型在面對分布偏移時的表現,是推動自然魯棒性研究的關鍵。隨著研究的深入,一系列基準數據集被提出,用于系統性地測試模型對不同類型分布偏移的魯棒性。這些基準數據集大致可分為兩類:合成基準和真實世界基準。
合成基準通過對原始圖像應用特定變換,模擬現實中可能遇到的各種情況。ImageNet-C和ImageNet-P是兩個具有代表性的合成基準。ImageNet-C專注于測試模型對腐蝕的魯棒性,包含15種不同類型的圖像腐蝕,如噪聲、模糊、天氣變化和數字失真,每種腐蝕又有5個不同的嚴重程度。
舉例來說,ImageNet-C的高斯噪聲腐蝕在嚴重程度為1時幾乎不影響圖像質量,而在嚴重程度為5時會導致圖像嚴重失真。Hendrycks和Dietterich在2019年的研究中,使用這些基準測試了多種常見的計算機視覺模型。結果顯示,即使是當時最先進的模型,如DenseNet-201,在面對嚴重腐蝕時也會經歷顯著的性能下降,準確率從原始的78%降至30%左右。
![]()
ImageNet-P則關注擾動魯棒性,包含10種不同類型的自然擾動,如搖晃、縮放和旋轉。與ImageNet-C不同,ImageNet-P中的每個測試樣本是一個短視頻序列,模擬物體或相機在短時間內的微小移動。這種設計旨在測試模型對視角變化等常見現實場景的適應能力。
盡管合成基準提供了一種系統性評估模型魯棒性的方法,但它們也面臨一個基本問題:合成的分布偏移可能無法準確反映現實世界中的偏移。為了解決這個問題,研究者們開始構建基于真實世界數據的基準。
ImageNetV2是一個重要的真實世界基準。Recht等人在2019年按照與原始ImageNet相同的數據收集流程創建了這個數據集。理論上,兩個數據集應該非常相似,但實驗顯示在原始ImageNet上訓練的模型在ImageNetV2上的表現明顯降低。例如,ResNet-50模型在ImageNet驗證集上的準確率為76.7%,但在ImageNetV2上僅為70.3%,下降了6.4個百分點。這種差異表明,即使是看似微小的數據收集過程變化也會導致顯著的分布偏移。
ImageNet-R(Renditions)是另一個有趣的真實世界基準,它包含ImageNet類別的不同藝術形式,如繪畫、雕塑和刺繡。這些圖像在紋理和局部統計特性上與原始照片有很大不同。Hendrycks等人在2021年的研究中發現,在ImageNet上訓練的標準模型在ImageNet-R上的準確率往往低于40%,而這些模型在ImageNet驗證集上的準確率通常超過75%。
街景店面(StreetView StoreFronts)數據集提供了一個測試真實世界分布偏移的平臺。該數據集包含不同地點、不同年份和不同相機拍攝的店面圖像,引入了傳感器導致的分布偏移。通過控制數據集參數(如固定地點),研究者可以更細粒度地研究不同類型的分布偏移對模型性能的影響。
DeepFashion Remixed數據集則關注對象遮擋、縮放、方向和尺度的系統性變化。這個數據集使用DeepFashion2的元數據,以可控方式改變圖像特性。與街景店面數據集類似,DeepFashion Remixed也允許研究者通過固定某些參數(如縮放程度)并改變其他參數來精確測試模型對特定變化的魯棒性。
除了這些專為測試自然魯棒性而設計的基準外,域適應研究也需要特定的基準來評估適應方法的有效性。這些基準通常由兩個具有不同分布但適合同一任務的數據集組成。例如,MNIST+MNIST-M基準評估模型從原始手寫數字數據集適應到添加了隨機背景的版本的能力。
DomainNet是域適應研究中的一個標準基準,它包含來自六個不同域(素描、繪畫、真實照片等)的相同345個類別。該數據集包含約60萬張圖像,使其成為最大和最多樣化的域適應基準之一。在這個基準上,Wang等人在2020年的多源域適應研究中表明,即使是最先進的方法在跨域適應時也面臨顯著挑戰,準確率通常比在域內測試低20-30個百分點。
![]()
值得注意的是,基準數據集的設計自身就反映了我們對分布偏移的理解和關注點。早期基準多關注特定類型的圖像變化,如模糊和噪聲。隨著研究深入,基準開始更多關注真實世界的分布偏移,并提供更細粒度的控制和評估能力。
評估模型魯棒性的方法也在不斷發展。除了簡單地報告準確率下降外,研究者們提出了更多指標來衡量模型的魯棒性。例如,Hendrycks和Dietterich提出了平均腐蝕錯誤率(mCE)和相對平均腐蝕錯誤率(rmCE),將模型性能歸一化后與基線模型比較,使不同模型的魯棒性更具可比性。
隨著研究的深入,我們可以預見基準數據集和評估方法將繼續發展,以更好地反映現實世界中的分布偏移,并提供更加全面和公平的模型評估。
參考資料:
Goji?, G., et al. (2023). Non-adversarial Robustness of Deep Learning Methods for Computer Vision. arXiv:2305.14986v1.
Hendrycks, D., &; Dietterich, T. (2019). Benchmarking Neural Network Robustness to Common Corruptions and Perturbations. ICLR.
Sun, B., et al. (2020). Test-Time Training with Self-Supervision for Generalization under Distribution Shifts. ICML.
Recht, B., et al. (2019). Do ImageNet Classifiers Generalize to ImageNet? ICML.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.