在機器學習的世界里,一場靜默卻深刻的革命悄然展開。三年間,計算機視覺領域的自監(jiān)督學習從邊緣走向中心,從對比走向生成,從依賴標簽到自我學習。這種無需人工標注的學習方式,正如黑暗中尋找光明的智者,從數據本身中提煉出隱藏的規(guī)律與模式。自2018年起,研究者們提出了超過100種通用自監(jiān)督學習框架,它們如同百花齊放,各具特色卻又相互啟發(fā)。從早期的聚類和對比學習,到后來占據主導地位的掩碼圖像建模,這一演變不僅改變了模型訓練的方式,更深刻重塑了人工智能理解視覺世界的能力。本文將揭開這場技術變革的面紗,探索計算機如何從無標簽的數據中學習到豐富的視覺表征。
無需標注的學習
計算機視覺領域長期以來依賴大量帶標簽的數據進行訓練。想象一下,要讓計算機識別一只貓,傳統(tǒng)方法需要向它展示成千上萬張已經標記為"貓"的圖片。這種監(jiān)督學習方法雖然直接有效,但面臨兩大挑戰(zhàn):一是獲取標簽成本高昂,二是標簽質量難以保證。
2012年,AlexNet在ImageNet挑戰(zhàn)賽上的驚艷表現(xiàn)標志著深度學習在計算機視覺領域的崛起。但隨著時間推移,僅靠增加數據量和模型復雜度帶來的性能提升逐漸見頂。如圖1所示,近年來ImageNet上的分類準確率提升已經放緩,這表明監(jiān)督學習可能遇到了瓶頸。
自監(jiān)督學習的核心思想可以追溯到更早的時期,但直到2018年前后才真正開始在計算機視覺領域嶄露頭角。與自然語言處理(NLP)領域不同,圖像數據是高維、連續(xù)且非結構化的,這使得設計適合圖像的自監(jiān)督學習任務變得更具挑戰(zhàn)性。
自監(jiān)督學習的魅力在于它能夠從數據本身創(chuàng)造監(jiān)督信號。通過設計巧妙的"預訓練任務",模型可以在無需人工標注的情況下學習到有用的特征表示。這些預訓練任務包括圖像上色、圖像修復、幾何變換預測、拼圖求解、實例判別等。
2018年,耶魯大學教授Zisserman在演講中正式將這種學習范式稱為"自監(jiān)督學習",并指出之前被歸類為無監(jiān)督學習的許多方法實際上是自監(jiān)督的,因為監(jiān)督信號來自數據本身而非人工標注。這一觀點得到了包括Yann LeCun在內的多位人工智能領域權威的認可,LeCun甚至修改了他著名的"蛋糕類比",將自監(jiān)督學習描述為智能的主體部分。
![]()
自監(jiān)督學習可以分為生成式和判別式兩大類。生成式方法致力于學習數據的分布,代表方法包括自編碼器和生成對抗網絡。判別式方法則專注于學習區(qū)分不同數據樣本的特征表示,例如通過對比學習和聚類。在計算機視覺領域,判別式方法在2018至2021年間占據主導地位,而后生成式方法崛起并超越了判別式方法的表現(xiàn)。
實踐證明,這些無需標注的學習方法不僅能夠降低對人工標注的依賴,還能學習到更加魯棒和通用的特征表示,這為計算機視覺的進一步發(fā)展開辟了新的道路。
判別學習四路徑
在判別式自監(jiān)督學習的發(fā)展歷程中,出現(xiàn)了四種主要技術路線:聚類、對比學習、知識蒸餾和信息最大化。這四條路徑各具特色,卻又相互借鑒,共同推動了判別式自監(jiān)督學習的繁榮。
![]()
聚類方法是最直觀的自監(jiān)督學習方式之一,其核心思想是通過將相似的樣本聚在一起來創(chuàng)建偽標簽。2018年,F(xiàn)acebook AI Research團隊提出的Deep Cluster成為這一領域的開拓性工作。該方法首先使用K-means算法對圖像特征進行聚類,然后用聚類結果作為偽標簽訓練網絡。但聚類方法面臨著幾個固有問題:離線訓練限制了大規(guī)模應用,大簇可能主導大部分標簽,小簇可能導致過度細粒度的標簽,空簇和模型崩潰也是常見困擾。
隨后,多個改進版本相繼問世。2019年的Local Aggregation引入了局部聚合度量進行軟聚類分配;同年,SeLa通過Sinkhorn-Knopp算法改進了Deep Cluster,有效防止模型崩潰;2020年的Swav實現(xiàn)了在線聚類并保持不同視圖間的分配一致性,這被認為是當前最穩(wěn)定和準確的聚類自監(jiān)督方法之一。
對比學習是2018年后最受關注的自監(jiān)督學習方法。其基本思想是使同一圖像的不同增強視圖在特征空間中靠近,而不同圖像的特征遠離。2018年的InstDist和CPC開創(chuàng)了這一方向,但真正的突破來自于2019年底Facebook AI Research提出的MoCo。MoCo利用動量編碼器和內存庫在對比學習框架中取得了接近監(jiān)督學習的效果。2020年,Google Research團隊的SimCLR通過投影頭和更強的數據增強進一步提升了性能。此后,MoCo-v2、SimCLR-v2等改進版本不斷涌現(xiàn),對比學習成為主流自監(jiān)督方法。
對比學習方法的一個關鍵挑戰(zhàn)是防止網絡崩潰,即所有樣本映射到相同的特征點。主流解決方案是使用負樣本,但這也帶來了關于如何選擇高質量負樣本的討論。2020年的DCL提出了無偏對比目標來改進負樣本選擇;2021年的AdCo則嘗試將自訓練的對抗性負樣本融入自監(jiān)督學習過程。
知識蒸餾類方法是2020年出現(xiàn)的一種新思路,其代表作是DeepMind的BYOL和Facebook AI Research的SimSiam。令人驚訝的是,這些方法既不使用負樣本也不依賴聚類,而是通過網絡不對稱性或停止梯度傳播等技巧避免崩潰。BYOL使用一個"學生"網絡預測"教師"網絡的表示,而SimSiam則是一個使用停止梯度技巧的對稱框架。雖然這些方法的崩潰避免機制尚未完全理解,但它們的優(yōu)異性能引發(fā)了廣泛關注。
信息最大化是2021年興起的判別式自監(jiān)督學習方法,代表作包括WMSE、Barlow Twins和VicReg。這些方法不需要負樣本或不對稱架構,而是通過創(chuàng)新的損失函數避免崩潰。Barlow Twins讓嵌入向量的歸一化互相關矩陣接近單位矩陣,VicReg則基于方差、不變性和協(xié)方差設計了損失函數。這類方法的優(yōu)勢在于理論基礎更為扎實,但損失函數較為復雜。
隨著研究的深入,研究者發(fā)現(xiàn)這四類方法可以相互借鑒和融合。2021年底的UniGrad宣稱統(tǒng)一了聚類、對比學習、知識蒸餾和信息最大化四種方法。此外,一些增強模塊如InfoMin、MocHi、ReSim等可以應用于多種框架以提升性能。
判別式自監(jiān)督學習的迅速發(fā)展不僅在ImageNet線性探測上接近甚至超過了監(jiān)督學習的表現(xiàn),也在目標檢測、分割等下游任務中展現(xiàn)出強大的遷移能力。盡管如此,大多數判別式方法仍然使用ResNet等CNN架構作為骨干網絡,這與后來興起的生成式方法偏好Vision Transformer形成了鮮明對比。
生成學習新紀元
2020年底,計算機視覺領域的自監(jiān)督學習迎來了一場悄無聲息的革命。原本被研究者認為不如判別式方法有效的生成式自監(jiān)督學習開始嶄露頭角,并在短短一年內迅速占據了主導地位。這一轉變如此迅速,以至于從2021年最后一季度到2023年第一季度,生成式自監(jiān)督學習的研究進展幾乎以月為單位更新狀態(tài)。
生成式自監(jiān)督學習主要分為兩大類:基于生成對抗網絡(GAN)的方法和基于掩碼圖像建模(MIM)的方法。其中,后者成為了這場革命的中堅力量。
![]()
基于GAN的生成式自監(jiān)督學習可以追溯到2016年的BiGAN和ALI,它們通過添加額外的編碼器網絡,使GAN不僅能生成圖像,還能提取特征。2019年,Donahue和Simonyan提出的BigBiGAN結合了BiGAN架構和更強大的BigGAN生成器,取得了更好的特征提取效果。受到判別式自監(jiān)督學習的啟發(fā),Chen等人在2019年提出了SS-GAN,將圖像旋轉預測作為輔助任務引入GAN訓練。
盡管這些方法取得了一定進展,但由于GAN本身的局限性,如模式崩潰、難以擴展到高分辨率圖像等問題,基于GAN的生成式自監(jiān)督學習并未成為主流方法。
真正的變革來自于掩碼圖像建模(MIM)。這一技術受到了自然語言處理中掩碼語言建模的啟發(fā),特別是BERT的成功。MIM的基本思想是將圖像分割成小塊,隨機遮蓋部分小塊,然后訓練模型預測這些被遮蓋的內容。
雖然Dosovitskiy等人在2020年提出視覺變換器(ViT)時就提到了MIM的可能性,但直到2021年6月,微軟研究院的Bao等人提出BEiT,MIM才真正展示出其強大潛力。BEiT將圖像分成多個等大小的補丁,遮蓋部分補丁,并要求模型預測這些補丁對應的離散視覺標記,這些標記由DALL-E的tokenizer生成。
緊隨其后,F(xiàn)acebook AI Research的He等人在2021年11月提出了MAE,這是一個非對稱自編碼器框架,直接學習重建圖像補丁。MAE的獨特之處在于其編碼器(ViT)只處理未遮蓋的補丁(通常只有25%),無需tokenizer,使訓練速度大大提升。He等人的實驗表明,重建像素值和重建DALL-E標記在效果上沒有統(tǒng)計學上的顯著差異,這意味著簡單的像素重建就是一個可行的目標。
生成式自監(jiān)督學習的爆發(fā)速度之快,以至于許多框架的改進版本甚至在原始版本發(fā)表前就已經問世。例如,BEiT-v2和BEiT-v3分別在2022年8月提出,它們使用CLIP tokenizer并引入了補丁聚合策略,獲得了更好的結果。同樣,CAE的改進版CAE-v2也在發(fā)表前就已經用CLIP tokenizer替換了DALL-E tokenizer。
![]()
除了不同的重建目標,MIM還探索了不同的輸入處理方式。2023年初,F(xiàn)ang等人提出的CIM使用輔助生成器(BEiT)污染輸入圖像,然后要求模型同時進行補丁分類和原始圖像生成。
值得注意的是,幾乎所有這些生成式框架都使用ViT作為骨干網絡,而判別式框架則主要使用ResNet。這一趨勢直到2023年初才有所改變,Tian等人的SparK證明了經典卷積神經網絡(CNN)和現(xiàn)代CNN(如ConvNext)也可以通過MIM訓練,并獲得媲美ViT的結果。
生成式和判別式自監(jiān)督學習的界限也在逐漸模糊。越來越多的研究開始嘗試結合兩者的優(yōu)勢,比如2021年底的iBOT結合了MIM和DINO的蒸餾目標,2022年的CAN、CMAE和ConMIM則結合了MIM和對比學習。這種融合趨勢表明,未來的自監(jiān)督學習可能不再嚴格區(qū)分生成式和判別式,而是采取更加靈活的混合方法。
![]()
評估與展望前路
自監(jiān)督學習的主要目標是訓練出能夠提取有用特征的編碼器,但如何評估這些特征的質量成為了研究者面臨的重要問題。在自監(jiān)督學習文獻中,主要有三種評估方法:完全微調、線性探測和K近鄰評估。
完全微調是最全面的評估方法,它在自監(jiān)督預訓練后,將一個線性層添加到模型中,然后在特定任務上重新訓練整個模型。這種方法可以充分釋放模型學到的特征潛力,但也可能掩蓋預訓練質量的差異。
線性探測,也被稱為線性協(xié)議,是自監(jiān)督學習中最常用的評估方法。它在凍結預訓練模型的情況下,只訓練一個新添加的線性層。這種方法能更直接地反映預訓練特征的線性可分性。
K近鄰評估是最簡單的方法,它直接使用預訓練模型提取特征,然后通過K近鄰算法進行分類。雖然這種方法在早期的自監(jiān)督學習研究中較為流行,但近年來已經較少使用。
有趣的是,判別式和生成式自監(jiān)督學習框架在評估偏好上存在明顯差異。大多數判別式框架傾向于使用線性探測,而生成式框架則更喜歡完全微調。這一差異源于僅使用MIM作為預訓練任務的生成式框架在線性探測中表現(xiàn)較差,只有當它們結合了對比學習等判別元素或使用對比訓練的CLIP tokenizer時,線性探測準確率才會顯著提高。
除了評估方法的選擇,自監(jiān)督學習還面臨著一系列開放性問題和挑戰(zhàn)。
自監(jiān)督學習的理論基礎仍然不完善。雖然最早的聚類和對比學習方法已經收到了相當多的理論分析,但其他自監(jiān)督范式的理論解釋仍然缺乏。特別是為什么某些架構能避免模型崩潰,而其他架構需要特殊技巧才能穩(wěn)定訓練,這一問題尚未得到滿意的解答。
自監(jiān)督學習模型的領域適應性也是一個重要問題。大多數通用自監(jiān)督框架都在ImageNet等自然圖像數據集上進行評估,但它們在醫(yī)學影像等特殊領域的效果如何,還需要更多研究。同樣,自監(jiān)督學習在圖像分類之外的任務,如目標檢測、姿態(tài)估計和動作識別等方面的表現(xiàn)也值得進一步探索。
![]()
自監(jiān)督學習的校準性、可解釋性和對抗魯棒性也是研究者關注的方向。初步發(fā)現(xiàn)表明,通過自監(jiān)督訓練的模型在這些方面可能展現(xiàn)出不同于監(jiān)督學習模型的特性,但這些效果的機制和影響尚未完全明確。
自監(jiān)督學習的訓練效率是一個亟待解決的問題。與監(jiān)督學習相比,自監(jiān)督學習通常需要更多的計算資源和更長的訓練時間。例如,Chen等人在2021年報告,用ViT骨干網絡訓練MoCo-v3需要約625個TPU天。這也解釋了為何大多數自監(jiān)督學習的貢獻都來自擁有充足計算資源的工業(yè)實驗室,如Facebook AI Research、微軟研究院、DeepMind和谷歌研究院等。雖然一些研究已經開始探索高效訓練和評估技術,但在這方面仍有很長的路要走。
關于tokenizer在生成式自監(jiān)督學習中的作用也引發(fā)了爭議。多項研究表明,使用先前在大型圖像語料庫上訓練的tokenizer(如CLIP tokenizer)可以顯著提升模型性能。但是,使用這種預訓練tokenizer來展示相對于沒有這種高級監(jiān)督的其他框架的最先進結果,近來受到了研究社區(qū)的批評。tokenizer在生成式自監(jiān)督學習中的有效性和必要性是一個值得深入探討的領域。
展望未來,生成式還是判別式自監(jiān)督學習將主導發(fā)展方向?這個問題沒有簡單的答案。近期比較研究表明,兩種方法各有優(yōu)缺點,判別式自監(jiān)督學習可能更側重于形狀特征,而生成式自監(jiān)督學習則可能偏向紋理特征。更重要的是,越來越多的新框架開始結合兩種方法的優(yōu)點,比如通過對比學習和掩碼圖像建模的結合,或通過蒸餾等技術。這種融合趨勢可能會持續(xù),未來的自監(jiān)督學習框架很可能會借鑒兩方面的進展,以進一步提升性能。
參考資料:
Ozbulak, U., Lee, H. J., Boga, B., et al. (2023). Know Your Self-supervised Learning: A Survey on Image-based Generative and Discriminative Training. Transactions on Machine Learning Research.
He, K., Chen, X., Xie, S., et al. (2022). Masked Autoencoders Are Scalable Vision Learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
Chen, T., Kornblith, S., Norouzi, M., &; Hinton, G. (2020). A Simple Framework for Contrastive Learning of Visual Representations. International Conference on Machine Learning.
Bao, H., Dong, L., &; Wei, F. (2021). BEiT: BERT Pre-Training of Image Transformers. International Conference on Learning Representations.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.