<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      自監(jiān)督學習如何在計算機視覺領域從判別式走向生成式模型的歷程

      0
      分享至

      在機器學習的世界里,一場靜默卻深刻的革命悄然展開。三年間,計算機視覺領域的自監(jiān)督學習從邊緣走向中心,從對比走向生成,從依賴標簽到自我學習。這種無需人工標注的學習方式,正如黑暗中尋找光明的智者,從數據本身中提煉出隱藏的規(guī)律與模式。自2018年起,研究者們提出了超過100種通用自監(jiān)督學習框架,它們如同百花齊放,各具特色卻又相互啟發(fā)。從早期的聚類和對比學習,到后來占據主導地位的掩碼圖像建模,這一演變不僅改變了模型訓練的方式,更深刻重塑了人工智能理解視覺世界的能力。本文將揭開這場技術變革的面紗,探索計算機如何從無標簽的數據中學習到豐富的視覺表征。

      無需標注的學習

      計算機視覺領域長期以來依賴大量帶標簽的數據進行訓練。想象一下,要讓計算機識別一只貓,傳統(tǒng)方法需要向它展示成千上萬張已經標記為"貓"的圖片。這種監(jiān)督學習方法雖然直接有效,但面臨兩大挑戰(zhàn):一是獲取標簽成本高昂,二是標簽質量難以保證。

      2012年,AlexNet在ImageNet挑戰(zhàn)賽上的驚艷表現(xiàn)標志著深度學習在計算機視覺領域的崛起。但隨著時間推移,僅靠增加數據量和模型復雜度帶來的性能提升逐漸見頂。如圖1所示,近年來ImageNet上的分類準確率提升已經放緩,這表明監(jiān)督學習可能遇到了瓶頸。

      自監(jiān)督學習的核心思想可以追溯到更早的時期,但直到2018年前后才真正開始在計算機視覺領域嶄露頭角。與自然語言處理(NLP)領域不同,圖像數據是高維、連續(xù)且非結構化的,這使得設計適合圖像的自監(jiān)督學習任務變得更具挑戰(zhàn)性。

      自監(jiān)督學習的魅力在于它能夠從數據本身創(chuàng)造監(jiān)督信號。通過設計巧妙的"預訓練任務",模型可以在無需人工標注的情況下學習到有用的特征表示。這些預訓練任務包括圖像上色、圖像修復、幾何變換預測、拼圖求解、實例判別等。

      2018年,耶魯大學教授Zisserman在演講中正式將這種學習范式稱為"自監(jiān)督學習",并指出之前被歸類為無監(jiān)督學習的許多方法實際上是自監(jiān)督的,因為監(jiān)督信號來自數據本身而非人工標注。這一觀點得到了包括Yann LeCun在內的多位人工智能領域權威的認可,LeCun甚至修改了他著名的"蛋糕類比",將自監(jiān)督學習描述為智能的主體部分。


      自監(jiān)督學習可以分為生成式和判別式兩大類。生成式方法致力于學習數據的分布,代表方法包括自編碼器和生成對抗網絡。判別式方法則專注于學習區(qū)分不同數據樣本的特征表示,例如通過對比學習和聚類。在計算機視覺領域,判別式方法在2018至2021年間占據主導地位,而后生成式方法崛起并超越了判別式方法的表現(xiàn)。

      實踐證明,這些無需標注的學習方法不僅能夠降低對人工標注的依賴,還能學習到更加魯棒和通用的特征表示,這為計算機視覺的進一步發(fā)展開辟了新的道路。

      判別學習四路徑

      在判別式自監(jiān)督學習的發(fā)展歷程中,出現(xiàn)了四種主要技術路線:聚類、對比學習、知識蒸餾和信息最大化。這四條路徑各具特色,卻又相互借鑒,共同推動了判別式自監(jiān)督學習的繁榮。


      聚類方法是最直觀的自監(jiān)督學習方式之一,其核心思想是通過將相似的樣本聚在一起來創(chuàng)建偽標簽。2018年,F(xiàn)acebook AI Research團隊提出的Deep Cluster成為這一領域的開拓性工作。該方法首先使用K-means算法對圖像特征進行聚類,然后用聚類結果作為偽標簽訓練網絡。但聚類方法面臨著幾個固有問題:離線訓練限制了大規(guī)模應用,大簇可能主導大部分標簽,小簇可能導致過度細粒度的標簽,空簇和模型崩潰也是常見困擾。

      隨后,多個改進版本相繼問世。2019年的Local Aggregation引入了局部聚合度量進行軟聚類分配;同年,SeLa通過Sinkhorn-Knopp算法改進了Deep Cluster,有效防止模型崩潰;2020年的Swav實現(xiàn)了在線聚類并保持不同視圖間的分配一致性,這被認為是當前最穩(wěn)定和準確的聚類自監(jiān)督方法之一。

      對比學習是2018年后最受關注的自監(jiān)督學習方法。其基本思想是使同一圖像的不同增強視圖在特征空間中靠近,而不同圖像的特征遠離。2018年的InstDist和CPC開創(chuàng)了這一方向,但真正的突破來自于2019年底Facebook AI Research提出的MoCo。MoCo利用動量編碼器和內存庫在對比學習框架中取得了接近監(jiān)督學習的效果。2020年,Google Research團隊的SimCLR通過投影頭和更強的數據增強進一步提升了性能。此后,MoCo-v2、SimCLR-v2等改進版本不斷涌現(xiàn),對比學習成為主流自監(jiān)督方法。

      對比學習方法的一個關鍵挑戰(zhàn)是防止網絡崩潰,即所有樣本映射到相同的特征點。主流解決方案是使用負樣本,但這也帶來了關于如何選擇高質量負樣本的討論。2020年的DCL提出了無偏對比目標來改進負樣本選擇;2021年的AdCo則嘗試將自訓練的對抗性負樣本融入自監(jiān)督學習過程。

      知識蒸餾類方法是2020年出現(xiàn)的一種新思路,其代表作是DeepMind的BYOL和Facebook AI Research的SimSiam。令人驚訝的是,這些方法既不使用負樣本也不依賴聚類,而是通過網絡不對稱性或停止梯度傳播等技巧避免崩潰。BYOL使用一個"學生"網絡預測"教師"網絡的表示,而SimSiam則是一個使用停止梯度技巧的對稱框架。雖然這些方法的崩潰避免機制尚未完全理解,但它們的優(yōu)異性能引發(fā)了廣泛關注。

      信息最大化是2021年興起的判別式自監(jiān)督學習方法,代表作包括WMSE、Barlow Twins和VicReg。這些方法不需要負樣本或不對稱架構,而是通過創(chuàng)新的損失函數避免崩潰。Barlow Twins讓嵌入向量的歸一化互相關矩陣接近單位矩陣,VicReg則基于方差、不變性和協(xié)方差設計了損失函數。這類方法的優(yōu)勢在于理論基礎更為扎實,但損失函數較為復雜。

      隨著研究的深入,研究者發(fā)現(xiàn)這四類方法可以相互借鑒和融合。2021年底的UniGrad宣稱統(tǒng)一了聚類、對比學習、知識蒸餾和信息最大化四種方法。此外,一些增強模塊如InfoMin、MocHi、ReSim等可以應用于多種框架以提升性能。

      判別式自監(jiān)督學習的迅速發(fā)展不僅在ImageNet線性探測上接近甚至超過了監(jiān)督學習的表現(xiàn),也在目標檢測、分割等下游任務中展現(xiàn)出強大的遷移能力。盡管如此,大多數判別式方法仍然使用ResNet等CNN架構作為骨干網絡,這與后來興起的生成式方法偏好Vision Transformer形成了鮮明對比。

      生成學習新紀元

      2020年底,計算機視覺領域的自監(jiān)督學習迎來了一場悄無聲息的革命。原本被研究者認為不如判別式方法有效的生成式自監(jiān)督學習開始嶄露頭角,并在短短一年內迅速占據了主導地位。這一轉變如此迅速,以至于從2021年最后一季度到2023年第一季度,生成式自監(jiān)督學習的研究進展幾乎以月為單位更新狀態(tài)。

      生成式自監(jiān)督學習主要分為兩大類:基于生成對抗網絡(GAN)的方法和基于掩碼圖像建模(MIM)的方法。其中,后者成為了這場革命的中堅力量。


      基于GAN的生成式自監(jiān)督學習可以追溯到2016年的BiGAN和ALI,它們通過添加額外的編碼器網絡,使GAN不僅能生成圖像,還能提取特征。2019年,Donahue和Simonyan提出的BigBiGAN結合了BiGAN架構和更強大的BigGAN生成器,取得了更好的特征提取效果。受到判別式自監(jiān)督學習的啟發(fā),Chen等人在2019年提出了SS-GAN,將圖像旋轉預測作為輔助任務引入GAN訓練。

      盡管這些方法取得了一定進展,但由于GAN本身的局限性,如模式崩潰、難以擴展到高分辨率圖像等問題,基于GAN的生成式自監(jiān)督學習并未成為主流方法。

      真正的變革來自于掩碼圖像建模(MIM)。這一技術受到了自然語言處理中掩碼語言建模的啟發(fā),特別是BERT的成功。MIM的基本思想是將圖像分割成小塊,隨機遮蓋部分小塊,然后訓練模型預測這些被遮蓋的內容。

      雖然Dosovitskiy等人在2020年提出視覺變換器(ViT)時就提到了MIM的可能性,但直到2021年6月,微軟研究院的Bao等人提出BEiT,MIM才真正展示出其強大潛力。BEiT將圖像分成多個等大小的補丁,遮蓋部分補丁,并要求模型預測這些補丁對應的離散視覺標記,這些標記由DALL-E的tokenizer生成。

      緊隨其后,F(xiàn)acebook AI Research的He等人在2021年11月提出了MAE,這是一個非對稱自編碼器框架,直接學習重建圖像補丁。MAE的獨特之處在于其編碼器(ViT)只處理未遮蓋的補丁(通常只有25%),無需tokenizer,使訓練速度大大提升。He等人的實驗表明,重建像素值和重建DALL-E標記在效果上沒有統(tǒng)計學上的顯著差異,這意味著簡單的像素重建就是一個可行的目標。

      生成式自監(jiān)督學習的爆發(fā)速度之快,以至于許多框架的改進版本甚至在原始版本發(fā)表前就已經問世。例如,BEiT-v2和BEiT-v3分別在2022年8月提出,它們使用CLIP tokenizer并引入了補丁聚合策略,獲得了更好的結果。同樣,CAE的改進版CAE-v2也在發(fā)表前就已經用CLIP tokenizer替換了DALL-E tokenizer。


      除了不同的重建目標,MIM還探索了不同的輸入處理方式。2023年初,F(xiàn)ang等人提出的CIM使用輔助生成器(BEiT)污染輸入圖像,然后要求模型同時進行補丁分類和原始圖像生成。

      值得注意的是,幾乎所有這些生成式框架都使用ViT作為骨干網絡,而判別式框架則主要使用ResNet。這一趨勢直到2023年初才有所改變,Tian等人的SparK證明了經典卷積神經網絡(CNN)和現(xiàn)代CNN(如ConvNext)也可以通過MIM訓練,并獲得媲美ViT的結果。

      生成式和判別式自監(jiān)督學習的界限也在逐漸模糊。越來越多的研究開始嘗試結合兩者的優(yōu)勢,比如2021年底的iBOT結合了MIM和DINO的蒸餾目標,2022年的CAN、CMAE和ConMIM則結合了MIM和對比學習。這種融合趨勢表明,未來的自監(jiān)督學習可能不再嚴格區(qū)分生成式和判別式,而是采取更加靈活的混合方法。


      評估與展望前路

      自監(jiān)督學習的主要目標是訓練出能夠提取有用特征的編碼器,但如何評估這些特征的質量成為了研究者面臨的重要問題。在自監(jiān)督學習文獻中,主要有三種評估方法:完全微調、線性探測和K近鄰評估。

      完全微調是最全面的評估方法,它在自監(jiān)督預訓練后,將一個線性層添加到模型中,然后在特定任務上重新訓練整個模型。這種方法可以充分釋放模型學到的特征潛力,但也可能掩蓋預訓練質量的差異。

      線性探測,也被稱為線性協(xié)議,是自監(jiān)督學習中最常用的評估方法。它在凍結預訓練模型的情況下,只訓練一個新添加的線性層。這種方法能更直接地反映預訓練特征的線性可分性。

      K近鄰評估是最簡單的方法,它直接使用預訓練模型提取特征,然后通過K近鄰算法進行分類。雖然這種方法在早期的自監(jiān)督學習研究中較為流行,但近年來已經較少使用。

      有趣的是,判別式和生成式自監(jiān)督學習框架在評估偏好上存在明顯差異。大多數判別式框架傾向于使用線性探測,而生成式框架則更喜歡完全微調。這一差異源于僅使用MIM作為預訓練任務的生成式框架在線性探測中表現(xiàn)較差,只有當它們結合了對比學習等判別元素或使用對比訓練的CLIP tokenizer時,線性探測準確率才會顯著提高。

      除了評估方法的選擇,自監(jiān)督學習還面臨著一系列開放性問題和挑戰(zhàn)。

      自監(jiān)督學習的理論基礎仍然不完善。雖然最早的聚類和對比學習方法已經收到了相當多的理論分析,但其他自監(jiān)督范式的理論解釋仍然缺乏。特別是為什么某些架構能避免模型崩潰,而其他架構需要特殊技巧才能穩(wěn)定訓練,這一問題尚未得到滿意的解答。

      自監(jiān)督學習模型的領域適應性也是一個重要問題。大多數通用自監(jiān)督框架都在ImageNet等自然圖像數據集上進行評估,但它們在醫(yī)學影像等特殊領域的效果如何,還需要更多研究。同樣,自監(jiān)督學習在圖像分類之外的任務,如目標檢測、姿態(tài)估計和動作識別等方面的表現(xiàn)也值得進一步探索。


      自監(jiān)督學習的校準性、可解釋性和對抗魯棒性也是研究者關注的方向。初步發(fā)現(xiàn)表明,通過自監(jiān)督訓練的模型在這些方面可能展現(xiàn)出不同于監(jiān)督學習模型的特性,但這些效果的機制和影響尚未完全明確。

      自監(jiān)督學習的訓練效率是一個亟待解決的問題。與監(jiān)督學習相比,自監(jiān)督學習通常需要更多的計算資源和更長的訓練時間。例如,Chen等人在2021年報告,用ViT骨干網絡訓練MoCo-v3需要約625個TPU天。這也解釋了為何大多數自監(jiān)督學習的貢獻都來自擁有充足計算資源的工業(yè)實驗室,如Facebook AI Research、微軟研究院、DeepMind和谷歌研究院等。雖然一些研究已經開始探索高效訓練和評估技術,但在這方面仍有很長的路要走。

      關于tokenizer在生成式自監(jiān)督學習中的作用也引發(fā)了爭議。多項研究表明,使用先前在大型圖像語料庫上訓練的tokenizer(如CLIP tokenizer)可以顯著提升模型性能。但是,使用這種預訓練tokenizer來展示相對于沒有這種高級監(jiān)督的其他框架的最先進結果,近來受到了研究社區(qū)的批評。tokenizer在生成式自監(jiān)督學習中的有效性和必要性是一個值得深入探討的領域。

      展望未來,生成式還是判別式自監(jiān)督學習將主導發(fā)展方向?這個問題沒有簡單的答案。近期比較研究表明,兩種方法各有優(yōu)缺點,判別式自監(jiān)督學習可能更側重于形狀特征,而生成式自監(jiān)督學習則可能偏向紋理特征。更重要的是,越來越多的新框架開始結合兩種方法的優(yōu)點,比如通過對比學習和掩碼圖像建模的結合,或通過蒸餾等技術。這種融合趨勢可能會持續(xù),未來的自監(jiān)督學習框架很可能會借鑒兩方面的進展,以進一步提升性能。

      參考資料:

      1. Ozbulak, U., Lee, H. J., Boga, B., et al. (2023). Know Your Self-supervised Learning: A Survey on Image-based Generative and Discriminative Training. Transactions on Machine Learning Research.

      2. He, K., Chen, X., Xie, S., et al. (2022). Masked Autoencoders Are Scalable Vision Learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

      3. Chen, T., Kornblith, S., Norouzi, M., &; Hinton, G. (2020). A Simple Framework for Contrastive Learning of Visual Representations. International Conference on Machine Learning.

      4. Bao, H., Dong, L., &; Wei, F. (2021). BEiT: BERT Pre-Training of Image Transformers. International Conference on Learning Representations.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “槍口”對準珍珠港,這個日本極右翼分子對美國“開火”了

      “槍口”對準珍珠港,這個日本極右翼分子對美國“開火”了

      環(huán)球時報國際
      2025-12-12 00:11:18
      淚流滿面!中山佳能一線員工曬出到賬補償金254432元,直言太知足

      淚流滿面!中山佳能一線員工曬出到賬補償金254432元,直言太知足

      火山詩話
      2025-12-12 06:20:55
      歐盟警告比利時,要么同意向烏轉移凍結俄資產,要么與匈牙利一樣

      歐盟警告比利時,要么同意向烏轉移凍結俄資產,要么與匈牙利一樣

      山河路口
      2025-12-11 23:05:30
      重返航天城?記者:克里斯-保羅加盟火箭的可能性在增加

      重返航天城?記者:克里斯-保羅加盟火箭的可能性在增加

      懂球帝
      2025-12-12 08:02:13
      湖北省咸寧市崇陽縣委書記、二級巡視員鄭俊華被查

      湖北省咸寧市崇陽縣委書記、二級巡視員鄭俊華被查

      澎湃新聞
      2025-12-11 21:32:37
      這件事后果其實非常嚴重,可為什么沒人敢說!

      這件事后果其實非常嚴重,可為什么沒人敢說!

      胖胖說他不胖
      2025-12-11 10:00:19
      山東村支書賣小米被舉報封店!當場喊話雷軍:放我們一馬行不行

      山東村支書賣小米被舉報封店!當場喊話雷軍:放我們一馬行不行

      亡海中的彼岸花
      2025-12-11 10:17:06
      贏麻了!徐萌讓87歲范曾當爹并斷絕女兒、繼子關系,打理全部產業(yè)

      贏麻了!徐萌讓87歲范曾當爹并斷絕女兒、繼子關系,打理全部產業(yè)

      火山詩話
      2025-12-11 13:27:15
      富二代松島輝空:日本世家公子,家族不簡單,如今輸王楚欽后痛哭

      富二代松島輝空:日本世家公子,家族不簡單,如今輸王楚欽后痛哭

      深析古今
      2025-12-11 13:28:25
      小楊哥停播一年多,小楊嫂大變樣,從清純臉變歐美臉,差點認不出

      小楊哥停播一年多,小楊嫂大變樣,從清純臉變歐美臉,差點認不出

      娛說瑜悅
      2025-12-11 19:14:01
      2026央視春晚主題官宣僅1天,三大惡心情況發(fā)生了,陳佩斯沒說錯

      2026央視春晚主題官宣僅1天,三大惡心情況發(fā)生了,陳佩斯沒說錯

      冷紫葉
      2025-12-11 18:40:37
      鼓勵靈活就業(yè)參保,2.4億人繳不起社保,一邊失業(yè)一邊內卷,咋辦

      鼓勵靈活就業(yè)參保,2.4億人繳不起社保,一邊失業(yè)一邊內卷,咋辦

      你食不食油餅
      2025-12-11 23:19:19
      綁匪現(xiàn)身,打臉藍戰(zhàn)非

      綁匪現(xiàn)身,打臉藍戰(zhàn)非

      燕梳樓頻道
      2025-12-11 14:08:02
      73勝紀錄注定被打破?無敵雷霆完美復刻昔日勇士:已創(chuàng)多項神跡

      73勝紀錄注定被打破?無敵雷霆完美復刻昔日勇士:已創(chuàng)多項神跡

      羅說NBA
      2025-12-11 20:00:55
      25歲圓神再建功:狂奔壓迫 凌空外腳背進空門!16場8球4助

      25歲圓神再建功:狂奔壓迫 凌空外腳背進空門!16場8球4助

      葉青足球世界
      2025-12-12 08:26:42
      春晚“四馬標志”(哪里不太對)

      春晚“四馬標志”(哪里不太對)

      據說無據
      2025-12-11 08:57:26
      舍棄中國國籍加入日本隊,助日乒逆襲上位,如今成為國乒頭號威脅

      舍棄中國國籍加入日本隊,助日乒逆襲上位,如今成為國乒頭號威脅

      史行途
      2025-12-11 10:32:24
      深夜充電站,被電量「囚禁」的人

      深夜充電站,被電量「囚禁」的人

      Vista氫商業(yè)
      2025-12-11 13:57:41
      山姆“老鼠門”大反轉,900萬會員破防了

      山姆“老鼠門”大反轉,900萬會員破防了

      首席品牌觀察
      2025-12-11 14:02:29
      千萬粉絲網紅“痞幼”開阿斯頓·馬丁微型車上戀綜,被誤認為是“老頭樂”,經紀人回應:豪車是租的

      千萬粉絲網紅“痞幼”開阿斯頓·馬丁微型車上戀綜,被誤認為是“老頭樂”,經紀人回應:豪車是租的

      臺州交通廣播
      2025-12-11 14:11:05
      2025-12-12 09:44:49
      文史明鑒 incentive-icons
      文史明鑒
      每個人都是自己的歷史學家
      1263文章數 10644關注度
      往期回顧 全部

      科技要聞

      凌晨突發(fā)!GPT-5.2上線,首批實測感受來了

      頭條要聞

      澤連斯基:已向美提交修訂后的和平計劃 更新五點信息

      頭條要聞

      澤連斯基:已向美提交修訂后的和平計劃 更新五點信息

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節(jié)!

      財經要聞

      美國要組建C5,全世界大吃一驚

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態(tài)度原創(chuàng)

      藝術
      旅游
      游戲
      家居
      房產

      藝術要聞

      小楷作品獲書法國展桂冠,展現(xiàn)硬筆書法般規(guī)整美感。

      旅游要聞

      粉石之城上演“尋夢記”

      模擬器&策略發(fā)行商特賣來了!誰在抄襲我的生活?

      家居要聞

      歐式風格 純粹優(yōu)雅氣質

      房產要聞

      中交天翠掀起改善熱潮,搶先鎖定城芯終極入場券!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕AV在线| 国精品无码一区二区三区在线| 一区二区三区无码高清视频| 野外做受又硬又粗又大视频| 亚洲欧美日韩久久一区二区| jizzjizz韩国| 莱芜市| 亚洲欧美日韩人成在线播放| 日本免费人成视频在线观看| 一出一进一爽一粗一大视频| 人妻无码中出| 99热这里只有精品2| 无遮挡粉嫩小泬久久久久久久| 欧美精品乱码99久久蜜桃| 97人人添人澡人人爽超碰| 久久久久久久久熟女AV| 水蜜AⅤ视频一区二区三区| 成人视频在线观看| 欧美性受xxxx黑人xyx性爽| 91黑丝视频| 1024国产视频| 国精产品一区一区三区mba下载| 自拍 另类 综合 欧美小说| 麻豆精品在线| 国产三级网| 国产精品国产三级国快看| 久久精品国产精品亚洲色婷婷 | 久久精品女人的天堂av| 亚洲二页| 九九国产在线| 日韩电影一区二区三区| 精品熟女少妇免费久久| 国产成人91| 亚洲AV无码一区东京热久久| 在线熟女| 国产午夜在线观看视频播放| 亚洲欧美成人一区二区三区| 99久久国产宗和精品1上映| 济宁市| 国产精品久久久| 亚洲激情一区二区三区在线 |