在機(jī)器學(xué)習(xí)的世界里,數(shù)據(jù)標(biāo)注一直是制約發(fā)展的瓶頸。自監(jiān)督學(xué)習(xí)通過數(shù)據(jù)增強(qiáng)技術(shù)解決了部分問題,但仍需大量數(shù)據(jù)或精心設(shè)計(jì)的增強(qiáng)策略。積極自監(jiān)督學(xué)習(xí)(PAL)框架提出了一種全新視角,它不再追求完整標(biāo)簽,而是關(guān)注樣本間的相似性關(guān)系。"告訴我誰是你的朋友,我便知道你是誰"—這句古老諺語成為PAL方法的精髓。通過構(gòu)建相似性圖譜,PAL實(shí)現(xiàn)了自監(jiān)督與監(jiān)督學(xué)習(xí)的理論統(tǒng)一,并引入低成本的標(biāo)注策略,僅需詢問"這兩個(gè)樣本相似嗎?"這樣的簡(jiǎn)單問題。相比傳統(tǒng)標(biāo)注,這種方式所需專業(yè)知識(shí)更少,效率更高,甚至可以像reCaptcha一樣融入日常互聯(lián)網(wǎng)活動(dòng)中。PAL框架或?qū)⒅匦露x機(jī)器學(xué)習(xí)的標(biāo)注范式。
![]()
數(shù)據(jù)增強(qiáng)背后的秘密
自監(jiān)督學(xué)習(xí)技術(shù)在近幾年獲得了爆發(fā)式發(fā)展,成為了學(xué)習(xí)數(shù)據(jù)表征的首選方案。這種方法最吸引人的地方在于它不需要大量人工標(biāo)注的數(shù)據(jù),而是通過巧妙的設(shè)計(jì),讓模型從未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)有意義的信息表示。但自監(jiān)督學(xué)習(xí)有個(gè)關(guān)鍵前提:需要構(gòu)建"正樣本對(duì)"——也就是已知在語義上相似的樣本對(duì)。
這個(gè)要求看似簡(jiǎn)單,但實(shí)際上是自監(jiān)督學(xué)習(xí)最大的限制。在實(shí)踐中,研究人員主要通過數(shù)據(jù)增強(qiáng)技術(shù)來解決這個(gè)問題。數(shù)據(jù)增強(qiáng)是什么?簡(jiǎn)單說,就是對(duì)同一個(gè)輸入數(shù)據(jù)應(yīng)用一些已知的變換,比如對(duì)圖像進(jìn)行旋轉(zhuǎn)、裁剪或添加噪聲等。這些變換后的圖像雖然在像素級(jí)別上發(fā)生了變化,但它們的語義內(nèi)容保持不變——比如,一張貓的照片無論怎么旋轉(zhuǎn)或裁剪,它仍然是一張貓的照片。
現(xiàn)在主流的自監(jiān)督學(xué)習(xí)方法如SimCLR、VICReg和BarlowTwins等,都依賴于這種方式來構(gòu)建正樣本對(duì)。它們的工作原理可以簡(jiǎn)化為兩個(gè)核心步驟:首先,確保經(jīng)過數(shù)據(jù)增強(qiáng)后的相同輸入的表征保持一致;其次,防止表征出現(xiàn)"維度崩塌"——也就是避免所有輸入都被映射到相同的表征。
以VICReg為例,它的損失函數(shù)結(jié)合了三部分:一個(gè)匹配項(xiàng),確保正樣本對(duì)的表征相似;一個(gè)方差項(xiàng),防止各維度的表征坍縮為常數(shù);以及一個(gè)協(xié)方差項(xiàng),促使表征的不同維度之間保持正交。這種精心設(shè)計(jì)的平衡機(jī)制使模型能夠?qū)W習(xí)到有意義的特征表示。
但這種基于數(shù)據(jù)增強(qiáng)的方法存在明顯局限性。首先,設(shè)計(jì)適合特定數(shù)據(jù)類型的增強(qiáng)策略需要專業(yè)知識(shí)和大量實(shí)驗(yàn)。其次,很難將已有的先驗(yàn)知識(shí)整合到自監(jiān)督學(xué)習(xí)框架中。比如,如果我們已經(jīng)知道某些樣本屬于同一類別,如何在不改變整個(gè)訓(xùn)練流程的情況下利用這些信息?
正是這些局限促使研究者思考:能否找到一種更通用、更靈活的框架,既能保留自監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn),又能克服其缺點(diǎn)?這就引出了積極自監(jiān)督學(xué)習(xí)(PAL)的核心思想——通過相似性圖譜重新定義學(xué)習(xí)范式。
相似性圖譜的統(tǒng)一力量
積極自監(jiān)督學(xué)習(xí)(PAL)框架的核心在于引入了一個(gè)特殊的數(shù)學(xué)結(jié)構(gòu)——相似性圖譜。這個(gè)圖譜用一個(gè)對(duì)稱矩陣G來表示,其中每個(gè)節(jié)點(diǎn)代表一個(gè)數(shù)據(jù)樣本,邊則反映樣本間的相似關(guān)系。矩陣中的每個(gè)元素Gij表示樣本i和樣本j之間的語義關(guān)系強(qiáng)度。
![]()
這種表示方法看似簡(jiǎn)單,卻具有強(qiáng)大的統(tǒng)一能力。研究表明,所有主流的自監(jiān)督學(xué)習(xí)損失函數(shù)都可以通過相似性圖譜G來統(tǒng)一表示。以VICReg損失為例,它可以被重寫為:
LVIC2(Z; G) = ||ZZ^T - G||^2_F
這里Z是模型的輸出表征,G是相似性圖譜。這個(gè)公式的含義是:我們希望樣本間表征的相似度(ZZ^T)盡可能接近我們預(yù)定義的相似性圖譜G。
同樣地,SimCLR和BarlowTwins等方法也可以用相似性圖譜來表達(dá)。SimCLR的損失函數(shù)可以重寫為:
LSim(Z; G) = -∑i,j∈[N] Gi,j log(exp(z?^T_i z?_j)/∑k∈[N] exp(z?^T_i z?_k))
這表明,雖然這些方法在表面上看起來不同,但它們實(shí)際上都在優(yōu)化同一個(gè)目標(biāo):使模型學(xué)到的表征之間的關(guān)系與預(yù)定義的相似性圖譜一致。
更令人驚訝的是,監(jiān)督學(xué)習(xí)也可以通過相似性圖譜來表示。在監(jiān)督學(xué)習(xí)中,如果兩個(gè)樣本屬于同一類別,它們?cè)趫D譜中就有一條邊連接;否則沒有連接。也就是說,監(jiān)督學(xué)習(xí)的相似性圖譜可以表示為G(sup) = YY^T,其中Y是標(biāo)簽的獨(dú)熱編碼矩陣。
這意味著自監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)實(shí)際上是同一個(gè)問題的兩種不同表現(xiàn)形式!區(qū)別僅在于使用的相似性圖譜不同:自監(jiān)督學(xué)習(xí)使用基于數(shù)據(jù)增強(qiáng)生成的圖譜G(ssl),而監(jiān)督學(xué)習(xí)使用基于標(biāo)簽信息的圖譜G(sup)。
更進(jìn)一步的理論分析表明,當(dāng)使用足夠豐富的模型類別(如神經(jīng)網(wǎng)絡(luò))時(shí),如果將自監(jiān)督學(xué)習(xí)的損失函數(shù)與監(jiān)督學(xué)習(xí)的相似性圖譜G(sup)結(jié)合,那么得到的最優(yōu)表征將與直接使用標(biāo)簽進(jìn)行監(jiān)督學(xué)習(xí)得到的表征等價(jià)(除了一些可忽略的對(duì)稱性)。這一理論結(jié)果意義重大:它證明了只要提供正確的相似性圖譜,即使使用為自監(jiān)督學(xué)習(xí)設(shè)計(jì)的損失函數(shù),也能解決監(jiān)督學(xué)習(xí)問題。
這種統(tǒng)一視角不僅在理論上優(yōu)雅,更在實(shí)踐中提供了靈活性。它允許我們將任何先驗(yàn)知識(shí)(如部分標(biāo)簽信息)自然地整合到自監(jiān)督學(xué)習(xí)框架中,而無需修改訓(xùn)練流程。例如,我們可以構(gòu)造一個(gè)混合圖譜G = (1-α)G(ssl) + α? ?^T,其中?包含已知標(biāo)簽的獨(dú)熱編碼,α控制先驗(yàn)知識(shí)的權(quán)重。實(shí)驗(yàn)表明,即使只有少量標(biāo)簽信息,這種方法也能顯著提升表征學(xué)習(xí)的性能。
更重要的是,相似性圖譜的視角為我們提供了一個(gè)自然過渡到主動(dòng)學(xué)習(xí)的途徑。傳統(tǒng)的主動(dòng)學(xué)習(xí)關(guān)注如何高效地選擇樣本進(jìn)行標(biāo)注,而在PAL框架下,我們可以改為查詢樣本間的相似性關(guān)系。這種查詢通常更容易回答,需要的專業(yè)知識(shí)更少,因此成本更低。例如,我們可以設(shè)計(jì)類似reCaptcha的接口,讓用戶從多個(gè)圖像中選出與參考圖像語義相關(guān)的那些,而不是要求他們提供精確的標(biāo)簽。
![]()
總的來說,相似性圖譜為表征學(xué)習(xí)提供了一個(gè)統(tǒng)一的理論框架,不僅解釋了現(xiàn)有方法之間的聯(lián)系,還為設(shè)計(jì)更靈活、更高效的學(xué)習(xí)算法開辟了道路。這種框架特別適合處理大規(guī)模未標(biāo)注數(shù)據(jù)和低成本標(biāo)注場(chǎng)景,有望在實(shí)際應(yīng)用中產(chǎn)生深遠(yuǎn)影響。
朋友圈里識(shí)人才
積極自監(jiān)督學(xué)習(xí)(PAL)的核心思想可以用一句古老諺語概括:"告訴我誰是你的朋友,我便知道你是誰"。這句話背后的邏輯在機(jī)器學(xué)習(xí)領(lǐng)域得到了全新的應(yīng)用:相比于直接給每個(gè)樣本貼標(biāo)簽(如"這是一只貓"),PAL更關(guān)注樣本之間的關(guān)系(如"這兩張圖片是同類事物")。
PAL框架通過引入一個(gè)查詢機(jī)制(稱為oracle)來獲取樣本間的關(guān)系信息。這個(gè)過程可以用一個(gè)通用算法表示:首先從采樣器中收集一批數(shù)據(jù)點(diǎn)的索引,然后詢問標(biāo)注者這些數(shù)據(jù)點(diǎn)之間的語義關(guān)系,最后根據(jù)這些關(guān)系更新模型參數(shù)。整個(gè)流程看似簡(jiǎn)單,但蘊(yùn)含深刻的思想轉(zhuǎn)變。
傳統(tǒng)標(biāo)注工作通常需要專業(yè)知識(shí)。比如要在ImageNet數(shù)據(jù)集上標(biāo)注圖像,標(biāo)注者需要區(qū)分"鯉魚"、"金魚"和"大白鯊"等細(xì)微類別。這種精細(xì)標(biāo)注不僅耗時(shí),也需要較高的專業(yè)知識(shí)。而PAL只需詢問"這兩個(gè)樣本語義上是否相關(guān)",降低了對(duì)標(biāo)注者專業(yè)性的要求。
PAL將標(biāo)注策略分為被動(dòng)和主動(dòng)兩類。被動(dòng)策略在訓(xùn)練前預(yù)先確定如何查詢樣本關(guān)系,不會(huì)利用訓(xùn)練過程中收集的信息。有趣的是,傳統(tǒng)的自監(jiān)督學(xué)習(xí)實(shí)際上就是一種被動(dòng)策略——它通過對(duì)同一輸入應(yīng)用不同的數(shù)據(jù)增強(qiáng)來自動(dòng)生成正樣本對(duì),無需人工查詢。監(jiān)督學(xué)習(xí)也可以看作另一種被動(dòng)策略,只是它的查詢是通過已知標(biāo)簽來實(shí)現(xiàn)的。
PAL的創(chuàng)新點(diǎn)在于引入了主動(dòng)查詢策略,使系統(tǒng)能夠根據(jù)當(dāng)前學(xué)習(xí)狀態(tài)智能地選擇最有價(jià)值的查詢。與傳統(tǒng)主動(dòng)學(xué)習(xí)相比,PAL的查詢更加經(jīng)濟(jì)高效。傳統(tǒng)主動(dòng)學(xué)習(xí)通常要求對(duì)選定樣本給出完整標(biāo)簽,而PAL只需詢問樣本間的相似性關(guān)系。
具體來說,PAL提出了一種" la Captcha"的查詢策略:選擇一個(gè)具有最少已知實(shí)例的類別作為模板,然后詢問一批數(shù)據(jù)點(diǎn)是否與該模板相似。這種策略有幾個(gè)明顯優(yōu)勢(shì):它能夠在任何時(shí)刻停止并產(chǎn)生平衡的標(biāo)注數(shù)據(jù)集;它不需要事先知道有多少類別,而是逐步發(fā)現(xiàn);它可以通過選擇性查詢來避免數(shù)據(jù)不平衡問題。
為了證明主動(dòng)查詢策略的優(yōu)越性,研究者進(jìn)行了控制實(shí)驗(yàn)。在一個(gè)簡(jiǎn)單的四類環(huán)形數(shù)據(jù)集上,主動(dòng)查詢策略與被動(dòng)策略相比,在相同查詢次數(shù)下取得了顯著更低的測(cè)試誤差。這種差異在查詢次數(shù)較少時(shí)尤為明顯,表明PAL能夠更高效地利用有限的標(biāo)注資源。
![]()
在實(shí)際應(yīng)用中,主動(dòng)查詢策略表現(xiàn)出色。以NNCLR(Nearest-Neighbor Contrastive Learning of Representations)為例,它在ImageNet上的準(zhǔn)確率達(dá)到75.6%(前1名)和92.4%(前5名),超過了傳統(tǒng)自監(jiān)督方法SimCLR(71.7%)和VICReg(73.2%/91.1%)。NNCLR的關(guān)鍵在于它定義正樣本對(duì)的方式:不是通過數(shù)據(jù)增強(qiáng),而是找出在當(dāng)前表征空間中最接近的鄰居,這本質(zhì)上是一種主動(dòng)查詢策略。
PAL不僅適用于分類問題,還能處理更復(fù)雜的場(chǎng)景。比如當(dāng)標(biāo)簽存在層次結(jié)構(gòu)時(shí)(如ImageNet的語義樹),可以先詢問粗粒度信息("這是不是魚?"),再逐步深入到細(xì)粒度分類。當(dāng)面對(duì)類別不平衡問題時(shí),可以根據(jù)類別概率調(diào)整查詢策略,確保稀有類別也能獲得足夠的標(biāo)注。這種靈活性使PAL成為一個(gè)真正通用的框架,能夠應(yīng)對(duì)各種實(shí)際挑戰(zhàn)。
實(shí)踐中的應(yīng)用價(jià)值
PAL框架不只是理論上的創(chuàng)新,它在實(shí)際應(yīng)用中展現(xiàn)出巨大潛力。多項(xiàng)實(shí)驗(yàn)表明,PAL能夠在各種數(shù)據(jù)集上取得出色表現(xiàn),特別是在標(biāo)注資源有限的情況下。
在合成數(shù)據(jù)實(shí)驗(yàn)中,研究者使用核方法(kernel methods)來驗(yàn)證PAL的理論結(jié)果,避免了神經(jīng)網(wǎng)絡(luò)架構(gòu)、優(yōu)化方法等因素的干擾。實(shí)驗(yàn)圍繞一個(gè)四類同心圓數(shù)據(jù)集進(jìn)行,結(jié)果清晰地展示了主動(dòng)查詢策略的優(yōu)勢(shì):與被動(dòng)策略相比,主動(dòng)策略在相同查詢次數(shù)下能夠獲得更低的測(cè)試誤差。特別是在查詢次數(shù)少于200次時(shí),主動(dòng)策略的誤差率比被動(dòng)策略低約20%。
在實(shí)際圖像數(shù)據(jù)集上,PAL同樣表現(xiàn)出色。以NNCLR為例,它在ImageNet上的準(zhǔn)確率達(dá)到75.6%(前1名)和92.4%(前5名),超過了傳統(tǒng)自監(jiān)督方法SimCLR(71.7%)和VICReg(73.2%/91.1%)。這一結(jié)果驗(yàn)證了PAL中主動(dòng)查詢策略的有效性:通過尋找表征空間中最近鄰作為正樣本,NNCLR實(shí)現(xiàn)了比固定數(shù)據(jù)增強(qiáng)策略更好的性能。
PAL框架的一個(gè)重要特性是能夠無縫整合已知標(biāo)簽信息。研究者通過混合圖譜G = (1-α)G(ssl) + α? ?^T來實(shí)現(xiàn)這一點(diǎn),其中α控制已知標(biāo)簽的權(quán)重。實(shí)驗(yàn)表明,當(dāng)混合系數(shù)α設(shè)置合理時(shí),即使只有少量已知標(biāo)簽(如200個(gè)樣本中的50個(gè)),也能顯著提升模型性能。這種能力對(duì)半監(jiān)督學(xué)習(xí)場(chǎng)景特別有價(jià)值。
![]()
在低成本標(biāo)注方面,PAL提供了實(shí)用的解決方案。現(xiàn)實(shí)中,很多大規(guī)模數(shù)據(jù)集如ImageNet就是通過類似PAL的方式標(biāo)注的:先通過搜索引擎獲取候選圖像,再讓標(biāo)注者從中挑出不符合類別的圖像。這種"找出異類"的標(biāo)注方式比直接分類更高效。另一個(gè)成功案例是reCaptcha,它通過讓用戶識(shí)別屬于同一類別的圖像,既保障了網(wǎng)絡(luò)安全,又收集了大量標(biāo)注數(shù)據(jù)。據(jù)估計(jì),reCaptcha已幫助標(biāo)注了數(shù)百萬張圖像。
PAL的低成本優(yōu)勢(shì)在實(shí)際應(yīng)用中得到驗(yàn)證。Criteo工程師發(fā)現(xiàn),在一批15張圖像中找出異類是標(biāo)注效率的"甜點(diǎn)",這正是PAL方法的典型操作。這種批量處理方法不僅降低了單個(gè)樣本的標(biāo)注成本,還能提高標(biāo)注質(zhì)量,因?yàn)楸容^多個(gè)樣本往往比獨(dú)立判斷單個(gè)樣本更容易。
![]()
對(duì)于不同類型的數(shù)據(jù)和任務(wù),PAL提供了靈活的適應(yīng)策略。當(dāng)處理具有層次結(jié)構(gòu)的標(biāo)簽時(shí)(如ImageNet的語義樹),可以先詢問粗粒度信息,再逐步深入。當(dāng)面對(duì)數(shù)據(jù)不平衡問題時(shí),可以根據(jù)類別概率調(diào)整查詢策略。當(dāng)類別數(shù)量龐大時(shí),可以結(jié)合當(dāng)前學(xué)習(xí)狀態(tài),優(yōu)先查詢分類邊界附近的不確定樣本。這些策略都能在不改變PAL框架的情況下實(shí)現(xiàn),展示了其通用性和靈活性。
PAL框架的理論健壯性也值得關(guān)注。由于它本質(zhì)上是一個(gè)矩陣分解問題,可以直接借用矩陣分解領(lǐng)域的理論結(jié)果。研究表明,即使在標(biāo)注存在噪聲的情況下(即oracle有時(shí)會(huì)給出錯(cuò)誤回答),隨機(jī)梯度下降方法仍能收斂到最優(yōu)解,表現(xiàn)出良好的魯棒性。
展望未來,PAL框架有望重新定義數(shù)據(jù)標(biāo)注和機(jī)器學(xué)習(xí)的關(guān)系。它不僅提供了一種低成本高效率的標(biāo)注方式,還搭建了連接自監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的橋梁。隨著大規(guī)模預(yù)訓(xùn)練模型的普及,如何高效利用有限標(biāo)注資源成為關(guān)鍵問題,PAL正好提供了解決方案。
更重要的是,PAL框架使我們重新思考了"標(biāo)簽"和"關(guān)系"的角色。傳統(tǒng)上,機(jī)器學(xué)習(xí)關(guān)注樣本和標(biāo)簽之間的映射,而PAL提醒我們:樣本之間的關(guān)系可能是一種更基礎(chǔ)、更容易獲取的信息。這種轉(zhuǎn)變不僅在技術(shù)層面有意義,也可能引發(fā)對(duì)學(xué)習(xí)本質(zhì)的深入思考。
參考資料
Cabannes, V., Bottou, L., Lecun, Y., &; Balestriero, R. (2023). Active Self-Supervised Learning: A Few Low-Cost Relationships Are All You Need. ICCV 2023.
Chen, T., Kornblith, S., Norouzi, M., &; Hinton, G. (2020). A simple framework for contrastive learning of visual representations. ICML 2020.
Bardes, A., Ponce, J., &; LeCun, Y. (2021). VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning. ICLR 2022.
Dwibedi, D., Aytar, Y., Tompson, J., Sermanet, P., &; Zisserman, A. (2021). With a little help from my friends: Nearest-neighbor contrastive learning of visual representations. ICCV 2021.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.