Self-weighted learning framework for adaptive locality discriminantanalysis
自加權(quán)學習框架用于自適應(yīng)局部判別分析
https://www.sciencedirect.com/science/article/pii/S003132032200259X
![]()
![]()
摘要
線性判別分析(LDA)是最重要的降維技術(shù)之一,被廣泛應(yīng)用于許多領(lǐng)域。然而,傳統(tǒng)的LDA算法旨在從數(shù)據(jù)中捕獲全局結(jié)構(gòu),而忽略了局部信息。這可能導致LDA在一些具有復(fù)雜幾何分布的真實世界數(shù)據(jù)集中失敗。盡管有許多先前的研究專注于保留局部信息,但它們都面臨同樣的問題:從原始空間獲得的成對數(shù)據(jù)點的鄰域關(guān)系可能不可靠,特別是在噪聲較大的情況下。因此,我們提出了一種新穎的自加權(quán)學習框架,稱為自加權(quán)自適應(yīng)局部判別分析(SALDA),用于基于局部感知的降維。所提出的框架可以自適應(yīng)地學習一個內(nèi)在的低維子空間,以便我們可以在理想的子空間下探索樣本之間更好的鄰域關(guān)系。此外,我們的模型可以自動學習為同一類中的成對數(shù)據(jù)點分配權(quán)重,并且與其他經(jīng)典的局部感知方法相比不需要額外的參數(shù)。最后,實驗結(jié)果表明,該算法在合成數(shù)據(jù)集和真實世界基準數(shù)據(jù)集上均具有有效性和優(yōu)越性。
關(guān)鍵詞:監(jiān)督降維、線性判別分析、重加權(quán)方法
- 引言
在許多現(xiàn)實世界的應(yīng)用中,例如生物信息學[1,2]、醫(yī)學圖像分析[3,4]和人臉識別[5,6],確實存在大量高維數(shù)據(jù)。這些具有眾多冗余特征的高維數(shù)據(jù)通常會降低實際技術(shù)的性能,例如高光譜圖像中的分類問題[7,8]。幸運的是,基于一個合理的假設(shè)——即高維數(shù)據(jù)很可能位于一個低維流形上,降維成為提取少量判別性特征的常用方法。作為一種分析高維數(shù)據(jù)的關(guān)鍵技術(shù),降維在機器學習及其他領(lǐng)域中發(fā)揮著重要作用。
降維的目標是減少冗余特征,同時保留數(shù)據(jù)的內(nèi)在信息。在過去二十年中,降維問題吸引了全球?qū)W者越來越多的關(guān)注。因此,近年來提出了許多擴展算法,尤其是兩類經(jīng)典算法:主成分分析(PCA)[9]和線性判別分析(LDA)[10]。對于無監(jiān)督算法PCA而言,它通過全局保留原始數(shù)據(jù)中的最大協(xié)方差信息,有效解決降維問題。與PCA不同,LDA是一種有監(jiān)督方法,能夠?qū)W習一個最優(yōu)投影矩陣,使得同類數(shù)據(jù)點之間的距離最小化,而不同類之間的距離最大化。本文聚焦于LDA算法的研究。
LDA算法在降維領(lǐng)域中扮演著重要角色,并在有監(jiān)督學習中表現(xiàn)優(yōu)異。為解決相關(guān)問題,研究者已提出多種LDA的擴展算法,例如半監(jiān)督LDA(SLDA)[11]和正則化最大-最小LDA(MMLDA)[12]。然而,這類LDA算法仍存在一些缺陷。第一個瓶頸是小樣本問題(Small Sample Size, SSS)[13],當數(shù)據(jù)維度大于樣本數(shù)量時經(jīng)常出現(xiàn)。第二個瓶頸是過度降維問題(over-reducing problem)[14],這是因為LDA算法受其模型約束,最多只能將數(shù)據(jù)維度降至c?1(其中c表示數(shù)據(jù)中的類別數(shù)量),因此可能不適用于類別較多的數(shù)據(jù)集。最后,LDA算法基于高斯分布假設(shè);盡管它們擅長處理高斯分布數(shù)據(jù),但對于更復(fù)雜的數(shù)據(jù)卻難以有效處理。這主要是因為傳統(tǒng)LDA算法僅關(guān)注捕獲數(shù)據(jù)的全局結(jié)構(gòu),而忽略了局部信息,導致其在現(xiàn)實應(yīng)用中穩(wěn)定性不足。
針對上述三個問題,已有許多方法被提出以提升LDA算法的性能。近年來,過度降維和小樣本(SSS)問題已通過傳統(tǒng)LDA的變體[15,16]等方法得到有效解決。此外,不同于Fisher準則,Li等人[17]基于最大間隔準則(Maximum Margin Criterion, MMC)提出了一些新的特征提取器來應(yīng)對SSS問題。為進一步克服上述LDA的第三個問題,圖學習方法[18,19]被引入LDA框架。文獻[20]提出了一種LDA的擴展算法——局部Fisher判別分析(Local Fisher Discriminant Analysis, LFDA),該方法在最大化類間可分性的同時,能夠捕捉類內(nèi)的局部結(jié)構(gòu)。此外,Cai等人[21]利用k近鄰算法(KNN)[22]構(gòu)建類內(nèi)圖和類間圖,并提出了局部敏感判別分析(Locality Sensitive Discriminant Analysis, LSDA)模型,將原始數(shù)據(jù)集投影到一個新的低維子空間。與此同時,Nie等人[23]提出了一種成對形式的LDA,稱為鄰域MinMax投影(Neighborhood MinMax Projection, NMMP),旨在最小化同類成對點之間的距離,并盡可能分離不同類的數(shù)據(jù)點。此外,F(xiàn)an等人[24]提出了一種名為局部線性判別分析(Local Linear Discriminant Analysis, LLDA)的新模型,可學習一個變換矩陣以處理復(fù)雜數(shù)據(jù)集。然而,該算法需要使用整個輸入數(shù)據(jù)集的一部分來獲取變換矩陣,因此難以有效處理大規(guī)模數(shù)據(jù)集。
最后但同樣重要的是,對于大量基于局部感知(locality-aware)的方法,通常采用KNN技術(shù)作為預(yù)處理步驟來構(gòu)建相似性圖。因此,圖的質(zhì)量在很大程度上依賴于近鄰數(shù)量k的選擇。此外,這些方法通常基于原始空間中的距離度量來學習數(shù)據(jù)樣本間的鄰接關(guān)系。然而,直接在原始空間中使用距離度量并不可靠,因為本質(zhì)上相似的點在原始空間的距離度量下可能相距甚遠。關(guān)于這一觀點,我們將在“相關(guān)工作”一節(jié)中給出更詳細的說明。
因此,本文提出了一種新穎的自加權(quán)自適應(yīng)局部判別分析(Self-Weighted Adaptive Locality Discriminant Analysis, SALDA)框架,以解決上述問題。該框架通過拉近本質(zhì)相似的點、推遠不相似的點來學習變換矩陣。與大多數(shù)局部感知算法類似,SALDA專注于探索數(shù)據(jù)點的局部鄰域關(guān)系。本文的主要貢獻如下:
- 與傳統(tǒng)LDA方法需要額外步驟先構(gòu)建相似性圖不同,我們將圖學習的思想嵌入LDA方法中,進一步提出了一種通用的降維框架SALDA。通過挖掘數(shù)據(jù)的局部結(jié)構(gòu),SALDA能夠處理更復(fù)雜的分布數(shù)據(jù),例如非高斯數(shù)據(jù)和多模態(tài)數(shù)據(jù)。
- 與當前局部感知技術(shù)通常需在原始數(shù)據(jù)空間中使用KNN構(gòu)建鄰接圖不同,我們的SALDA方法能夠自動探索數(shù)據(jù)點之間的鄰接關(guān)系,無需引入額外的流程和參數(shù)。此外,我們的方法基于目標子空間中的距離(而非原始空間)來發(fā)現(xiàn)鄰接關(guān)系,從而使SALDA對噪聲更具魯棒性和可靠性。
- 為求解所提出的SALDA框架,我們設(shè)計了一種基于重加權(quán)(re-weighted)方法的通用高效算法,并在理論上證明了該算法的收斂性。在合成數(shù)據(jù)集和八個真實世界數(shù)據(jù)集上的實驗結(jié)果表明,我們的SALDA方法優(yōu)于其他經(jīng)典降維算法。
本文是對會議版本[25]的實質(zhì)性擴展。與先前版本相比,我們在本文中進一步闡釋了SALDA旨在解決的問題,并通過圖1和圖2提供了可視化解釋。此外,我們擴展了所提出的模型,設(shè)計了一個更適合處理降維問題的框架,并提出了一種統(tǒng)一的優(yōu)化算法來求解該框架。我們對所提框架進行了理論分析,并證明了其收斂性。在實驗部分,我們在合成數(shù)據(jù)和八個真實世界數(shù)據(jù)集上驗證了算法性能,并進一步將SALDA與其他前沿方法進行了比較。實驗結(jié)果充分展示了SALDA算法的優(yōu)越性。此外,本文還開展了算法收斂性分析以及SALDA中超參數(shù)p的敏感性分析,在八個基準數(shù)據(jù)集上的實驗結(jié)果驗證了SALDA算法的魯棒性。
本文其余部分組織如下:第2節(jié)簡要回顧LDA;第3節(jié)提出用于降維的自加權(quán)自適應(yīng)局部判別分析(SALDA)框架,并相應(yīng)設(shè)計了一種高效的優(yōu)化算法;第4節(jié)對SALDA進行理論分析并介紹若干擴展;第5節(jié)展示所提方法的實驗結(jié)果;最后,第6節(jié)對全文進行總結(jié)。
![]()
- 相關(guān)工作
在本節(jié)中,我們將回顧傳統(tǒng)的線性判別分析方法(LDA),并證明根據(jù)所提出模型的推導,LDA 會賦予同一類中的樣本相等的權(quán)重。因此,這使得 LDA 僅關(guān)注數(shù)據(jù)中的全局結(jié)構(gòu)。對于如圖1所示的復(fù)雜分布數(shù)據(jù),傳統(tǒng)LDA模型可能會陷入平凡解。因此,在我們的工作中,我們提出了一種新模型來解決這一問題。
![]()
![]()
![]()
通過LDA獲得的最優(yōu)投影矩陣 W 在最小化類內(nèi)距離和最大化類間距離的約束下。為了得到LDA的數(shù)學公式,我們首先定義三個變量如下:
![]()
![]()
![]()
從問題(6)可以看出,基于跡的LDA對同一類樣本具有相等的權(quán)重,這使得LDA只能捕捉全局結(jié)構(gòu)。因此,LDA在高斯分布數(shù)據(jù)集上表現(xiàn)良好,但在復(fù)雜分布數(shù)據(jù)集上無法獲得理想結(jié)果。由于這種LDA算法忽略了數(shù)據(jù)的局部結(jié)構(gòu),并迫使同一類中的成對點盡可能接近,即使這些成對點距離較遠。
為了解決上述問題,提出了許多局部感知算法來研究局部數(shù)據(jù)結(jié)構(gòu)。對于局部Fisher判別分析(LFDA),它利用了親和矩陣的概念來定義局部類內(nèi)散布矩陣 和局部類間散布矩陣,因此LFDA可以有效地從原始數(shù)據(jù)空間捕獲局部信息。LDA和局部方法LFDA的降維實驗結(jié)果如圖2所示(所提出的模型SALDA將在第3節(jié)定義)。對于圖1(a)中所示的單峰分布數(shù)據(jù),LDA和LFDA都能將不同類別的數(shù)據(jù)點分開并找到正確的投影方向。然而,對于圖1(b)中所示的多峰分布數(shù)據(jù)(即同一類中的點形成幾個獨立的組),LDA由于不同類別的點重疊而表現(xiàn)不佳,而LFDA仍然表現(xiàn)良好。類似于LFDA,所提出的LSDA方法引入了KNN技術(shù)來構(gòu)建類內(nèi)和類間圖,以便在降維過程中利用構(gòu)建的圖來保留局部信息。近年來,這種圖學習的思想在局部LDA方法中得到了廣泛應(yīng)用,如局部線性判別分析(LLDA)、非參數(shù)判別分析(NDA)和自適應(yīng)局部線性判別分析(ALLDA)。
這些局部感知方法研究了局部數(shù)據(jù)結(jié)構(gòu),并在某些情況下取得了良好的結(jié)果。然而,這些方法學習到的鄰域關(guān)系可能不可靠。這有兩個主要原因。首先,KNN技術(shù)通常作為這些局部感知方法的預(yù)處理步驟來構(gòu)建相似性圖。因此,最近鄰數(shù) k 可能嚴重影響相似性圖的質(zhì)量,進而影響降維性能。其次,直接利用原始空間的距離度量并不可靠。這里,我們給出了一個例子來說明它們的弱點。在圖2中,玩具數(shù)據(jù)集由兩個類別組成,以不同的形狀和顏色顯示。對于圖2(a)中描述的傳統(tǒng)局部感知方法,它基于原始空間的距離在相同類別內(nèi)找到鄰近點,這在有噪聲的數(shù)據(jù)集上無法實現(xiàn)高性能。此外,它依賴于KNN處理和參數(shù) k 的選擇,這可能進一步影響算法的最終性能(圖2(a)中 )。
因此,基于上述分析,我們打算提出一種新方法來研究期望子空間中的局部數(shù)據(jù)結(jié)構(gòu)。此外,我們的方法可以自適應(yīng)地學習數(shù)據(jù)點之間的相似性權(quán)重,而無需引入額外參數(shù),即學習子空間中的鄰近點將具有較大的權(quán)重,而距離較遠的點將具有較小甚至為零的權(quán)重。在圖2(b)中,這些實線表示從內(nèi)在子空間中學習到的點之間的大權(quán)重。通過利用這種方法,我們可以捕獲可靠的鄰域關(guān)系,性能將優(yōu)于其他局部感知方法。
自加權(quán)自適應(yīng)局部判別分析
在本節(jié)中,我們提出了一種名為自加權(quán)自適應(yīng)局部判別分析(SALDA)的新型框架,用于降維問題。首先,我們提出了SALDA框架的目標函數(shù),并對我們的模型進行了理論分析。然后,通過在通用框架中引入一個設(shè)計好的函數(shù),我們提出了一種特定的算法來優(yōu)化這個模型,并進一步在實驗中評估我們的算法性能。提出了許多基于局部感知的方法來捕獲數(shù)據(jù)的局部結(jié)構(gòu)。但是從原始特征空間來看,所提出的方法可能無法學習到鄰域之間的可靠關(guān)系,特別是在嚴重噪聲的情況下。此外,KNN技術(shù)通常作為這些方法的預(yù)處理步驟,這需要額外的努力來調(diào)整KNN中的參數(shù)。
與之前的局部感知方法不同,我們提出了一種新的局部感知降維方法,自適應(yīng)地從內(nèi)在子空間中學習數(shù)據(jù)點之間的權(quán)重。所提出的模型旨在通過最小化內(nèi)在相似點之間的距離,同時盡可能遠地分離不相似的點,來學習一個最優(yōu)投影 W。為了捕獲數(shù)據(jù)中隱藏的局部結(jié)構(gòu)信息,我們需要獲得理想子空間中點之間的鄰域關(guān)系。因此,SALDA的新型通用框架可以描述為以下形式:
![]()
![]()
![]()
![]()
![]()
為了獲得直觀的形式,我們通過在所提出的框架SALDA中最小化一個函數(shù)來展示特定的算法,該算法用于解決以下問題:
![]()
在這里,我們將推導出一個高效的算法來解決當時的這個問題。
與問題(6)相比,我們知道每個類內(nèi)數(shù)據(jù)對之間的權(quán)重可能不會在目標函數(shù)(10)中明確定義。因此,基于之前的分析,我們將展示SALDA如何為每對數(shù)據(jù)生成有意義的權(quán)重。
在每次迭代中,我們需要解決問題(8)。通過圖嵌入框架的公式推導,問題(8)可以進一步重新表述為:
![]()
![]()
![]()
![]()
![]()
![]()
3.1 算法的復(fù)雜度
![]()
![]()
理論分析
在本節(jié)中,提出了一種有效的算法來解決一個一般問題,該問題將方程(7)和(10)視為特殊情況。此外,稍后將展示所提出算法在問題(10)與LDA之間的緊密聯(lián)系。
4.1 解決一般問題的算法
在本部分中,我們考慮解決以下一般問題:
![]()
![]()
![]()
![]()
![]()
4.2 算法2的收斂性分析
在本節(jié)中,我們將證明所提出的算法2的收斂性,可以分為兩個步驟。首先,我們給出定理1來證明問題(13) 的目標值將通過算法2收斂到一個固定值。其次,基于引理1和定理2,可以證明收斂解是問題(13) 的局部最優(yōu)值。然后,具體的證明過程如下:
![]()
![]()
![]()
4.3. 與LDA的聯(lián)系
根據(jù)方程(8),所提出方法在方程(10)中的類內(nèi)散布矩陣可以推導為:
![]()
這與LDA具有相似的形式。
從方程(5)和(28)可以看出,LDA和我們的方法都是監(jiān)督降維方法。它們的形式和目標相似:它們都旨在最大化類間散布矩陣并最小化類內(nèi)散布矩陣。
![]()
![]()
![]()
根據(jù)定理3,可以進一步得出結(jié)論:問題(28)可轉(zhuǎn)化為問題(5)的形式。因此,傳統(tǒng)的LDA算法是我們所提出的SALDA框架的一個特例。
- 實驗
本節(jié)在合成數(shù)據(jù)集和八個真實世界數(shù)據(jù)集上開展實驗,以驗證所提出方法的有效性。我們選取了一些當前最先進的基于局部感知(locality-aware)的方法,與所提出的SALDA算法進行比較。此外,本部分還對SALDA進行了參數(shù)分析和收斂性分析。
5.1 合成數(shù)據(jù)集
本小節(jié)在兩個名為Synthetic-1和Synthetic-2的合成數(shù)據(jù)集上執(zhí)行SALDA算法,以驗證我們算法的有效性。這兩個合成數(shù)據(jù)集均包含三個類別,其前兩個維度的數(shù)據(jù)點位于三個同心圓上,如圖3(a)和(e)所示。為驗證SALDA算法的有效性,我們在這些數(shù)據(jù)集中添加了八個維度的高斯噪聲,從而構(gòu)成10維的合成數(shù)據(jù)集。噪聲維度由高斯分布生成,取值范圍從0到N。在本實驗中,我們將噪聲水平N分別設(shè)為5(Synthetic-1)和100(Synthetic-2)。對于SALDA,本實驗中參數(shù)p設(shè)為1。圖3中同時展示了LDA [10] 和局部感知模型LFDA [20] 的結(jié)果,以與我們的算法進行對比。
如圖3所示,所提出的SALDA算法在從原始數(shù)據(jù)集中捕獲局部結(jié)構(gòu)信息方面表現(xiàn)更優(yōu)。特別是從圖3(d)和(h)可見,我們的模型能夠分別為這兩個不同噪聲水平的合成數(shù)據(jù)集學習出理想的二維子空間。而對于LDA,從圖3(b)和(f)可以看出,由于LDA僅關(guān)注全局結(jié)構(gòu),無法學習到具有判別性的子空間。從圖3(c)可見,LFDA具備挖掘局部信息的能力,在噪聲水平為5時取得了良好性能。然而,圖3(g)表明,當數(shù)據(jù)維度受到嚴重噪聲污染時,LFDA可能無法獲得穩(wěn)定的結(jié)果。這是因為LFDA是在原始空間而非最優(yōu)子空間中學習鄰域信息。
![]()
為進一步驗證我們的SALDA模型具備捕捉數(shù)據(jù)間局部結(jié)構(gòu)的能力,我們在Synthetic-1和Synthetic-2數(shù)據(jù)集上對SALDA所獲得的相似性圖S進行了可視化。圖4展示了在兩個合成數(shù)據(jù)集上的可視化結(jié)果。此處,對于所得到的圖S,我們將其中大于255的元素統(tǒng)一設(shè)為255,以便更好地可視化。從圖4(a)和(b)均可看出,圖S中的每個塊都非常稀疏,僅少數(shù)元素具有較大的數(shù)值。這表明我們的模型在所期望的子空間中充分考慮了類內(nèi)樣本之間的局部信息。因此,只有那些在投影后彼此相鄰且屬于同一類的樣本才具有較高的相似度。
![]()
綜上所述,基于圖3和圖4的分析結(jié)果,我們可以得出結(jié)論:所提出的SALDA模型能夠自適應(yīng)地從所學習的子空間中為每個樣本捕獲鄰域信息。此外,我們的模型在處理含噪聲維度的數(shù)據(jù)集時更加穩(wěn)健,并能從原始空間中獲得更具判別性的最優(yōu)子空間。
5.2 真實世界數(shù)據(jù)集
5.2.1 數(shù)據(jù)集
本實驗選取了八個真實世界數(shù)據(jù)集來測試我們SALDA模型的性能,包括USPS [37]、YALE [38]、PIE [39]、MSRA [40] 以及四個UCI數(shù)據(jù)集 [41]:Australian、Heart、Diabetes和Pima。這些數(shù)據(jù)集的詳細介紹如下:
USPS數(shù)據(jù)集是一個手寫數(shù)字圖像數(shù)據(jù)庫,包含超過9000張圖像。在本實驗中,我們從中選取六個數(shù)字以驗證算法性能,每張數(shù)字圖像的尺寸為16×16。
YALE數(shù)據(jù)集由耶魯大學計算視覺與控制中心提供,包含15個不同個體的165張正面人臉圖像,拍攝條件涵蓋不同的面部表情、光照條件和面部細節(jié)。在本實驗中,每張圖像被下采樣至32×32大小。
CMU PIE數(shù)據(jù)集共包含68個受試者,總計41,368張人臉圖像。這些圖像由13臺同步相機和21個閃光燈在不同姿態(tài)、光照和表情條件下拍攝而成。我們選取PIE數(shù)據(jù)集中名為POSE07的子集用于實驗,每張圖像被下采樣至32×32大小。
MSRA數(shù)據(jù)庫由微軟亞洲研究院收集,包含12個個體在不同背景和光照條件下的圖像。每位個體至少采集64張人臉圖像,每張圖像被調(diào)整為16×16大小。
四個UCI數(shù)據(jù)集包括Australian、Heart、Diabetes和Pima,均來自UCI機器學習庫,它們的類別分布并不復(fù)雜。
表1列出了這些基準數(shù)據(jù)集的詳細信息。在本實驗中,主成分分析(PCA)[9] 被用作預(yù)處理步驟,以加快處理速度并節(jié)省計算時間。所有對比算法均在相同的預(yù)處理數(shù)據(jù)集上執(zhí)行。對于這八個基準數(shù)據(jù)集,我們首先隨機選取每類樣本的30%作為訓練集,其余樣本作為測試集。在獲得最優(yōu)投影矩陣W?后,我們將投影后的訓練集作為已知標簽信息,并在投影后的測試集上采用K近鄰(KNN)技術(shù)作為分類器。通過投影后測試樣本與投影后訓練樣本之間的最近鄰關(guān)系,即可獲得最終的分類結(jié)果。在本實驗中,分類器KNN的參數(shù)k(即近鄰數(shù)量)設(shè)為1。
5.2.2 對比方法
為驗證所提出方法的優(yōu)越性,我們選取LDA以及若干當前最先進的局部感知(locality-aware)方法作為對比算法,包括:局部Fisher判別分析(LFDA)[20]、局部敏感判別分析(LSDA)[21]、局部線性判別分析(LLDA)[24]、非參數(shù)判別分析(NDA)[29]、最大間隔準則(MMC)[17]、面向可分性的子類判別分析(SSDA)[42]、自適應(yīng)判別分析(ADA)[43]、自適應(yīng)局部線性判別分析(ALLDA)[30],以及一種名為多類Fukunaga-Koontz判別分析(FKDA)[44] 的Fukunaga-Koontz方法。在投影后的測試數(shù)據(jù)集上采用KNN算法以獲得最終的分類結(jié)果。此外,直接在預(yù)處理后的原始數(shù)據(jù)集上使用KNN所得的分類結(jié)果被用作基線(baseline)。
SALDA中的參數(shù)p在區(qū)間(0, 2]范圍內(nèi)進行調(diào)整,具體的參數(shù)分析細節(jié)將在第5.3節(jié)中介紹。在本實驗中,我們將參數(shù)p設(shè)為1,并將我們的SALDA算法與其他先進方法進行比較。此外,為確保實驗的公平性,其他對比算法中的參數(shù)均按照其各自原始論文中的設(shè)定進行配置。特別地,我們將LDA的降維維度設(shè)為c?1(其中c為類別數(shù))。對于其他降維方法,我們在維度范圍m∈[1, d?1](d為原始特征維度)內(nèi)采用貪心策略(greedy strategy)選擇最優(yōu)維度。最終的分類結(jié)果通過KNN算法在經(jīng)各對比算法降維后的測試集上獲得。我們在八個真實世界基準數(shù)據(jù)集上分別獨立運行所有對比方法十次。表2報告了不同方法在最優(yōu)降維維度下所取得的最大平均分類準確率及其標準差。
![]()
5.2.3 性能
表2記錄了實驗結(jié)果。其中最優(yōu)結(jié)果以粗體標出,次優(yōu)結(jié)果以下劃線標出。從表2可得出以下結(jié)論:
- 可以觀察到,SALDA在幾乎所有相關(guān)方法中均取得了更優(yōu)且更穩(wěn)定的性能。特別是與其他局部感知(locality-aware)方法相比,我們的SALDA算法在大多數(shù)基準數(shù)據(jù)集上獲得了更好的效果。這種優(yōu)越性能的原因在于:大多數(shù)傳統(tǒng)的局部感知方法基于原始空間中的距離來學習鄰域關(guān)系,而這種距離可能無法可靠地揭示數(shù)據(jù)的內(nèi)在局部結(jié)構(gòu),從而進一步影響分類性能。與以往方法不同,SALDA在所期望的子空間中自動尋找鄰近點,并將本質(zhì)上相似的點拉近,因此自然取得了良好的結(jié)果。
- 從結(jié)果可以看出,大多數(shù)局部感知方法的表現(xiàn)優(yōu)于LDA。這一現(xiàn)象的主要原因是:LDA僅關(guān)注全局數(shù)據(jù)結(jié)構(gòu),忽略了局部結(jié)構(gòu),導致其在處理復(fù)雜分布數(shù)據(jù)時性能較差。相比之下,其他局部感知方法通過挖掘局部鄰域關(guān)系,在這些基準數(shù)據(jù)集上取得了更好的結(jié)果。
- 對于這些競爭性方法而言,它們依賴KNN過程來尋找每個數(shù)據(jù)點的鄰居,因此需要額外調(diào)節(jié)參數(shù)k。而眾所周知,SALDA能夠自動學習點對之間的權(quán)重,無需手動設(shè)置此類參數(shù)。因此,與以往方法相比,我們的方法使用更為便捷,在實際應(yīng)用中具有更強的實用性。
5.3 參數(shù)與收斂性分析
根據(jù)公式(10),我們的方法中僅存在一個參數(shù) p(其中 0 < p ≤ 2)。為評估該參數(shù)對性能的影響,我們采用網(wǎng)格搜索法,將 p 設(shè)置在 [0.1, 0.4, 0.7, 1.0, 1.3, 1.6, 1.9] 范圍內(nèi)。
![]()
仿真實驗(參見圖5)在八個數(shù)據(jù)集上運行,以展示所提出的SALDA算法在不同參數(shù) p 下的分類準確率變化。從圖5可見,當 p 取不同值時,分類準確率存在波動。總體而言,當 p 調(diào)整為1時,我們的方法在這些數(shù)據(jù)集上獲得了最佳結(jié)果。此外,從圖5(a)、(d)、(g)和(h)所示的USPS、MSRA、Diabetes和Pima數(shù)據(jù)集來看,甚至存在比 p=1 時更優(yōu)的性能表現(xiàn)。因此,在第5.2節(jié)的實驗中,使用 p=1 的本方法與其他競爭算法進行比較是合理的。當然,若在實際應(yīng)用中對所提出的方法實施網(wǎng)格搜索,則可獲得更好的性能。
此外,為進一步驗證我們的算法在真實場景中的性能,我們分析了該算法在所呈現(xiàn)的八個基準數(shù)據(jù)集(包括USPS、YALE、PIE、MSRA、Australian、Heart、Diabetes和Pima)上的收斂性。
SALDA在這些數(shù)據(jù)集上獲得的收斂曲線分別如圖6的各個子圖所示。可以看出,我們的算法在所有這些基準數(shù)據(jù)集上均能在10至15次迭代內(nèi)收斂,這表明我們的算法易于優(yōu)化,并且在處理高維數(shù)據(jù)集時效率非常高。此外,圖6所示結(jié)果表明,SALDA在真實世界基準數(shù)據(jù)集上表現(xiàn)非常穩(wěn)定。
![]()
- 結(jié)論
在本研究中,我們提出了一種新的基于局部感知的降維框架(SALDA)。與傳統(tǒng)的LDA算法相比,所提出的方法能夠從原始數(shù)據(jù)空間中自適應(yīng)地學習一個最優(yōu)子空間,從而更有效地從期望子空間中獲取鄰域關(guān)系,即使在存在嚴重噪聲維度的情況下亦然。此外,SALDA能夠自動為同一類內(nèi)的數(shù)據(jù)點對分配權(quán)重,這對我們的模型捕捉局部信息非常有用。因此,我們的SALDA模型能夠更有效、更穩(wěn)健地處理具有復(fù)雜分布的真實世界數(shù)據(jù)集。在合成數(shù)據(jù)集和真實世界數(shù)據(jù)集上的實驗結(jié)果進一步表明,我們的模型優(yōu)于其他經(jīng)典的基于局部感知的方法。
在本文中,我們將?p-范數(shù)引入到我們的框架中以解決降維問題,這有助于我們的模型保留局部信息并增強對噪聲的魯棒性。然而,?p-范數(shù)無法使我們的框架具備處理含異常值數(shù)據(jù)的能力。因此,在未來的工作中,我們計劃將?2,1-范數(shù)[45]引入我們的框架,以應(yīng)對異常值問題。
原文鏈接:https://www.sciencedirect.com/science/article/pii/S003132032200259X
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.