在計算機(jī)視覺的廣闊天地中,一場幾何學(xué)革命正悄然興起。傳統(tǒng)的歐幾里得空間——那個我們熟悉的平面世界,正被一種更為奇妙的幾何形式所挑戰(zhàn)。它被稱為雙曲空間,一個具有恒定負(fù)曲率的幾何領(lǐng)域,在這里,空間隨著直徑呈指數(shù)級擴(kuò)張,而非多項式級增長。想象一下,當(dāng)你在這個空間中漫步,每走一步,周圍的世界都在以驚人的速度擴(kuò)展。這不是科幻小說的場景,而是一種正在改變計算機(jī)視覺領(lǐng)域的數(shù)學(xué)現(xiàn)實。雙曲幾何如何幫助機(jī)器更好地理解圖像?為何它能在有限樣本中學(xué)習(xí),在不確定性中導(dǎo)航?本文將揭示這個令人著迷的新領(lǐng)域如何重塑我們的視覺世界。
曲率的魔力
想象一下你站在一張平坦的紙上,這就是我們熟悉的歐幾里得空間。在這個世界里,兩條平行線永遠(yuǎn)不會相交,三角形的內(nèi)角和總是180度。這個世界簡單明了,但當(dāng)我們嘗試在這個平面上表示復(fù)雜的層次結(jié)構(gòu)時,比如一棵不斷分支的樹,就會遇到困難。
雙曲空間則完全不同。它就像一個彎曲的馬鞍面,在這里平行線會擴(kuò)散開來,三角形的內(nèi)角和總是小于180度。更重要的是,雙曲空間中的體積增長速度驚人——隨著距離的增加呈指數(shù)級增長,而非歐幾里得空間的多項式增長。
這種特性使雙曲空間成為表示層次數(shù)據(jù)的理想場所。在19世紀(jì),高斯、羅巴切夫斯基和博耶等數(shù)學(xué)家首次發(fā)展了這種非歐幾里得幾何,為物理學(xué)奠定了基礎(chǔ),尤其是愛因斯坦的相對論。而今天,它正在改變計算機(jī)視覺的面貌。
雙曲空間有幾種不同但等價的模型。龐加萊模型可能是最直觀的一種,它將雙曲空間表示為一個單位圓盤。在這個圓盤中,直線變成了與邊界垂直相交的圓弧。著名藝術(shù)家埃舍爾的作品《圓極限》系列就是基于這個模型創(chuàng)作的,展示了雙曲空間中的規(guī)則結(jié)構(gòu)。
![]()
雙曲面模型則使用單片超雙曲面來表示雙曲空間,它的優(yōu)勢在于保留了某些線性結(jié)構(gòu),使得數(shù)學(xué)計算更為簡潔。而克萊因模型雖然不保持角度,但它的測地線(最短路徑)是直線段,這在計算上有很大優(yōu)勢。
在計算機(jī)視覺應(yīng)用中,五個核心操作構(gòu)成了大多數(shù)算法的基本構(gòu)件:測量兩點(diǎn)距離、找到測地弧(兩點(diǎn)間的最短路徑)、形成測地線、使用指數(shù)映射沿著測地線移動、以及保持雙曲距離的平移操作。
以龐加萊模型為例,兩點(diǎn)p和q之間的距離計算公式為:
dD(p, q) = (1/√c)arcosh(1 + 2|p - q|/((1 - |p|)(1 - |q|)))
這看起來復(fù)雜,但它捕捉了雙曲空間的本質(zhì)特性——距離原點(diǎn)越遠(yuǎn),空間擴(kuò)展越快。
借助陀螺向量空間計算,我們可以在雙曲空間中執(zhí)行加法、標(biāo)量乘法和移動等基本操作。陀螺向量空間加法給出了兩點(diǎn)的M?bius變換,而標(biāo)量乘法則控制沿測地線移動的距離。
這些操作的魅力不僅在于數(shù)學(xué)的優(yōu)雅,更在于它們?yōu)橛嬎銠C(jī)視覺提供了新的思維方式。通過雙曲幾何,我們可以更自然地表示圖像中的層次關(guān)系,比如從物體類別到子類別,再到具體實例的遞進(jìn)關(guān)系。
在實際應(yīng)用中,歐幾里得空間長期以來一直是深度學(xué)習(xí)的默認(rèn)選擇。然而,隨著研究的深入,我們發(fā)現(xiàn)歐幾里得空間并不總是最佳選擇。對于具有層次結(jié)構(gòu)的數(shù)據(jù),如圖像分類中的語義層次,雙曲空間提供了更自然的表示方法。
2017年,Nickel和Kiela證明雙曲空間能夠以最小的失真嵌入復(fù)雜的樹結(jié)構(gòu),這一發(fā)現(xiàn)為計算機(jī)視覺中的雙曲深度學(xué)習(xí)鋪平了道路。此后,雙曲神經(jīng)網(wǎng)絡(luò)、雙曲圖卷積網(wǎng)絡(luò)等技術(shù)相繼出現(xiàn),為計算機(jī)視覺領(lǐng)域帶來了新的可能性。
視覺的曲面
雙曲幾何在計算機(jī)視覺的監(jiān)督學(xué)習(xí)中找到了豐富的應(yīng)用場景。研究者們發(fā)現(xiàn),將樣本與曲面上的不同元素匹配,可以實現(xiàn)令人印象深刻的性能提升。
第一種主要策略是樣本到旋轉(zhuǎn)平面學(xué)習(xí)。在這種方法中,類別通過雙曲超平面(即旋轉(zhuǎn)平面)表示,網(wǎng)絡(luò)基于樣本和旋轉(zhuǎn)平面間的置信度評分進(jìn)行優(yōu)化。Khrulkov等人在2020年的研究表明,在卷積網(wǎng)絡(luò)的最后一層添加雙曲分類器,不僅能提高分類性能,還能獲取基于圖像雙曲嵌入到原點(diǎn)距離的不確定性信息。
有趣的是,遠(yuǎn)離原點(diǎn)的樣本通常對應(yīng)于模型更確定的預(yù)測,而接近原點(diǎn)的樣本則表示更高的不確定性。這一特性使得區(qū)分在分布內(nèi)和分布外的樣本成為可能,為異常檢測提供了自然的框架。
![]()
不過,雙曲分類器訓(xùn)練中也存在梯度消失問題。由于當(dāng)前雙曲方法多采用混合架構(gòu)(歐幾里得特征連接到雙曲分類器),嵌入往往被推向龐加萊球的邊界,導(dǎo)致黎曼張量度量的逆接近零,產(chǎn)生較小的梯度。Guo等人在2022年提出了一種剪裁策略,顯著改善了這一問題,尤其是在處理ImageNet等大規(guī)模數(shù)據(jù)集時。
雙曲邏輯回歸不僅適用于整體分類,也適用于結(jié)構(gòu)化預(yù)測任務(wù)如物體檢測和圖像分割。Ghadimi Atigh等人在2022年提出的雙曲圖像分割方法表明,雙曲空間為像素級分類帶來了多重優(yōu)勢:不確定性量化、更好的零標(biāo)簽泛化,以及在較少嵌入維度下的較高效率。
值得注意的是,雙曲圖像分割中的像素嵌入范數(shù)與語義模糊性高度相關(guān)——越接近語義邊界的像素,其范數(shù)越低。這種自然的不確定性表示已被Chen等人用于改進(jìn)圖像分割。他們提出了一種雙曲不確定性損失,根據(jù)像素的雙曲范數(shù)加權(quán)交叉熵?fù)p失,從而提高分割結(jié)果。
![]()
除了邏輯回歸,雙曲核方法也顯示出強(qiáng)大的潛力。Fang等人在2021年引入了雙曲空間中的正定核函數(shù),并展示了它們在計算機(jī)視覺中的應(yīng)用。這些核方法可以插入到卷積網(wǎng)絡(luò)之上,同時受益于卷積層的表示學(xué)習(xí)和分類器中的雙曲核動態(tài)。
第二種廣泛使用的策略是樣本到原型學(xué)習(xí),即將類別表示為雙曲空間中的點(diǎn)(原型)。這種方法有兩種主要實現(xiàn):基于樣本均值的類嵌入(類似于原型網(wǎng)絡(luò))和基于給定類層次結(jié)構(gòu)的嵌入。
Khrulkov等人將歐幾里得原型網(wǎng)絡(luò)擴(kuò)展到雙曲空間,通過愛因斯坦中點(diǎn)在克萊因坐標(biāo)中計算類原型。這種雙曲原型網(wǎng)絡(luò)在少樣本學(xué)習(xí)中表現(xiàn)出色,尤其是當(dāng)使用簡單的卷積骨干網(wǎng)絡(luò)時。
Gao等人進(jìn)一步發(fā)現(xiàn),不同任務(wù)甚至個別類別在少樣本學(xué)習(xí)中偏好不同的曲率。他們提出基于類內(nèi)和類間樣本表示的二階統(tǒng)計生成每個類的曲率,并通過多層感知機(jī)學(xué)習(xí)確定曲率范圍。
雙曲原型學(xué)習(xí)的另一個分支專注于層次化知識的嵌入。許多研究者利用WordNet等現(xiàn)有層次結(jié)構(gòu),或者通過雙曲嵌入發(fā)現(xiàn)數(shù)據(jù)中的潛在層次關(guān)系。例如,Long等人利用雙曲糾纏錐嵌入動作類別層次結(jié)構(gòu),并加入葉節(jié)點(diǎn)間的角度分離以避免類別間混淆,從而改進(jìn)了動作識別和零樣本分類。
Yu等人則提出同時學(xué)習(xí)層次和視覺表示,用于皮膚病變識別。通過優(yōu)化圖像嵌入到正確的類原型,同時優(yōu)化類別以遵守其雙曲糾纏錐,實現(xiàn)了更好的分層嵌入。
在零樣本學(xué)習(xí)領(lǐng)域,Liu等人利用WordNet的龐加萊嵌入和基于文本的龐加萊GloVe嵌入連接,形成類原型。通過優(yōu)化訓(xùn)練圖像到其原型的映射,可以在測試時通過最近鄰搜索泛化到未見類別。
Ghadimi Atigh等人則探索了雙曲空間中原型的均勻性,提出將類別嵌入到龐加萊球邊界上的最大分離點(diǎn)。由于邊界上的點(diǎn)與球內(nèi)任何點(diǎn)的距離都是無限的,他們引入了Busemann距離作為替代度量,展示了這種方法與傳統(tǒng)邏輯回歸的直接聯(lián)系。
第三種策略是樣本到樣本學(xué)習(xí),通過樣本間的對比來學(xué)習(xí)表示。Ermolov等人研究了雙曲度量學(xué)習(xí)的潛力,提出雙曲成對交叉熵?fù)p失,用于樣本對匹配。使用監(jiān)督或自監(jiān)督視覺變換器作為編碼器,雙曲度量學(xué)習(xí)在細(xì)粒度數(shù)據(jù)集上持續(xù)優(yōu)于歐幾里得方法。
雙曲度量學(xué)習(xí)的二維投影顯示,類別聚集在球的邊界上,同時顯現(xiàn)出潛在的層次鄰域關(guān)系。這種學(xué)習(xí)方式已被證明有效克服了少樣本類增量學(xué)習(xí)中的過擬合和災(zāi)難性遺忘問題,也適用于語義哈希、人臉識別和多模態(tài)對齊。
![]()
在多模態(tài)學(xué)習(xí)方面,Desai等人提出了雙曲圖像-文本表示,將輸入圖像和文本通過兩個獨(dú)立編碼器處理后投影到雙曲空間,并使用對比和蘊(yùn)含損失進(jìn)行訓(xùn)練。該方法優(yōu)于歐幾里得CLIP,能夠在雙曲空間中捕獲多模態(tài)層次關(guān)系。
除了樣本對的比較,一些研究表明基于集合和組的距離更有效、更穩(wěn)健。Ma等人引入了一種自適應(yīng)樣本到集合距離函數(shù),通過所有支持樣本的加權(quán)平均來增加對異常值的魯棒性。這種方法在處理有異常值的少樣本學(xué)習(xí)中特別有益。
Zhang等人則提出了一種基于組的混合策略。每個組是樣本的隨機(jī)子集,通過可微分最優(yōu)傳輸與原型匹配。他們也發(fā)現(xiàn)在雙曲嵌入空間中改進(jìn)了細(xì)粒度數(shù)據(jù)集上的度量學(xué)習(xí),并提供了經(jīng)驗證據(jù),表明其他基于度量的損失也從雙曲嵌入中受益。
這些監(jiān)督學(xué)習(xí)策略展示了雙曲幾何在計算機(jī)視覺中的廣泛應(yīng)用潛力。從分類和分割到少樣本和零樣本學(xué)習(xí),再到度量學(xué)習(xí)和多模態(tài)學(xué)習(xí),雙曲空間正在成為一種強(qiáng)大的替代幾何,能夠更好地捕捉視覺數(shù)據(jù)中的層次結(jié)構(gòu)和復(fù)雜關(guān)系。
無師自通
在無監(jiān)督學(xué)習(xí)的廣闊天地中,雙曲幾何也開辟了獨(dú)特的道路。無需標(biāo)簽數(shù)據(jù)的指導(dǎo),雙曲空間依靠其內(nèi)在的幾何特性,自然地發(fā)現(xiàn)數(shù)據(jù)中的層次結(jié)構(gòu)和模式。
生成模型是無監(jiān)督學(xué)習(xí)的重要分支,研究者們已經(jīng)將雙曲幾何融入到各種生成模型中。2019年,Nagano等人提出了雙曲包裹正態(tài)分布,并推導(dǎo)了可重參數(shù)化采樣和概率密度函數(shù)計算的算法。他們用這些工具構(gòu)建了雙曲變分自編碼器(VAE),用雙曲包裹正態(tài)分布替代傳統(tǒng)的歐幾里得高斯分布作為先驗和后驗。這種方法在MNIST和Atari 2600 Breakout屏幕上學(xué)習(xí)表示時,在低維潛在空間中顯著優(yōu)于歐幾里得表示。
Mathieu等人進(jìn)一步擴(kuò)展了這項工作,引入了黎曼正態(tài)分布,并推導(dǎo)出使用雙曲極坐標(biāo)的可重參數(shù)化采樣方案。他們還在解碼器的第一層加入了旋轉(zhuǎn)平面層,將歐幾里得仿射變換替換為雙曲對應(yīng)物。這些改進(jìn)在低維潛在空間中提高了測試對數(shù)似然。
2022年,Cho等人對雙曲包裹正態(tài)分布進(jìn)行了改進(jìn),提出了旋轉(zhuǎn)雙曲包裹正態(tài)分布。他們發(fā)現(xiàn)標(biāo)準(zhǔn)包裹正態(tài)分布的主軸與局部標(biāo)準(zhǔn)軸不對齊,于是設(shè)計了一種新的采樣過程來修正這一問題。這種改進(jìn)在多種設(shè)置中都優(yōu)于原始雙曲包裹正態(tài)分布。
生成對抗網(wǎng)絡(luò)(GAN)也已經(jīng)采用雙曲幾何來捕捉圖像中的層次結(jié)構(gòu)。Lazcano等人在2021年提出了雙曲GAN,用具有可學(xué)習(xí)曲率的雙曲層替換生成器和判別器中的部分歐幾里得層。他們發(fā)現(xiàn),歐幾里得和雙曲層的最佳配置通常可以提高M(jìn)NIST圖像生成的Inception Score和Frechet Inception Distance。與雙曲VAE不同,雙曲GAN在較大的潛在維度上也能獲得良好結(jié)果。
![]()
Qu和Zou提出了HAEGAN,一種基于Lorentz模型的雙曲自編碼器和GAN框架。他們泛化了WGAN-GP到雙曲空間,并引入了新的Lorentz連接層,與之前工作相比,在MNIST圖像生成上顯示出改進(jìn)。
Li等人在2022年提出了一種用于少樣本圖像生成的雙曲方法。他們的核心思想是雙曲空間編碼了一個語義層次,其中層次的根(在雙曲空間中心)是一個類別,較低層次是更細(xì)粒度的劃分,最低層次是與類別無關(guān)的特征。基于這一思想,他們將StyleGAN的W+空間映射到雙曲空間再映射回來,能夠進(jìn)行層次化的屬性編輯和少樣本生成。
歸一化流也已在雙曲空間中得到實現(xiàn)。Bose等人在2020年提出了雙曲歸一化流,將歐幾里得歸一化流RealNVP泛化到雙曲空間。他們提出了兩種雙曲歸一化流:在原點(diǎn)的切空間中進(jìn)行耦合的切空間耦合,以及使用平行傳輸將中間向量從原點(diǎn)的切空間映射到雙曲空間中另一點(diǎn)的切空間的包裹雙曲耦合。在MNIST上,雙曲模型在低維潛在空間中的性能超過了等效的歐幾里得模型,但在維度6時歐幾里得模型就開始超過雙曲模型。
聚類是無監(jiān)督學(xué)習(xí)的另一個重要分支,雙曲空間與層次、樹的緊密關(guān)系使其成為層次聚類的理想選擇。Monath等人在2019年提出使用雙曲表示進(jìn)行層次聚類。他們的方法要求每個數(shù)據(jù)點(diǎn)在龐加萊圓盤邊緣有一個雙曲表示,這些表示成為層次聚類的葉節(jié)點(diǎn)。通過優(yōu)化固定數(shù)量內(nèi)部節(jié)點(diǎn)的雙曲表示,可以提取離散的樹。其損失函數(shù)基于Dasgupta成本和父子邊際目標(biāo),鼓勵父節(jié)點(diǎn)具有比子節(jié)點(diǎn)更小的范數(shù)。使用這種方法,他們能夠嵌入ImageNet,表示取自預(yù)訓(xùn)練Inception神經(jīng)網(wǎng)絡(luò)的最后一層。
Chami等人在2020年也基于Dasgupta成本提出了一種方法,但他們將雙曲空間中兩點(diǎn)的最近公共祖先定義為連接這兩點(diǎn)的測地線上最接近雙曲原點(diǎn)的點(diǎn),并提供了在龐加萊圓盤中計算這一點(diǎn)的公式。這允許直接優(yōu)化Dasgupta成本的連續(xù)對應(yīng)物。與Monath等人的方法不同,Chami等人不需要預(yù)先可用的雙曲嵌入,并優(yōu)化整棵樹的雙曲嵌入,而不僅僅是葉子。
Lin等人在2022年提出了一個基于神經(jīng)網(wǎng)絡(luò)的框架,用于多視圖數(shù)據(jù)的層次聚類。該框架包括兩個步驟:通過重構(gòu)損失、不同視圖之間的對比學(xué)習(xí)和正例與挖掘的硬負(fù)例之間的加權(quán)三元組損失來提高表示質(zhì)量,然后應(yīng)用Chami等人的雙曲層次聚類框架。Lin等人應(yīng)用這種方法對各種多視圖圖像數(shù)據(jù)集進(jìn)行多視圖聚類。
自監(jiān)督學(xué)習(xí)也在雙曲空間中得到了探索。基于三元組損失的方法包括Hsu等人在2021年提出的學(xué)習(xí)3D生物醫(yī)學(xué)圖像片段級表示的方法。他們擴(kuò)展了Mathieu等人的雙曲VAE架構(gòu),使用3D卷積編碼器和解碼器以及旋轉(zhuǎn)平面卷積層。為了學(xué)習(xí)好的表示,他們提出了一種層次自監(jiān)督損失,捕捉3D生物醫(yī)學(xué)圖像的隱含層次結(jié)構(gòu)。給定一個父片段μp,他們?nèi)∫粋€子片段μc(父片段的子片段)和一個負(fù)片段μn(與父片段不重疊),然后定義層次自監(jiān)督損失為邊際三元組損失。這鼓勵子片段的表示成為主片段表示的子代或后代,而遠(yuǎn)離的片段(可能包含不同結(jié)構(gòu))位于層次表示的其他分支上。這種策略對合成生物數(shù)據(jù)和3D腦腫瘤MRI掃描的無監(jiān)督分割都很有效。
![]()
Weng等人在2021年提出利用圖像內(nèi)物體的層次結(jié)構(gòu)進(jìn)行弱監(jiān)督長尾實例分割。為了捕捉這種層次結(jié)構(gòu),他們學(xué)習(xí)了由幾種雙曲自監(jiān)督損失監(jiān)督的雙曲表示。第一個自監(jiān)督損失鼓勵對象的表示與完整對象圖像的表示相似,并遠(yuǎn)離對象背景的表示。第二個損失是需要采樣正例和負(fù)例的三元組損失。第三個損失類似于Hsu等人的層次三元組損失,只是以原點(diǎn)代替負(fù)樣本。最后,表示通過雙曲k均值聚類進(jìn)行聚類。與Hsu等人不同,計算均值時,他們將表示從龐加萊圓盤映射到雙曲面模型L并計算Law等人提出的(加權(quán))雙曲面中點(diǎn)。與Frechet均值相比,這種均值具有閉式公式的優(yōu)勢,計算效率更高。Weng等人發(fā)現(xiàn)他們的方法改進(jìn)了LVIS長尾分割數(shù)據(jù)集上的其他部分監(jiān)督方法。
對比學(xué)習(xí)方法也已經(jīng)在雙曲空間中提出。Surs等人在2021年提出學(xué)習(xí)視頻動作預(yù)測的雙曲表示,因為它們能夠結(jié)合表示層次和提供不確定性度量。Surs等人學(xué)習(xí)了一個動作層次,更抽象的動作接近龐加萊圓盤的原點(diǎn),更細(xì)粒度的動作接近邊緣。如果前面的視頻幀模棱兩可,這種層次表示允許預(yù)測更一般的父類動作,而不必預(yù)測更細(xì)粒度的子類動作。兩個動作的父代計算為它們雙曲表示的雙曲均值,Surs等人將其計算為連接兩個表示的測地線的中點(diǎn)。Surs等人提出了一個兩階段框架,包括對比預(yù)訓(xùn)練雙曲表示,然后凍結(jié)表示并訓(xùn)練用于動作預(yù)測的線性分類器。自監(jiān)督預(yù)訓(xùn)練的前提任務(wù)是預(yù)測未來幀的表示,通過對比損失進(jìn)行監(jiān)督,鼓勵正對有相似的表示,同時將預(yù)測從所有負(fù)例的表示中推開。在不確定性存在時,該損失通過預(yù)測連接a和b的測地線上的中點(diǎn)來最小化,這等同于在層次結(jié)構(gòu)中上移一級到a和b的父代。
Ge等人在2022年提出通過場景-物體層次來改進(jìn)對比學(xué)習(xí)。Ge等人使用MoCo架構(gòu)的雙曲版本,稱為HCL。與以往的視覺對比學(xué)習(xí)工作不同,HCL要求從輸入圖像中提取對象區(qū)域。雙曲分支采用場景區(qū)域u和作為場景u子區(qū)域的對象區(qū)域v,以及不作為場景u子區(qū)域的負(fù)對象Nu = {n1, …, nk},通過以雙曲距離為相似度度量的對比損失進(jìn)行訓(xùn)練。這種損失鼓勵表示形成場景-物體層次結(jié)構(gòu),場景具有最高范數(shù)(在龐加萊球D的邊緣),物體具有最小范數(shù)(在D的中心)。該論文發(fā)現(xiàn)他們的方法比原始MoCo和使用邊界框信息增強(qiáng)的MoCo略有改進(jìn)。他們還使用他們的方法檢查了上下文之外的物體的表示,發(fā)現(xiàn)它們與場景圖像的距離通常更高。
Yue等人在2023年提出了一種基于SimCLR的不同雙曲對比學(xué)習(xí)方法。與Ge等人一樣,Yue等人將對比損失的點(diǎn)積相似度替換為雙曲距離,但他們只有一個雙曲分支,而不保留歐幾里得分支。Yue等人還提出擴(kuò)展受監(jiān)督對比學(xué)習(xí)方法SupCon,并訓(xùn)練對抗性魯棒對比學(xué)習(xí)器,擴(kuò)展Robust Contrastive Learning方法到雙曲空間。與Ge等人一樣,Yan等人發(fā)現(xiàn)雙曲對比學(xué)習(xí)通常比其歐幾里得對應(yīng)物略有改進(jìn)。
![]()
未竟之路
雙曲視覺學(xué)習(xí)雖已取得令人矚目的進(jìn)展,但這條路上仍有眾多挑戰(zhàn)與機(jī)遇。前路漫漫,我們需要共同努力才能充分釋放雙曲幾何在計算機(jī)視覺中的潛力。
全雙曲學(xué)習(xí)是一個重要的研究方向。目前,大多數(shù)雙曲學(xué)習(xí)論文在計算機(jī)視覺中采用混合方法:在歐幾里得空間中進(jìn)行特征學(xué)習(xí),然后將輸出嵌入轉(zhuǎn)換到雙曲空間進(jìn)行最終的學(xué)習(xí)階段。神經(jīng)科學(xué)的研究表明,對于神經(jīng)網(wǎng)絡(luò)的早期層,雙曲空間也可以發(fā)揮重要作用。例如,Zhang等人在2023年發(fā)現(xiàn)海馬體中的空間關(guān)系比歐幾里得更具雙曲性。
在雙曲空間中構(gòu)建完全的深度網(wǎng)絡(luò),需要重新思考所有層,從卷積到自注意力和歸一化。在撰寫本文時,已有兩項工作在這個方向上邁出了步伐。Bdeir等人在2023年引入了Lorentz模型中的雙曲卷積網(wǎng)絡(luò),概述了如何執(zhí)行卷積、批歸一化和殘差連接。同時,van Spengler等人在2023年引入了龐加萊ResNet,包括龐加萊球模型中的卷積、殘差、批歸一化和更好的網(wǎng)絡(luò)初始化。
這些工作為全雙曲學(xué)習(xí)奠定了基礎(chǔ),但仍有許多未解決的問題。哪個模型最適合全雙曲學(xué)習(xí)?或者不同的層在不同的模型中效果最好?全雙曲學(xué)習(xí)如何擴(kuò)展到ImageNet及更大的數(shù)據(jù)集?網(wǎng)絡(luò)的每個階段是否應(yīng)該具有相同的曲率?與歐幾里得網(wǎng)絡(luò)相比,雙曲網(wǎng)絡(luò)在所有可能的任務(wù)中能達(dá)到多高的效果?回答這些問題還需要大量研究。
計算挑戰(zhàn)也是需要解決的重要問題。在雙曲空間中進(jìn)行基于梯度的學(xué)習(xí),改變了網(wǎng)絡(luò)的優(yōu)化方式和參數(shù)行為。與歐幾里得對應(yīng)物相比,雙曲網(wǎng)絡(luò)和嵌入在數(shù)值上可能更不穩(wěn)定,在球的邊界處存在問題,梯度消失等。此外,雙曲操作可能更復(fù)雜,計算量更大,導(dǎo)致網(wǎng)絡(luò)效率降低。這些計算挑戰(zhàn)與雙曲學(xué)習(xí)的所有領(lǐng)域都相關(guān),需要廣泛關(guān)注。
開源社區(qū)的建設(shè)對推動雙曲學(xué)習(xí)的發(fā)展至關(guān)重要。現(xiàn)代深度學(xué)習(xí)庫以歐幾里得幾何為中心。任何雙曲學(xué)習(xí)的新研究者,都難以快速實現(xiàn)網(wǎng)絡(luò)和層來獲得對其工作的直覺理解。任何新的進(jìn)展都必須從頭實現(xiàn)或從其他論文的代碼庫導(dǎo)入。缺少的是一個開源社區(qū)和共享代碼庫,收錄計算機(jī)視覺雙曲學(xué)習(xí)的各種進(jìn)展。這樣的社區(qū)和代碼庫對于獲得進(jìn)一步的吸引力并吸引廣泛的受眾(包括從業(yè)者)至關(guān)重要。無論是作為現(xiàn)有庫的一部分還是作為單獨(dú)的庫,持續(xù)開發(fā)開源雙曲學(xué)習(xí)代碼對該領(lǐng)域的未來至關(guān)重要。
大規(guī)模和多模態(tài)學(xué)習(xí)是另一個重要方向。在計算機(jī)視覺和人工智能領(lǐng)域,學(xué)習(xí)大規(guī)模數(shù)據(jù)和多模態(tài)數(shù)據(jù)(如圖像-文本或視頻-音頻模型)的趨勢越來越明顯。因此,達(dá)到雙曲基礎(chǔ)模型是該領(lǐng)域的自然愿望。雖然早期工作已表明,使用雙曲嵌入進(jìn)行大規(guī)模和/或多模態(tài)學(xué)習(xí)是可行的,如Desai等人在2023年的研究,但雙曲基礎(chǔ)模型的形成需要解決上述所有開放問題,從穩(wěn)定的全雙曲學(xué)習(xí)到持續(xù)的開源開發(fā)。
![]()
回顧雙曲深度學(xué)習(xí)在計算機(jī)視覺中的現(xiàn)狀,我們可以確定四個主要的改進(jìn)軸線:層次學(xué)習(xí)、少樣本學(xué)習(xí)、魯棒學(xué)習(xí)和低維學(xué)習(xí)。
雙曲空間與層次數(shù)據(jù)的內(nèi)在聯(lián)系已為人所知。許多研究已利用雙曲學(xué)習(xí)改進(jìn)計算機(jī)視覺中的層次目標(biāo)。雙曲空間支持以最小的失真嵌入復(fù)雜的樹結(jié)構(gòu),這一特性使得它能夠更自然地表示圖像分類中的語義層次,為零樣本泛化提供了可能性。
在少樣本學(xué)習(xí)方面,雙曲嵌入和原型一致顯示出性能改進(jìn),無論是否有層次知識。這表明雙曲空間可以從更少的樣本中泛化,在樣本稀缺的領(lǐng)域有潛力。這在無監(jiān)督領(lǐng)域已經(jīng)顯現(xiàn),當(dāng)處理受限的數(shù)據(jù)源時,雙曲空間中的生成學(xué)習(xí)更有效。
雙曲學(xué)習(xí)在多個方面表現(xiàn)出更強(qiáng)的魯棒性。雙曲嵌入改進(jìn)了分布外檢測,提供了自然的不確定性量化方式,能夠發(fā)現(xiàn)無監(jiān)督上下文外樣本,并可以提高對抗性攻擊的魯棒性。魯棒性和不確定性是深度學(xué)習(xí)中的關(guān)鍵挑戰(zhàn),雙曲深度學(xué)習(xí)提供了使網(wǎng)絡(luò)更魯棒的自然解決方案。
對于許多應(yīng)用來說,網(wǎng)絡(luò)和嵌入空間需要受到限制,例如在嵌入式設(shè)備上學(xué)習(xí)或可視化數(shù)據(jù)時。在無監(jiān)督領(lǐng)域,當(dāng)使用較小的嵌入空間時,雙曲學(xué)習(xí)一致優(yōu)于歐幾里得學(xué)習(xí)。同樣,在監(jiān)督問題中,雙曲空間中的嵌入維度可以大幅減少,同時保持下游性能。因此,雙曲學(xué)習(xí)有潛力實現(xiàn)壓縮和嵌入式領(lǐng)域的學(xué)習(xí)。
雙曲學(xué)習(xí)已經(jīng)在計算機(jī)視覺中產(chǎn)生了影響,并展示了許多有前途的道路。然而,該領(lǐng)域仍處于早期階段,面臨許多挑戰(zhàn)和機(jī)遇。需要共同努力才能充分釋放雙曲幾何在計算機(jī)視覺中的潛力。
參考資料
Mettes, P., Atigh, M. G., Keller-Ressel, M., Gu, J., &; Yeung, S. (2023). Hyperbolic Deep Learning in Computer Vision: A Survey. arXiv:2305.06611v1.
Ganea, O., Bcigneul, G., &; Hofmann, T. (2018). Hyperbolic Neural Networks. Advances in Neural Information Processing Systems.
Khrulkov, V., Mirvakhabova, L., Ustinova, E., Oseledets, I., &; Lempitsky, V. (2020). Hyperbolic Image Embeddings. Computer Vision and Pattern Recognition.
Ermolov, A., Mirvakhabova, L., Khrulkov, V., Sebe, N., &; Oseledets, I. (2022). Hyperbolic Vision Transformers: Combining Improvements in Metric Learning. Computer Vision and Pattern Recognition.
Ghadimi Atigh, M., Schoep, J., Acar, E., van Noord, N., &; Mettes, P. (2022). Hyperbolic Image Segmentation. Computer Vision and Pattern Recognition.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.