超越平面：走進(jìn)雙曲空間，重新定義計算機(jī)視覺的未來

2025-05-15 22:56:07　來源: 文史明鑒

廣東舉報

分享至

在計算機(jī)視覺的廣闊天地中，一場幾何學(xué)革命正悄然興起。傳統(tǒng)的歐幾里得空間——那個我們熟悉的平面世界，正被一種更為奇妙的幾何形式所挑戰(zhàn)。它被稱為雙曲空間，一個具有恒定負(fù)曲率的幾何領(lǐng)域，在這里，空間隨著直徑呈指數(shù)級擴(kuò)張，而非多項式級增長。想象一下，當(dāng)你在這個空間中漫步，每走一步，周圍的世界都在以驚人的速度擴(kuò)展。這不是科幻小說的場景，而是一種正在改變計算機(jī)視覺領(lǐng)域的數(shù)學(xué)現(xiàn)實。雙曲幾何如何幫助機(jī)器更好地理解圖像？為何它能在有限樣本中學(xué)習(xí)，在不確定性中導(dǎo)航？本文將揭示這個令人著迷的新領(lǐng)域如何重塑我們的視覺世界。

曲率的魔力

想象一下你站在一張平坦的紙上，這就是我們熟悉的歐幾里得空間。在這個世界里，兩條平行線永遠(yuǎn)不會相交，三角形的內(nèi)角和總是180度。這個世界簡單明了，但當(dāng)我們嘗試在這個平面上表示復(fù)雜的層次結(jié)構(gòu)時，比如一棵不斷分支的樹，就會遇到困難。

雙曲空間則完全不同。它就像一個彎曲的馬鞍面，在這里平行線會擴(kuò)散開來，三角形的內(nèi)角和總是小于180度。更重要的是，雙曲空間中的體積增長速度驚人——隨著距離的增加呈指數(shù)級增長，而非歐幾里得空間的多項式增長。

這種特性使雙曲空間成為表示層次數(shù)據(jù)的理想場所。在19世紀(jì)，高斯、羅巴切夫斯基和博耶等數(shù)學(xué)家首次發(fā)展了這種非歐幾里得幾何，為物理學(xué)奠定了基礎(chǔ)，尤其是愛因斯坦的相對論。而今天，它正在改變計算機(jī)視覺的面貌。

雙曲空間有幾種不同但等價的模型。龐加萊模型可能是最直觀的一種，它將雙曲空間表示為一個單位圓盤。在這個圓盤中，直線變成了與邊界垂直相交的圓弧。著名藝術(shù)家埃舍爾的作品《圓極限》系列就是基于這個模型創(chuàng)作的，展示了雙曲空間中的規(guī)則結(jié)構(gòu)。

雙曲面模型則使用單片超雙曲面來表示雙曲空間，它的優(yōu)勢在于保留了某些線性結(jié)構(gòu)，使得數(shù)學(xué)計算更為簡潔。而克萊因模型雖然不保持角度，但它的測地線（最短路徑）是直線段，這在計算上有很大優(yōu)勢。

在計算機(jī)視覺應(yīng)用中，五個核心操作構(gòu)成了大多數(shù)算法的基本構(gòu)件：測量兩點(diǎn)距離、找到測地弧（兩點(diǎn)間的最短路徑）、形成測地線、使用指數(shù)映射沿著測地線移動、以及保持雙曲距離的平移操作。

以龐加萊模型為例，兩點(diǎn)p和q之間的距離計算公式為:

dD（p， q） = （1/√c）arcosh（1 + 2|p - q|/（（1 - |p|）（1 - |q|）））

這看起來復(fù)雜，但它捕捉了雙曲空間的本質(zhì)特性——距離原點(diǎn)越遠(yuǎn)，空間擴(kuò)展越快。

借助陀螺向量空間計算，我們可以在雙曲空間中執(zhí)行加法、標(biāo)量乘法和移動等基本操作。陀螺向量空間加法給出了兩點(diǎn)的M？bius變換，而標(biāo)量乘法則控制沿測地線移動的距離。

這些操作的魅力不僅在于數(shù)學(xué)的優(yōu)雅，更在于它們?yōu)橛嬎銠C(jī)視覺提供了新的思維方式。通過雙曲幾何，我們可以更自然地表示圖像中的層次關(guān)系，比如從物體類別到子類別，再到具體實例的遞進(jìn)關(guān)系。

在實際應(yīng)用中，歐幾里得空間長期以來一直是深度學(xué)習(xí)的默認(rèn)選擇。然而，隨著研究的深入，我們發(fā)現(xiàn)歐幾里得空間并不總是最佳選擇。對于具有層次結(jié)構(gòu)的數(shù)據(jù)，如圖像分類中的語義層次，雙曲空間提供了更自然的表示方法。

2017年，Nickel和Kiela證明雙曲空間能夠以最小的失真嵌入復(fù)雜的樹結(jié)構(gòu)，這一發(fā)現(xiàn)為計算機(jī)視覺中的雙曲深度學(xué)習(xí)鋪平了道路。此后，雙曲神經(jīng)網(wǎng)絡(luò)、雙曲圖卷積網(wǎng)絡(luò)等技術(shù)相繼出現(xiàn)，為計算機(jī)視覺領(lǐng)域帶來了新的可能性。

視覺的曲面

雙曲幾何在計算機(jī)視覺的監(jiān)督學(xué)習(xí)中找到了豐富的應(yīng)用場景。研究者們發(fā)現(xiàn)，將樣本與曲面上的不同元素匹配，可以實現(xiàn)令人印象深刻的性能提升。

第一種主要策略是樣本到旋轉(zhuǎn)平面學(xué)習(xí)。在這種方法中，類別通過雙曲超平面（即旋轉(zhuǎn)平面）表示，網(wǎng)絡(luò)基于樣本和旋轉(zhuǎn)平面間的置信度評分進(jìn)行優(yōu)化。Khrulkov等人在2020年的研究表明，在卷積網(wǎng)絡(luò)的最后一層添加雙曲分類器，不僅能提高分類性能，還能獲取基于圖像雙曲嵌入到原點(diǎn)距離的不確定性信息。

有趣的是，遠(yuǎn)離原點(diǎn)的樣本通常對應(yīng)于模型更確定的預(yù)測，而接近原點(diǎn)的樣本則表示更高的不確定性。這一特性使得區(qū)分在分布內(nèi)和分布外的樣本成為可能，為異常檢測提供了自然的框架。

不過，雙曲分類器訓(xùn)練中也存在梯度消失問題。由于當(dāng)前雙曲方法多采用混合架構(gòu)（歐幾里得特征連接到雙曲分類器），嵌入往往被推向龐加萊球的邊界，導(dǎo)致黎曼張量度量的逆接近零，產(chǎn)生較小的梯度。Guo等人在2022年提出了一種剪裁策略，顯著改善了這一問題，尤其是在處理ImageNet等大規(guī)模數(shù)據(jù)集時。

雙曲邏輯回歸不僅適用于整體分類，也適用于結(jié)構(gòu)化預(yù)測任務(wù)如物體檢測和圖像分割。Ghadimi Atigh等人在2022年提出的雙曲圖像分割方法表明，雙曲空間為像素級分類帶來了多重優(yōu)勢：不確定性量化、更好的零標(biāo)簽泛化，以及在較少嵌入維度下的較高效率。

值得注意的是，雙曲圖像分割中的像素嵌入范數(shù)與語義模糊性高度相關(guān)——越接近語義邊界的像素，其范數(shù)越低。這種自然的不確定性表示已被Chen等人用于改進(jìn)圖像分割。他們提出了一種雙曲不確定性損失，根據(jù)像素的雙曲范數(shù)加權(quán)交叉熵?fù)p失，從而提高分割結(jié)果。

除了邏輯回歸，雙曲核方法也顯示出強(qiáng)大的潛力。Fang等人在2021年引入了雙曲空間中的正定核函數(shù)，并展示了它們在計算機(jī)視覺中的應(yīng)用。這些核方法可以插入到卷積網(wǎng)絡(luò)之上，同時受益于卷積層的表示學(xué)習(xí)和分類器中的雙曲核動態(tài)。

第二種廣泛使用的策略是樣本到原型學(xué)習(xí)，即將類別表示為雙曲空間中的點(diǎn)（原型）。這種方法有兩種主要實現(xiàn)：基于樣本均值的類嵌入（類似于原型網(wǎng)絡(luò)）和基于給定類層次結(jié)構(gòu)的嵌入。

Khrulkov等人將歐幾里得原型網(wǎng)絡(luò)擴(kuò)展到雙曲空間，通過愛因斯坦中點(diǎn)在克萊因坐標(biāo)中計算類原型。這種雙曲原型網(wǎng)絡(luò)在少樣本學(xué)習(xí)中表現(xiàn)出色，尤其是當(dāng)使用簡單的卷積骨干網(wǎng)絡(luò)時。

Gao等人進(jìn)一步發(fā)現(xiàn)，不同任務(wù)甚至個別類別在少樣本學(xué)習(xí)中偏好不同的曲率。他們提出基于類內(nèi)和類間樣本表示的二階統(tǒng)計生成每個類的曲率，并通過多層感知機(jī)學(xué)習(xí)確定曲率范圍。

雙曲原型學(xué)習(xí)的另一個分支專注于層次化知識的嵌入。許多研究者利用WordNet等現(xiàn)有層次結(jié)構(gòu)，或者通過雙曲嵌入發(fā)現(xiàn)數(shù)據(jù)中的潛在層次關(guān)系。例如，Long等人利用雙曲糾纏錐嵌入動作類別層次結(jié)構(gòu)，并加入葉節(jié)點(diǎn)間的角度分離以避免類別間混淆，從而改進(jìn)了動作識別和零樣本分類。

Yu等人則提出同時學(xué)習(xí)層次和視覺表示，用于皮膚病變識別。通過優(yōu)化圖像嵌入到正確的類原型，同時優(yōu)化類別以遵守其雙曲糾纏錐，實現(xiàn)了更好的分層嵌入。

在零樣本學(xué)習(xí)領(lǐng)域，Liu等人利用WordNet的龐加萊嵌入和基于文本的龐加萊GloVe嵌入連接，形成類原型。通過優(yōu)化訓(xùn)練圖像到其原型的映射，可以在測試時通過最近鄰搜索泛化到未見類別。

Ghadimi Atigh等人則探索了雙曲空間中原型的均勻性，提出將類別嵌入到龐加萊球邊界上的最大分離點(diǎn)。由于邊界上的點(diǎn)與球內(nèi)任何點(diǎn)的距離都是無限的，他們引入了Busemann距離作為替代度量，展示了這種方法與傳統(tǒng)邏輯回歸的直接聯(lián)系。

第三種策略是樣本到樣本學(xué)習(xí)，通過樣本間的對比來學(xué)習(xí)表示。Ermolov等人研究了雙曲度量學(xué)習(xí)的潛力，提出雙曲成對交叉熵?fù)p失，用于樣本對匹配。使用監(jiān)督或自監(jiān)督視覺變換器作為編碼器，雙曲度量學(xué)習(xí)在細(xì)粒度數(shù)據(jù)集上持續(xù)優(yōu)于歐幾里得方法。

雙曲度量學(xué)習(xí)的二維投影顯示，類別聚集在球的邊界上，同時顯現(xiàn)出潛在的層次鄰域關(guān)系。這種學(xué)習(xí)方式已被證明有效克服了少樣本類增量學(xué)習(xí)中的過擬合和災(zāi)難性遺忘問題，也適用于語義哈希、人臉識別和多模態(tài)對齊。

在多模態(tài)學(xué)習(xí)方面，Desai等人提出了雙曲圖像-文本表示，將輸入圖像和文本通過兩個獨(dú)立編碼器處理后投影到雙曲空間，并使用對比和蘊(yùn)含損失進(jìn)行訓(xùn)練。該方法優(yōu)于歐幾里得CLIP，能夠在雙曲空間中捕獲多模態(tài)層次關(guān)系。

除了樣本對的比較，一些研究表明基于集合和組的距離更有效、更穩(wěn)健。Ma等人引入了一種自適應(yīng)樣本到集合距離函數(shù)，通過所有支持樣本的加權(quán)平均來增加對異常值的魯棒性。這種方法在處理有異常值的少樣本學(xué)習(xí)中特別有益。

Zhang等人則提出了一種基于組的混合策略。每個組是樣本的隨機(jī)子集，通過可微分最優(yōu)傳輸與原型匹配。他們也發(fā)現(xiàn)在雙曲嵌入空間中改進(jìn)了細(xì)粒度數(shù)據(jù)集上的度量學(xué)習(xí)，并提供了經(jīng)驗證據(jù)，表明其他基于度量的損失也從雙曲嵌入中受益。

這些監(jiān)督學(xué)習(xí)策略展示了雙曲幾何在計算機(jī)視覺中的廣泛應(yīng)用潛力。從分類和分割到少樣本和零樣本學(xué)習(xí)，再到度量學(xué)習(xí)和多模態(tài)學(xué)習(xí)，雙曲空間正在成為一種強(qiáng)大的替代幾何，能夠更好地捕捉視覺數(shù)據(jù)中的層次結(jié)構(gòu)和復(fù)雜關(guān)系。

無師自通

在無監(jiān)督學(xué)習(xí)的廣闊天地中，雙曲幾何也開辟了獨(dú)特的道路。無需標(biāo)簽數(shù)據(jù)的指導(dǎo)，雙曲空間依靠其內(nèi)在的幾何特性，自然地發(fā)現(xiàn)數(shù)據(jù)中的層次結(jié)構(gòu)和模式。

生成模型是無監(jiān)督學(xué)習(xí)的重要分支，研究者們已經(jīng)將雙曲幾何融入到各種生成模型中。2019年，Nagano等人提出了雙曲包裹正態(tài)分布，并推導(dǎo)了可重參數(shù)化采樣和概率密度函數(shù)計算的算法。他們用這些工具構(gòu)建了雙曲變分自編碼器（VAE），用雙曲包裹正態(tài)分布替代傳統(tǒng)的歐幾里得高斯分布作為先驗和后驗。這種方法在MNIST和Atari 2600 Breakout屏幕上學(xué)習(xí)表示時，在低維潛在空間中顯著優(yōu)于歐幾里得表示。

Mathieu等人進(jìn)一步擴(kuò)展了這項工作，引入了黎曼正態(tài)分布，并推導(dǎo)出使用雙曲極坐標(biāo)的可重參數(shù)化采樣方案。他們還在解碼器的第一層加入了旋轉(zhuǎn)平面層，將歐幾里得仿射變換替換為雙曲對應(yīng)物。這些改進(jìn)在低維潛在空間中提高了測試對數(shù)似然。

2022年，Cho等人對雙曲包裹正態(tài)分布進(jìn)行了改進(jìn)，提出了旋轉(zhuǎn)雙曲包裹正態(tài)分布。他們發(fā)現(xiàn)標(biāo)準(zhǔn)包裹正態(tài)分布的主軸與局部標(biāo)準(zhǔn)軸不對齊，于是設(shè)計了一種新的采樣過程來修正這一問題。這種改進(jìn)在多種設(shè)置中都優(yōu)于原始雙曲包裹正態(tài)分布。

生成對抗網(wǎng)絡(luò)（GAN）也已經(jīng)采用雙曲幾何來捕捉圖像中的層次結(jié)構(gòu)。Lazcano等人在2021年提出了雙曲GAN，用具有可學(xué)習(xí)曲率的雙曲層替換生成器和判別器中的部分歐幾里得層。他們發(fā)現(xiàn)，歐幾里得和雙曲層的最佳配置通常可以提高M(jìn)NIST圖像生成的Inception Score和Frechet Inception Distance。與雙曲VAE不同，雙曲GAN在較大的潛在維度上也能獲得良好結(jié)果。

Qu和Zou提出了HAEGAN，一種基于Lorentz模型的雙曲自編碼器和GAN框架。他們泛化了WGAN-GP到雙曲空間，并引入了新的Lorentz連接層，與之前工作相比，在MNIST圖像生成上顯示出改進(jìn)。

Li等人在2022年提出了一種用于少樣本圖像生成的雙曲方法。他們的核心思想是雙曲空間編碼了一個語義層次，其中層次的根（在雙曲空間中心）是一個類別，較低層次是更細(xì)粒度的劃分，最低層次是與類別無關(guān)的特征。基于這一思想，他們將StyleGAN的W+空間映射到雙曲空間再映射回來，能夠進(jìn)行層次化的屬性編輯和少樣本生成。

歸一化流也已在雙曲空間中得到實現(xiàn)。Bose等人在2020年提出了雙曲歸一化流，將歐幾里得歸一化流RealNVP泛化到雙曲空間。他們提出了兩種雙曲歸一化流：在原點(diǎn)的切空間中進(jìn)行耦合的切空間耦合，以及使用平行傳輸將中間向量從原點(diǎn)的切空間映射到雙曲空間中另一點(diǎn)的切空間的包裹雙曲耦合。在MNIST上，雙曲模型在低維潛在空間中的性能超過了等效的歐幾里得模型，但在維度6時歐幾里得模型就開始超過雙曲模型。

聚類是無監(jiān)督學(xué)習(xí)的另一個重要分支，雙曲空間與層次、樹的緊密關(guān)系使其成為層次聚類的理想選擇。Monath等人在2019年提出使用雙曲表示進(jìn)行層次聚類。他們的方法要求每個數(shù)據(jù)點(diǎn)在龐加萊圓盤邊緣有一個雙曲表示，這些表示成為層次聚類的葉節(jié)點(diǎn)。通過優(yōu)化固定數(shù)量內(nèi)部節(jié)點(diǎn)的雙曲表示，可以提取離散的樹。其損失函數(shù)基于Dasgupta成本和父子邊際目標(biāo)，鼓勵父節(jié)點(diǎn)具有比子節(jié)點(diǎn)更小的范數(shù)。使用這種方法，他們能夠嵌入ImageNet，表示取自預(yù)訓(xùn)練Inception神經(jīng)網(wǎng)絡(luò)的最后一層。

Chami等人在2020年也基于Dasgupta成本提出了一種方法，但他們將雙曲空間中兩點(diǎn)的最近公共祖先定義為連接這兩點(diǎn)的測地線上最接近雙曲原點(diǎn)的點(diǎn)，并提供了在龐加萊圓盤中計算這一點(diǎn)的公式。這允許直接優(yōu)化Dasgupta成本的連續(xù)對應(yīng)物。與Monath等人的方法不同，Chami等人不需要預(yù)先可用的雙曲嵌入，并優(yōu)化整棵樹的雙曲嵌入，而不僅僅是葉子。

Lin等人在2022年提出了一個基于神經(jīng)網(wǎng)絡(luò)的框架，用于多視圖數(shù)據(jù)的層次聚類。該框架包括兩個步驟：通過重構(gòu)損失、不同視圖之間的對比學(xué)習(xí)和正例與挖掘的硬負(fù)例之間的加權(quán)三元組損失來提高表示質(zhì)量，然后應(yīng)用Chami等人的雙曲層次聚類框架。Lin等人應(yīng)用這種方法對各種多視圖圖像數(shù)據(jù)集進(jìn)行多視圖聚類。

自監(jiān)督學(xué)習(xí)也在雙曲空間中得到了探索。基于三元組損失的方法包括Hsu等人在2021年提出的學(xué)習(xí)3D生物醫(yī)學(xué)圖像片段級表示的方法。他們擴(kuò)展了Mathieu等人的雙曲VAE架構(gòu)，使用3D卷積編碼器和解碼器以及旋轉(zhuǎn)平面卷積層。為了學(xué)習(xí)好的表示，他們提出了一種層次自監(jiān)督損失，捕捉3D生物醫(yī)學(xué)圖像的隱含層次結(jié)構(gòu)。給定一個父片段μp，他們?nèi)∫粋€子片段μc（父片段的子片段）和一個負(fù)片段μn（與父片段不重疊），然后定義層次自監(jiān)督損失為邊際三元組損失。這鼓勵子片段的表示成為主片段表示的子代或后代，而遠(yuǎn)離的片段（可能包含不同結(jié)構(gòu)）位于層次表示的其他分支上。這種策略對合成生物數(shù)據(jù)和3D腦腫瘤MRI掃描的無監(jiān)督分割都很有效。

Weng等人在2021年提出利用圖像內(nèi)物體的層次結(jié)構(gòu)進(jìn)行弱監(jiān)督長尾實例分割。為了捕捉這種層次結(jié)構(gòu)，他們學(xué)習(xí)了由幾種雙曲自監(jiān)督損失監(jiān)督的雙曲表示。第一個自監(jiān)督損失鼓勵對象的表示與完整對象圖像的表示相似，并遠(yuǎn)離對象背景的表示。第二個損失是需要采樣正例和負(fù)例的三元組損失。第三個損失類似于Hsu等人的層次三元組損失，只是以原點(diǎn)代替負(fù)樣本。最后，表示通過雙曲k均值聚類進(jìn)行聚類。與Hsu等人不同，計算均值時，他們將表示從龐加萊圓盤映射到雙曲面模型L并計算Law等人提出的（加權(quán)）雙曲面中點(diǎn)。與Frechet均值相比，這種均值具有閉式公式的優(yōu)勢，計算效率更高。Weng等人發(fā)現(xiàn)他們的方法改進(jìn)了LVIS長尾分割數(shù)據(jù)集上的其他部分監(jiān)督方法。

對比學(xué)習(xí)方法也已經(jīng)在雙曲空間中提出。Surs等人在2021年提出學(xué)習(xí)視頻動作預(yù)測的雙曲表示，因為它們能夠結(jié)合表示層次和提供不確定性度量。Surs等人學(xué)習(xí)了一個動作層次，更抽象的動作接近龐加萊圓盤的原點(diǎn)，更細(xì)粒度的動作接近邊緣。如果前面的視頻幀模棱兩可，這種層次表示允許預(yù)測更一般的父類動作，而不必預(yù)測更細(xì)粒度的子類動作。兩個動作的父代計算為它們雙曲表示的雙曲均值，Surs等人將其計算為連接兩個表示的測地線的中點(diǎn)。Surs等人提出了一個兩階段框架，包括對比預(yù)訓(xùn)練雙曲表示，然后凍結(jié)表示并訓(xùn)練用于動作預(yù)測的線性分類器。自監(jiān)督預(yù)訓(xùn)練的前提任務(wù)是預(yù)測未來幀的表示，通過對比損失進(jìn)行監(jiān)督，鼓勵正對有相似的表示，同時將預(yù)測從所有負(fù)例的表示中推開。在不確定性存在時，該損失通過預(yù)測連接a和b的測地線上的中點(diǎn)來最小化，這等同于在層次結(jié)構(gòu)中上移一級到a和b的父代。

Ge等人在2022年提出通過場景-物體層次來改進(jìn)對比學(xué)習(xí)。Ge等人使用MoCo架構(gòu)的雙曲版本，稱為HCL。與以往的視覺對比學(xué)習(xí)工作不同，HCL要求從輸入圖像中提取對象區(qū)域。雙曲分支采用場景區(qū)域u和作為場景u子區(qū)域的對象區(qū)域v，以及不作為場景u子區(qū)域的負(fù)對象Nu = {n1， …， nk}，通過以雙曲距離為相似度度量的對比損失進(jìn)行訓(xùn)練。這種損失鼓勵表示形成場景-物體層次結(jié)構(gòu)，場景具有最高范數(shù)（在龐加萊球D的邊緣），物體具有最小范數(shù)（在D的中心）。該論文發(fā)現(xiàn)他們的方法比原始MoCo和使用邊界框信息增強(qiáng)的MoCo略有改進(jìn)。他們還使用他們的方法檢查了上下文之外的物體的表示，發(fā)現(xiàn)它們與場景圖像的距離通常更高。

Yue等人在2023年提出了一種基于SimCLR的不同雙曲對比學(xué)習(xí)方法。與Ge等人一樣，Yue等人將對比損失的點(diǎn)積相似度替換為雙曲距離，但他們只有一個雙曲分支，而不保留歐幾里得分支。Yue等人還提出擴(kuò)展受監(jiān)督對比學(xué)習(xí)方法SupCon，并訓(xùn)練對抗性魯棒對比學(xué)習(xí)器，擴(kuò)展Robust Contrastive Learning方法到雙曲空間。與Ge等人一樣，Yan等人發(fā)現(xiàn)雙曲對比學(xué)習(xí)通常比其歐幾里得對應(yīng)物略有改進(jìn)。

未竟之路

雙曲視覺學(xué)習(xí)雖已取得令人矚目的進(jìn)展，但這條路上仍有眾多挑戰(zhàn)與機(jī)遇。前路漫漫，我們需要共同努力才能充分釋放雙曲幾何在計算機(jī)視覺中的潛力。

全雙曲學(xué)習(xí)是一個重要的研究方向。目前，大多數(shù)雙曲學(xué)習(xí)論文在計算機(jī)視覺中采用混合方法：在歐幾里得空間中進(jìn)行特征學(xué)習(xí)，然后將輸出嵌入轉(zhuǎn)換到雙曲空間進(jìn)行最終的學(xué)習(xí)階段。神經(jīng)科學(xué)的研究表明，對于神經(jīng)網(wǎng)絡(luò)的早期層，雙曲空間也可以發(fā)揮重要作用。例如，Zhang等人在2023年發(fā)現(xiàn)海馬體中的空間關(guān)系比歐幾里得更具雙曲性。

在雙曲空間中構(gòu)建完全的深度網(wǎng)絡(luò)，需要重新思考所有層，從卷積到自注意力和歸一化。在撰寫本文時，已有兩項工作在這個方向上邁出了步伐。Bdeir等人在2023年引入了Lorentz模型中的雙曲卷積網(wǎng)絡(luò)，概述了如何執(zhí)行卷積、批歸一化和殘差連接。同時，van Spengler等人在2023年引入了龐加萊ResNet，包括龐加萊球模型中的卷積、殘差、批歸一化和更好的網(wǎng)絡(luò)初始化。

這些工作為全雙曲學(xué)習(xí)奠定了基礎(chǔ)，但仍有許多未解決的問題。哪個模型最適合全雙曲學(xué)習(xí)？或者不同的層在不同的模型中效果最好？全雙曲學(xué)習(xí)如何擴(kuò)展到ImageNet及更大的數(shù)據(jù)集？網(wǎng)絡(luò)的每個階段是否應(yīng)該具有相同的曲率？與歐幾里得網(wǎng)絡(luò)相比，雙曲網(wǎng)絡(luò)在所有可能的任務(wù)中能達(dá)到多高的效果？回答這些問題還需要大量研究。

計算挑戰(zhàn)也是需要解決的重要問題。在雙曲空間中進(jìn)行基于梯度的學(xué)習(xí)，改變了網(wǎng)絡(luò)的優(yōu)化方式和參數(shù)行為。與歐幾里得對應(yīng)物相比，雙曲網(wǎng)絡(luò)和嵌入在數(shù)值上可能更不穩(wěn)定，在球的邊界處存在問題，梯度消失等。此外，雙曲操作可能更復(fù)雜，計算量更大，導(dǎo)致網(wǎng)絡(luò)效率降低。這些計算挑戰(zhàn)與雙曲學(xué)習(xí)的所有領(lǐng)域都相關(guān)，需要廣泛關(guān)注。

開源社區(qū)的建設(shè)對推動雙曲學(xué)習(xí)的發(fā)展至關(guān)重要。現(xiàn)代深度學(xué)習(xí)庫以歐幾里得幾何為中心。任何雙曲學(xué)習(xí)的新研究者，都難以快速實現(xiàn)網(wǎng)絡(luò)和層來獲得對其工作的直覺理解。任何新的進(jìn)展都必須從頭實現(xiàn)或從其他論文的代碼庫導(dǎo)入。缺少的是一個開源社區(qū)和共享代碼庫，收錄計算機(jī)視覺雙曲學(xué)習(xí)的各種進(jìn)展。這樣的社區(qū)和代碼庫對于獲得進(jìn)一步的吸引力并吸引廣泛的受眾（包括從業(yè)者）至關(guān)重要。無論是作為現(xiàn)有庫的一部分還是作為單獨(dú)的庫，持續(xù)開發(fā)開源雙曲學(xué)習(xí)代碼對該領(lǐng)域的未來至關(guān)重要。

大規(guī)模和多模態(tài)學(xué)習(xí)是另一個重要方向。在計算機(jī)視覺和人工智能領(lǐng)域，學(xué)習(xí)大規(guī)模數(shù)據(jù)和多模態(tài)數(shù)據(jù)（如圖像-文本或視頻-音頻模型）的趨勢越來越明顯。因此，達(dá)到雙曲基礎(chǔ)模型是該領(lǐng)域的自然愿望。雖然早期工作已表明，使用雙曲嵌入進(jìn)行大規(guī)模和/或多模態(tài)學(xué)習(xí)是可行的，如Desai等人在2023年的研究，但雙曲基礎(chǔ)模型的形成需要解決上述所有開放問題，從穩(wěn)定的全雙曲學(xué)習(xí)到持續(xù)的開源開發(fā)。

回顧雙曲深度學(xué)習(xí)在計算機(jī)視覺中的現(xiàn)狀，我們可以確定四個主要的改進(jìn)軸線：層次學(xué)習(xí)、少樣本學(xué)習(xí)、魯棒學(xué)習(xí)和低維學(xué)習(xí)。

雙曲空間與層次數(shù)據(jù)的內(nèi)在聯(lián)系已為人所知。許多研究已利用雙曲學(xué)習(xí)改進(jìn)計算機(jī)視覺中的層次目標(biāo)。雙曲空間支持以最小的失真嵌入復(fù)雜的樹結(jié)構(gòu)，這一特性使得它能夠更自然地表示圖像分類中的語義層次，為零樣本泛化提供了可能性。

在少樣本學(xué)習(xí)方面，雙曲嵌入和原型一致顯示出性能改進(jìn)，無論是否有層次知識。這表明雙曲空間可以從更少的樣本中泛化，在樣本稀缺的領(lǐng)域有潛力。這在無監(jiān)督領(lǐng)域已經(jīng)顯現(xiàn)，當(dāng)處理受限的數(shù)據(jù)源時，雙曲空間中的生成學(xué)習(xí)更有效。

雙曲學(xué)習(xí)在多個方面表現(xiàn)出更強(qiáng)的魯棒性。雙曲嵌入改進(jìn)了分布外檢測，提供了自然的不確定性量化方式，能夠發(fā)現(xiàn)無監(jiān)督上下文外樣本，并可以提高對抗性攻擊的魯棒性。魯棒性和不確定性是深度學(xué)習(xí)中的關(guān)鍵挑戰(zhàn)，雙曲深度學(xué)習(xí)提供了使網(wǎng)絡(luò)更魯棒的自然解決方案。

對于許多應(yīng)用來說，網(wǎng)絡(luò)和嵌入空間需要受到限制，例如在嵌入式設(shè)備上學(xué)習(xí)或可視化數(shù)據(jù)時。在無監(jiān)督領(lǐng)域，當(dāng)使用較小的嵌入空間時，雙曲學(xué)習(xí)一致優(yōu)于歐幾里得學(xué)習(xí)。同樣，在監(jiān)督問題中，雙曲空間中的嵌入維度可以大幅減少，同時保持下游性能。因此，雙曲學(xué)習(xí)有潛力實現(xiàn)壓縮和嵌入式領(lǐng)域的學(xué)習(xí)。

雙曲學(xué)習(xí)已經(jīng)在計算機(jī)視覺中產(chǎn)生了影響，并展示了許多有前途的道路。然而，該領(lǐng)域仍處于早期階段，面臨許多挑戰(zhàn)和機(jī)遇。需要共同努力才能充分釋放雙曲幾何在計算機(jī)視覺中的潛力。

參考資料

Mettes， P.， Atigh， M. G.， Keller-Ressel， M.， Gu， J.， &； Yeung， S. （2023）. Hyperbolic Deep Learning in Computer Vision: A Survey. arXiv:2305.06611v1.
Ganea， O.， Bcigneul， G.， &； Hofmann， T. （2018）. Hyperbolic Neural Networks. Advances in Neural Information Processing Systems.
Khrulkov， V.， Mirvakhabova， L.， Ustinova， E.， Oseledets， I.， &； Lempitsky， V. （2020）. Hyperbolic Image Embeddings. Computer Vision and Pattern Recognition.
Ermolov， A.， Mirvakhabova， L.， Khrulkov， V.， Sebe， N.， &； Oseledets， I. （2022）. Hyperbolic Vision Transformers: Combining Improvements in Metric Learning. Computer Vision and Pattern Recognition.
Ghadimi Atigh， M.， Schoep， J.， Acar， E.， van Noord， N.， &； Mettes， P. （2022）. Hyperbolic Image Segmentation. Computer Vision and Pattern Recognition.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.