<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      超越平面:走進(jìn)雙曲空間,重新定義計算機(jī)視覺的未來

      0
      分享至

      在計算機(jī)視覺的廣闊天地中,一場幾何學(xué)革命正悄然興起。傳統(tǒng)的歐幾里得空間——那個我們熟悉的平面世界,正被一種更為奇妙的幾何形式所挑戰(zhàn)。它被稱為雙曲空間,一個具有恒定負(fù)曲率的幾何領(lǐng)域,在這里,空間隨著直徑呈指數(shù)級擴(kuò)張,而非多項式級增長。想象一下,當(dāng)你在這個空間中漫步,每走一步,周圍的世界都在以驚人的速度擴(kuò)展。這不是科幻小說的場景,而是一種正在改變計算機(jī)視覺領(lǐng)域的數(shù)學(xué)現(xiàn)實。雙曲幾何如何幫助機(jī)器更好地理解圖像?為何它能在有限樣本中學(xué)習(xí),在不確定性中導(dǎo)航?本文將揭示這個令人著迷的新領(lǐng)域如何重塑我們的視覺世界。

      曲率的魔力

      想象一下你站在一張平坦的紙上,這就是我們熟悉的歐幾里得空間。在這個世界里,兩條平行線永遠(yuǎn)不會相交,三角形的內(nèi)角和總是180度。這個世界簡單明了,但當(dāng)我們嘗試在這個平面上表示復(fù)雜的層次結(jié)構(gòu)時,比如一棵不斷分支的樹,就會遇到困難。

      雙曲空間則完全不同。它就像一個彎曲的馬鞍面,在這里平行線會擴(kuò)散開來,三角形的內(nèi)角和總是小于180度。更重要的是,雙曲空間中的體積增長速度驚人——隨著距離的增加呈指數(shù)級增長,而非歐幾里得空間的多項式增長。

      這種特性使雙曲空間成為表示層次數(shù)據(jù)的理想場所。在19世紀(jì),高斯、羅巴切夫斯基和博耶等數(shù)學(xué)家首次發(fā)展了這種非歐幾里得幾何,為物理學(xué)奠定了基礎(chǔ),尤其是愛因斯坦的相對論。而今天,它正在改變計算機(jī)視覺的面貌。

      雙曲空間有幾種不同但等價的模型。龐加萊模型可能是最直觀的一種,它將雙曲空間表示為一個單位圓盤。在這個圓盤中,直線變成了與邊界垂直相交的圓弧。著名藝術(shù)家埃舍爾的作品《圓極限》系列就是基于這個模型創(chuàng)作的,展示了雙曲空間中的規(guī)則結(jié)構(gòu)。


      雙曲面模型則使用單片超雙曲面來表示雙曲空間,它的優(yōu)勢在于保留了某些線性結(jié)構(gòu),使得數(shù)學(xué)計算更為簡潔。而克萊因模型雖然不保持角度,但它的測地線(最短路徑)是直線段,這在計算上有很大優(yōu)勢。

      在計算機(jī)視覺應(yīng)用中,五個核心操作構(gòu)成了大多數(shù)算法的基本構(gòu)件:測量兩點(diǎn)距離、找到測地弧(兩點(diǎn)間的最短路徑)、形成測地線、使用指數(shù)映射沿著測地線移動、以及保持雙曲距離的平移操作。

      以龐加萊模型為例,兩點(diǎn)p和q之間的距離計算公式為:

      dD(p, q) = (1/√c)arcosh(1 + 2|p - q|/((1 - |p|)(1 - |q|)))

      這看起來復(fù)雜,但它捕捉了雙曲空間的本質(zhì)特性——距離原點(diǎn)越遠(yuǎn),空間擴(kuò)展越快。

      借助陀螺向量空間計算,我們可以在雙曲空間中執(zhí)行加法、標(biāo)量乘法和移動等基本操作。陀螺向量空間加法給出了兩點(diǎn)的M?bius變換,而標(biāo)量乘法則控制沿測地線移動的距離。

      這些操作的魅力不僅在于數(shù)學(xué)的優(yōu)雅,更在于它們?yōu)橛嬎銠C(jī)視覺提供了新的思維方式。通過雙曲幾何,我們可以更自然地表示圖像中的層次關(guān)系,比如從物體類別到子類別,再到具體實例的遞進(jìn)關(guān)系。

      在實際應(yīng)用中,歐幾里得空間長期以來一直是深度學(xué)習(xí)的默認(rèn)選擇。然而,隨著研究的深入,我們發(fā)現(xiàn)歐幾里得空間并不總是最佳選擇。對于具有層次結(jié)構(gòu)的數(shù)據(jù),如圖像分類中的語義層次,雙曲空間提供了更自然的表示方法。

      2017年,Nickel和Kiela證明雙曲空間能夠以最小的失真嵌入復(fù)雜的樹結(jié)構(gòu),這一發(fā)現(xiàn)為計算機(jī)視覺中的雙曲深度學(xué)習(xí)鋪平了道路。此后,雙曲神經(jīng)網(wǎng)絡(luò)、雙曲圖卷積網(wǎng)絡(luò)等技術(shù)相繼出現(xiàn),為計算機(jī)視覺領(lǐng)域帶來了新的可能性。

      視覺的曲面

      雙曲幾何在計算機(jī)視覺的監(jiān)督學(xué)習(xí)中找到了豐富的應(yīng)用場景。研究者們發(fā)現(xiàn),將樣本與曲面上的不同元素匹配,可以實現(xiàn)令人印象深刻的性能提升。

      第一種主要策略是樣本到旋轉(zhuǎn)平面學(xué)習(xí)。在這種方法中,類別通過雙曲超平面(即旋轉(zhuǎn)平面)表示,網(wǎng)絡(luò)基于樣本和旋轉(zhuǎn)平面間的置信度評分進(jìn)行優(yōu)化。Khrulkov等人在2020年的研究表明,在卷積網(wǎng)絡(luò)的最后一層添加雙曲分類器,不僅能提高分類性能,還能獲取基于圖像雙曲嵌入到原點(diǎn)距離的不確定性信息。

      有趣的是,遠(yuǎn)離原點(diǎn)的樣本通常對應(yīng)于模型更確定的預(yù)測,而接近原點(diǎn)的樣本則表示更高的不確定性。這一特性使得區(qū)分在分布內(nèi)和分布外的樣本成為可能,為異常檢測提供了自然的框架。


      不過,雙曲分類器訓(xùn)練中也存在梯度消失問題。由于當(dāng)前雙曲方法多采用混合架構(gòu)(歐幾里得特征連接到雙曲分類器),嵌入往往被推向龐加萊球的邊界,導(dǎo)致黎曼張量度量的逆接近零,產(chǎn)生較小的梯度。Guo等人在2022年提出了一種剪裁策略,顯著改善了這一問題,尤其是在處理ImageNet等大規(guī)模數(shù)據(jù)集時。

      雙曲邏輯回歸不僅適用于整體分類,也適用于結(jié)構(gòu)化預(yù)測任務(wù)如物體檢測和圖像分割。Ghadimi Atigh等人在2022年提出的雙曲圖像分割方法表明,雙曲空間為像素級分類帶來了多重優(yōu)勢:不確定性量化、更好的零標(biāo)簽泛化,以及在較少嵌入維度下的較高效率。

      值得注意的是,雙曲圖像分割中的像素嵌入范數(shù)與語義模糊性高度相關(guān)——越接近語義邊界的像素,其范數(shù)越低。這種自然的不確定性表示已被Chen等人用于改進(jìn)圖像分割。他們提出了一種雙曲不確定性損失,根據(jù)像素的雙曲范數(shù)加權(quán)交叉熵?fù)p失,從而提高分割結(jié)果。


      除了邏輯回歸,雙曲核方法也顯示出強(qiáng)大的潛力。Fang等人在2021年引入了雙曲空間中的正定核函數(shù),并展示了它們在計算機(jī)視覺中的應(yīng)用。這些核方法可以插入到卷積網(wǎng)絡(luò)之上,同時受益于卷積層的表示學(xué)習(xí)和分類器中的雙曲核動態(tài)。

      第二種廣泛使用的策略是樣本到原型學(xué)習(xí),即將類別表示為雙曲空間中的點(diǎn)(原型)。這種方法有兩種主要實現(xiàn):基于樣本均值的類嵌入(類似于原型網(wǎng)絡(luò))和基于給定類層次結(jié)構(gòu)的嵌入。

      Khrulkov等人將歐幾里得原型網(wǎng)絡(luò)擴(kuò)展到雙曲空間,通過愛因斯坦中點(diǎn)在克萊因坐標(biāo)中計算類原型。這種雙曲原型網(wǎng)絡(luò)在少樣本學(xué)習(xí)中表現(xiàn)出色,尤其是當(dāng)使用簡單的卷積骨干網(wǎng)絡(luò)時。

      Gao等人進(jìn)一步發(fā)現(xiàn),不同任務(wù)甚至個別類別在少樣本學(xué)習(xí)中偏好不同的曲率。他們提出基于類內(nèi)和類間樣本表示的二階統(tǒng)計生成每個類的曲率,并通過多層感知機(jī)學(xué)習(xí)確定曲率范圍。

      雙曲原型學(xué)習(xí)的另一個分支專注于層次化知識的嵌入。許多研究者利用WordNet等現(xiàn)有層次結(jié)構(gòu),或者通過雙曲嵌入發(fā)現(xiàn)數(shù)據(jù)中的潛在層次關(guān)系。例如,Long等人利用雙曲糾纏錐嵌入動作類別層次結(jié)構(gòu),并加入葉節(jié)點(diǎn)間的角度分離以避免類別間混淆,從而改進(jìn)了動作識別和零樣本分類。

      Yu等人則提出同時學(xué)習(xí)層次和視覺表示,用于皮膚病變識別。通過優(yōu)化圖像嵌入到正確的類原型,同時優(yōu)化類別以遵守其雙曲糾纏錐,實現(xiàn)了更好的分層嵌入。

      在零樣本學(xué)習(xí)領(lǐng)域,Liu等人利用WordNet的龐加萊嵌入和基于文本的龐加萊GloVe嵌入連接,形成類原型。通過優(yōu)化訓(xùn)練圖像到其原型的映射,可以在測試時通過最近鄰搜索泛化到未見類別。

      Ghadimi Atigh等人則探索了雙曲空間中原型的均勻性,提出將類別嵌入到龐加萊球邊界上的最大分離點(diǎn)。由于邊界上的點(diǎn)與球內(nèi)任何點(diǎn)的距離都是無限的,他們引入了Busemann距離作為替代度量,展示了這種方法與傳統(tǒng)邏輯回歸的直接聯(lián)系。

      第三種策略是樣本到樣本學(xué)習(xí),通過樣本間的對比來學(xué)習(xí)表示。Ermolov等人研究了雙曲度量學(xué)習(xí)的潛力,提出雙曲成對交叉熵?fù)p失,用于樣本對匹配。使用監(jiān)督或自監(jiān)督視覺變換器作為編碼器,雙曲度量學(xué)習(xí)在細(xì)粒度數(shù)據(jù)集上持續(xù)優(yōu)于歐幾里得方法。

      雙曲度量學(xué)習(xí)的二維投影顯示,類別聚集在球的邊界上,同時顯現(xiàn)出潛在的層次鄰域關(guān)系。這種學(xué)習(xí)方式已被證明有效克服了少樣本類增量學(xué)習(xí)中的過擬合和災(zāi)難性遺忘問題,也適用于語義哈希、人臉識別和多模態(tài)對齊。


      在多模態(tài)學(xué)習(xí)方面,Desai等人提出了雙曲圖像-文本表示,將輸入圖像和文本通過兩個獨(dú)立編碼器處理后投影到雙曲空間,并使用對比和蘊(yùn)含損失進(jìn)行訓(xùn)練。該方法優(yōu)于歐幾里得CLIP,能夠在雙曲空間中捕獲多模態(tài)層次關(guān)系。

      除了樣本對的比較,一些研究表明基于集合和組的距離更有效、更穩(wěn)健。Ma等人引入了一種自適應(yīng)樣本到集合距離函數(shù),通過所有支持樣本的加權(quán)平均來增加對異常值的魯棒性。這種方法在處理有異常值的少樣本學(xué)習(xí)中特別有益。

      Zhang等人則提出了一種基于組的混合策略。每個組是樣本的隨機(jī)子集,通過可微分最優(yōu)傳輸與原型匹配。他們也發(fā)現(xiàn)在雙曲嵌入空間中改進(jìn)了細(xì)粒度數(shù)據(jù)集上的度量學(xué)習(xí),并提供了經(jīng)驗證據(jù),表明其他基于度量的損失也從雙曲嵌入中受益。

      這些監(jiān)督學(xué)習(xí)策略展示了雙曲幾何在計算機(jī)視覺中的廣泛應(yīng)用潛力。從分類和分割到少樣本和零樣本學(xué)習(xí),再到度量學(xué)習(xí)和多模態(tài)學(xué)習(xí),雙曲空間正在成為一種強(qiáng)大的替代幾何,能夠更好地捕捉視覺數(shù)據(jù)中的層次結(jié)構(gòu)和復(fù)雜關(guān)系。

      無師自通

      在無監(jiān)督學(xué)習(xí)的廣闊天地中,雙曲幾何也開辟了獨(dú)特的道路。無需標(biāo)簽數(shù)據(jù)的指導(dǎo),雙曲空間依靠其內(nèi)在的幾何特性,自然地發(fā)現(xiàn)數(shù)據(jù)中的層次結(jié)構(gòu)和模式。

      生成模型是無監(jiān)督學(xué)習(xí)的重要分支,研究者們已經(jīng)將雙曲幾何融入到各種生成模型中。2019年,Nagano等人提出了雙曲包裹正態(tài)分布,并推導(dǎo)了可重參數(shù)化采樣和概率密度函數(shù)計算的算法。他們用這些工具構(gòu)建了雙曲變分自編碼器(VAE),用雙曲包裹正態(tài)分布替代傳統(tǒng)的歐幾里得高斯分布作為先驗和后驗。這種方法在MNIST和Atari 2600 Breakout屏幕上學(xué)習(xí)表示時,在低維潛在空間中顯著優(yōu)于歐幾里得表示。

      Mathieu等人進(jìn)一步擴(kuò)展了這項工作,引入了黎曼正態(tài)分布,并推導(dǎo)出使用雙曲極坐標(biāo)的可重參數(shù)化采樣方案。他們還在解碼器的第一層加入了旋轉(zhuǎn)平面層,將歐幾里得仿射變換替換為雙曲對應(yīng)物。這些改進(jìn)在低維潛在空間中提高了測試對數(shù)似然。

      2022年,Cho等人對雙曲包裹正態(tài)分布進(jìn)行了改進(jìn),提出了旋轉(zhuǎn)雙曲包裹正態(tài)分布。他們發(fā)現(xiàn)標(biāo)準(zhǔn)包裹正態(tài)分布的主軸與局部標(biāo)準(zhǔn)軸不對齊,于是設(shè)計了一種新的采樣過程來修正這一問題。這種改進(jìn)在多種設(shè)置中都優(yōu)于原始雙曲包裹正態(tài)分布。

      生成對抗網(wǎng)絡(luò)(GAN)也已經(jīng)采用雙曲幾何來捕捉圖像中的層次結(jié)構(gòu)。Lazcano等人在2021年提出了雙曲GAN,用具有可學(xué)習(xí)曲率的雙曲層替換生成器和判別器中的部分歐幾里得層。他們發(fā)現(xiàn),歐幾里得和雙曲層的最佳配置通常可以提高M(jìn)NIST圖像生成的Inception Score和Frechet Inception Distance。與雙曲VAE不同,雙曲GAN在較大的潛在維度上也能獲得良好結(jié)果。


      Qu和Zou提出了HAEGAN,一種基于Lorentz模型的雙曲自編碼器和GAN框架。他們泛化了WGAN-GP到雙曲空間,并引入了新的Lorentz連接層,與之前工作相比,在MNIST圖像生成上顯示出改進(jìn)。

      Li等人在2022年提出了一種用于少樣本圖像生成的雙曲方法。他們的核心思想是雙曲空間編碼了一個語義層次,其中層次的根(在雙曲空間中心)是一個類別,較低層次是更細(xì)粒度的劃分,最低層次是與類別無關(guān)的特征。基于這一思想,他們將StyleGAN的W+空間映射到雙曲空間再映射回來,能夠進(jìn)行層次化的屬性編輯和少樣本生成。

      歸一化流也已在雙曲空間中得到實現(xiàn)。Bose等人在2020年提出了雙曲歸一化流,將歐幾里得歸一化流RealNVP泛化到雙曲空間。他們提出了兩種雙曲歸一化流:在原點(diǎn)的切空間中進(jìn)行耦合的切空間耦合,以及使用平行傳輸將中間向量從原點(diǎn)的切空間映射到雙曲空間中另一點(diǎn)的切空間的包裹雙曲耦合。在MNIST上,雙曲模型在低維潛在空間中的性能超過了等效的歐幾里得模型,但在維度6時歐幾里得模型就開始超過雙曲模型。

      聚類是無監(jiān)督學(xué)習(xí)的另一個重要分支,雙曲空間與層次、樹的緊密關(guān)系使其成為層次聚類的理想選擇。Monath等人在2019年提出使用雙曲表示進(jìn)行層次聚類。他們的方法要求每個數(shù)據(jù)點(diǎn)在龐加萊圓盤邊緣有一個雙曲表示,這些表示成為層次聚類的葉節(jié)點(diǎn)。通過優(yōu)化固定數(shù)量內(nèi)部節(jié)點(diǎn)的雙曲表示,可以提取離散的樹。其損失函數(shù)基于Dasgupta成本和父子邊際目標(biāo),鼓勵父節(jié)點(diǎn)具有比子節(jié)點(diǎn)更小的范數(shù)。使用這種方法,他們能夠嵌入ImageNet,表示取自預(yù)訓(xùn)練Inception神經(jīng)網(wǎng)絡(luò)的最后一層。

      Chami等人在2020年也基于Dasgupta成本提出了一種方法,但他們將雙曲空間中兩點(diǎn)的最近公共祖先定義為連接這兩點(diǎn)的測地線上最接近雙曲原點(diǎn)的點(diǎn),并提供了在龐加萊圓盤中計算這一點(diǎn)的公式。這允許直接優(yōu)化Dasgupta成本的連續(xù)對應(yīng)物。與Monath等人的方法不同,Chami等人不需要預(yù)先可用的雙曲嵌入,并優(yōu)化整棵樹的雙曲嵌入,而不僅僅是葉子。

      Lin等人在2022年提出了一個基于神經(jīng)網(wǎng)絡(luò)的框架,用于多視圖數(shù)據(jù)的層次聚類。該框架包括兩個步驟:通過重構(gòu)損失、不同視圖之間的對比學(xué)習(xí)和正例與挖掘的硬負(fù)例之間的加權(quán)三元組損失來提高表示質(zhì)量,然后應(yīng)用Chami等人的雙曲層次聚類框架。Lin等人應(yīng)用這種方法對各種多視圖圖像數(shù)據(jù)集進(jìn)行多視圖聚類。

      自監(jiān)督學(xué)習(xí)也在雙曲空間中得到了探索。基于三元組損失的方法包括Hsu等人在2021年提出的學(xué)習(xí)3D生物醫(yī)學(xué)圖像片段級表示的方法。他們擴(kuò)展了Mathieu等人的雙曲VAE架構(gòu),使用3D卷積編碼器和解碼器以及旋轉(zhuǎn)平面卷積層。為了學(xué)習(xí)好的表示,他們提出了一種層次自監(jiān)督損失,捕捉3D生物醫(yī)學(xué)圖像的隱含層次結(jié)構(gòu)。給定一個父片段μp,他們?nèi)∫粋€子片段μc(父片段的子片段)和一個負(fù)片段μn(與父片段不重疊),然后定義層次自監(jiān)督損失為邊際三元組損失。這鼓勵子片段的表示成為主片段表示的子代或后代,而遠(yuǎn)離的片段(可能包含不同結(jié)構(gòu))位于層次表示的其他分支上。這種策略對合成生物數(shù)據(jù)和3D腦腫瘤MRI掃描的無監(jiān)督分割都很有效。


      Weng等人在2021年提出利用圖像內(nèi)物體的層次結(jié)構(gòu)進(jìn)行弱監(jiān)督長尾實例分割。為了捕捉這種層次結(jié)構(gòu),他們學(xué)習(xí)了由幾種雙曲自監(jiān)督損失監(jiān)督的雙曲表示。第一個自監(jiān)督損失鼓勵對象的表示與完整對象圖像的表示相似,并遠(yuǎn)離對象背景的表示。第二個損失是需要采樣正例和負(fù)例的三元組損失。第三個損失類似于Hsu等人的層次三元組損失,只是以原點(diǎn)代替負(fù)樣本。最后,表示通過雙曲k均值聚類進(jìn)行聚類。與Hsu等人不同,計算均值時,他們將表示從龐加萊圓盤映射到雙曲面模型L并計算Law等人提出的(加權(quán))雙曲面中點(diǎn)。與Frechet均值相比,這種均值具有閉式公式的優(yōu)勢,計算效率更高。Weng等人發(fā)現(xiàn)他們的方法改進(jìn)了LVIS長尾分割數(shù)據(jù)集上的其他部分監(jiān)督方法。

      對比學(xué)習(xí)方法也已經(jīng)在雙曲空間中提出。Surs等人在2021年提出學(xué)習(xí)視頻動作預(yù)測的雙曲表示,因為它們能夠結(jié)合表示層次和提供不確定性度量。Surs等人學(xué)習(xí)了一個動作層次,更抽象的動作接近龐加萊圓盤的原點(diǎn),更細(xì)粒度的動作接近邊緣。如果前面的視頻幀模棱兩可,這種層次表示允許預(yù)測更一般的父類動作,而不必預(yù)測更細(xì)粒度的子類動作。兩個動作的父代計算為它們雙曲表示的雙曲均值,Surs等人將其計算為連接兩個表示的測地線的中點(diǎn)。Surs等人提出了一個兩階段框架,包括對比預(yù)訓(xùn)練雙曲表示,然后凍結(jié)表示并訓(xùn)練用于動作預(yù)測的線性分類器。自監(jiān)督預(yù)訓(xùn)練的前提任務(wù)是預(yù)測未來幀的表示,通過對比損失進(jìn)行監(jiān)督,鼓勵正對有相似的表示,同時將預(yù)測從所有負(fù)例的表示中推開。在不確定性存在時,該損失通過預(yù)測連接a和b的測地線上的中點(diǎn)來最小化,這等同于在層次結(jié)構(gòu)中上移一級到a和b的父代。

      Ge等人在2022年提出通過場景-物體層次來改進(jìn)對比學(xué)習(xí)。Ge等人使用MoCo架構(gòu)的雙曲版本,稱為HCL。與以往的視覺對比學(xué)習(xí)工作不同,HCL要求從輸入圖像中提取對象區(qū)域。雙曲分支采用場景區(qū)域u和作為場景u子區(qū)域的對象區(qū)域v,以及不作為場景u子區(qū)域的負(fù)對象Nu = {n1, …, nk},通過以雙曲距離為相似度度量的對比損失進(jìn)行訓(xùn)練。這種損失鼓勵表示形成場景-物體層次結(jié)構(gòu),場景具有最高范數(shù)(在龐加萊球D的邊緣),物體具有最小范數(shù)(在D的中心)。該論文發(fā)現(xiàn)他們的方法比原始MoCo和使用邊界框信息增強(qiáng)的MoCo略有改進(jìn)。他們還使用他們的方法檢查了上下文之外的物體的表示,發(fā)現(xiàn)它們與場景圖像的距離通常更高。

      Yue等人在2023年提出了一種基于SimCLR的不同雙曲對比學(xué)習(xí)方法。與Ge等人一樣,Yue等人將對比損失的點(diǎn)積相似度替換為雙曲距離,但他們只有一個雙曲分支,而不保留歐幾里得分支。Yue等人還提出擴(kuò)展受監(jiān)督對比學(xué)習(xí)方法SupCon,并訓(xùn)練對抗性魯棒對比學(xué)習(xí)器,擴(kuò)展Robust Contrastive Learning方法到雙曲空間。與Ge等人一樣,Yan等人發(fā)現(xiàn)雙曲對比學(xué)習(xí)通常比其歐幾里得對應(yīng)物略有改進(jìn)。


      未竟之路

      雙曲視覺學(xué)習(xí)雖已取得令人矚目的進(jìn)展,但這條路上仍有眾多挑戰(zhàn)與機(jī)遇。前路漫漫,我們需要共同努力才能充分釋放雙曲幾何在計算機(jī)視覺中的潛力。

      全雙曲學(xué)習(xí)是一個重要的研究方向。目前,大多數(shù)雙曲學(xué)習(xí)論文在計算機(jī)視覺中采用混合方法:在歐幾里得空間中進(jìn)行特征學(xué)習(xí),然后將輸出嵌入轉(zhuǎn)換到雙曲空間進(jìn)行最終的學(xué)習(xí)階段。神經(jīng)科學(xué)的研究表明,對于神經(jīng)網(wǎng)絡(luò)的早期層,雙曲空間也可以發(fā)揮重要作用。例如,Zhang等人在2023年發(fā)現(xiàn)海馬體中的空間關(guān)系比歐幾里得更具雙曲性。

      在雙曲空間中構(gòu)建完全的深度網(wǎng)絡(luò),需要重新思考所有層,從卷積到自注意力和歸一化。在撰寫本文時,已有兩項工作在這個方向上邁出了步伐。Bdeir等人在2023年引入了Lorentz模型中的雙曲卷積網(wǎng)絡(luò),概述了如何執(zhí)行卷積、批歸一化和殘差連接。同時,van Spengler等人在2023年引入了龐加萊ResNet,包括龐加萊球模型中的卷積、殘差、批歸一化和更好的網(wǎng)絡(luò)初始化。

      這些工作為全雙曲學(xué)習(xí)奠定了基礎(chǔ),但仍有許多未解決的問題。哪個模型最適合全雙曲學(xué)習(xí)?或者不同的層在不同的模型中效果最好?全雙曲學(xué)習(xí)如何擴(kuò)展到ImageNet及更大的數(shù)據(jù)集?網(wǎng)絡(luò)的每個階段是否應(yīng)該具有相同的曲率?與歐幾里得網(wǎng)絡(luò)相比,雙曲網(wǎng)絡(luò)在所有可能的任務(wù)中能達(dá)到多高的效果?回答這些問題還需要大量研究。

      計算挑戰(zhàn)也是需要解決的重要問題。在雙曲空間中進(jìn)行基于梯度的學(xué)習(xí),改變了網(wǎng)絡(luò)的優(yōu)化方式和參數(shù)行為。與歐幾里得對應(yīng)物相比,雙曲網(wǎng)絡(luò)和嵌入在數(shù)值上可能更不穩(wěn)定,在球的邊界處存在問題,梯度消失等。此外,雙曲操作可能更復(fù)雜,計算量更大,導(dǎo)致網(wǎng)絡(luò)效率降低。這些計算挑戰(zhàn)與雙曲學(xué)習(xí)的所有領(lǐng)域都相關(guān),需要廣泛關(guān)注。

      開源社區(qū)的建設(shè)對推動雙曲學(xué)習(xí)的發(fā)展至關(guān)重要。現(xiàn)代深度學(xué)習(xí)庫以歐幾里得幾何為中心。任何雙曲學(xué)習(xí)的新研究者,都難以快速實現(xiàn)網(wǎng)絡(luò)和層來獲得對其工作的直覺理解。任何新的進(jìn)展都必須從頭實現(xiàn)或從其他論文的代碼庫導(dǎo)入。缺少的是一個開源社區(qū)和共享代碼庫,收錄計算機(jī)視覺雙曲學(xué)習(xí)的各種進(jìn)展。這樣的社區(qū)和代碼庫對于獲得進(jìn)一步的吸引力并吸引廣泛的受眾(包括從業(yè)者)至關(guān)重要。無論是作為現(xiàn)有庫的一部分還是作為單獨(dú)的庫,持續(xù)開發(fā)開源雙曲學(xué)習(xí)代碼對該領(lǐng)域的未來至關(guān)重要。

      大規(guī)模和多模態(tài)學(xué)習(xí)是另一個重要方向。在計算機(jī)視覺和人工智能領(lǐng)域,學(xué)習(xí)大規(guī)模數(shù)據(jù)和多模態(tài)數(shù)據(jù)(如圖像-文本或視頻-音頻模型)的趨勢越來越明顯。因此,達(dá)到雙曲基礎(chǔ)模型是該領(lǐng)域的自然愿望。雖然早期工作已表明,使用雙曲嵌入進(jìn)行大規(guī)模和/或多模態(tài)學(xué)習(xí)是可行的,如Desai等人在2023年的研究,但雙曲基礎(chǔ)模型的形成需要解決上述所有開放問題,從穩(wěn)定的全雙曲學(xué)習(xí)到持續(xù)的開源開發(fā)。


      回顧雙曲深度學(xué)習(xí)在計算機(jī)視覺中的現(xiàn)狀,我們可以確定四個主要的改進(jìn)軸線:層次學(xué)習(xí)、少樣本學(xué)習(xí)、魯棒學(xué)習(xí)和低維學(xué)習(xí)。

      雙曲空間與層次數(shù)據(jù)的內(nèi)在聯(lián)系已為人所知。許多研究已利用雙曲學(xué)習(xí)改進(jìn)計算機(jī)視覺中的層次目標(biāo)。雙曲空間支持以最小的失真嵌入復(fù)雜的樹結(jié)構(gòu),這一特性使得它能夠更自然地表示圖像分類中的語義層次,為零樣本泛化提供了可能性。

      在少樣本學(xué)習(xí)方面,雙曲嵌入和原型一致顯示出性能改進(jìn),無論是否有層次知識。這表明雙曲空間可以從更少的樣本中泛化,在樣本稀缺的領(lǐng)域有潛力。這在無監(jiān)督領(lǐng)域已經(jīng)顯現(xiàn),當(dāng)處理受限的數(shù)據(jù)源時,雙曲空間中的生成學(xué)習(xí)更有效。

      雙曲學(xué)習(xí)在多個方面表現(xiàn)出更強(qiáng)的魯棒性。雙曲嵌入改進(jìn)了分布外檢測,提供了自然的不確定性量化方式,能夠發(fā)現(xiàn)無監(jiān)督上下文外樣本,并可以提高對抗性攻擊的魯棒性。魯棒性和不確定性是深度學(xué)習(xí)中的關(guān)鍵挑戰(zhàn),雙曲深度學(xué)習(xí)提供了使網(wǎng)絡(luò)更魯棒的自然解決方案。

      對于許多應(yīng)用來說,網(wǎng)絡(luò)和嵌入空間需要受到限制,例如在嵌入式設(shè)備上學(xué)習(xí)或可視化數(shù)據(jù)時。在無監(jiān)督領(lǐng)域,當(dāng)使用較小的嵌入空間時,雙曲學(xué)習(xí)一致優(yōu)于歐幾里得學(xué)習(xí)。同樣,在監(jiān)督問題中,雙曲空間中的嵌入維度可以大幅減少,同時保持下游性能。因此,雙曲學(xué)習(xí)有潛力實現(xiàn)壓縮和嵌入式領(lǐng)域的學(xué)習(xí)。

      雙曲學(xué)習(xí)已經(jīng)在計算機(jī)視覺中產(chǎn)生了影響,并展示了許多有前途的道路。然而,該領(lǐng)域仍處于早期階段,面臨許多挑戰(zhàn)和機(jī)遇。需要共同努力才能充分釋放雙曲幾何在計算機(jī)視覺中的潛力。

      參考資料

      1. Mettes, P., Atigh, M. G., Keller-Ressel, M., Gu, J., &; Yeung, S. (2023). Hyperbolic Deep Learning in Computer Vision: A Survey. arXiv:2305.06611v1.

      2. Ganea, O., Bcigneul, G., &; Hofmann, T. (2018). Hyperbolic Neural Networks. Advances in Neural Information Processing Systems.

      3. Khrulkov, V., Mirvakhabova, L., Ustinova, E., Oseledets, I., &; Lempitsky, V. (2020). Hyperbolic Image Embeddings. Computer Vision and Pattern Recognition.

      4. Ermolov, A., Mirvakhabova, L., Khrulkov, V., Sebe, N., &; Oseledets, I. (2022). Hyperbolic Vision Transformers: Combining Improvements in Metric Learning. Computer Vision and Pattern Recognition.

      5. Ghadimi Atigh, M., Schoep, J., Acar, E., van Noord, N., &; Mettes, P. (2022). Hyperbolic Image Segmentation. Computer Vision and Pattern Recognition.

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “槍口”對準(zhǔn)珍珠港,這個日本極右翼分子對美國“開火”了

      “槍口”對準(zhǔn)珍珠港,這個日本極右翼分子對美國“開火”了

      環(huán)球時報國際
      2025-12-12 00:11:18
      淚流滿面!中山佳能一線員工曬出到賬補(bǔ)償金254432元,直言太知足

      淚流滿面!中山佳能一線員工曬出到賬補(bǔ)償金254432元,直言太知足

      火山詩話
      2025-12-12 06:20:55
      歐盟警告比利時,要么同意向烏轉(zhuǎn)移凍結(jié)俄資產(chǎn),要么與匈牙利一樣

      歐盟警告比利時,要么同意向烏轉(zhuǎn)移凍結(jié)俄資產(chǎn),要么與匈牙利一樣

      山河路口
      2025-12-11 23:05:30
      重返航天城?記者:克里斯-保羅加盟火箭的可能性在增加

      重返航天城?記者:克里斯-保羅加盟火箭的可能性在增加

      懂球帝
      2025-12-12 08:02:13
      湖北省咸寧市崇陽縣委書記、二級巡視員鄭俊華被查

      湖北省咸寧市崇陽縣委書記、二級巡視員鄭俊華被查

      澎湃新聞
      2025-12-11 21:32:37
      這件事后果其實非常嚴(yán)重,可為什么沒人敢說!

      這件事后果其實非常嚴(yán)重,可為什么沒人敢說!

      胖胖說他不胖
      2025-12-11 10:00:19
      山東村支書賣小米被舉報封店!當(dāng)場喊話雷軍:放我們一馬行不行

      山東村支書賣小米被舉報封店!當(dāng)場喊話雷軍:放我們一馬行不行

      亡海中的彼岸花
      2025-12-11 10:17:06
      贏麻了!徐萌讓87歲范曾當(dāng)?shù)嘟^女兒、繼子關(guān)系,打理全部產(chǎn)業(yè)

      贏麻了!徐萌讓87歲范曾當(dāng)?shù)嘟^女兒、繼子關(guān)系,打理全部產(chǎn)業(yè)

      火山詩話
      2025-12-11 13:27:15
      富二代松島輝空:日本世家公子,家族不簡單,如今輸王楚欽后痛哭

      富二代松島輝空:日本世家公子,家族不簡單,如今輸王楚欽后痛哭

      深析古今
      2025-12-11 13:28:25
      小楊哥停播一年多,小楊嫂大變樣,從清純臉變歐美臉,差點(diǎn)認(rèn)不出

      小楊哥停播一年多,小楊嫂大變樣,從清純臉變歐美臉,差點(diǎn)認(rèn)不出

      娛說瑜悅
      2025-12-11 19:14:01
      2026央視春晚主題官宣僅1天,三大惡心情況發(fā)生了,陳佩斯沒說錯

      2026央視春晚主題官宣僅1天,三大惡心情況發(fā)生了,陳佩斯沒說錯

      冷紫葉
      2025-12-11 18:40:37
      鼓勵靈活就業(yè)參保,2.4億人繳不起社保,一邊失業(yè)一邊內(nèi)卷,咋辦

      鼓勵靈活就業(yè)參保,2.4億人繳不起社保,一邊失業(yè)一邊內(nèi)卷,咋辦

      你食不食油餅
      2025-12-11 23:19:19
      綁匪現(xiàn)身,打臉?biāo){戰(zhàn)非

      綁匪現(xiàn)身,打臉?biāo){戰(zhàn)非

      燕梳樓頻道
      2025-12-11 14:08:02
      73勝紀(jì)錄注定被打破?無敵雷霆完美復(fù)刻昔日勇士:已創(chuàng)多項神跡

      73勝紀(jì)錄注定被打破?無敵雷霆完美復(fù)刻昔日勇士:已創(chuàng)多項神跡

      羅說NBA
      2025-12-11 20:00:55
      25歲圓神再建功:狂奔壓迫 凌空外腳背進(jìn)空門!16場8球4助

      25歲圓神再建功:狂奔壓迫 凌空外腳背進(jìn)空門!16場8球4助

      葉青足球世界
      2025-12-12 08:26:42
      春晚“四馬標(biāo)志”(哪里不太對)

      春晚“四馬標(biāo)志”(哪里不太對)

      據(jù)說無據(jù)
      2025-12-11 08:57:26
      舍棄中國國籍加入日本隊,助日乒逆襲上位,如今成為國乒頭號威脅

      舍棄中國國籍加入日本隊,助日乒逆襲上位,如今成為國乒頭號威脅

      史行途
      2025-12-11 10:32:24
      深夜充電站,被電量「囚禁」的人

      深夜充電站,被電量「囚禁」的人

      Vista氫商業(yè)
      2025-12-11 13:57:41
      山姆“老鼠門”大反轉(zhuǎn),900萬會員破防了

      山姆“老鼠門”大反轉(zhuǎn),900萬會員破防了

      首席品牌觀察
      2025-12-11 14:02:29
      千萬粉絲網(wǎng)紅“痞幼”開阿斯頓·馬丁微型車上戀綜,被誤認(rèn)為是“老頭樂”,經(jīng)紀(jì)人回應(yīng):豪車是租的

      千萬粉絲網(wǎng)紅“痞幼”開阿斯頓·馬丁微型車上戀綜,被誤認(rèn)為是“老頭樂”,經(jīng)紀(jì)人回應(yīng):豪車是租的

      臺州交通廣播
      2025-12-11 14:11:05
      2025-12-12 09:44:49
      文史明鑒 incentive-icons
      文史明鑒
      每個人都是自己的歷史學(xué)家
      1263文章數(shù) 10644關(guān)注度
      往期回顧 全部

      科技要聞

      凌晨突發(fā)!GPT-5.2上線,首批實測感受來了

      頭條要聞

      澤連斯基:已向美提交修訂后的和平計劃 更新五點(diǎn)信息

      頭條要聞

      澤連斯基:已向美提交修訂后的和平計劃 更新五點(diǎn)信息

      體育要聞

      你最看不上的人,關(guān)鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細(xì)節(jié)!

      財經(jīng)要聞

      美國要組建C5,全世界大吃一驚

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態(tài)度原創(chuàng)

      親子
      旅游
      教育
      房產(chǎn)
      軍事航空

      親子要聞

      “請向前一步!”當(dāng)孩子問我們有多愛他時,跟他玩這個游戲吧

      旅游要聞

      粉石之城上演“尋夢記”

      教育要聞

      韓國高考英語超高難度引爭議 韓國教育部嚴(yán)厲問責(zé)

      房產(chǎn)要聞

      中交天翠掀起改善熱潮,搶先鎖定城芯終極入場券!

      軍事要聞

      澤連斯基:烏領(lǐng)土問題應(yīng)由烏人民決定

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 丰满人妻熟妇乱又伦精品视| canopen草棚类别9791怎么查| 句容市| 18岁日韩内射颜射午夜久久成人| 野花社区视频在线观看| 日本欧美大码a在线观看| 国产制服丝袜在线视频观看| 沽源县| 香蕉av777xxx色综合一区| 人妻av一区二区三区精品| 精品尤物TV福利院在线网站| 熟久久| 亚洲人妻自拍| 国精品无码一区二区三区在线| 吃奶呻吟打开双腿做受在线视频| 一 级做人爱全视频在线看| 黑丝91大神| 无码人妻一区二区三区三| 亚洲男人最新版本天堂| 69精品丰满人妻无码视频a片| 富婆熟妇熟女二区三区| 玉龙| 茄子视频国产在线观看| 久久久免费精品re6| 亚洲成人综合导航| 国产中年熟女高潮大集合| 久久久无码一区二区三区| 午夜美女裸体福利视频| 91在线视频播放| 县级市| 国产一区二区三区内射高清| 真人祼交二十三式视频| 精品在免费线中文字幕久久| 99国产精品| 影音先锋中文字幕无码| 中文字幕丝袜精品久久| 中文精品无码中文字幕无码专区 | 自拍偷拍第一页| 国产成人小视频| 无码国产成人午夜电影在线观看| 亚洲国产精品综合久久20|