<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      二元相似性的演化元相關類別

      0
      分享至

      Evolving meta-correlation classes for binary similarity

      二元相似性的演化元相關類別

      https://www.sciencedirect.com/science/article/pii/S0031320324006228



      摘要
      在機器學習與模式識別領域,二元相關性指標的使用對實現精準預測與建模至關重要。本文提出一種新穎的進化方法,用于在不同應用領域中發現二元相關性指標。該方法引入“元相關性”(meta-correlation)概念——一種表征二元相似性指標類別的參數化公式——并通過進化策略對其進行優化。我們在基于局部拓撲相似性(即圖的鄰域結構)的鏈接預測問題中對該方法進行了實驗與驗證。采用差分進化(Differential Evolution)優化算法,可找出在特定領域中表現最優的進化相關性指標。在多個網絡領域開展的實驗表明,所發現的元相關性實例在所有實驗領域中普遍優于當前最先進的二元相關性指標。該方法能有效探索相關性空間,并找到可適配目標領域的獨特模式。此類元相關性類別既可用于拓撲相似性問題,也可用于語義相似性問題,僅依賴局部信息,無需掌握圖的全局完整知識。

      關鍵詞:進化計算;網絡拓撲;復雜網絡;鏈接預測;二元相似性

      1. 引言
        二元相關性指標(Binary Correlation Indices, BCIs)在模式識別中扮演著重要角色,廣泛應用于諸多研究領域,涵蓋地質學、生物學等自然科學與生命科學,心理學、經濟學等社會科學,以及醫學人工智能 [1]、生物信息學 [2] 和社交網絡分析 [3] 等新興領域。
        BCIs 用于度量對象或群體之間的相似性,并支持事件預測(例如:蛋白質–蛋白質相互作用、蛋白質結構表達,以及社交網絡中的鏈接預測)。

      形式化地:



      為特定研究領域構建一個有效的二元相關性指標(BCI),通常需經歷漫長且反復迭代的過程:首先基于在其他領域已被證明有效的相關性,提出一個經驗性假設;隨后通過實驗對該假設進行驗證、評估與修正,直至獲得理想結果。索倫森–戴斯指數(Sorensen–Dice index)即為一例——該指標于20世紀40年代被獨立提出,最初用于評估生態群落的相似性,此后已被廣泛應用于計算語言學、醫學圖像分割 [4] 等多種場景。最初,Dice 指數被定義為:針對兩個不同地點 x x 與 y y,評估其各自所擁有的物種集合(設共有物種集為 F F)之間的相似性。



      BCI 的構建過程引發若干重要的研究問題,亦構成本文的研究目標,包括以下幾點:

      1. 是否可能系統性地改進 BCI 的構建與領域適配過程?

      2. 是否可從已知關系出發啟動這一過程?

      3. 是否能為特定領域發現新的、最優適配的相關性指標?

      不同度量方法在各類領域中表現各異,迄今尚無單一 BCI 能全面捕捉各類鏈接形成模式的多樣性 [5]。因此,本文采用的策略是:構建元相關性公式(meta-correlation formulas)——用以表征具有相似語法結構的二元相似性度量類別,并通過優化其參數系數,為特定領域求得最優的 BCI。

      因此,本文的主要貢獻如下:
      ?元相關性(meta-correlations)的提出:一種參數化公式,可表征一類二元相似性指標,并涵蓋所有基于局部鄰域(無需圖的全局完整知識)的已知指標;
      ?元相關性構建框架:所提出的方法采用進化優化算法,從元相關性出發,為給定領域發現新型相關性指標;
      ? 本方法借助進化算法,使元相關性能夠自適應不同領域。

      1. 相關工作

      本文方法提出將元相關性適配至特定領域。矩陣分解技術(常通過對網絡節點的PMI矩陣進行分解 [6],或借助DeepWalk對其進行近似 [7])同樣利用了相關性指標的概念。然而,與直接使用現成相關性度量不同,本研究提出定義元相關性:通過差分進化算法(Differential Evolution, DE)[8] 對一組參數化實例(每個實例代表一種新的相關性指標)進行演化,從而發現面向特定領域的新相關性指標。

      在鏈接預測中,監督學習方法的使用通常受限于其可解釋性不足,難以刻畫網絡的演化動態。此前僅有的一項嘗試對相關性指標進行適配的工作 [9] 采用了16種當前先進指標的線性組合,并借助CMA-ES算法在Twitter數據上進行鏈接預測。該方法的優勢在于能透明地識別出作為良好預測因子的指標,并可能揭示引導網絡演化的機制。然而,它也存在局限:一是假設最優指標組合為線性形式;二是依賴需全局圖知識的指標(如Katz指標),這對現實世界的大規模網絡而言往往難以實現。

      本文提出一種替代方案:通過進化算法發現新型公式(即我們元相關性的具體實例),使其能自適應任意類型的數據集,包括具有異質模式的數據集 [10]。該方法聚焦于局部度量,即便在小型網絡中也能避免計算不可行性。與 [9] 相比,我們的元相關性方法不僅克服了其局限性,還將適用范圍拓展至更廣泛的網絡結構與數據集——涵蓋社交網絡、生物網絡與戰略物流網絡等多種情境與環境下的多樣化模式。

      鏈接預測領域的其他研究還包括深度生成網絡 [11] 與進化算法 [12] 的應用。而本文方法的獨特之處在于:通過演化相關性指標實現對任意領域的自適應——這一組合在以往研究中尚未被探索。

      基于深度學習的方法通常采用圖神經網絡進行新鏈接預測 [13],其常見輸入特征包括:從原始網絡或派生網絡中學得的節點嵌入 [7],以及傳統鏈接預測指標與圖度量的組合 [14]。但此類方法的主要缺陷在于缺乏可解釋性。另一些關于網絡中語義與拓撲關系的研究,則側重于通過學習邏輯規則進行歸納推理以預測缺失鏈接。例如,Topology Aware CorrelaTions(TACT)模型 [15] 將每一對關系歸入不同拓撲模型,并提出一種關系相關性網絡,以學習各模型對歸納式鏈接預測的重要性。與聚焦語義信息的統一模型不同,本文方法具有顯著區別:例如廣義關系學習(Generalized Relation Learning, GRL)[16] 等模型需為每個節點提供元數據,而本文方法僅利用純粹的拓撲相關性,因此可根據網絡的隱式結構,靈活適配語義網絡與拓撲網絡。

      最后,在缺失值估計問題背景下,文獻中已有若干方法通過將傳統鏈接預測問題分解為更小子問題來擴展其規模 [17, 18]。而本文方法與之有本質不同:它不僅適用于鏈接預測與缺失鏈接問題,還可推廣至任何需通過演化二元相關性以實現跨域適配的問題場景。

      2.1 鏈接預測與拓撲相似性

      鏈接預測(Link Prediction, LP)旨在預測網絡的演化動態,評估網絡中實體(節點)之間潛在的新連接。LP 的一種常見方法是:計算所有非相連節點對之間的相似性(即圖上的鄰近性),進而預測未來最可能出現的鏈接。在此相似性排序中,排名靠前的節點對代表更有可能形成連接的關系。用于計算相似性的時刻 t t的網絡狀態稱為訓練網絡,而由該排序導出的信息則在測試網絡(即同一網絡在未來時刻 t + 1 的狀態)上進行驗證。

      相似性概念是該問題的核心:文獻中存在多種定義,主要包括語義相似性拓撲相似性。前者依據節點自身的特征(主要是文本或數值型元數據)評估相似性——直觀而言,兩個節點的特征值越接近,其相似性越高;后者則關注圖的結構及節點在網絡中的位置,分析范圍可限定于深度為 k 的局部鄰域,也可涵蓋整個網絡。典型例子包括廣泛使用的 Jaccard 指數 [19] 與 Adamic-Adar 指數 [20]。此類拓撲方法可應用于復雜網絡的多種場景,例如病毒與細菌傳播模型。

      每種現有的相似性指標均基于同一組指標(如共享/非共享特征——即鄰居——的數量)對每一對對象進行計算。然而,不同指標的權重設定取決于其最初設計所面向的具體領域。針對鏈接預測任務,已有多種度量被提出用于預測排序 [21]。形式化地:


      鏈接預測在諸多現實應用中具有重要意義:例如,在社交網絡與合作網絡中,可用于預測未來最可能建立連接的節點;在商品–消費者網絡中,可用于生成銷售推薦;在合著網絡中,可輔助作者消歧或專業匹配。文獻中針對鏈接預測(LP)提出的最常見方法是 [19]:通過一個排序函數 R ( x , y )
      對每條潛在鏈接 ( x , y ) 進行評估,以估計該鏈接在未來生成的可能性;隨后對所有鏈接按得分排序,所得邊列表最終供鏈接預測應用使用,或與真實標簽(如測試集)進行比對評估。

      文獻中近期兩篇具有影響力的綜述 [19, 21] 為不同相似性度量在多樣化領域(從社交網絡到生物網絡、地理網絡)的鏈接預測應用提供了基準。本文則對所提出的元相關性與最常用的度量進行了系統性比較。

      我們已開始探索基于拓撲相似性度量的創新鏈接預測解決方案:通過擴展至二階鄰域(depth-2 neighbourhood),并利用共同鄰居對結果進行排序,從而改進傳統拓撲相似性方法。在對多種度量、算法、遍歷策略及實際應用場景進行大量比較后,我們證實:拓撲相似性與語義相似性均可服務于相同應用——即拓撲相似性度量可映射用于語義領域,反之亦然 [5]。我們在前期關于進化計算技術的研究 [22] 中已表明:基于相關性的相似性度量非常適合作為演化對象,用于評估節點未來生成新鏈接的可能性;且差分進化(Differential Evolution, DE)算法在此問題上表現優異。

      本文基于前期工作成果,以 DE 作為基礎進化算法,進一步深化研究:深入探究二元度量,并分析其在元相關性框架下最優的演化方式。最終得到一類新型演化的元相關性指標,可涵蓋當前最先進的二元相關性指標(BCI)實例。我們對兩類元相關性(每類采用兩種不同交叉算子)的實驗結果,與它們所涵蓋的15種指標、文獻中廣泛使用的9種拓撲度量,以及一個隨機預測器進行了對比。元相關性在10個數據集(5個社交網絡、3個生物網絡、2個含地理約束的網絡)上進行測試,與所涵蓋指標相比,其性能以平均精確率(Precision)為評估標準;隨后,以AUC為評估指標與適應度函數,采用最大值與平均值作為聚合方式,將元相關性與當前最先進的拓撲鏈接預測度量進行比較。

      2.2 二元相似性

      二元相關性指標(Binary Correlation Indices)是刻畫生物學、醫學、經濟學、社會學等諸多領域中各類對象特性的有力工具。文獻中已積累了大量此類指標 [23],充分證明了其在科研中的有效性。例如,Dice 指數(又稱 S?renson 指數或 Czekanowski 指數)最初在植物學中被提出,用于研究生態群落(見第1節),此后已被拓展應用于醫學圖像分割、計算機詞典學等領域,用以評估主語–動作–賓語結構間的語言關聯性。


      現有相關研究文獻 [9] 提出了一種具有類似進化步驟的方法,但其依賴于線性組合,存在如引言所述的局限性。相比之下,我們的方案可直接與所有基于鄰域的二元相似性度量(如2.1節所述 [21])進行比較——這些度量均被用于鏈接預測,且同時適用于拓撲相似性與語義相似性任務。

      1. 所提方法
        先前研究結果 [22] 已證實:二元相似性度量可用于拓撲鏈接預測任務。第3.1節將闡述如何將二元相似性指標映射為鏈接預測中的拓撲指標;第3.2節與第3.4節則給出元相關性(meta-correlations)的定義,并說明其基于差分進化(Differential Evolution, DE)算法的演化方案。

      3.1 拓撲相似性到二元相似性的映射
      本方法的一個基本出發點是:證明現有拓撲指標可被重新表述為二元相關性形式。


      盡管該定義形式簡潔,卻具有重要推論:它實現了拓撲指標與二元相關性指標之間的雙向映射。例如,考慮 Jaccard 指數 [24] 的拓撲形式(見公式 (2)):


      將拓撲特征映射為二元特征的積極影響是雙重的:若干用于鏈接預測的拓撲指標原本以節點度和鄰居集合 Γ 表示,現均可被重新表述為二元相關性指標;例如,經本文提出的重構方法,共同鄰居(Common Neighborhood)可簡化為:

      另一方面,原本并非為拓撲相似性設計的相關性指標,也可通過重新表述而應用于網絡場景。任意二元相關性指標只需適當地計算參數 a , b , c , d
      ,即可用于鏈接預測(LP)問題。

      3.2 元相關性指標

      考察表1前兩列所列的二元相關性指標,我們發現:許多指標可被視為一種基本語法結構的變體——即相關因子 a , b , c , d的線性與非線性組合之間的比值;這些組合在乘性系數和所用運算符(如加法、減法、乘法)方面存在差異?;谶@一觀察,可定義元相關性指標(meta-correlation index)的概念。




      3.3 元相關性的設計

      本文設計了兩類主要的元相關性,旨在涵蓋文獻中已知的二元指標集合,以及鏈接預測中使用的拓撲指標。

      設 u u 與 v v 為網絡中的兩個節點,其一階特征包括:


      公式 (11) 與公式 (12) 展示了兩種元指標的表達形式;表1列出了部分被涵蓋的指標及其對應的參數賦值。


      3.4 用于鏈接預測的差分進化

      我們的總體目標是:針對鏈接預測(LP)任務,優化相關性指標的預測能力——通過定義二元相關性元指標,并為其尋找適配特定領域的參數配置。差分進化(Differential Evolution, DE)作為一種穩健且被深入研究的進化計算算法 [25],非常適合用于演化元相關性的系數向量。因此,本文所提出的方法將采用差分進化算法,對一組元相關性指標實例構成的種群進行演化,同時優化它們在鏈接預測任務中的性能表現。



      針對鏈接預測任務、適配于元相關性指標演化的連續型差分進化算法結構,如偽代碼 Algorithm 1 所示,其中Dimensions表示元相關性指標參數的維度(即參數個數)。



      3.5 差分進化策略與種群初始化

      在差分進化中,選擇個體構建變異向量的策略,以及決定在哪些維度上執行交叉操作,是影響性能的關鍵決策。本文考慮了兩種差分進化變異與交叉策略變體,依據標準DE命名規范,分別簡記為:

      1. RAND/1/EXP:指數型交叉策略(EXP)
      2. RAND/1/BIN:二進制交叉策略(BIN)

      兩種變體中,用于構建變異向量的個體均隨機選取。


      差分進化的一個已知問題是:當某個參數值出現完全或高度一致時,種群多樣性易喪失。對于本文的元相關性實例而言,該問題尤為突出——因其涵蓋的指標往往共享相同的參數取值。因此,通過在初始種群中引入經噪聲擾動的個體,可有效緩解此問題。

      1. 實驗:數據與設置
        本節介紹并說明實驗所用數據集、預處理階段及實驗設置。

      4.1 數據集
      為便于比較,我們在10個廣泛用于鏈接預測(LP)實驗、并被近期高影響力綜述文獻 [19, 21] 所引用的數據集上測試了所提框架。所選數據集涵蓋三類重要領域:

      • 社交數字通信網絡

        (如社交網絡、電子郵件交互、合著網絡);

      • 生物網絡

        (如蛋白質–蛋白質相互作用、連接組、簡單生物體(如線蟲)的神經連接網絡、動物社群);

      • 地理網絡

        (受地理因素制約的物理通信網絡,如交通網絡、路由器網絡)。

      社交數字通信網絡

      • CA-GrQC

        [26](GRQ)與Netscience[27](NSC)是兩個經典合著網絡,分別包含1993–2004年間廣義相對論與量子宇宙學領域,以及網絡科學領域的論文合作關系;

      • Email-eu-core

        [26, 28](EUC)為某歐洲機構員工間的電子郵件通信網絡;

      • Ia-radoslaw-email

        [29](RAD)為一家制造企業員工間的郵件往來網絡;

      • PetsterHamster

        [30](PET)刻畫了 Hamsterster.com 社交平臺上用戶間的友誼關系。

      生物網絡

      • Macaque [31](MAC)為恒河猴大腦皮層的神經連接映射;
      • 蛋白質–蛋白質相互作用網絡(PPI)源自文獻 [32];
      • C.Elegans [33](CEL)為秀麗隱桿線蟲的完整神經網絡。

      地理網絡
      該類數據集中,地理因素對網絡結構具有決定性影響。

      • USAir [34](USA)為1997年美國航空航線網絡,雖因航程受限時新建航線相對便捷而使地理約束有所緩解,但仍呈現類似現象;
      • Football (FOB)為美國某橄欖球聯盟的地區錦標賽比賽關系數據集

      4.2 預處理階段

      數據集需經過預處理階段:有向網絡被轉換為無向網絡(當至少存在一條原始有向邊時),并移除自環和孤立節點,因為它們對基于直接鄰居的相關性指標沒有任何貢獻。



      4.3 差分進化(DE)參數設置與運行配置

      最大進化代數(MaxGenerations)經實驗設為300。圖1以PPI數據集為例,采用元相關性指標?展示了進化過程的動態變化情況;每條曲線對應一次折疊(fold)上的演化過程,所采用策略為DE RAND/1/BIN,并從中10次折疊中選取了5次予以展示。可以看出,相關性空間中存在若干平臺區域(plateaus),即適應度函數返回相同得分的區域,從而減緩了進化過程中的性能提升。針對其他數據集、相關性指標及交叉策略組合也進行了實驗,均表現出類似行為:絕大多數情況下,從第一代至最后一代性能提升顯著;但當進化代數超過300時,適應度不再呈現可觀測的進一步改善。


      突變縮放因子F與交叉概率參數CR分別設為0.7和0.5,該設定位于取值范圍 ∈ [0, 2]、 ∈ [0, 1]之內,并符合我們對適應度函數的預期假設。

      對于?,種群規模設為27個個體,其中初始種群包含9個已知可被?涵蓋的經典指標個體,其余18個個體通過在這些基準指標基礎上添加噪聲擾動生成。對于?,種群規模為24個個體,其中6個初始個體對應已知可被?涵蓋的經典相關性指標,其余18個同樣通過噪聲擾動生成。

      在候選適應度函數中(參見第3.4節),經系統性測試,AUC(曲線下面積)被選定為最終使用的適應度指標——該選擇源于前期實驗中AUC展現出的主導性性能優勢。

      1. 實驗結果
        本節展示了實驗結果。關鍵數據以表格與圖表形式呈現。所得精度(Precision)與AUC結果,均與當前最先進的排序相關性指標進行了對比。同時,對所發現的元相關性(meta-correlations)進行了討論。

      5.1 元相關性的精度

      為評估精度,表3–6右側各列展示了每種演化所得的元相關性變體——即1-、1-、2-與2-——在各數據集上相對于兩類基準指標所實現的精度提升值:




      • 第一類為被其涵蓋(subsumed)的經典指標(見表中第一區塊);

      • 第二類為鏈路預測領域中常用的標準拓撲相關性指標(見表中第二區塊)。

      表中每個條目均表示精度提升量,即:對應行中該指標所得精度值,與每一(元相關性,DE交叉策略)組合下十次演化所得相關性在測試集上精度的平均值之間的差值。

      各指標縮寫如下:3WJaccard(T 3WJT)、 Sokal Sneath 1(T SS1)、 Sokal Sneath 2(T SS2)、 Rogers Tanimoto(T RT)、 Faith(T Fa)、 Sokal Sneath 3(T SS3)、 Kulczynski 1(T Ku1)、 Gower Legendre(T GL)、 Cosine(T Co)、 Sorensen(T So)、 Mountford(T Mo)、McConaughey(T McC)、 Johnson(T Jo)、 Kulczynski 2(T Ku2)、Common Neighbours(CN)、Jaccard(Jacc)、Preferential Attachment(PA)、Sorensen(So)、Hub Promoted(HubP)、Hub Depressed(HubD)、Leicht Holme Newman(LHN)、Random(Rnd)。

      在表8中,報告并比較了Netscience數據集上各參考指標的真陽性絕對數量與精度值,并與表7中每個(元相關性,DE交叉策略)組合的平均值進行了對比。所有元相關性的提升均顯著,盡管其絕對真陽性數值的提升受限于邊數。



      我們可以觀察到,幾乎所有的增量均為正值,即演化所得的元相關性指標表現優于原始相關性指標,且超越了二進制或指數型DE突變/交叉策略。最大的偏差可歸因于部分原始指標表現較差。因此,值得關注的是最小差異值——它表示最佳表現的參考相關性指標與演化指標平均表現之間的增量。除Football數據集外(該數據集呈現大部分負值),所有數據集上均可觀察到對被涵蓋指標的性能提升,其幅度從Netscience數據集上的約2%最低提升,到同一數據集上約50%的顯著提升不等;而在Ia-radoslaw-email數據集上,若干指標的提升約為44%,此處演化相關性表現出最高的最小增量預測性能。在進化階段,系統能有效引導搜索朝向相關性空間中適應度最佳的區域,同時排除表現最差指標的貢獻??梢杂^察到,在Netscience、PPI、Hamsterster和Ia-radoslaw-email數據集上,?-BIN組合(即元相關性?與二進制交叉策略)排名首位;而在CA-GrQc、Macaque、UsAir、C. Elegans及Email-eu-core數據集上,?-EXP表現更優。總體而言,?似乎更適合該過程,因為除所選交叉策略外,其演化所得的相關性實例始終優于?實例。如前所述,Football數據集在?和?上均呈現輕微下降(即<1×10?2);而?在采用EXP交叉策略時仍能改善幾乎所有指標的性能,但在此情況下差異微小。關于拓撲指標第二區塊,

      更大的差異出現在Netscience數據集上,其中發現的相關性在Preferential Attachment指標上實現了約50%的提升。在Ia-radoslaw-email數據集中,發現的相關性在Hub Promoted和LHN指標上獲得了約40%的提升。這兩種指標屬于原始測量方法可能表現較低因而潛力更高的情況。Preferential Attachment和Hub Promoted均更傾向于預測已擁有大量連接的節點之間形成新鏈接(第一種情況中的偏好節點,第二種情況中的樞紐節點)。這一特性并非適用于所有數據集:在測量方法表現較差的情況下,我們的指標更有可能超越其預測能力。

      盡管所發現的相關性在系數值上有所不同,但它們在?和?下均實現了相似的性能,表明相關性空間中存在具有相似適應度值的局部極大值。圖2展示了每個數據集演化的詳細結果:每個箱形圖描繪了針對某一(元相關性,DE交叉策略)組合在十次運行實例(每次對應一個折疊)中測試集_上的精度值;箱體中間線表示中位數,十字符號表示均值。箱體底部和頂部線分別代表第一四分位數?和第三四分位數?,觸須延伸至數據集的最小值和最大值。孤立點表示離群值,即距離?或?超過1.5倍四分位距(IQR=???)的數據點。我們觀察到多數情況下表現相似,僅有少數案例顯著高于或低于中位數,例如Ia-radoslaw-email數據集,以及程度較輕的Netscience數據集。


      5.2 發現的相關性

      所采用的進化方法針對特定領域對元相關性進行了優化。對于Netscience(NSC)數據集,最優排序相關性為 ?(, )ΠNSC,其對應的優化元參數向量如下:

      保留至小數點后兩位,由此得到以下公式:



      值得指出的是,公式(14)至公式(19)中的相關性此前從未在文獻中出現過,均由本文所提出的進化式領域自適應與優化過程所發現。

      5.3 元相關性的 AUC

      我們將各類元相關性的 AUC 與近期一篇頗具影響力的鏈路預測綜述文獻[19, 21]中所列舉的最常用拓撲指標的 AUC 進行了比較(見表9)。


      每列表示一個不同的數據集;第一區塊列出了最常用的拓撲二元相關性指標,第二和第三區塊則記錄了我們提出的兩類元相關性指標。元相關性的 AUC 結果基于對給定領域數據集相同劃分下進行的10次進化運行所得,針對四種(, 策略)組合(即 ?-EXP、?-BIN、?-EXP、?-BIN)分別計算;結果按聚合函數分為兩類呈現:取各次運行中最優/最大值(BEST)的 AUC,以及取平均值(AVG)的 AUC?;鶞释負渲笜说男阅芤嘣谕粩祿澐稚线M行評估。表中凡超過所有基準 AUC 的數值均加粗顯示。

      大量加粗數值清晰表明元相關性方法具備優異性能。BEST 聚合結果顯示:即便在相關性空間中存在較大方差、從而顯著影響平均性能的情況下,某些元相關性在所有數據集上仍能超越表現最佳的拓撲指標。在部分數據集(如 C. Elegans 和 Football)中,我們的兩類元相關性均優于基準指標;在 PetsterHamster 和 Macaque 數據集中,多數元相關性組合達到或超過了基準指標性能;在 UsAir 數據集中,無論采用 EXP 還是 BIN 策略,? 的表現均優于 ?。總體而言,并不存在一類元相關性始終優于另一類;但 ? 通常展現出更高的 AUC:在每一個數據集上,由 ? 演化得到的元相關性均優于文獻中用于鏈路預測的現有最先進拓撲相似性指標——這一結論與第4節中關于精度(Precision)相對于其所涵蓋相似性指標的提升結果一致。因此,我們可以得出結論:所演化的元相關性實例,其性能優于當前鏈路預測文獻中主流的拓撲相似性度量,且展現出顯著的領域自適應能力。

      1. 結論

      本研究提出了一種新穎且具創新性的進化方法,用于生成面向特定領域的二元相關性指標。該方法利用優化算法探索相關性類別,并引入參數化元相關性(parametric meta-correlations)的概念——當參數取特定值時,這些元相關性可涵蓋諸多已知的二元指標。這一特性使我們得以在相關性類別內部開展演化與搜索。我們以鏈路預測為應用場景,對所提方法的有效性進行了實驗驗證。鏈路預測在拓撲背景下使用二元指標,通過利用局部網絡結構信息來評估節點間的相似性,并對潛在鏈接形成的概率進行排序。

      本文方案在兩類元相關性?與?上進行了測試,二者均可涵蓋大量經典二元相關性指標;并采用差分進化(DE)的兩種變體——BIN 與 EXP——對其進行演化優化。演化過程中,以 AUC 評估指標作為適應度函數。該方法在三類鏈路預測領域(社交數字通信、生物網絡、地理網絡)共計十個數據集上進行了測試。結果表明,相較于近期具有影響力的研究所列舉的拓撲指標及被涵蓋指標,該方法能夠發現性能更優的二元指標實例。

      實驗顯示,在精度(Precision)方面,相對于被涵蓋指標及其他常用拓撲指標,本方法的提升幅度從平均最低約2%(如 CA-GrQc 數據集)至最高約50%(如 Netscience 數據集)不等;在 Ia-radoslaw-email 數據集中觀察到約44%的顯著最小提升。Football 數據集中出現較多千分位級別的負值(即性能輕微下降),可歸因于該網絡鏈接總數較少——單次預測結果即代表較大比例,因而波動更顯著。在四種(元相關性,策略)組合中,? 似乎更適于探索二元相關性空間:無論采用 BIN 或 EXP 策略,基于 ? 演化所得的相關性實例始終優于基于 ? 的實例。對于 ?,EXP 策略在五個數據集上表現更佳;而 BIN 策略僅在四個數據集上對 ? 取得最優結果。

      在 AUC 指標上,所有演化所得的元相關性在絕大多數數據集(包括 Football)上均超越了當前最先進的基準指標。這凸顯了演化所得元相關性卓越的跨領域泛化能力,及其對特定領域的強自適應性。

      因此,本文提出的研究問題(見第1節)可回答如下:

      1. 本研究引入的框架——即對元相關性指標進行進化計算——是一種系統性開發與適配二元相關性指標的恰當方法。

      2. 元相關性這一概念,因其能夠涵蓋并統攝現有相關性關系,使得演化過程得以從已確立的知識基礎出發。

      3. 在不同領域開展的實驗結果表明,發現性能優于當前最先進指標的新相關性是切實可行的。

      綜上所述,本文所提出的、用于生成領域適配型二元相關性指標的進化方法已得到驗證,并在鏈路預測任務中展現出優于現有拓撲度量的性能。與傳統方法(例如對已有指標的線性組合權重進行演化)以及其他黑箱方法(如深度學習)相比,本方法具有明顯優勢:它不僅能發現全新的相關性指標,還通過顯式提供演化所得優化元相關性實例中各參數的權重,顯著提升了模型透明性,從而為理解相關性結構及其潛在機制提供了寶貴洞見。

      此外,本方法具備廣泛的應用潛力,可拓展至鏈路預測以外的諸多領域;例如在生物學中,可用于揭示疾病、癥狀與治療之間的潛在關聯。

      原文鏈接: https://www.sciencedirect.com/science/article/pii/S0031320324006228

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一句“搞么哩”火遍全網!4歲重慶娃,讓千萬人看見家的幸福模樣

      一句“搞么哩”火遍全網!4歲重慶娃,讓千萬人看見家的幸福模樣

      江津融媒
      2026-01-27 13:05:14
      鄒市明虧光2億左眼失明,仍需打零工養3個孩子買不起新衣服

      鄒市明虧光2億左眼失明,仍需打零工養3個孩子買不起新衣服

      淡淡稻花香s
      2026-01-27 22:49:13
      重磅!總投資9600億元,海南2026年重大項目清單曝光!

      重磅!總投資9600億元,海南2026年重大項目清單曝光!

      網易海南房產
      2026-01-27 10:14:35
      廣州一乘客羊城通欠費1400萬元? 嶺南通公司回應

      廣州一乘客羊城通欠費1400萬元? 嶺南通公司回應

      深圳晚報
      2026-01-27 10:15:25
      二手房雄起:天津9個區上漲,最高漲幅26.5%

      二手房雄起:天津9個區上漲,最高漲幅26.5%

      濱海房叔
      2026-01-27 09:56:28
      蹉跎半生的樊振東父母沒想到,兒子一則動態,讓他們迎來無上榮光

      蹉跎半生的樊振東父母沒想到,兒子一則動態,讓他們迎來無上榮光

      以茶帶書
      2026-01-27 17:20:57
      哈梅內伊藏身地堡!48小時內有45架美軍運輸機飛抵中東

      哈梅內伊藏身地堡!48小時內有45架美軍運輸機飛抵中東

      項鵬飛
      2026-01-25 20:25:40
      斯諾克最新:中國8人進32強,趙心童凌晨戰福德,火箭對卡特

      斯諾克最新:中國8人進32強,趙心童凌晨戰福德,火箭對卡特

      老牛體育解說
      2026-01-28 01:27:25
      梁羽生的《云海玉弓緣》只此一節,便足以和金庸相媲美了

      梁羽生的《云海玉弓緣》只此一節,便足以和金庸相媲美了

      青霄
      2026-01-27 22:27:32
      中國有源相控陣雷達真實水平:并非世界第一,和美差距有多大

      中國有源相控陣雷達真實水平:并非世界第一,和美差距有多大

      黑翼天使
      2026-01-10 03:28:16
      中國股市:換手率一旦大于7%,果斷進入,不是漲停就是漲不停!

      中國股市:換手率一旦大于7%,果斷進入,不是漲停就是漲不停!

      一方聊市
      2026-01-23 08:00:03
      醫生發現:早期腦梗不是頭暈,而是頻繁出現這5個異常,別忽視

      醫生發現:早期腦梗不是頭暈,而是頻繁出現這5個異常,別忽視

      蜉蝣說
      2026-01-20 15:16:24
      5局惜敗+4場關鍵戰拉胯!陳方的固執坑慘天津女排,本土名宿才是救命稻草

      5局惜敗+4場關鍵戰拉胯!陳方的固執坑慘天津女排,本土名宿才是救命稻草

      畫夕
      2026-01-28 04:00:46
      何慶魁:我一個人支撐本山傳媒好幾年!網友:黑土,有人喊你打錢

      何慶魁:我一個人支撐本山傳媒好幾年!網友:黑土,有人喊你打錢

      手工制作阿殲
      2026-01-28 03:17:23
      為什么全國人民都在拒接電話?連10086打來也是瞄一眼就掛掉了!

      為什么全國人民都在拒接電話?連10086打來也是瞄一眼就掛掉了!

      今朝牛馬
      2026-01-08 16:05:10
      車門緊鎖拍窗毫無反應,上海一司機疑似車內昏迷,民警當機立斷破窗救人,送醫及時最終脫離危險

      車門緊鎖拍窗毫無反應,上海一司機疑似車內昏迷,民警當機立斷破窗救人,送醫及時最終脫離危險

      縱相新聞
      2026-01-27 20:13:03
      如果不及時快速的解決臺灣,有可能出現無法挽回的局面

      如果不及時快速的解決臺灣,有可能出現無法挽回的局面

      曉楖科普
      2026-01-26 22:34:40
      賈家被抄家的真實原因,就是賈元春省親,可惜他們沒懂皇帝的用意

      賈家被抄家的真實原因,就是賈元春省親,可惜他們沒懂皇帝的用意

      銘記歷史呀
      2026-01-26 19:39:13
      76歲上海知青回江西訪友,竟發現當年的女友終生未嫁:我對不住你

      76歲上海知青回江西訪友,竟發現當年的女友終生未嫁:我對不住你

      五元講堂
      2026-01-19 11:13:16
      山東一66歲大媽喜歡睡前泡腳,不久腦梗去世,醫生怒斥:太無知了

      山東一66歲大媽喜歡睡前泡腳,不久腦梗去世,醫生怒斥:太無知了

      華庭講美食
      2026-01-25 12:26:25
      2026-01-28 06:19:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1182文章數 18關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      美報告稱中國是其19世紀以來面對過的最強大國家

      頭條要聞

      美報告稱中國是其19世紀以來面對過的最強大國家

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      教育
      旅游
      手機
      游戲
      公開課

      教育要聞

      對話陳妤頡:閃閃發光的賽道,追逐夢想

      旅游要聞

      紅燈籠映北海:皇家園林里的年味,藏著中國人的精神原鄉!

      手機要聞

      蘋果連發4版系統:從iPhone 5s到iOS 26,果粉福音來了!

      LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版