A machine learning approach to predicting dynamicalobservables from network structure
從網絡結構預測動力學可觀測量的機器學習方法
https://royalsocietypublishing.org/rspa/article/481/2306/20240435/66122/A-machine-learning-approach-to-predicting
![]()
從結構特征預測給定動力學過程的結果,是網絡科學中一個尚未解決的關鍵挑戰。該目標受限于復雜系統中結構與動力學之間存在的非線性、關聯性及反饋效應等困難。本研究提出一種基于機器學習算法的方法,為理解網絡結構與動力學之間的關系邁出了重要一步:具體而言,該方法僅憑網絡結構即可預測——(1)疾病從單一節點出發的傳播規模;(2)由Kuramoto振子構成系統的同步程度。我們揭示了實現此類預測的關鍵拓撲特征,并對網絡指標的重要性進行了排序,其準確度遠超以往研究:對流行病傳播而言,k-核(k-core)起決定性作用;而對同步性而言,介數中心性(betweenness centrality)與可達性(accessibility)是與振子狀態最相關的度量。
對所有網絡,我們發現隨機森林均能以高精度預測疫情暴發規模或同步狀態,表明網絡結構在傳播過程中起著根本性作用。本方法具有普適性,可應用于幾乎所有在復雜網絡上運行的動力學過程。此外,本研究是將機器學習方法用于揭示復雜網絡系統中涌現動力學模式的重要一步。
關鍵詞:復雜網絡,機器學習,動力學過程
引言
現代網絡科學已成功表明:恰當地刻畫系統組分間的相互作用模式,對理解其功能至關重要[1–5]。然而,探究支配系統結構與功能關系的規律仍是一項艱巨挑戰。實現這一目標不僅要求我們評估特定結構模式對網絡動力學的影響,更需在僅掌握不完整、且常含噪聲的結構信息前提下,預測其動力學結果。這一問題絕非微不足道:從已知結構過渡到預判系統動力學響應,意味著必須厘清節點響應的非線性、由復雜連接模式引發的時空關聯,以及交互所產生的反饋等多重困難。
此外,眾所周知,網絡性質對動力學系統的影響方式各異——換言之,某些性質對某一動力學過程的影響遠大于其他性質。例如,在疾病傳播情境中,度分布對系統臨界特性(即是否存在趨近于零的傳播閾值)起決定性作用,而關聯性影響則相對次要[5, 6];類似結論亦適用于謠言傳播[7, 8]與同步現象[4, 9]等其他動力學過程。識別出對系統動力學起關鍵作用的網絡性質,不僅能提升動力學預測的準確性,還可為應對拓撲變化或實施控制干預、從而引導系統達成期望的全局狀態,提供可操作的響應策略。其應用涵蓋:在傳染病動力學中識別關鍵傳播者與核心傳播節點[10],以及調控電網、電子電路和神經系統的同步水平[4]。
本文旨在應對上述兩大挑戰:
其一,我們提出一種方法論,可對兩類典型動力學過程(疾病傳播與同步)的多種宏觀可觀測量進行預測;
其二,我們明確了實現此類高精度預測所依賴的關鍵拓撲性質。具體而言,我們構建了一種通用方法,用于預測復雜網絡中動力學過程的相關變量——即Kuramoto振子的同步程度,以及易感-感染-恢復(SIR)模型中的疫情暴發規模;同時評估了各類網絡性質在預測這些動力學變量時的重要性。例如,我們驗證了k-核與暴發規模具有最強關聯性,印證了先前研究結論;但僅靠該指標仍不足以實現準確預測。我們指出:并無單一指標能有效識別主要傳播者,而需多種指標組合。對于同步問題,介數中心性(betweenness centrality)與可達性(accessibility)與振子狀態(即部分/全局相鎖定或非鎖定)關聯最為密切;但各指標重要性排序隨同步程度變化而變化。
本方法具普適性,可拓展應用于其他需從節點子集及其動力學出發預測隨機動力學變量的場景(如[8, 11])。本文所提出的方法為借助現代機器學習技術,深入探索復雜系統的結構與動力學關系開辟了新路徑。
機器學習模型構建
![]()
![]()
![]()
![]()
![]()
結果與討論
![]()
![]()
![]()
圖2展示了模型(方程2.2)對以下六類網絡預測的疫情暴發規模:(i) 美國航空運輸網絡(僅含主要機場,N=500個機場,2002年,平均度〈k〉=11.9條邊/機場)[21];(ii) Hamsterster社交網絡(N=1788名用戶,平均度〈k〉=13.95條邊/用戶)[22];(iii) 政治博客網絡(N=1222個博客,平均度〈k〉=27.4個超鏈接/博客)[23];(iv) Bitcoin Alpha網絡(N=3775名用戶,平均度〈k〉=7.5個連接/用戶)[24];(v) 某大型歐洲研究機構的電子郵件數據(N=986名用戶,平均度〈k〉=32.6個連接/用戶)[25];以及(vi) Gnutella點對點文件共享網絡(N=6299臺計算機,平均度〈k〉=6.6個鏈接/計算機)[25]。對于所有網絡,我們發現隨機森林能以高精度預測每個節點的暴發規模,表明網絡結構在傳播過程中起著根本性作用。
![]()
我們還將隨機森林方法與傳統的多元線性回歸模型進行了比較。如圖3所示,對于不同的傳播概率β值,隨機森林在決定系數 (衡量自變量對因變量方差解釋程度,取值范圍0至1,值越高表示擬合越好)方面提供了更精確的結果。深度神經網絡給出的結果與隨機森林相似。
![]()
優化[26]。重要的是,隨機森林算法還能量化各特征的重要性。本質上,該重要性是通過衡量特征在構建決策樹時降低不確定性的有效性來計算的。隨機森林提供的所有特征重要性值之和為1,代表了每個度量對預測估計量貢獻的百分比。
圖4展示了當疫情暴發規模的估計被分解為特征向量中所用各網絡度量貢獻函數時所得結果。我們可以看到,每項度量的重要性取決于感染概率β。此外,對于大多數網絡,k-核是預測暴發規模最決定性的特征——這一結果與先前關于網絡中關鍵傳播者的分析一致[7]。同時,可達性(accessibility)在美國航空運輸網絡和Gnutella網絡的傳播能力預測中也發揮重要作用,這已在文獻[10]中得到驗證。然而,各度量的貢獻(影響力)強烈依賴于網絡類型。例如,在電子郵件網絡中,度(degree)與k-核同樣重要;但在Hamsterster和政治博客網絡中,k-核則起決定性作用。
![]()
因此,不存在單一指標可識別此類主要傳播者,而需綜合多個指標共同作用。這種網絡屬性的影響還依賴于傳播概率β。因此,我們的分析比以往研究(如[7,10])更具普適性,并顯著提升了對最具影響力傳播者的識別能力。本方法允許同時比較任意數量網絡屬性的影響——即當它們的作用被一并考慮并組合使用時,可使預測效果更優。
(b) 同步現象
Kuramoto模型(KM)是研究同步現象的一個典范模型[4]。在復雜網絡中,KM由以下方程組描述:
![]()
![]()
![]()
![]()
對于較小的耦合強度,可達性(accessibility)度量在預測中起關鍵作用;然而,隨著 λ λ 增大,PageRank中心性在預測節點狀態時扮演更重要的角色。事實上,PageRank與可達性是與振子狀態最相關的兩項度量。
結論
綜上所述,我們已證明:僅通過少量節點提取的結構特征,即可有效估計復雜網絡中的動力學結果。本文提出的方法具有高度普適性,可精準適用于兩類截然不同的動力學過程——疾病傳播與耦合振子同步。本研究成果對網絡上動力學過程的分析具有重要意義,并為僅憑結構信息預測系統動力學行為開辟了新路徑。
本工作對復雜網絡動力學研究具有重要啟示,且具備多方面拓展潛力:例如,可將該方法應用于合作演化[29]、謠言傳播或其他流行病模型[30]的研究;在時序網絡[31]中,可用于預測未來連接關系及動力學過程的演化;在自適應動態網絡[32]中,可預測底層動力學過程如何驅動網絡結構演變;還可進一步探究網絡中多種動力學過程共存且相互作用的情形[33,34]——如謠言對疫情傳播的影響,或合作行為對觀點演化的作用;最后,本文方法亦可拓展至高階結構網絡[35,36]研究,從而揭示單純復形(simplicial complexes)等高階拓撲對動力學演化的影響。
總之,借助機器學習研究復雜網絡中的動力學過程,有助于深入理解結構與動力學之間的內在關聯,從而通過調控網絡結構實現對動力學過程的有效引導與控制。本研究具有一般性,可廣泛應用于各類動力學過程與復雜網絡,包括時序網絡、多層網絡、自適應網絡以及具高階結構的網絡。
https://royalsocietypublishing.org/rspa/article/481/2306/20240435/66122/A-machine-learning-approach-to-predicting
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.