![]()
導語
復雜系統通常包含超越成對網絡的高階交互。三元交互,即一個節點調節另外兩個節點之間的交互,是許多生物系統中存在的一種高階動力學的基本形式,從神經元-膠質細胞通信到基因調控和生態系統均可見其身影。然而,三元交互至今大多被忽視。本文提出了三元感知機模型,該模型表明,三元交互可以調節兩個相連節點動態狀態之間的互信息。基于這一發現,作者構建了三元交互挖掘算法,以從節點元數據中提取三元交互,并將此框架應用于基因表達數據,發現了與急性髓系白血病相關的新三元交互候選對象。研究結果強調了三元交互中常被忽視的關鍵特征,提供了一個能夠深化我們對生物學、生態學和氣候科學中復雜系統理解的新框架。
關鍵詞:高階三元交互(higher-order triadic interactions),三元交互挖掘算法(Triadic Interaction Mining, TRIM)、三元感知器模型(Triadic Perceptron Model, TPM)、急性髓系白血病(Acute Myeloid Leukemia, AML)、互信息(mutual information)
Lynne丨作者
趙思怡丨審校
![]()
論文題目:Mining higher-order triadic interactions 論文鏈接:https://www.nature.com/articles/s41467-025-66577-z 發表時間:2025年11月25日 論文來源:nature communications 代碼鏈接:https://github.com/anthbapt/TRIM
引言:被忽視的“第三者”力量
當我們思考網絡——無論是社交網絡、神經網絡還是基因調控網絡時,腦海中首先浮現的往往是節點(個人、神經元、基因)和連接它們的邊(關系、突觸、調控關系)。長期以來,網絡分析領域大多聚焦于成對節點之間的聯系。然而,現實世界的復雜性常常要求我們看得更深。在許多系統中,交互并非僅僅發生在兩兩之間,一個“第三者”可以深刻地影響甚至決定另外兩者之間的關系。這種一個或多個節點調節其他兩個節點之間交互的現象,被稱為三元交互。
在生態系統中,物種A可能通過改變環境或行為,來增強或削弱物種B與物種C之間的競爭或共生關系。在大腦中,膠質細胞可以調節神經元之間的突觸傳遞效率,從而控制信息處理。在基因調控網絡中,調節因子可以促進或抑制某個轉錄因子與其靶基因的交互。這些都不是簡單的A-B、A-C、B-C關系的疊加,而是一種獨特的高階交互模式。
盡管三元交互如此重要且普遍,但如何從海量的網絡數據和節點時間序列中有效檢測三元交互,仍然是一個尚未得到充分探索的科學挑戰。現有的高階網絡分析方法,如基于超圖或單純復形的方法,往往無法捕捉這種“邊調節”的動態本質。
對此,作者提出了一套融合動力學建模與信息論的全新框架 —— 通過三元感知器模型(Triadic Perceptron Model, TPM)揭示三元交互的作用機制,再借助三元交互挖掘算法(Triadic Interaction Mining, TRIM)實現從數據中精準提取三元交互。
定義核心:什么是三元交互網絡?
要理解這項研究,首先需要厘清一個核心概念模型:三元交互網絡。研究者將其定義為一個由兩部分組成的異構網絡(heterogeneous network)。
第一部分是結構網絡(structural network),由節點(如基因、蛋白質)和連接它們的邊(如物理互作、功能關聯)構成。它描述了系統中“誰和誰有直接關聯”。
第二部分是調控網絡(regulatory network),是一個帶符號的二分網絡(signed bipartite network)。一端是結構網絡中的節點(即潛在的調控者),另一端則是結構網絡中的邊(被調控的對象)。連接這兩類節點的邊,就是調控交互(regulatory interactions)。
這種調控作用通過帶符號的矩陣進行編碼:當矩陣元素為 1 時,代表該節點是對應邊的正向調節器(positive regulator),會增強另外兩個節點的交互;當元素為 - 1 時,該節點是負向調節器(negative regulator),會抑制目標邊的交互;元素為 0 則表示無調控關系。值得注意的是,同一個節點不能同時對同一條邊產生正向和負向調控,但可以對不同的邊分別發揮正向或負向調控作用。
![]()
圖 1 三元交互示意圖。(圖 a)調控節點 Z(regulator node),以正向或負向方式調控另外兩個節點 X 和 Y 之間的交互時,便形成了三元交互。被調控的邊可概念化為因子節點(factor node)。(圖 b)包含三元交互的網絡可被視為 “網絡的網絡”,由一個簡單的結構網絡(structural network)和一個連接著調控節點與被調控邊(即因子節點)的二分調控網絡(bipartite regulatory network)構成。
理論基石:三元感知機模型(TPM)
為了揭示三元交互如何影響系統的動力學行為,作者構建了一個精巧的數學模型——三元感知機模型(Triadic Perceptron Model, TPM)。
在這個模型中,每個節點都有一個連續的動態變量,并通過朗之萬方程(Langevin equation)描述網絡演化。在沒有三元交互的情況下,節點動力學會形成一個由網絡結構決定的平衡態,節點間的相關性矩陣可以反推出底層的連接模式,這是一種經典的高斯過程。
引入三元交互后,連接節點X和Y的耦合強度不再是固定的,而是變成了一個動態變量。這個耦合強度由一個類似于人工神經網絡中“感知機”的機制控制:它取決于所有能調控這條邊的“調控節點”(如Z)的動態狀態之和。當這個總和超過某個閾值時,X-Y邊的耦合強度切換到高值;反之則切換到低值。調控節點Z的集體狀態,像一個開關,實時地控制著X和Y之間的交互強度,從而在動力學模型中真實還原了三元交互的作用機制。
由此產生的動態過程變得異常復雜,且無法保證動力學的穩態。模擬結果清晰地顯示,當存在三元交互時,X和Y之間的條件互信息會隨著Z的狀態變化而發生顯著波動。相反,對于沒有三元交互的節點對,這個條件互信息則基本保持恒定。因此其動力學無法簡化為僅由成對交互決定的動力學。那么能否從觀測數據中挖掘出此類交互呢?
核心武器:三元交互挖掘(TRIM)算法
基于TPM模型揭示的原理,作者開發了TRIM算法,其目標是從觀測到的時間序列數據中,自動、定量地識別出三元交互。
算法的核心在于從數據中捕捉互信息的動態變化。對于一個候選三元組(節點X,Y及其潛在調控節點Z),TRIM算法的核心步驟如下:
條件分割與互信息計算:首先,根據調控節點Z的時間序列值,將其劃分為若干個區間(例如,按分位數劃分,保證每個區間數據量相同)。對于Z的每一個取值區間,計算在該區間內,節點X和Y之間的條件互信息MIz。
量化波動特征:如果Z確實在調控X-Y交互,那么如上一步計算出的條件互信息值MIz,應該在不同Z區間上表現出明顯的波動。算法通過兩個統計量來捕獲這種波動:(1)這些條件互信息值MIz的標準差(Σ),反應整體波動范圍;(2)其最大值與平均值之間的絕對差(T),反應極端情況下的波動幅度。波動越大,存在三元交互的信號越強。
統計顯著性檢驗:關鍵的一步是判斷觀察到的波動是否真的顯著,而非隨機噪聲所致。為此,TRIM采用了雙重零模型驗證策略。第一種是隨機化零模型(randomization null model),通過打亂Z的時間序列來破壞其與X、Y的動態關聯。第二種是最大似然高斯零模型(maximum likelihood Gaussian null model),假設X、Y、Z三者服從一個多元正態分布。最后根據兩種零模型的結果,識別三元交互。
功能模式分類:對于通過檢驗的顯著三元組,算法還會進一步分析其特征。它使用決策樹擬合條件互信息隨Z變化曲線,識別出Z的不同取值區間(通常為2-3個)。然后,通過計算一個歸一化熵分數S,來量化在不同Z區間內X與Y聯合概率分布的多樣性。當所有 Z 狀態區間內 X 和 Y 的聯合分布都較為分散時,熵分數接近 1;當分布都高度集中時,熵分數接近 0。S值越高意味著調控作用越明顯。
TRIM算法的強大之處在于,它不預設調控函數的形式(例如必須是單調的),因此能捕捉到更復雜、非單調的調控模式。同時,雙重零模型的設置也極大地減少了因網絡結構相關性或數據異常值導致的誤報。
![]()
圖2 三元交互挖掘算法(Triadic Interaction Mining, TRIM)示意圖。TRIM算法從已知的結構網絡及其節點相關的動力學變量出發,識別涉及潛在三元交互的節點三元組(X、Y、Z)。對于網絡中每個潛在的三元交互節點三元組(圖a)——這些節點屬于結構和動力學均已知的網絡(圖b),首先分析條件互信息的功能行為(圖c),再結合零模型評估觀察到的條件互信息調制效應的顯著性(圖d)。設定既定置信水平后,可通過這些統計數據識別顯著的三元交互(圖e)。該流程可擴展至網絡中不同的節點三元組,進而全面識別網絡中存在的三元交互(圖f)。
模擬演練:合成數據下的高效性能
為了驗證 TRIM 算法的有效性,本文首先在 TPM 模型生成的合成數據上進行了測試。研究者構建了一個包含 10 個節點、12 條邊和 5 個三元交互的小型網絡,通過模擬 TPM 模型的動力學過程,生成節點的時間序列數據,再用 TRIM 算法進行檢測。
結果顯示,對于涉及三元交互的節點三元組,其條件互信息MIz隨調控節點狀態的變化呈現出顯著的波動;而對于不涉及三元交互的三元組,條件互信息則保持相對穩定(圖 3),這與 TPM 模型的理論預測完全一致。分析聯合分布的條件變化發現,正調節交互導致MIz在高Z值時上升,而負調節則相反(圖 4)。
通過繪制受試者工作特征曲線(ROC 曲線)和精確率 - 召回率曲線(PR 曲線),研究者發現,算法的檢測準確率在不同動力學參數下均保持較高水平,尤其是當模型中的 α 參數(與哈密頓量深度相關)較大時,性能更為優異。此外,算法的假陽性發現率(false positive rate)較低,且假陽性結果多集中在 “短程三元組”—— 即調控節點 Z 與目標邊(X,Y)的端點 X、Y 在結構網絡中距離較近(圖 5)。
![]()
圖3 三元交互對相連節點間互信息的調節作用示意圖。作者構建了一個含10個節點、12條邊和5個三元交互的網絡(圖a)。圖(b)和圖(c)展示了三元交互對互信息分布MIz的影響:圖(b)為涉及正向三元交互的節點三元組[4, 9, 5]的MIz分布,圖(c)為不涉及三元交互的節點三元組[1, 2, 6]的MIz分布。
![]()
圖4 含三元交互的連續模型中節點三元組的代表性結果。是圖3所示網絡中具有三元交互特性的節點三元組[4, 9, 5]的分析結果:圖(a)呈現了在Z的不同取值區間下,變量X和Y的條件聯合分布;圖(b)展示了互信息MIz隨Z的分位數變化的行為特征,該特征明顯偏離了無三元交互時預期的恒定狀態;圖(c)為擬合MIz功能行為的決策樹,通過該決策樹可確定Z的取值范圍——在這些范圍內,Z條件下變量X和Y的聯合分布差異最為顯著。本圖所用模型參數與圖3保持一致。
![]()
圖5 TRIM算法在10節點測試基準網絡上的性能表現。采用圖 3(a)所示的網絡結構,對含三元交互的動力學模型進行隨機動力學積分,得到時間序列數據后,使用TRIM算法進行分析。圖(a)展示了在不同參數值(見圖例標注)下,TRIM算法的ROC曲線;圖(b)為相同參數設置下對應的PR曲線。
為了測試算法的可擴展性,作者還在更大規模的網絡上進行了驗證:構建包含 100 個節點的隨機厄爾多斯 - 倫伊網絡(Erd?s-Renyi network),添加 25 個隨機的三元交互,再用 TRIM 算法進行檢測(圖 6)。結果顯示,真實的三元交互均被賦予了較高的顯著性分數,且熵分數普遍大于 0.5;而當網絡中移除所有三元交互后,算法未檢測到任何顯著的三元組,進一步證明了算法的穩健性。這些驗證結果表明,TRIM 算法不僅在小型網絡中有效,還能穩健地應用于更大規模的系統,為處理真實世界的復雜數據奠定了基礎。
![]()
圖6 TRIM算法在含三元交互的100節點隨機網絡上的性能表現。(a) 每個數據點代表一個節點三元組(X、Y、Z):縱軸為顯著性分數Θ∑,橫軸為X與Y的條件互信息(CMI),數據點顏色對應熵分數(S)的取值(用于表征該三元組的熵特征)。合成數據來源于含100個節點的隨機厄爾多斯-倫伊網絡(Erd?s-Renyi network),網絡平均度c=4,并額外添加了25個隨機三元交互(即隨機邊與隨機節點之間的交互)。星號代表真實的三元交互,叉號代表經高斯零模型篩選后被排除的三元組。(b) 直方圖展示了網絡中所有三元組的顯著性分數值Θ∑分布(淺藍色),以及25個真實三元交互對應的顯著性分數值Θ∑分布(深藍色)。(c) 直方圖展示了相同拓撲結構和動力學參數,但移除所有三元交互的網絡中,三元組的顯著性分數值Θ∑分布(橙色)。
實戰應用:
在急性髓系白血病基因數據中發現新線索
隨后,研究進入了最具挑戰性的環節:在真實的生物醫學數據中挖掘三元交互。研究選取了急性髓系白血病(Acute Myeloid Leukemia, AML)的基因表達數據,并結合了人類蛋白質-蛋白質互作網絡( Protein-Protein Interaction network, PPI)作為先驗結構網絡。
通過TRIM算法對AML數據進行分析,發現了一批具有高度統計顯著性的三元交互(圖 7)。例如,三元組(GATA1, KLF1, ETV1)和(HOXB3, MEIS1, GLIS3)均被檢測為顯著三元交互,其中 GATA1、HOXB3、MEIS1 等基因已被證實與 AML 的發生發展密切相關。在排名前50的顯著三元組中,高達84%包含至少一個已知與AML相關的基因。此外,算法還檢測到部分非單調的調控關系,表明基因之間的調控作用可能比以往認為的更為復雜,需要通過更精細的模型來描述。
![]()
圖7 TRIM算法在基因表達數據中的應用結果。圖(a)展示了急性髓系白血病(Acute Myeloid Leukemia, AML)數據集中顯著三元組的分析結果:散點圖縱軸為顯著性分數Θ∑,橫軸為條件互信息(CMI),數據點顏色對應熵分數(S)的取值。本圖僅展示隨機化零模型下p值≤0.001、且未被高斯零模型排除的三元組;圓形代表所有連接均存在于最小生成樹(minimum spanning tree)中的三元組,方形代表涉及生物學相關基因的三元組。圖(b)-(c)展示了兩個代表性三元組的條件分布,兩者均被TRIM算法判定為高顯著性,提示存在具有生物學意義的關聯:圖(b)為三元組X=GATA1、Y=KLF1、Z=ETV1,根據隨機化替代零模型,該三元交互的p∑=0.00、Θ∑=4.7、∑=0.4、S=0.6;圖(c)為涉及兩個生物學相關基因的三元組X=HOXB3、Y=MEIS1、Z=GLIS3,根據隨機化替代零模型,其Θ∑=3.9、p∑=0.00、∑=0.3、S=0.6。
討論與展望:開啟復雜系統研究的新維度
這項工作為我們理解和分析復雜系統提供了一個強有力的新范式。它表明,要真正捕捉系統的組織原則,必須超越成對交互,關注那些調節交互本身的“高階紐帶”。TPM模型從理論上確立了三元交互如何編碼在動態信息流中,而TRIM算法則提供了一把實用的鑰匙,可以從觀測數據中解鎖這些隱藏的模式。
從網絡科學的角度看,這項工作為高階網絡的建模與推斷開辟了新路徑。未來的研究可以探索三元交互在離散變量節點動力系統中的作用,或引入調控的時間延遲效應。
從生物學和醫學的角度看,TRIM算法為解讀復雜的基因調控邏輯提供了新工具。它可以幫助我們系統性地發現那些“背景依賴”的調控關系——即只有在特定調控基因活躍或不活躍時,兩個基因才會發生強關聯。這對于理解疾病的機制、尋找組合藥物靶點具有深遠意義。
此外,該框架完全可以擴展到其他領域,如金融或氣候科學,具有極其廣闊的應用前景。
總而言之,這項研究不僅深刻揭示了三元交互這一普遍現象的動態本質,更將我們從“知道其存在”推進到“能夠測量和發現它”的新階段,可以成為我們解碼復雜世界深層結構的重要探針。
高階網絡社區
隨著對現實世界探索的不斷深入,人們發現在許多真實的復雜系統中,組成系統的個體之間不僅存在二元交互關系,也廣泛存在多個體同時(或以特定順序)進行交互,即高階交互現象。為此,研究人員分別發展出了基于超圖、單純復形、依賴關系等的網絡高階表示模型,為復雜網絡分析和研究提供了新的思路。
由電子科技大學呂琳媛老師、任曉龍老師及中國地質大學(北京)管青老師在集智俱樂部聯合發起了【 】。讀書會圍繞高階交互網絡的基本概念、模型、方法與應用等研究進行研討,按照「基礎理論」+「深入理論」+「案例研討」的模式展開。讀書會第一季已經圓滿結束,第二季正在籌備中。現在報名加入可以解鎖第一季全部錄播視頻并加入社群交流。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.