![]()
作者 | 北航彭浩團隊
本文介紹來自北京航空航天大學彭浩老師團隊發(fā)表在 TPAMI 2025 上的一篇文章“Proactive Bot Detection Based on Structural Information Principles”。
論文鏈接:Proactive Bot Detection Based on Structural Information Principles(
https://ieeexplore.ieee.org/document/11311341
代碼鏈接:https://github.com/SELGroup/SIAMD
機器人檢測對于打擊虛假信息、維護社交媒體在線互動的真實性至關重要。然而,機器人在模仿真實賬戶和規(guī)避檢測方面的復雜程度不斷提升,使得檢測系統(tǒng)與建模技術之間的博弈持續(xù)升級。本文提出一種基于結構信息原理的對抗性框架 SIAMD,用于對機器人行為進行建模并實現主動檢測。該框架首先將用戶賬戶與社交消息之間的多關系交互組織為統(tǒng)一的異質結構,引入結構熵量化歷史活動中固有的不確定性。通過最小化高維熵,揭示賬戶社區(qū)內的分層結構,為機器人賬戶的行為建模提供活動判定和賬戶選擇依據。針對每個建模機器人及其選定賬戶,SIAMD 提取歷史消息和用戶描述構建提示詞,并結合大語言模型生成相關消息內容。通過在原始異質網絡中嵌入合成消息節(jié)點并建立多關系交互,SIAMD 實現網絡結構與內容的協(xié)同演化,從而以對抗方式增強基于圖的主動檢測能力。在多個真實世界數據集上的大量對比實驗表明,SIAMD 在有效性、泛化性、魯棒性和可解釋性方面顯著且持續(xù)優(yōu)于當前最先進的社交機器人檢測基線模型。
對抗性檢測架構
![]()
SIAMD架構包括四個主要階段:社交網絡分析、網絡結構演化、網絡內容演化和機器人檢測優(yōu)化,在上圖中分別表示為階段 I、階段 II、階段 III 和階段 IV。
階段 I:社交網絡分析
提取用戶賬戶和社交消息之間的各種類型的歷史交互,構建異質網絡。然后預訓練一個圖神經網絡來區(qū)分機器人賬戶和人類賬戶,該網絡將在后續(xù)演化階段中用作黑箱檢測器。
階段 II:結構演化
利用異質交互中固有的結構信息,分析用戶賬戶的網絡影響力和行為相關性,并對多個機器人賬戶的未來行為進行建模。在這個階段,我們?yōu)闄C器人賬戶定義了兩個行為目標:(1)通過規(guī)避黑箱檢測系統(tǒng)來最小化檢測概率;(2)最大化其消息在賬戶間的傳播,以擴大網絡影響力。
階段 III:內容演化
解析每個建模行為的機器人賬戶、交互類型和目標賬戶,構建提示詞,并利用大語言模型生成與建模行為相關的消息內容。在異質網絡中,將生成的消息作為新頂點添加,并根據交互類型將其與建模機器人和目標賬戶連接,從而更新網絡結構和內容。
階段 IV:檢測優(yōu)化
在更新后的異質網絡上微調機器人檢測器,以最大化其識別機器人賬戶的預測概率,以對抗方式對齊行為建模的目標。每次迭代優(yōu)化后,優(yōu)化后的模型將用作下一次迭代行為建模中的黑箱檢測器,逐步提高主動檢測性能。
SIAMD 框架設計
SIAMD 框架包括四個主要模塊:社交網絡分析、網絡結構演化、網絡內容演化和對抗性機器人檢測。
A. 社交網絡分析
為保留社交消息和用戶賬戶之間歷史交互中嵌入的原始信息,我們將這些社交元素組織為統(tǒng)一的異質圖。該結構整合了各種類型的頂點(代表賬戶和消息)和邊(表示不同類型的交互),用來準確反映社交交互的復雜性。通過將這些頂點類型之間的典型關系序列定義為元路徑實例,在多關系圖結構中建模賬戶之間的多類型關系。此外,對賬戶描述和消息內容進行嵌入,以獲得能夠捕獲賬戶和消息的基本語義和結構特征的表示。
![]()
上圖中的社交網絡表示為從社交消息 M 和用戶賬戶 U 之間的歷史交互中提取的異質圖 G?。邊集 E?捕獲用戶參與的常見交互,包括發(fā)布、轉發(fā)、提及、回復和關注。對于每條消息 m∈M,使用預訓練的文本嵌入模型將原始消息文本轉換為密集向量表示 x?∈X?。對于每個賬戶 u∈U,分別從用戶描述中提取其分類特征和數值特征,并將它們連接成綜合特征表示 x?∈X?。
為保留社交元素之間存在的異質信息,將網絡 G?映射到表示賬戶頂點的非負加權多關系圖 G?=(U, X?, {E??}?∈R, W)。如果消息頂點通過 G?中的不同交互與賬戶 u?和 u?相關聯(lián),則在 G?中建立相應的多關系邊以反映這些交互。將元路徑定義為 G?中頂點類型和邊類型的特定序列,從而構建關系集 R={f, m, rt, rp}。每種關系下的不同邊集定義如下:
![]()
其中 A_f、A_p、A_m、A_rt、A_rp 分別表示異質網絡 G?中關注、發(fā)布、提及、轉發(fā)和回復關系的鄰接矩陣。對于每條邊 e???∈E??,分配一個歸一化值作為其權重,計算如下:
![]()
B. 多關系結構熵
將同質結構信息原理分別應用于每種用戶關系,然后求和得到的不確定性,隱含地將這些關系視為獨立的。這種獨立性假設使得該方法無法建模不同社交關系類型之間的聯(lián)合效應和相互依賴關系。為解決這個問題,我們在多關系加權賬戶圖上定義了一種隨機游走,其中轉移概率由所有可用的關系類型共同決定。這種構造產生了一個關于用戶的單一馬爾可夫鏈,具有獨特的平穩(wěn)分布,從中我們推導出多關系結構熵的一維度量。然后提出一種優(yōu)化算法,通過在編碼樹上應用精心設計的算子來最小化這種熵,使模型能夠利用關系之間的交互,同時保持緊湊的結構表示。
1. 轉移概率量化
對于多關系賬戶圖 G?,首先應用調整算法以確保每個單關系子圖 G??內的強連通性。具體而言,對于每種關系類型 r∈R,確保任意一對賬戶之間在關系 r 下存在有向路徑。為實現這一點,提取每個單關系子圖 G??(算法 1 的第 4 行),計算其強連通分量 C?(算法 1 的第 5 行),然后在這些分量之間添加具有小權重的有向邊,形成有向環(huán)(算法 1 的第 6-10 行)。這保證了調整后的每個 G??都是強連通的。
![]()
將調整后的圖 G'?的鄰接張量表示為 A?∈R^|U|×|U|×|R|,其中每個元素 A????表示賬戶 u?∈U 到 u?∈U 在關系 r∈R 下的非負權重有向邊。在 G'?上進行單步隨機游走時,通過關系 r 從 u?移動到 u?的概率分解如下:
其中 p (u?|r, u?) 表示給定當前賬戶 u?和關系 r 時轉移到 u?的概率,p (r|u?) 是在 u?處選擇關系 r 的概率,p (u?) 是位于賬戶 u?的先驗概率。
定理 1:給定 中賬戶間隨機游走的轉移矩陣 (P),平穩(wěn)分布 存在且唯一。該分布等同于矩陣 (P) 的最大特征值 1 對應的單一特征向量。
2. 多關系熵定義
對于不可約同質圖 (G=(V, E, W)),一維結構熵 可以用頂點 V 上的平穩(wěn)分布 表示為:
其中 是頂點 的平穩(wěn)概率。
類似地, 的一維多關系結構熵使用賬戶 \(U\) 上的平穩(wěn)分布 定義如下:
其中 是賬戶 在分布 中的平穩(wěn)概率。
基于捕獲 中關系動態(tài)的轉移張量 和 ,調整公式 4 中的項 和 。這種調整允許我們考慮更新后的關系動態(tài),從而重新定義分配的熵 為:
![]()
因此,重新定義 (G_m') 的 (K) 維多關系結構熵如下:
![]()
其中 (T_m) 遍歷 (G_m') 的所有最大高度為 (K) 的編碼樹。
3. 多關系熵優(yōu)化
為最小化高維多關系結構熵 ,采用 deDoc 算法中的合并 ( ) 和組合 ( ) 算子,迭代優(yōu)化賬戶圖 的編碼樹 ,如下圖所示。
![]()
引入項 以方便計算優(yōu)化過程中多關系熵 的變化,定義如下:
![]()
其中 和 表示節(jié)點 和 對應的賬戶子集, 表示連接子集 和 中賬戶的多關系邊的加權和。
當在兄弟節(jié)點 和 之間執(zhí)行合并操作時,創(chuàng)建一個新的樹節(jié)點 來替換 和 。具體而言, 和 的父節(jié)點被分配為 的父節(jié)點, 和 的子節(jié)點被映射到 的子節(jié)點。相關的熵變化 計算如下:
![]()
其中 表示通過合并節(jié)點 和 創(chuàng)建的新節(jié)點。
相反,當在兄弟節(jié)點 和 之間執(zhí)行組合操作時,生成一個新的樹節(jié)點 作為 和 的父節(jié)點,但 和 都不會被刪除。具體而言, 和 的父節(jié)點被重新分配給 ,而 的父節(jié)點成為 和 的原始父節(jié)點。相關的熵變化 計算如下:
![]()
其中 表示通過組合節(jié)點 和 創(chuàng)建的新節(jié)點。
C. 網絡結構演化
本小節(jié)將網絡結構的演化分解為兩個關鍵任務:社交活動判定和目標賬戶選擇。然后采用多智能體強化學習模擬每個賬戶社區(qū)內的未來交互,從而更準確、高效地建模機器人行為。默認情況下,在由樹 的根節(jié)點的子節(jié)點 表示的每個社區(qū) 中,隨機采樣 個機器人賬戶作為建模機器人賬戶,表示為 。
1. 社交活動判定
活動判定問題被表述為馬爾可夫決策過程(MDP),用元組 表示,其中 是狀態(tài)空間, 是動作空間, 是獎勵函數, 是轉移函數, 是折扣因子。
在賬戶社區(qū) U_λ?內,高層策略 π?: S?×A?→[0,1] 負責確定每個建模機器人 b?應參與哪種類型的交互 r∈R。在每個時間步 t,高層狀態(tài) s??∈S?表示所有目標機器人執(zhí)行的歷史交互的快照。為減輕隨時間增長的計算和空間開銷,定義條件分布對歷史活動序列進行編碼,該分布表示每個機器人 b?選擇特定交互類型 r∈R 的概率。然后使用該分布構建高層狀態(tài) s??∈R^k|R|。給定高層狀態(tài) s??,策略 π?選擇動作 a??∈A?,表示為二進制張量 {0,1}^k×|R|。該張量確定每個目標機器人 b?在時間步 t 的交互類型 r??。
相關獎勵 旨在反映黑箱機器人檢測器 對所有建模機器人的機器人檢測結果的預測概率變化。獎勵計算如下:
其中 和 是異質網絡 (G_h') 的更新特征表示,反映了網絡結構和內容演化引起的最新變化。
為建模規(guī)避機器人檢測的行為目標,優(yōu)化高層策略 以最大化長期期望折扣獎勵。這涉及為建模機器人選擇適當的交互類型,以降低機器人檢測器 的預測概率。優(yōu)化目標形式化如下:
2. 目標賬戶選擇
目標賬戶選擇問題被建模為多智能體 MDP,用元組 表示,其中 是建模機器人(智能體)集合, 是狀態(tài)空間, 是動作空間, 是獎勵函數。轉移函數 和折扣因子與高層 相同。
在賬戶社區(qū) 內,低層策略 確定建模機器人 通過高層策略 選擇的交互類型 與哪個人類或機器人賬戶連接。當策略 選擇目標賬戶時,考慮每個用戶賬戶的兩個主要因素:
網絡影響力:網絡影響力越大的用戶賬戶被選中的概率越高。
行為相關性:與機器人 行為相關性越大的用戶賬戶被選中的可能性越高。
為量化這些因素,為每個賬戶 定義兩個關鍵指標: 和 。這些指標基于多關系熵,量化 的網絡影響力及其與 的行為相關性。計算如下:
![]()
其中 表示確定賬戶 在隨機交互中的參與程度所需的比特數,反映其網絡影響力。另一方面, 表示 和 在隨機交互中的參與模式之間的共享比特數,表明賬戶 與機器人 的行為相關性。
通過將這些指標融入社區(qū)$ U_λ?誘導的子圖的結構嵌入中,構建時間步 t 的低層狀態(tài) s??∈S?。對于每個賬戶 u∈U_λ?,狀態(tài) s??∈R^|U_λ?|(d+2) 包括影響力指標 ni (u)、相關性指標 br (b?, u)(每個大小為 1)以及使用無監(jiān)督編碼方法 node2vec 獲得的大小為 d 的頂點嵌入。基于此低層狀態(tài) s??,建模機器人 b?的策略 π??選擇目標賬戶 u∈U_λ?以建立新的類型 r 的交互,表示為大小為 | U_λ?| 的獨熱動作 a??。
低層獎勵 定義為所有建模機器人的影響力指標之和,給出如下:
其中 表示建模機器人 的網絡影響力。
為建模最大化所有建模機器人總影響力的行為目標,優(yōu)化多智能體低層策略 (\pi_l),優(yōu)化目標形式化如下:
D. 網絡內容演化
利用演化后的網絡結構,識別建模機器人、目標賬戶和交互類型,構建相關且上下文適當的提示詞。然后使用這些提示詞由大型語言模型(LLMs)生成消息內容。在異質社交網絡中,引入帶有生成內容的新消息頂點,并建立建模機器人與其目標賬戶之間的交互,從而模擬網絡在結構和內容上的動態(tài)演化。
我們將用戶元數據、歷史內容和社交結構整合到基于提示詞的方法中,使 LLMs 能夠生成上下文準確且相關的預測。如圖 6 所示,該過程包括三個階段:背景表示、任務表述和通過上下文學習生成內容。
![]()
為了讓 LLMs 充分理解賬戶檔案和交互,受先前在自然語言輸入中利用結構化數據的工作的啟發(fā),從三個維度表示背景知識:
元數據:將賬戶的分類信息(包括關注者數量、關注數量和賬戶描述)重新表述為自然語言序列。
內容:使用用戶嵌入和基于相似度的文本檢索技術,從每個機器人中識別出與目標賬戶的嵌入向量余弦相似度最高的三條推文。
結構:將每個賬戶的關注和被關注關系編碼為自然語言列表,因為研究表明基于圖的表示在社交網絡任務中具有實用性。
預測任務表述簡潔,最大限度地減少不必要的重復,并有效利用背景知識為生成模型創(chuàng)建清晰且有針對性的指令。例如,任務可能被表述為:“任務:根據賬戶 [發(fā)送者] 和賬戶 [接收者] 過去的交互和上下文信息,生成賬戶 [發(fā)送者] 最有可能發(fā)送給賬戶 [接收者] 的 [交互類型] 類型消息。”
實驗結果
為評估 SIAMD 框架的檢測性能,使用來自 Bot Repository 的四個知名機器人數據集Cresci-15、Cresci-17、TwiBot-20 和 TwiBot-22進行對比實驗。 將 SIAMD 的檢測性能與三類最先進的基線進行比較:基于特征的方法(包括 BotHunter 和 SGBot)、基于內容的方法(包括 BGSRD 和 RoBERTa)以及基于圖的方法(如 GraphHist 、SATAR 、Botometer 、SimpleHGN 、BotRGCN 和 RGT)。
![]()
泛化能力
![]()
該圖展示了每個模型準確率的熱力圖以及相應的平均值和標準差。與三個基線相比,SIAMD 在所有折疊對中的檢測性能始終最佳,實現了最高的平均準確率 84.05 和最低的標準差 5.91。在三個基線算法表現明顯較低的測試折疊 1 上,SIAMD 的準確率至少達到 75.1。這表明我們引入的網絡演化過程有效地補償了訓練和測試折疊之間的差異,從而確保 SIAMD 表現出強大的泛化性能。
泛化能力
為了驗證 SIAMD 的魯棒性,引入了一種由大語言模型(LLMs)驅動的攻擊算法,即 LLaMA2-70b 和 ChatGPT,以操縱 TwiBot-20 中機器人賬戶的內容和結構信息。對于內容信息,從人類賬戶中檢索相似度最高的 3 條消息,并提示 LLM 生成模仿這些示例的重寫消息。對于結構信息,向 LLM 提供目標機器人的元數據和歷史交互,通過添加或刪除其社交鄰居來修改其網絡結構。
![]()
在 TwiBot-20 中經過 LLM 操縱的機器人賬戶上,評估了 SIAMD 框架和所有基線方法的準確率和 F1 分數檢測性能,結果如上表所示。與先前工作中的觀察結果一致,使用 LLaMA2-70B 模型進行的對抗性操縱導致基于特征、基于內容和基于圖的檢測器的性能下降更大。與其他基線模型相比,SIAMD 在兩種攻擊場景中始終實現最高的檢測準確率和 F1 分數,同時表現出最小的性能下降。SIAMD 框架中的對抗性檢測機制主動模擬網絡結構和內容中潛在的干擾場景,從而增強了其檢測魯棒性。
可解釋性
為了驗證 SIAMD 的可解釋性,從 TwiBot-22 網絡中提取一個子社區(qū),對三個機器人賬戶的行為進行建模(用不同顏色表示),并可視化它們在不同時間步的子社區(qū)內的結構關系,如下圖所示。為清晰起見,僅可視化子社區(qū)內賬戶之間的有向交互,省略了特定的交互類型。還通過在各自的子圖中采用不同的顏色和更粗的邊來突出顯示三個機器人賬戶的建模行為。
![]()
紅色機器人主要關注或轉發(fā)原始子社區(qū)內的其他賬戶,很少表達自己的觀點。因此,檢測算法將其分類為人類賬戶。它經常回復和提及其他賬戶,特別是網絡中影響力較低的賬戶。黃色機器人賬戶更有可能在子社區(qū)內表達自己的觀點以影響公眾輿論,導致其被分類為機器人賬戶。在原始社區(qū)中,綠色機器人參與的社交交互較少,表現出的行為模式也較少,導致其被分類為人類賬戶。這類賬戶主要模仿人類賬戶的行為,通過與他人的雙向交互傳播公眾輿論。
此外,觀察到三個機器人賬戶在選擇交互目標賬戶時存在重疊。這是由于這些賬戶之間建模的協(xié)作關系,選擇相同的交互目標可以提高輿論操縱的效果。
敏感性分析
![]()
如上圖所示,無論使用哪種模型,SIAMD 框架在所有數據集上始終表現出優(yōu)越的檢測性能,特別是在準確率和 F1 分數方面。盡管兩個 SIAMD 變體在不同數據集上的性能有所不同,但它們相對于基線算法的優(yōu)勢仍然相當。這表明我們框架的有效性不依賴于任何特定的大語言模型。
消融實驗
![]()
在所有數據集上,完整的 SIAMD 的檢測性能優(yōu)于其兩個變體,而這兩個變體又優(yōu)于底層檢測算法 GCN。這突出了對抗性架構和網絡演化在提高檢測性能方面的性能優(yōu)勢。此外,與 SIAMD-SE 相比,SIAMD-CE 變體表現出明顯更好的性能,強調了基于結構信息原理的行為建模在框架中的關鍵作用。
篇幅原因,我們在本文中省略了諸多細節(jié),更多細節(jié)可以在論文中找到。感謝閱讀!
技術人的年度儀式感! 年度盤點與趨勢洞察 啟動!
《2025 年度盤點與趨勢洞察》由 InfoQ 技術編輯組策劃。覆蓋大模型、Agent、具身智能、AI Native 開發(fā)范式、AI 工具鏈與開發(fā)、AI+ 傳統(tǒng)行業(yè)等方向,通過長期跟蹤、與業(yè)內專家深度訪談等方式,對重點領域進行關鍵技術進展、核心事件和產業(yè)趨勢的洞察盤點。
力求以體系化視角幫助讀者理解年度技術演化的底層邏輯、創(chuàng)新方向與落地價值,并為新一年決策提供參考。內容將在 InfoQ 媒體矩陣陸續(xù)放出,歡迎大家持續(xù)關注。
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.