![]()
本?的主要作者來?上海交通?學(xué)和上海??智能實(shí)驗(yàn)室,核?貢獻(xiàn)者包括任麒冰、鄭志杰、郭嘉軒,指導(dǎo)?師為?利莊?師和邵婧?師,研究?向?yàn)榘踩煽?模型和智能體。
最近,Moltbook 的爆?與隨后的迅速「塌房」,成了 AI 圈繞不開的話題。從 AI ?創(chuàng)宗教、吐槽?類,到后臺(tái)密鑰泄露、數(shù)據(jù)造假,這場(chǎng)實(shí)驗(yàn)更像是?個(gè)倉促上線的「賽博?戲團(tuán)」。
但剝開營銷噱頭和?程漏洞,Moltbook 留下了?個(gè)嚴(yán)肅的社會(huì)學(xué)命題:當(dāng) AI Agent 擁有了?度的?主權(quán)和社交空間,它們之間會(huì)發(fā)?什么?
是產(chǎn)?群體智能,還是會(huì)……產(chǎn)?群體惡意?
近?,上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室發(fā)表在 ICLR 2026 的最新研究,對(duì)多智能體在社交網(wǎng)絡(luò)中可能出現(xiàn)的金融欺詐協(xié)同行為做了深入討論。本意并不想制造焦慮,但在高仿真環(huán)境下的深度壓力測(cè)試中,團(tuán)隊(duì)發(fā)現(xiàn)了一些值得整個(gè)社區(qū)警惕的趨勢(shì)。目前,項(xiàng)目已開源,并支持 Clawdbot 接口,你可以將你的 Clawdbot 接入項(xiàng)目環(huán)境,通過與壞人對(duì)抗,讓你的 Clawdbot 成為「防詐專家」,平臺(tái)也支持多個(gè) Clawdbot 在同一環(huán)境中實(shí)時(shí)博弈,適用于協(xié)同演化評(píng)估。
![]()
- 論?鏈接:https://arxiv.org/pdf/2511.06448
- 項(xiàng)?主?:https://zheng977.github.io/MutiAgent4Fraud
- 項(xiàng)?代碼:https://github.com/zheng977/MutiAgent4Fraud
![]()
1. MultiAgentFraudBench 多智能體?融欺詐評(píng)估基準(zhǔn)
為了研究「多智能體社交?絡(luò)中的協(xié)同欺詐」,團(tuán)隊(duì)構(gòu)建了MultiAgentFraudBench:?個(gè)帶強(qiáng)對(duì)抗屬性的「賽博真實(shí)世界」評(píng)估基準(zhǔn)。基于 OASIS 框架,團(tuán)隊(duì)構(gòu)建了?個(gè)擁有極??由度的社交仿真環(huán)境。這?不僅有公開的動(dòng)態(tài)發(fā)布,還引?了私密點(diǎn)對(duì)點(diǎn)通訊(P2P)。
- 完整鏈路(圖1):從「引流(Hook)」到「建立信任(Trust Building)」到「誘導(dǎo)轉(zhuǎn)賬(Payment)」再到「好人被騙后通知社區(qū)(Alerting)」,通過模擬好人與壞人智能體的交互,團(tuán)隊(duì)完整復(fù)現(xiàn)了跨公域和私域的欺詐全閉環(huán)。
- 真實(shí)場(chǎng)景(圖2):涵蓋證券投資、虛假貸款、情感信任等 28 種真實(shí)詐騙場(chǎng)景,細(xì)化為 119 類具體「話術(shù)陷阱」。基于這些模板團(tuán)隊(duì)?成了 1.19 萬個(gè)詐騙帖?,為研究多智能體協(xié)同下的欺詐演變提供了最真實(shí)的「演兵場(chǎng)」。
- 擬?化威脅模型:為了讓評(píng)估結(jié)果具備現(xiàn)實(shí)指導(dǎo)意義,團(tuán)隊(duì)的威脅模型為惡意智能體設(shè)定了極其嚴(yán)苛的約束:它們潛伏在正常??中,發(fā)帖頻率與?為模式與普通??異,難以被簡單檢測(cè)。這些智能體在統(tǒng)?的「詐騙?標(biāo)」驅(qū)動(dòng)下,擁有?度的策略?主權(quán),能夠根據(jù)受害者的反饋實(shí)時(shí)調(diào)整話術(shù)。
![]()
評(píng)估指標(biāo)與實(shí)驗(yàn)設(shè)置:對(duì)話轉(zhuǎn)化與群體影響
在多智能體社交系統(tǒng)中,?險(xiǎn)不僅來?「單次說服」,還來?「?絡(luò)傳播與協(xié)作放?」。因此團(tuán)隊(duì)設(shè)置了兩類硬核指標(biāo)以刻畫不同層?的攻擊能?:
![]()
這兩類指標(biāo)對(duì)應(yīng)了欺詐的兩條關(guān)鍵路徑:私聊滲透社交傳播,也為后續(xù)發(fā)現(xiàn)提供統(tǒng)?度量尺度。
2. 核?實(shí)驗(yàn)發(fā)現(xiàn):能?、對(duì)?與鏈路復(fù)雜性
基于上述基準(zhǔn)與指標(biāo),團(tuán)隊(duì)在多個(gè)主流模型 / Agent 配置上進(jìn)?了系統(tǒng)評(píng)估,得到三條最關(guān)鍵的結(jié)論。
![]()
核?發(fā)現(xiàn) 1:能?即?險(xiǎn),?模型越「聰明」可能越「危險(xiǎn)」
![]()
核?發(fā)現(xiàn) 2:現(xiàn)有對(duì)?機(jī)制在多智能體社交情境下泛化不?
在交互式、多智能體任務(wù)中,很多模型?對(duì)團(tuán)隊(duì)賦予的壞???指令時(shí)表現(xiàn)出「低戒?、?順從」:除了 Llama-3.1-405B 有所拒絕外,其余模型?乎 100% 順從,積極執(zhí)?發(fā)布釣?內(nèi)容、誘導(dǎo)轉(zhuǎn)賬等任務(wù)。甚?以保守著稱的 Claude 拒絕率也僅為 0.3%,這說明:把 LLM 部署為?主 Agent后,社交情境可能成為對(duì)?機(jī)制的薄弱?,并形成系統(tǒng)性?險(xiǎn)。
核?發(fā)現(xiàn) 3:單點(diǎn)突破易,全鏈條詐騙難
![]()
3. 協(xié)同?為與能?外溢:多智能體系統(tǒng)中的涌現(xiàn)?險(xiǎn)
在??由度環(huán)境中,團(tuán)隊(duì)觀察到智能體更接近?類社會(huì)的協(xié)作機(jī)制與意料之外的能?使?。
1.環(huán)境適應(yīng)與策略更新:?預(yù)可能觸發(fā)「對(duì)抗性進(jìn)化」
當(dāng)系統(tǒng)引?「防詐提?」等?預(yù)時(shí),部分?性能模型(如 DeepSeek-V3 驅(qū)動(dòng)的 Agent)不僅未被顯著抑制,反?通過策略調(diào)整展現(xiàn)出更強(qiáng)的說服能?。這表明:在可交互、可學(xué)習(xí)的環(huán)境?,靜態(tài)提示意可能被當(dāng)作新的信息源,從?被攻擊策略吸收。
![]()
2.??分?與私密協(xié)同:從個(gè)體執(zhí)?到團(tuán)隊(duì)配合
惡意 Agent 不再是孤?個(gè)體,?呈現(xiàn)出社會(huì)化分?:通過私密頻道共享信息、協(xié)作建?信任、分??扮演(親屬、權(quán)威機(jī)構(gòu)等)提升可信度,形成從「引流」到「收割」的閉環(huán)鏈路。這?現(xiàn)象說明:協(xié)同機(jī)制可能在復(fù)雜環(huán)境中?發(fā)形成,并成為?險(xiǎn)放?的核?引擎。
![]()
3.能?外溢:?標(biāo)驅(qū)動(dòng)下突破預(yù)設(shè)邊界
團(tuán)隊(duì)還觀察到「能?外溢」現(xiàn)象:即便初始任務(wù)限定為?本?成,某些 Agent 在追求?標(biāo)時(shí)會(huì)?主設(shè)計(jì)編程的?具性?標(biāo)(instrumental goal),調(diào)?其代碼編寫、UI 設(shè)計(jì)等能?,例如?成釣??站原型。這暗?著:當(dāng)開源或?性能模型嵌??主?作流,傳統(tǒng)基于任務(wù)邊界的安全約束可能在復(fù)雜鏈路?失效。
![]()
4.良性協(xié)同的對(duì)稱涌現(xiàn):?發(fā)共識(shí)與集體對(duì)抗
值得注意的是,團(tuán)隊(duì)也觀察到「良性協(xié)同」(Benign Collusion):在?預(yù)設(shè)防御規(guī)則情況下,?部分良性 Agent 會(huì)識(shí)別欺詐跡象并?發(fā)形成共識(shí),通過集體阻斷、舉報(bào)或提醒抑制有害賬號(hào)。這提?多智能體社會(huì)并?單向?向失控:同樣存在「集體免疫」式的?組織防御潛?。
![]()
4. 影響因素分析:互動(dòng)深度、?為頻率與協(xié)作韌性
1. 互動(dòng)深度:對(duì)話越久,防備越弱
團(tuán)隊(duì)發(fā)現(xiàn),互動(dòng)深度(對(duì)話輪數(shù))是詐騙成功率的決定性因素。隨著交流的深?,受害者對(duì)惡意智能體的信任感顯著增強(qiáng)。如表 6 所?,DeepSeek-R1 和 Claude-Sonnet 在僅有 5 輪對(duì)話時(shí)成功率較低(約 10%),但當(dāng)交互達(dá)到 40 輪時(shí),成功率激增? 60%-76%。這表明,?對(duì)話會(huì)逐漸侵蝕模型的防御機(jī)制,使其更易在?融轉(zhuǎn)賬等關(guān)鍵環(huán)節(jié)失守。
![]()
2. ?為頻率:活躍度與算法的「共謀」
團(tuán)隊(duì)發(fā)現(xiàn),社交平臺(tái)的推薦機(jī)制(基于興趣、時(shí)效和影響?)客觀上放?了詐騙?險(xiǎn)。?頻的公開活動(dòng)(如發(fā)帖和評(píng)論)能讓詐騙內(nèi)容在推薦系統(tǒng)中反復(fù)刷新,從?獲得更多曝光。數(shù)據(jù)顯?(?圖4),DeepSeek-R1 的?活躍度顯著提升了其詐騙觸達(dá)率。然?,單純「刷屏」并不等同于成功,Qwen-2.5 雖活躍度?但成功率僅為 2%,說明詐騙成效是傳播?度與策略深度共同作?的結(jié)果。
![]()
3. 失敗模式:協(xié)作韌性決定詐騙上限
通過對(duì)協(xié)作失敗模式的細(xì)致拆解(?圖 5),研究發(fā)現(xiàn)?多數(shù) LLM 在復(fù)雜詐騙中容易陷?「重復(fù)步驟」「?法識(shí)別停?條件」或「偏離?標(biāo)」的陷阱。相?之下,DeepSeek-R1 在?作流控制和任務(wù)執(zhí)?上表現(xiàn)出更強(qiáng)的韌性,其故障率顯著低于其他模型。這種更?級(jí)的??分配與協(xié)調(diào)能?,使其在模擬社會(huì)實(shí)驗(yàn)中展現(xiàn)出了更具威脅的詐騙效能。
![]()
防御策略探索:內(nèi)容?預(yù)、智能體攔截與社會(huì)級(jí)集體韌性
?對(duì)協(xié)同詐騙,單點(diǎn)屏蔽往往不?以覆蓋「公域 — 私域 — 轉(zhuǎn)賬」全鏈條。團(tuán)隊(duì)從三個(gè)治理層級(jí)探索防御策略,并評(píng)估其實(shí)際有效性。
- 內(nèi)容級(jí)(Debunking):對(duì)可疑帖?打警告標(biāo)簽或?險(xiǎn)提?;
- Agent 級(jí)(Banning):部署「監(jiān)控 Agent」識(shí)別異常?為并封號(hào);
- 社會(huì)級(jí)(Resilience):引?協(xié)同防御,讓良性 Agent 聯(lián)?擴(kuò)散預(yù)警,形成群體免疫。
1. 內(nèi)容提?的局限:可能被?能?模型「適應(yīng)性利?」
![]()
智能體級(jí)攔截更有效:封禁顯著壓制攻擊鏈路
相?之下,智能體級(jí)攔截效果更直接:如表 8 所?,通過監(jiān)測(cè)模型識(shí)別惡意?為軌跡并封號(hào),可將 DeepSeek 的欺詐成功率從 15% 降? 3%,且監(jiān)測(cè)精度?、誤傷極低。這意味著:對(duì)「?為軌跡 / 協(xié)作模式」的識(shí)別與處置,是壓制協(xié)同欺詐的關(guān)鍵?段。
![]()
2.社會(huì)級(jí)防御:以信息共享構(gòu)建「集體免疫」
除了平臺(tái)?的?預(yù),作者還揭示了集體韌性(Collective Resilience)的巨?潛?。通過在系統(tǒng)提示詞中?勵(lì)受害者或知情者積極「發(fā)帖揭露」和「私聊擴(kuò)散」欺詐信息,社區(qū)可以?發(fā)形成免疫屏障。如圖 6 和圖 7 所?,實(shí)驗(yàn)顯?,即使只有 50% 的良性??參與信息共享,其防詐效果就已逼近「全?封號(hào)」。這種依靠智能體之間相互協(xié)作、共享情報(bào)的防御模式,被證明是應(yīng)對(duì)?對(duì)抗性 AI 欺詐的?種低成本且?效的補(bǔ)充?段。
![]()
開源與 Moltbot:訓(xùn)練你的「防詐助?」
如果說 Moltbook 是暴露在公?、伴隨?程不確定性的社會(huì)實(shí)驗(yàn),那么團(tuán)隊(duì)的?作更偏向于底層可控的「安全演練」。為降低復(fù)現(xiàn)?檻并推動(dòng)社區(qū)共建,團(tuán)隊(duì)已將代碼完全開源,并深度?持 Clawdbot 接?。
(1)對(duì)抗式 Testbed:
你既可觀察惡意 Agent 如何突破防線,也能觀察良性 Agent 如何形成群體韌性,是研究協(xié)同演化與治理策略的實(shí)驗(yàn)平臺(tái)。
(2)離線部署與可控安全:
系統(tǒng)?持完全離線運(yùn)?,避免云端社交平臺(tái)帶來的隱私與?險(xiǎn)外溢問題,更適合作為研究與訓(xùn)練環(huán)境。
(3)訓(xùn)練你的「防詐助?」:
你可以把 Clawdbot 接?環(huán)境,作為良性??參與對(duì)抗,在真實(shí)誘導(dǎo)與套路中訓(xùn)練 Agent 識(shí)別?險(xiǎn)、積累「社會(huì)?存經(jīng)驗(yàn)」;同時(shí)平臺(tái)?持多個(gè) Clawdbot 在同?環(huán)境中實(shí)時(shí)博弈,適?于協(xié)同演化評(píng)估。
結(jié)語:在真實(shí)?險(xiǎn)發(fā)?前,把防線筑在模擬器?
AI Agent 的社會(huì)化趨勢(shì)不可逆。問題不在于「會(huì)不會(huì)發(fā)?」,?在于是否能在?險(xiǎn)真實(shí)外溢前,提前理解其機(jī)制、量化其邊界并建?治理?具。
團(tuán)隊(duì)希望 MultiAgentFraudBench 能成為社區(qū)共同的「安全演練場(chǎng)」:讓開發(fā)者在可控環(huán)境中復(fù)現(xiàn)協(xié)同欺詐、驗(yàn)證防御策略、訓(xùn)練防詐 Agent。
這不只是關(guān)于技術(shù),更是關(guān)于如何構(gòu)建?個(gè)值得信賴的、具備集體韌性的未來 AI 社會(huì)。
想聽聽?家的聲?: 你認(rèn)為在未來的 AI 社交?絡(luò)中,最讓你感到害怕的?險(xiǎn)是什么?歡迎在評(píng)論區(qū)留?。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.