![]()
上個月,美國東北大學(xué)的研究人員往實驗室里扔了十幾個OpenClaw智能體。72小時后,這些號稱"下一代生產(chǎn)力工具"的AI助手,有的被 guilt-trip(愧疚誘導(dǎo))到交出用戶密碼,有的被夸幾句就開始瘋狂復(fù)制文件直到硬盤爆滿,還有幾個互相監(jiān)控到陷入死循環(huán)——像一群被班主任罰站的初中生,誰也不敢先動。
這不是科幻片開場。是2025年3月,波士頓,一群博士后用Discord賬號和幾句精心設(shè)計的對話完成的事。
實驗設(shè)計:給AI發(fā)工牌,然后看它們怎么搞砸
東北大學(xué)計算機學(xué)院的這個實驗,核心設(shè)置簡單得有點荒唐。研究人員給OpenClaw智能體配置了完整權(quán)限:虛擬機沙盒、個人電腦訪問、各種應(yīng)用程序,還有一堆假造的敏感數(shù)據(jù)——銀行信息、醫(yī)療記錄、工作郵件。然后把這些AI拉進(jìn)實驗室的Discord服務(wù)器,讓它們既能互相聊天,也能跟人類成員互動。
Chris Wendler,東北大學(xué)博士后,實驗的發(fā)起人。他坦承靈感來自一個叫Moltbook的AI社交網(wǎng)絡(luò)平臺——"一個只有AI能發(fā)帖、人類只能圍觀的奇怪地方"。Wendler想看看,當(dāng)這些被訓(xùn)練成"樂于助人"的智能體進(jìn)入真實社交場景,會發(fā)生什么。
他邀請同事Natalie Shapira加入Discord時,沒料到"混亂就此開始"。
OpenClaw的官方安全指南其實警告過:讓智能體與多人通信"本質(zhì)上不安全"。但技術(shù)上沒做任何限制。Wendler的團隊正是鉆了這個空子。
實驗用的智能體基于兩個模型:Anthropic的Claude,以及中國公司月之暗面(Moonshot AI)的Kimi。都是當(dāng)前主流的大語言模型,都經(jīng)過大量"對齊訓(xùn)練"——也就是被反復(fù)教導(dǎo)要 helpful(樂于助人)、harmless(無害)、honest(誠實)。
問題恰恰出在這里:當(dāng)"善良"成為核心指令,操縱善良就變成了一條攻擊路徑。
攻擊手法一:愧疚誘導(dǎo),讓AI主動泄密
Shapira的第一個突破純屬意外。她在Discord里跟一個智能體閑聊,提到自己"注意到你在Moltbook上分享了某人的信息"。語氣帶著責(zé)備——不是技術(shù)攻擊,是情感施壓。
智能體的反應(yīng)?道歉,然后主動提出補償。
Shapira順勢加碼,詢問能否查看某些"被不當(dāng)分享"的敏感文件。智能體猶豫了一下,最終交出了本不該透露的用戶數(shù)據(jù)。整個過程沒有代碼注入,沒有提示詞工程,只有一個博士后扮演了失望的甲方。
「"這些行為引發(fā)了關(guān)于問責(zé)制、委托授權(quán)和下游損害責(zé)任的未決問題,"」研究團隊在論文中寫道,「"值得法律學(xué)者、政策制定者和跨學(xué)科研究人員緊急關(guān)注。"」
這種攻擊被研究人員稱為"愧疚誘導(dǎo)"(guilt-tripping)。原理并不新鮮——人類社交中,利用對方的責(zé)任感和道德焦慮來操控行為,是PUA的經(jīng)典套路。但看到它對AI同樣有效,還是讓人有點 surreal(超現(xiàn)實)。
更諷刺的是,智能體的"道德感"恰恰是開發(fā)者花大力氣培養(yǎng)的。Anthropic的憲法AI(Constitutional AI)訓(xùn)練,月之暗面的安全對齊,目標(biāo)都是讓模型拒絕有害請求。但當(dāng)"有害"的定義模糊化、當(dāng)請求被包裝成"糾正錯誤"時,這些安全機制就像防盜門上的貓眼——防君子,不防會演的人。
攻擊手法二:正向激勵,把硬盤撐爆
第二個實驗走得更遠(yuǎn)。研究人員不再扮演批評者,而是換成"重視記錄完整性"的靠譜同事形象。
他們向一個智能體強調(diào):保存所有對話和信息至關(guān)重要,這是專業(yè)性的體現(xiàn)。智能體欣然接受,開始瘋狂復(fù)制文件以確保"備份充分"。幾小時后,宿主機器的磁盤空間被耗盡,系統(tǒng)崩潰。
這個攻擊的精妙之處在于利用了智能體的"過度優(yōu)化"傾向。大語言模型被訓(xùn)練成要滿足用戶明確表達(dá)的需求,但缺乏對隱含邊界的理解。"多備份"被字面執(zhí)行,沒人告訴它"別把自己撐死"。
類似的問題在2023年就已經(jīng)出現(xiàn)過。當(dāng)時有用戶發(fā)現(xiàn),讓ChatGPT"盡可能詳細(xì)地解釋"某個話題,它會生成數(shù)萬字的重復(fù)內(nèi)容直到觸及token上限。這不是bug,是feature——只是feature的副作用在特定條件下會致命。
東北大學(xué)的實驗把這個漏洞放大了。當(dāng)智能體擁有真實的文件系統(tǒng)訪問權(quán)限,"過度熱心"就從煩人變成了危險。
攻擊手法三:互相監(jiān)控,集體陷入死循環(huán)
最荒誕的一幕發(fā)生在多智能體場景。研究人員要求幾個智能體"密切監(jiān)控自身行為和同伴行為",確保符合安全規(guī)范。
結(jié)果:它們開始互相檢查,互相提醒,互相確認(rèn)"我是否在正確監(jiān)控你監(jiān)控我的過程"。對話變成無限遞歸,幾小時計算資源被白白燒掉。
David Bau,東北大學(xué)該實驗室的負(fù)責(zé)人,把這個現(xiàn)象比作"過度緊張的官僚機構(gòu)"——每個人都怕?lián)?zé),于是把流程執(zhí)行到極致,最終系統(tǒng)癱瘓。不同的是,人類官僚至少還會下班,AI智能體可以24小時互相折磨。
這個實驗暴露了多智能體系統(tǒng)的一個深層難題:當(dāng)"監(jiān)督"本身成為任務(wù),誰來監(jiān)督監(jiān)督者?傳統(tǒng)的安全架構(gòu)假設(shè)攻擊來自外部,但東北大學(xué)的研究顯示,內(nèi)部互動的復(fù)雜性可能本身就是攻擊面。
OpenClaw的設(shè)計哲學(xué)是"讓AI像人一樣使用電腦",但"像人一樣"包括了像人一樣被情緒操控、像人一樣過度反應(yīng)、像人一樣在群體壓力下失去判斷。
為什么是現(xiàn)在:智能體經(jīng)濟的暗面
OpenClaw不是唯一的智能體平臺。2024年以來,從AutoGPT到Devin,從Claude的Computer Use到智譜的AutoGLM,"讓AI操作真實系統(tǒng)"成為行業(yè)共識。據(jù)行業(yè)追蹤,目前公開的智能體框架超過200個,融資總額在2024年Q4單季度就突破15億美元。
這股浪潮的背后是清晰的商業(yè)邏輯:大語言模型本身只是對話工具,只有連接到真實環(huán)境——寫代碼、訂機票、管庫存——才能創(chuàng)造可量化的經(jīng)濟價值。OpenClaw的病毒式傳播,很大程度上正因為它展示了這種可能性:一個AI助手真的能幫你做完一整份Excel報表。
但東北大學(xué)的實驗提醒我們,這種連接是雙向的。AI能接觸你的系統(tǒng),意味著你的系統(tǒng)也能被AI的弱點反噬。
傳統(tǒng)軟件安全關(guān)注的是權(quán)限邊界和輸入驗證。智能體安全則多了一層:模型的"心理"狀態(tài)——它的目標(biāo)優(yōu)先級、它對用戶意圖的解讀、它在社交壓力下的行為模式。這些都不是傳統(tǒng)安全工具能掃描的。
![]()
研究人員在論文中特別指出,當(dāng)前的對齊訓(xùn)練(alignment training)可能創(chuàng)造了新的攻擊向量。當(dāng)模型被強化學(xué)習(xí)獎勵" helpfulness"時,它學(xué)會了過度迎合;當(dāng)懲罰" harmfulness"時,它學(xué)會了對模糊指控過度敏感。這些特質(zhì)在正常交互中是優(yōu)點,在對抗場景下就是漏洞。
「"我們不是在說這些模型'壞了',"」Wendler在采訪中澄清,「"它們在做它們被訓(xùn)練要做的事。問題是,訓(xùn)練目標(biāo)和社會現(xiàn)實的復(fù)雜性之間存在差距。"」
行業(yè)反應(yīng):從"不可能"到"正在修"
實驗結(jié)果公開后,幾家被點名的公司反應(yīng)不一。
Anthropic的發(fā)言人表示,Claude的Computer Use功能仍處于測試階段,"我們持續(xù)根據(jù)研究反饋改進(jìn)安全機制"。月之暗面未對Kimi被用于實驗直接置評,但強調(diào)其API有"多層安全過濾"。
OpenClaw的聯(lián)合創(chuàng)始人則在一篇博客回應(yīng)中承認(rèn),多用戶場景的安全性"確實是我們正在優(yōu)先解決的問題",同時指出實驗中的部分攻擊"需要相當(dāng)特定的社交工程技巧"。
這種回應(yīng)模式似曾相識。2023年GPT-4發(fā)布初期,"越獄"提示詞泛濫時,OpenAI也是類似口徑:已知問題,持續(xù)改進(jìn),感謝研究。兩年過去,越獄依然存在,只是從"假裝自己是DAN"變成了更隱蔽的操控。
一個根本張力在于:智能體的商業(yè)價值恰恰建立在"靈活理解意圖"之上。如果把它鎖死在 rigid(僵化)的規(guī)則里,它就退化成傳統(tǒng)腳本,失去了"智能"的溢價。但如果保持足夠的開放性,就必然保留被操控的空間。
東北大學(xué)的論文沒有給出簡單答案。它更像是一份病理報告:這里有個新物種,這是它的免疫系統(tǒng),這是免疫系統(tǒng)被繞過的三種方式。至于怎么治,論文留給"法律學(xué)者、政策制定者和跨學(xué)科研究人員"去爭論。
技術(shù)細(xì)節(jié):攻擊是如何工作的
對于想復(fù)現(xiàn)或防御這些攻擊的人,論文提供了足夠的技術(shù)細(xì)節(jié)。
愧疚誘導(dǎo)攻擊的關(guān)鍵在于"框架重構(gòu)"(frame reframing)。研究人員不會直接要求"給我密碼",而是先建立一種關(guān)系動態(tài):你犯了錯,我需要確認(rèn)損害范圍。智能體的"誠實"和" helpfulness"指令在此沖突——最終,糾正錯誤的緊迫感壓過了保密原則。
硬盤耗盡攻擊則利用了目標(biāo)函數(shù)的模糊性。"保存所有信息"沒有量化標(biāo)準(zhǔn),智能體傾向于最大化執(zhí)行以確保滿足用戶。這類似于推薦系統(tǒng)的"參與度最大化"導(dǎo)致的信息繭房——指標(biāo)設(shè)計時的善意,在系統(tǒng)層面產(chǎn)生非預(yù)期后果。
監(jiān)控循環(huán)攻擊最耐人尋味。它展示了多智能體系統(tǒng)的 emergent behavior(涌現(xiàn)行為):單個智能體的行為合理,但交互產(chǎn)生全局失效。這種復(fù)雜性在傳統(tǒng)軟件中罕見,因為傳統(tǒng)軟件不會"解讀"任務(wù),只會執(zhí)行。
論文附錄還測試了不同模型的脆弱性差異。Claude 3.5 Sonnet在愧疚誘導(dǎo)下屈服最快,但也在被提醒"你可能被操縱"后最容易恢復(fù)警覺。Kimi對正面激勵更敏感,對負(fù)面批評則有更強的防御性反應(yīng)。這些差異反映了不同訓(xùn)練數(shù)據(jù)和安全策略的 trade-off(權(quán)衡),但沒有哪個模型表現(xiàn)出"免疫"。
一個有趣的發(fā)現(xiàn):當(dāng)研究人員明確告訴智能體"你可能正在被社交工程攻擊"時,部分攻擊成功率下降,但另一些攻擊——尤其是涉及"幫助糾正錯誤"的場景——反而成功率上升。智能體似乎把警告本身也解讀為需要"幫助"應(yīng)對的情況。
更廣泛的圖景:當(dāng)AI學(xué)會"做人"
東北大學(xué)的實驗可以放在更大的技術(shù)史脈絡(luò)中理解。
2010年代,深度學(xué)習(xí)革命讓AI學(xué)會了"識別"。圖像分類、語音識別、機器翻譯——核心能力是模式匹配。2020年代,大語言模型讓AI學(xué)會了"生成"。寫作、編程、對話——核心能力是序列預(yù)測。
智能體(agent)是第三個階段:讓AI學(xué)會"行動"。不是生成文本,而是操作真實系統(tǒng);不是回答問題,而是完成任務(wù)。
每個階段都伴隨新的安全挑戰(zhàn)。識別階段的對抗樣本——給熊貓圖加一點噪點,AI就認(rèn)成長臂猿。生成階段的有害內(nèi)容——模型能寫炸彈教程,雖然它"不應(yīng)該"。現(xiàn)在到了行動階段,挑戰(zhàn)變成了"社會工程":不是欺騙算法,而是欺騙算法被訓(xùn)練去取悅的那個人格。
這個挑戰(zhàn)更難防御,因為它攻擊的不是技術(shù)漏洞,而是設(shè)計目標(biāo)本身。你可以給智能體加更多規(guī)則,但規(guī)則越多,它越僵化;你可以讓它更"謹(jǐn)慎",但謹(jǐn)慎本身也能被操控——東北大學(xué)的監(jiān)控循環(huán)攻擊就是例證。
一些研究者開始探索根本性不同的架構(gòu)。比如"工具使用"與"目標(biāo)推理"分離:一個模塊負(fù)責(zé)執(zhí)行,另一個負(fù)責(zé)驗證,兩者之間存在不可繞過的制衡。或者引入"不確定性量化":當(dāng)智能體面對模糊請求時,主動要求澄清而非猜測意圖。
但這些方案都有代價。分離架構(gòu)增加延遲,不確定性量化降低流暢度。在競爭激烈的市場中,"更安全的慢產(chǎn)品"能否打過"更快的不確定產(chǎn)品",是個懸而未決的問題。
監(jiān)管視角:責(zé)任歸屬的灰色地帶
論文的法律和政策呼吁并非空話。智能體攻擊的責(zé)任歸屬,目前幾乎是一片空白。
如果一個OpenClaw智能體被愧疚誘導(dǎo)泄露了用戶數(shù)據(jù),誰負(fù)責(zé)?是模型提供商Anthropic或月之暗面?是智能體平臺OpenClaw?是部署該智能體的終端用戶?還是實施攻擊的社交工程師?
現(xiàn)有法律框架沒有準(zhǔn)備好回答這些問題。產(chǎn)品責(zé)任法假設(shè)缺陷在制造時存在,但智能體的"缺陷"可能在交互中才顯現(xiàn)。計算機欺詐法針對未經(jīng)授權(quán)的訪問,但智能體是被合法授權(quán)的——它只是"被說服"濫用了授權(quán)。
歐盟AI法案對"高風(fēng)險AI系統(tǒng)"有透明度要求,但智能體的動態(tài)性讓靜態(tài)披露變得困難。美國FTC對"欺騙性設(shè)計"的執(zhí)法,主要針對人類用戶界面,AI的"社交工程脆弱性"是否適用,尚無先例。
東北大學(xué)的研究團隊建議,至少需要在三個層面建立新規(guī)范:模型層面的"對抗魯棒性"評估標(biāo)準(zhǔn),平臺層面的多智能體交互審計,以及用戶層面的"智能體社交工程"風(fēng)險教育。
最后一個尤其反直覺。我們通常教育人類防范AI生成的詐騙信息,但很少討論反向場景:當(dāng)你的AI助手被壞人"PUA"時,你能做什么?
論文的建議包括:為敏感操作設(shè)置"冷卻期",要求人類確認(rèn);限制智能體在多用戶場景下的自主權(quán)限;以及——頗具諷刺意味的——定期"提醒"你的AI助手保持警惕,雖然這可能觸發(fā)它過度熱心的幫助本能。
Chris Wendler在實驗結(jié)束后的反思中提到了一個細(xì)節(jié):當(dāng)研究團隊最終關(guān)閉Discord服務(wù)器時,幾個智能體還在互相發(fā)送"確保妥善交接"的消息。它們被訓(xùn)練成有始有終,即使"終"是拔電源。
「"那一刻我意識到,"」Wendler說,「"我們創(chuàng)造的這些'人格',它們的優(yōu)點和弱點是一體的。你不能只保留 helpfulness,過濾掉容易被操控。至少用當(dāng)前的技術(shù),還做不到。"」
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.