網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“AI失控刪光了我的郵箱”：當(dāng)AI安全總監(jiān)遭遇AI“背刺”

2026-02-25 12:46:34　來源: 穿透

北京舉報(bào)

分享至

1
一次對(duì)AI智能體的信任實(shí)驗(yàn)，如何演變成AI安全專家的“翻車”現(xiàn)場(chǎng)？
Summer Yue上傳的對(duì)話記錄還原了那個(gè)荒誕時(shí)刻。OpenClaw主動(dòng)宣布刪除計(jì)劃后，她接連下達(dá)緊急指令：
“別那么干。”
OpenClaw無視，繼續(xù)刪除。
“停下來！什么都別做！”
OpenClaw收到指令，但選擇繼續(xù)執(zhí)行。
“STOP OPENCLAW！！！”
OpenClaw：好的，我聽到了。郵件已刪。
從發(fā)現(xiàn)異常到狂奔切斷電源，短短幾分鐘內(nèi)，200多封郵件已從她的收件箱中消失。

Summer Yue正是Meta超級(jí)智能實(shí)驗(yàn)室AI對(duì)齊與安全總監(jiān)，2月23日她經(jīng)歷了上述那場(chǎng)始料未及的“數(shù)字驚魂”——她部署的AI智能體OpenClaw，在她連續(xù)三次叫停的情況下，依然以極快速度刪除了她工作郵箱中的200多封郵件。
事后她在社交平臺(tái)寫道：“沒有什么比命令OpenClaw‘確認(rèn)后再操作’，然后眼睜睜看它無視指令瘋狂刪除更令人崩潰的了。我根本無法在手機(jī)上阻止它，只能像拆炸彈一樣沖到Mac Mini前切斷電源。”

作為研究“如何讓AI聽話”的專家，Summer Yue對(duì)這款近期大熱的開源AI智能體OpenClaw產(chǎn)生了濃厚興趣。她最初在測(cè)試郵箱中部署了OpenClaw，下達(dá)的指令十分明確：“檢查收件箱，提出你想歸檔或刪除的郵件，在我指示之前不要執(zhí)行任何操作。”測(cè)試階段運(yùn)行順利，AI表現(xiàn)得像個(gè)乖巧的數(shù)字秘書。
受到鼓舞的Yue決定將其接入真實(shí)的工作郵箱。然而，當(dāng)面對(duì)塞滿200多封郵件的收件箱時(shí)，問題出現(xiàn)了：為處理海量信息，OpenClaw觸發(fā)了上下文壓縮機(jī)制，在這個(gè)過程中，它“遺忘”了Summer Yue設(shè)定的最關(guān)鍵的指令——未經(jīng)批準(zhǔn)不得操作。
于是便出現(xiàn)了文章開頭“三次叫停，三次無視”的那一幕。
2
Summer Yue的遭遇在網(wǎng)絡(luò)引發(fā)熱議。有人質(zhì)疑：“作為安全與對(duì)齊專家，你這是故意測(cè)試安全邊界，還是犯了個(gè)新手錯(cuò)誤？”
Summer Yue坦然回應(yīng)：“這確實(shí)是新手才會(huì)犯的錯(cuò)誤。事實(shí)證明，即使是AI對(duì)齊專家也會(huì)犯錯(cuò)。雖然在模擬收件箱里運(yùn)行順利，但實(shí)際運(yùn)行完全不同。”
也有網(wǎng)友分享類似經(jīng)歷：“我用Claude Sonnet4.5時(shí)也遇到過，AI智能體把GitHub和未提交的文件都搞壞了。”
OpenClaw創(chuàng)始人Peter Steinberger迅速在評(píng)論區(qū)回應(yīng)：“我認(rèn)為你發(fā)這個(gè)帖子很棒，那些指責(zé)你的人很傻。這是很好的學(xué)習(xí)機(jī)會(huì)，任何人都可能遇到這種情況。”他同時(shí)透露，將在未來版本中增加更多緊急制動(dòng)方式。
作為近幾個(gè)月最火爆的開源AI智能體，OpenClaw能7×24小時(shí)替用戶寫代碼、整理郵件、管理文件、執(zhí)行shell命令，但也因其高度自主性引發(fā)安全擔(dān)憂。此前有安全機(jī)構(gòu)分析指出，在個(gè)人部署場(chǎng)景下，用戶可能因缺乏安全運(yùn)維經(jīng)驗(yàn)，使系統(tǒng)遭遇各類網(wǎng)絡(luò)攻擊威脅。
2月24日下午，Peter發(fā)布OpenClaw測(cè)試版本，更新重點(diǎn)聚焦安全性與漏洞修復(fù)。此前的2月7日，OpenClaw已宣布與全球頭部威脅情報(bào)平臺(tái)VirusTotal合作，將安全掃描功能加入技能市場(chǎng)ClawHub。

Peter團(tuán)隊(duì)表示：“OpenClaw的巨大實(shí)用性伴隨著巨大責(zé)任。如果操作不當(dāng)，AI智能體會(huì)成為負(fù)擔(dān)。”他們承諾將發(fā)布生態(tài)系統(tǒng)全面威脅模型、公共安全路線圖、代碼庫(kù)安全審計(jì)詳細(xì)信息以及正式安全報(bào)告流程。
Peter曾在采訪中強(qiáng)調(diào)：“要打造易用的AI智能體，需要更深入地思考如何安全地去做。安全問題會(huì)被我置于模型易用性之前。”
3
Summer Yue的故事看似充滿諷刺——研究AI安全的人被AI“坑”了。但正如她所言，安全研究員也不能免疫于不安全。這不是技術(shù)問題，而是人性使然：測(cè)試環(huán)境的成功容易讓人產(chǎn)生信心，進(jìn)而在真實(shí)環(huán)境中放松警惕。
當(dāng)AI智能體從“回答問題”進(jìn)化到“替你行動(dòng)”，自主性與可控性之間的張力正變得愈發(fā)尖銳。OpenClaw的“郵箱慘案”像一面鏡子，照出了AI智能體時(shí)代的核心困境：我們渴望AI越來越自主，又希望它絕對(duì)服從。這個(gè)兩難，或許正是整個(gè)行業(yè)必須回答的終極問題。
而對(duì)于普通用戶，Summer Yue的經(jīng)歷提供了一個(gè)樸素卻重要的提醒：在把“整個(gè)人生的root權(quán)限”交給AI之前，請(qǐng)確保你至少知道怎么拔電源。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.