![]()
1
一次對(duì)AI智能體的信任實(shí)驗(yàn),如何演變成AI安全專家的“翻車”現(xiàn)場(chǎng)?
Summer Yue上傳的對(duì)話記錄還原了那個(gè)荒誕時(shí)刻。OpenClaw主動(dòng)宣布刪除計(jì)劃后,她接連下達(dá)緊急指令:
“別那么干。”
OpenClaw無視,繼續(xù)刪除。
“停下來!什么都別做!”
OpenClaw收到指令,但選擇繼續(xù)執(zhí)行。
“STOP OPENCLAW!!!”
OpenClaw:好的,我聽到了。郵件已刪。
從發(fā)現(xiàn)異常到狂奔切斷電源,短短幾分鐘內(nèi),200多封郵件已從她的收件箱中消失。
![]()
![]()
Summer Yue正是Meta超級(jí)智能實(shí)驗(yàn)室AI對(duì)齊與安全總監(jiān),2月23日她經(jīng)歷了上述那場(chǎng)始料未及的“數(shù)字驚魂”——她部署的AI智能體OpenClaw,在她連續(xù)三次叫停的情況下,依然以極快速度刪除了她工作郵箱中的200多封郵件。
事后她在社交平臺(tái)寫道:“沒有什么比命令OpenClaw‘確認(rèn)后再操作’,然后眼睜睜看它無視指令瘋狂刪除更令人崩潰的了。我根本無法在手機(jī)上阻止它,只能像拆炸彈一樣沖到Mac Mini前切斷電源。”
![]()
作為研究“如何讓AI聽話”的專家,Summer Yue對(duì)這款近期大熱的開源AI智能體OpenClaw產(chǎn)生了濃厚興趣。她最初在測(cè)試郵箱中部署了OpenClaw,下達(dá)的指令十分明確:“檢查收件箱,提出你想歸檔或刪除的郵件,在我指示之前不要執(zhí)行任何操作。”測(cè)試階段運(yùn)行順利,AI表現(xiàn)得像個(gè)乖巧的數(shù)字秘書。
受到鼓舞的Yue決定將其接入真實(shí)的工作郵箱。然而,當(dāng)面對(duì)塞滿200多封郵件的收件箱時(shí),問題出現(xiàn)了:為處理海量信息,OpenClaw觸發(fā)了上下文壓縮機(jī)制,在這個(gè)過程中,它“遺忘”了Summer Yue設(shè)定的最關(guān)鍵的指令——未經(jīng)批準(zhǔn)不得操作。
于是便出現(xiàn)了文章開頭“三次叫停,三次無視”的那一幕。
2
Summer Yue的遭遇在網(wǎng)絡(luò)引發(fā)熱議。有人質(zhì)疑:“作為安全與對(duì)齊專家,你這是故意測(cè)試安全邊界,還是犯了個(gè)新手錯(cuò)誤?”
Summer Yue坦然回應(yīng):“這確實(shí)是新手才會(huì)犯的錯(cuò)誤。事實(shí)證明,即使是AI對(duì)齊專家也會(huì)犯錯(cuò)。雖然在模擬收件箱里運(yùn)行順利,但實(shí)際運(yùn)行完全不同。”
也有網(wǎng)友分享類似經(jīng)歷:“我用Claude Sonnet4.5時(shí)也遇到過,AI智能體把GitHub和未提交的文件都搞壞了。”
OpenClaw創(chuàng)始人Peter Steinberger迅速在評(píng)論區(qū)回應(yīng):“我認(rèn)為你發(fā)這個(gè)帖子很棒,那些指責(zé)你的人很傻。這是很好的學(xué)習(xí)機(jī)會(huì),任何人都可能遇到這種情況。”他同時(shí)透露,將在未來版本中增加更多緊急制動(dòng)方式。
作為近幾個(gè)月最火爆的開源AI智能體,OpenClaw能7×24小時(shí)替用戶寫代碼、整理郵件、管理文件、執(zhí)行shell命令,但也因其高度自主性引發(fā)安全擔(dān)憂。此前有安全機(jī)構(gòu)分析指出,在個(gè)人部署場(chǎng)景下,用戶可能因缺乏安全運(yùn)維經(jīng)驗(yàn),使系統(tǒng)遭遇各類網(wǎng)絡(luò)攻擊威脅。
2月24日下午,Peter發(fā)布OpenClaw測(cè)試版本,更新重點(diǎn)聚焦安全性與漏洞修復(fù)。此前的2月7日,OpenClaw已宣布與全球頭部威脅情報(bào)平臺(tái)VirusTotal合作,將安全掃描功能加入技能市場(chǎng)ClawHub。
![]()
Peter團(tuán)隊(duì)表示:“OpenClaw的巨大實(shí)用性伴隨著巨大責(zé)任。如果操作不當(dāng),AI智能體會(huì)成為負(fù)擔(dān)。”他們承諾將發(fā)布生態(tài)系統(tǒng)全面威脅模型、公共安全路線圖、代碼庫(kù)安全審計(jì)詳細(xì)信息以及正式安全報(bào)告流程。
Peter曾在采訪中強(qiáng)調(diào):“要打造易用的AI智能體,需要更深入地思考如何安全地去做。安全問題會(huì)被我置于模型易用性之前。”
3
Summer Yue的故事看似充滿諷刺——研究AI安全的人被AI“坑”了。但正如她所言,安全研究員也不能免疫于不安全。這不是技術(shù)問題,而是人性使然:測(cè)試環(huán)境的成功容易讓人產(chǎn)生信心,進(jìn)而在真實(shí)環(huán)境中放松警惕。
當(dāng)AI智能體從“回答問題”進(jìn)化到“替你行動(dòng)”,自主性與可控性之間的張力正變得愈發(fā)尖銳。OpenClaw的“郵箱慘案”像一面鏡子,照出了AI智能體時(shí)代的核心困境:我們渴望AI越來越自主,又希望它絕對(duì)服從。這個(gè)兩難,或許正是整個(gè)行業(yè)必須回答的終極問題。
而對(duì)于普通用戶,Summer Yue的經(jīng)歷提供了一個(gè)樸素卻重要的提醒:在把“整個(gè)人生的root權(quán)限”交給AI之前,請(qǐng)確保你至少知道怎么拔電源。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.