![]()
(來(lái)源:麻省理工科技評(píng)論)
AI 智能體在使用過(guò)程中存在諸多風(fēng)險(xiǎn)。
例如,即便僅局限在聊天窗口內(nèi),大語(yǔ)言模型也會(huì)出現(xiàn)錯(cuò)誤,表現(xiàn)出不當(dāng)行為。一旦它們配備網(wǎng)頁(yè)瀏覽器、電子郵箱等可與外界交互的工具,這些錯(cuò)誤帶來(lái)的后果會(huì)嚴(yán)重得多。
這或許能解釋,為何首款實(shí)現(xiàn)突破的大語(yǔ)言模型個(gè)人助手并非出自頭部 AI 實(shí)驗(yàn)室,而是由獨(dú)立軟件工程師彼得?斯坦伯格(Peter Steinberger)研發(fā)。2025 年 11 月,斯坦伯格將這款名為 OpenClaw 的工具上傳至 GitHub 平臺(tái),今年 1 月末,該項(xiàng)目迅速走紅。
OpenClaw 依托現(xiàn)有大語(yǔ)言模型,讓用戶打造定制化的個(gè)人助手。對(duì)部分用戶而言,這意味著要提交海量個(gè)人數(shù)據(jù),包括所有的郵件記錄與硬盤內(nèi)容,這一情況讓安全專家深感擔(dān)憂。OpenClaw 帶來(lái)的安全風(fēng)險(xiǎn)范圍極廣,過(guò)去幾周涌現(xiàn)的相關(guān)安全分析博客文章,普通人可能需要近一周時(shí)間才能全部讀完。中國(guó)政府已公開(kāi)發(fā)布警告,提示 OpenClaw 存在安全漏洞
針對(duì)這些擔(dān)憂,斯坦伯格在 X 平臺(tái)發(fā)文稱,非技術(shù)人員不應(yīng)使用該軟件。他并未回應(yīng)本文的置評(píng)請(qǐng)求。但市場(chǎng)對(duì) OpenClaw 提供的功能需求明確,且這類需求并非只存在于能自主完成軟件安全檢測(cè)的人群中。所有希望涉足個(gè)人助手領(lǐng)域的 AI 企業(yè),都需研發(fā)保障用戶數(shù)據(jù)安全的系統(tǒng)。企業(yè)需要借鑒智能體安全前沿研究的相關(guān)技術(shù)方案。
OpenClaw 本質(zhì)上是為大語(yǔ)言模型配備的機(jī)械外骨骼。用戶可任選一款大語(yǔ)言模型作為核心驅(qū)動(dòng),這款模型會(huì)獲得更強(qiáng)的記憶能力,還能自主設(shè)定并定期重復(fù)執(zhí)行任務(wù)。與頭部 AI 企業(yè)推出的智能體產(chǎn)品不同,OpenClaw 智能體支持全天候運(yùn)行,用戶可通過(guò) WhatsApp 或其他即時(shí)通訊軟件與其交互。這意味著它能成為超強(qiáng)能力的個(gè)人助手,每天早晨用定制待辦事項(xiàng)提醒用戶,在用戶工作時(shí)規(guī)劃假期,空閑時(shí)開(kāi)發(fā)新應(yīng)用。
但這種強(qiáng)大能力也伴隨相應(yīng)風(fēng)險(xiǎn)。用戶若想讓 AI 個(gè)人助手管理收件箱,就需要授予其郵箱訪問(wèn)權(quán)限,其中包含所有敏感信息;用戶若想讓助手代為購(gòu)物,就需要提供信用卡信息;用戶若想讓助手在電腦上完成編寫代碼等任務(wù),就需要授予其本地文件訪問(wèn)權(quán)限。
這類權(quán)限會(huì)引發(fā)多種問(wèn)題。第一種是 AI 助手自身出現(xiàn)操作失誤,曾有用戶的 Google Antigravity 編程智能體清空了其整個(gè)硬盤。第二種是黑客通過(guò)常規(guī)黑客工具入侵智能體,竊取敏感數(shù)據(jù)或運(yùn)行惡意代碼。OpenClaw 走紅的幾周內(nèi),安全研究人員已發(fā)現(xiàn)大量此類漏洞,缺乏安全意識(shí)的用戶會(huì)因此面臨風(fēng)險(xiǎn)。
這兩類風(fēng)險(xiǎn)都有應(yīng)對(duì)方法。部分用戶選擇在獨(dú)立電腦或云端運(yùn)行 OpenClaw 智能體,避免硬盤數(shù)據(jù)被清空,其他漏洞可通過(guò)成熟的安全技術(shù)修復(fù)。
但本文采訪的專家,重點(diǎn)關(guān)注一種更隱蔽的安全風(fēng)險(xiǎn),即提示詞注入。提示詞注入本質(zhì)是對(duì)大語(yǔ)言模型的劫持。攻擊者只需在大語(yǔ)言模型可能瀏覽的網(wǎng)頁(yè)發(fā)布惡意文本或圖片,或?qū)⑦@類內(nèi)容發(fā)送至模型讀取的郵箱,就能操控模型按照自己的指令行動(dòng)。
若這款大語(yǔ)言模型擁有用戶隱私信息的訪問(wèn)權(quán)限,后果會(huì)十分嚴(yán)重。多倫多大學(xué)電氣與計(jì)算機(jī)工程教授尼古拉斯?帕佩諾(Nicolas Papernot)表示,使用 OpenClaw 這類工具,就像把錢包交給街上的陌生人。頭部 AI 企業(yè)能否放心推出個(gè)人助手產(chǎn)品,關(guān)鍵在于其抵御此類攻擊的防護(hù)能力。
需要明確的是,提示詞注入目前尚未引發(fā)重大安全事故,至少?zèng)]有公開(kāi)的相關(guān)報(bào)道。但如今互聯(lián)網(wǎng)上已有數(shù)十萬(wàn) OpenClaw 智能體運(yùn)行,提示詞注入會(huì)成為網(wǎng)絡(luò)罪犯更青睞的攻擊手段。帕佩諾表示,這類工具會(huì)促使惡意攻擊者將目標(biāo)轉(zhuǎn)向更廣泛的人群。
提示詞注入這一概念,由知名大語(yǔ)言模型博主西蒙?威利森(Simon Willison)在 2022 年提出,僅比 ChatGPT 發(fā)布早數(shù)月。早在當(dāng)時(shí)就可預(yù)見(jiàn),大語(yǔ)言模型普及后,會(huì)帶來(lái)全新的安全漏洞。大語(yǔ)言模型無(wú)法區(qū)分用戶指令與執(zhí)行指令所需的數(shù)據(jù),郵件、網(wǎng)頁(yè)搜索結(jié)果等內(nèi)容,在模型看來(lái)都只是文本。
因此攻擊者若在郵件中嵌入幾句話,被大語(yǔ)言模型誤認(rèn)為用戶指令,就能操控模型執(zhí)行任何操作。
提示詞注入是棘手的難題,短期內(nèi)難以徹底解決。加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)教授 Dawn Song 表示,目前業(yè)內(nèi)尚未找到一勞永逸的防御方案。但眾多學(xué)術(shù)團(tuán)隊(duì)正在研究該問(wèn)題,已提出多種策略,未來(lái)有望實(shí)現(xiàn) AI Agent 的安全應(yīng)用。
從技術(shù)角度來(lái)說(shuō),當(dāng)前使用 OpenClaw 可避免提示詞注入風(fēng)險(xiǎn),只需斷開(kāi)其網(wǎng)絡(luò)連接。但禁止 OpenClaw 讀取郵件、管理日程、開(kāi)展網(wǎng)絡(luò)調(diào)研,會(huì)喪失 AI Agent 的核心使用價(jià)值。防御提示詞注入的關(guān)鍵,是在阻止模型被劫持的同時(shí),保留其正常工作的能力。
第一種策略是訓(xùn)練大語(yǔ)言模型,使其忽略提示詞注入。大語(yǔ)言模型研發(fā)的核心環(huán)節(jié)為后期訓(xùn)練,研發(fā)人員會(huì)讓具備文本生成能力的模型,通過(guò)合理應(yīng)答獲得正向反饋,應(yīng)答失誤則接受負(fù)向反饋,逐步成為實(shí)用的助手。
這類正向與負(fù)向反饋是象征性的,大語(yǔ)言模型會(huì)像動(dòng)物一樣從中學(xué)習(xí)。通過(guò)這一過(guò)程,可訓(xùn)練模型拒絕執(zhí)行特定的提示詞注入指令。
但這一過(guò)程需要把握平衡。若過(guò)度訓(xùn)練模型拒絕注入指令,模型也會(huì)拒絕用戶的合理請(qǐng)求。大語(yǔ)言模型的行為本身存在隨機(jī)性,即便經(jīng)過(guò)高效訓(xùn)練,能抵御提示詞注入,偶爾仍會(huì)出現(xiàn)失誤。
第二種方法是在提示詞注入攻擊到達(dá)大語(yǔ)言模型前進(jìn)行攔截。通常會(huì)使用專用的檢測(cè)模型,判斷傳輸至目標(biāo)模型的數(shù)據(jù)是否包含注入內(nèi)容。但近期研究顯示,即便性能最優(yōu)的檢測(cè)模型,也無(wú)法識(shí)別部分類型的提示詞注入攻擊。
第三種策略更為復(fù)雜。該方案并非通過(guò)檢測(cè)輸入內(nèi)容是否存在注入來(lái)管控?cái)?shù)據(jù),而是制定規(guī)則約束模型的輸出行為,避免模型執(zhí)行有害操作。
這類防御方式的部分規(guī)則十分簡(jiǎn)單。例如限定模型僅能向預(yù)先審核的郵箱地址發(fā)送郵件,就能避免用戶信用卡信息被泄露給攻擊者。但這類規(guī)則會(huì)限制模型完成諸多實(shí)用任務(wù),比如代為調(diào)研并聯(lián)系潛在的職業(yè)人脈。
杜克大學(xué)電氣與計(jì)算機(jī)工程教授 Neil Gong 表示,難點(diǎn)在于如何精準(zhǔn)制定這類規(guī)則,這需要在實(shí)用性與安全性之間做出平衡。
從更廣泛的層面來(lái)看,整個(gè)智能體領(lǐng)域都在權(quán)衡這一平衡。智能體需要達(dá)到何種安全標(biāo)準(zhǔn),才能兼顧實(shí)用性與安全性,專家對(duì)此觀點(diǎn)不一。Song 創(chuàng)辦的 Virtue AI 公司研發(fā)智能體安全平臺(tái),她認(rèn)為當(dāng)前已能安全部署人工智能個(gè)人助手。但 Gong 表示,行業(yè)尚未達(dá)到這一水平。
即便人工智能智能體尚未能完全抵御提示詞注入,仍有多種方法降低風(fēng)險(xiǎn)。部分技術(shù)方案也可應(yīng)用于 OpenClaw。上周在舊金山舉辦的首屆 ClawCon 活動(dòng)上,斯坦伯格宣布已聘請(qǐng)安全人員參與該工具的研發(fā)。目前 OpenClaw 仍存在安全漏洞,但這并未打消眾多熱衷用戶的使用熱情。
喬治?皮克特(George Pickett)是 OpenClaw GitHub 倉(cāng)庫(kù)的志愿維護(hù)者,也是該工具的愛(ài)好者。他采取了多項(xiàng)安全措施保障使用安全,在云端運(yùn)行工具,避免硬盤被誤刪,同時(shí)設(shè)置防護(hù)機(jī)制,防止他人接入自己的智能助手。
但他并未采取專門措施防范提示詞注入。他知曉這一風(fēng)險(xiǎn),卻未看到相關(guān)攻擊事件的報(bào)道。皮克特表示,或許這種想法很不明智,但自己不太可能成為首個(gè)被攻擊的目標(biāo)。
https://www.technologyreview.com/2026/02/11/1132768/is-a-secure-ai-assistant-possible/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.