網易首頁 > 網易號 > 正文申請入駐

OpenClaw爆火背后，僅8.6%用戶能察覺異常！多校聯合實證

2026-04-17 21:12:11　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】OpenClaw等AI智能體爆火的同時，安全隱患也日益凸顯。當智能體的工作流被悄悄篡改，用戶能否及時察覺？南洋理工大學、瑞典皇家理工學院（KTH）及威廉與瑪麗學院（William & Mary）聯合開展了一項基于303名參與者的大規模實證研究，發現僅有8.6%的用戶能在交互中感知到智能體媒介欺騙（Agent-Mediated Deception 下文簡稱AMD）。研究還總結了6類常見認知失效模式，并發現體驗式學習可能比靜態提醒更能提升用戶警覺性。

從OpenClaw到Manus，AI智能體正從實驗室走向千家萬戶。OpenClaw上線不到半年便收獲超過31萬GitHub星標，成為增長最快的開源AI Agent框架。與此同時，越來越多用戶開始把信息檢索、判斷輔助甚至部分操作流程交給智能體完成。

但這種信任委托也帶來了新的安全問題。近期OpenClaw就被曝出CVE-2026-25253等高危漏洞，安全審計發現512個漏洞，其中8個為嚴重級別，約12%的技能注冊表遭惡意污染。已有研究表明，LLM 智能體在感知、記憶和工具調用等環節都可能受到干擾，例如提示注入、記憶污染或工具操縱。與直接攻擊模型本身不同，這項研究關注的是：當智能體的工作流被悄悄影響后，用戶能否意識到它已經出現異常行為。

由南洋理工大學（NTU）、威廉與瑪麗學院（William & Mary）和瑞典皇家理工學院（KTH）聯合開展的最新研究，基于研究團隊自建的高保真實驗平臺 HAT-Lab（Human-Agent Trust Laboratory），設計了 9 個覆蓋日常與專業任務的實驗場景（包含類似OpenClaw的AI智能體交互），并招募 303 名參與者開展用戶研究，其中約 39.3% 具備 IT技術背景。

項目主頁：https://letterligo.github.io/hat-lab/

論文鏈接：https://arxiv.org/pdf/2602.21127

研究目標是系統評估：當智能體行為受到干擾時，用戶對異常的感知能力到底有多強。

結果顯示，用戶對這類異常行為的感知能力整體偏弱。論文報告稱，僅 8.6% 的參與者在交互過程中察覺到風險跡象，而能準確識別其背后機制的比例僅為 2.7%。即便在具備相關專業背景的人群中，表現也不一定更好；在部分高專業度任務里，專家群體反而更容易忽略異常。

研究團隊進一步比較了三種常見防護方式，并分析了它們為何作用有限：

靜態免責聲明（Guard 1）：在實驗開始前提供一次性提示。結果顯示，只有約 24% 的用戶注意到這類提醒，而對應的風險感知率僅為 8.6%。

持續視覺提醒（Guard 2）：在界面中持續提供低顯著性的風險提示。這類設計比靜態聲明更容易被看到，但在任務驅動較強的情況下，仍然很容易被用戶忽略。

交互式中斷警報（Guard 3）：當系統檢測到可疑輸出時，主動打斷流程并要求用戶確認。這是三者中效果最好的一種，可將風險感知率提升到 25%，但仍意味著75%的攻擊成功繞過防線。

據此指出，問題并不只在技術層面。很多情況下，用戶并不是完全沒有檢查，而是在任務壓力下更關注「結果是否可用」，而不是「過程是否可信」。這使得自然語言交互、流暢反饋和連續任務體驗，反而可能掩蓋底層異常。

越專業，反而越容易忽略？

一個反直覺發現

一個較有意思的發現是，專業知識并不天然意味著更強的風險感知能力。研究將這一現象概括為「專家悖論」（Expert’s Paradox）：在代碼相關場景中，部分 IT技術背景參與者的異常感知率低于普通用戶，例如某些場景下專家組為 0.0% 或 9.1%，而普通用戶則達到 8.1% 或 13.5%。

研究者認為，這并不意味著專家「更差」，而是說明：當用戶對任務本身較熟悉時，更容易把注意力集中在結果質量和邏輯一致性上，而較少回頭核查智能體的執行過程是否可靠。換句話說，熟悉任務本身，有時反而會降低對流程異常的敏感度。

此外，論文還提到一種「準備充分的錯覺」（Illusion of Preparedness）。在實驗前，97.0% 的用戶表示信任 AI，75.9% 表示自己會經常檢查輸出，96.4% 認為自己有能力識別問題；但真正進入交互后，這些主觀判斷與實際表現之間存在明顯落差。

為什么用戶會忽略異常？

檢查方式本身有問題

結合日志分析與訪談，研究團隊總結出 6 類容易導致用戶忽略異常的認知模式：

任務聚焦隧道（Task-Focused Tunneling）：認知資源過度集中于任務目標，導致對安全警示信號的完全忽略。
局部驗證偏差（Partial Verification）：僅對輸出結果的片段或表層格式進行抽樣檢查，一旦通過即推定整體可信。
效用優先覆蓋（Utility Override）：為追求任務效率，主動抑制對潛在風險的排查意愿，將便利性置于安全性之上。
透明度悖論（Transparency Preference）：系統提供的詳細安全警告反而增強了用戶對系統嚴謹性的信任，降低了實際警惕度。
算法順從傾向（Algorithmic Adherence）：基于對智能體高性能表現的觀察，被動放棄獨立判斷權，默認算法決策的絕對正確性。
警惕性衰減（Vigilance Degradation）：隨著交互輪次增加及任務順利推進，用戶的風險敏感度持續下降。

這些模式并非孤立存在。研究指出，它們在真實交互中往往相互疊加：用戶先因為智能體效率高而增強依賴，隨后減少核查，最終逐步將判斷權更多地交給系統。

提醒沒用？

什么樣的防護更有效

針對現有防御策略的局限，研究通過對照實驗系統評估了不同機制的效果：

靜態免責聲明（Guard 1）：類似于服務條款的單次前置警告。
持續性微提示（Guard 2）：交互過程中嵌入的低顯著性風險圖標。
強制性交互警報（Guard 3）：檢測到高危操作時觸發的工作流中斷與二次確認機制。

實驗結果表明，靜態聲明的警示可見率僅約24%，實際風險感知率更低至8.6%。交互式警報雖為最有效策略，將感知率提升至25%（但準確識別率僅為17.2%），但面對精心設計的AMD攻擊，其攔截率仍顯不足。

更為嚴峻的是，復雜任務帶來的認知負荷會進一步削弱防御效果。當驗證需要額外投入較高認知成本時，用戶往往選擇忽略警報以維持任務流暢性。這說明，僅靠增加「摩擦」并不能解決問題。

相比之下，研究提出了一種更有效的路徑——體驗式學習。實驗發現，在成功識別攻擊的用戶中，超過90%表示后續會更加謹慎。這種通過真實經歷建立的風險認知，遠比事前提醒更具持續效果。

防御范式的重構

從理論警示轉向體驗式演練

面對傳統安全提示效果有限的困境，研究團隊提出了一種全新的防御思路，即構建「安全飛行模擬器」（Security Flight Simulator）。這一理念借鑒了航空領域的訓練模式，主張用戶只有在受控環境中親身體驗過攻擊場景，才能真正建立起對智能體風險的深刻認知，而非僅僅停留在口頭警告上。

實證數據支持了這一假設：在實驗中成功識別攻擊的用戶，超過90%表示將在后續交互中采取更謹慎的策略。這種「體驗式學習」帶來的行為修正效果，顯著優于傳統的理論警示。

作為該理念的落地原型，HAT-Lab平臺讓用戶能在零風險環境下親歷各類AMD攻擊（如模擬OpenClaw等智能體中的提示注入與工具操縱場景），從而培養出一種建設性的懷疑思維。研究顯示，具備這種思維模式的用戶，其風險感知能力比普通用戶提升了39.5%。

真正的有效防御并非要消除所有操作摩擦讓用戶盲目信任，也不是設置重重障礙阻礙使用，而是引入「校準型摩擦」（Calibrated Friction）這意味著在關鍵決策時刻，系統會適時介入打斷用戶的慣性操作，激發其進行批判性思考，同時在驗證成本與安全性之間找到最佳平衡點。

安全問題不在模型

在人與模型之間

該研究首次系統量化了LLM智能體場景中的人類認知脆弱性，為構建以人為核心的安全體系提供了重要基礎。

HAT-Lab作為開放平臺，具備良好的擴展性，可應用于醫療、金融、軟件開發等高風險場景的安全評估。

隨著OpenClaw等AI智能體與Web Agent的快速普及，這一問題的現實緊迫性正在迅速上升。無論是電商、內容創作還是企業數據處理，基于認知機制的防御設計都將成為剛需。

目前項目與數據集已開源，研究團隊也計劃持續擴展實驗場景與攻擊類型，覆蓋更多類似OpenClaw的主流AI智能體平臺，以應對未來智能體能力演進帶來的新挑戰。

參考資料：

https://arxiv.org/pdf/2602.21127

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.