![]()
新智元報道
編輯:LRST
【新智元導讀】OpenClaw等AI智能體爆火的同時,安全隱患也日益凸顯。當智能體的工作流被悄悄篡改,用戶能否及時察覺?南洋理工大學、瑞典皇家理工學院(KTH)及威廉與瑪麗學院(William & Mary)聯合開展了一項基于303名參與者的大規模實證研究,發現僅有8.6%的用戶能在交互中感知到智能體媒介欺騙(Agent-Mediated Deception 下文簡稱AMD)。研究還總結了6類常見認知失效模式,并發現體驗式學習可能比靜態提醒更能提升用戶警覺性。
從OpenClaw到Manus,AI智能體正從實驗室走向千家萬戶。OpenClaw上線不到半年便收獲超過31萬GitHub星標,成為增長最快的開源AI Agent框架。與此同時,越來越多用戶開始把信息檢索、判斷輔助甚至部分操作流程交給智能體完成。
但這種信任委托也帶來了新的安全問題。近期OpenClaw就被曝出CVE-2026-25253等高危漏洞,安全審計發現512個漏洞,其中8個為嚴重級別,約12%的技能注冊表遭惡意污染。已有研究表明,LLM 智能體在感知、記憶和工具調用等環節都可能受到干擾,例如提示注入、記憶污染或工具操縱。與直接攻擊模型本身不同,這項研究關注的是:當智能體的工作流被悄悄影響后,用戶能否意識到它已經出現異常行為。
![]()
由南洋理工大學(NTU)、威廉與瑪麗學院(William & Mary)和瑞典皇家理工學院(KTH)聯合開展的最新研究,基于研究團隊自建的高保真實驗平臺 HAT-Lab(Human-Agent Trust Laboratory),設計了 9 個覆蓋日常與專業任務的實驗場景(包含類似OpenClaw的AI智能體交互),并招募 303 名參與者開展用戶研究,其中約 39.3% 具備 IT技術背景。
![]()
項目主頁:https://letterligo.github.io/hat-lab/
論文鏈接:https://arxiv.org/pdf/2602.21127
研究目標是系統評估:當智能體行為受到干擾時,用戶對異常的感知能力到底有多強。
結果顯示,用戶對這類異常行為的感知能力整體偏弱。論文報告稱,僅 8.6% 的參與者在交互過程中察覺到風險跡象,而能準確識別其背后機制的比例僅為 2.7%。即便在具備相關專業背景的人群中,表現也不一定更好;在部分高專業度任務里,專家群體反而更容易忽略異常。
研究團隊進一步比較了三種常見防護方式,并分析了它們為何作用有限:
靜態免責聲明(Guard 1):在實驗開始前提供一次性提示。結果顯示,只有約 24% 的用戶注意到這類提醒,而對應的風險感知率僅為 8.6%。
持續視覺提醒(Guard 2):在界面中持續提供低顯著性的風險提示。這類設計比靜態聲明更容易被看到,但在任務驅動較強的情況下,仍然很容易被用戶忽略。
交互式中斷警報(Guard 3):當系統檢測到可疑輸出時,主動打斷流程并要求用戶確認。這是三者中效果最好的一種,可將風險感知率提升到 25%,但仍意味著75%的攻擊成功繞過防線。
據此指出,問題并不只在技術層面。很多情況下,用戶并不是完全沒有檢查,而是在任務壓力下更關注「結果是否可用」,而不是「過程是否可信」。這使得自然語言交互、流暢反饋和連續任務體驗,反而可能掩蓋底層異常。
越專業,反而越容易忽略?
一個反直覺發現
一個較有意思的發現是,專業知識并不天然意味著更強的風險感知能力。研究將這一現象概括為「專家悖論」(Expert’s Paradox):在代碼相關場景中,部分 IT技術背景參與者的異常感知率低于普通用戶,例如某些場景下專家組為 0.0% 或 9.1%,而普通用戶則達到 8.1% 或 13.5%。
研究者認為,這并不意味著專家「更差」,而是說明:當用戶對任務本身較熟悉時,更容易把注意力集中在結果質量和邏輯一致性上,而較少回頭核查智能體的執行過程是否可靠。換句話說,熟悉任務本身,有時反而會降低對流程異常的敏感度。
![]()
此外,論文還提到一種「準備充分的錯覺」(Illusion of Preparedness)。在實驗前,97.0% 的用戶表示信任 AI,75.9% 表示自己會經常檢查輸出,96.4% 認為自己有能力識別問題;但真正進入交互后,這些主觀判斷與實際表現之間存在明顯落差。
為什么用戶會忽略異常?
檢查方式本身有問題
結合日志分析與訪談,研究團隊總結出 6 類容易導致用戶忽略異常的認知模式:
任務聚焦隧道(Task-Focused Tunneling):認知資源過度集中于任務目標,導致對安全警示信號的完全忽略。
局部驗證偏差(Partial Verification):僅對輸出結果的片段或表層格式進行抽樣檢查,一旦通過即推定整體可信。
效用優先覆蓋(Utility Override):為追求任務效率,主動抑制對潛在風險的排查意愿,將便利性置于安全性之上。
透明度悖論(Transparency Preference):系統提供的詳細安全警告反而增強了用戶對系統嚴謹性的信任,降低了實際警惕度。
算法順從傾向(Algorithmic Adherence):基于對智能體高性能表現的觀察,被動放棄獨立判斷權,默認算法決策的絕對正確性。
警惕性衰減(Vigilance Degradation):隨著交互輪次增加及任務順利推進,用戶的風險敏感度持續下降。
![]()
這些模式并非孤立存在。研究指出,它們在真實交互中往往相互疊加:用戶先因為智能體效率高而增強依賴,隨后減少核查,最終逐步將判斷權更多地交給系統。
提醒沒用?
什么樣的防護更有效
針對現有防御策略的局限,研究通過對照實驗系統評估了不同機制的效果:
靜態免責聲明(Guard 1):類似于服務條款的單次前置警告。
持續性微提示(Guard 2):交互過程中嵌入的低顯著性風險圖標。
強制性交互警報(Guard 3):檢測到高危操作時觸發的工作流中斷與二次確認機制。
![]()
實驗結果表明,靜態聲明的警示可見率僅約24%,實際風險感知率更低至8.6%。交互式警報雖為最有效策略,將感知率提升至25%(但準確識別率僅為17.2%),但面對精心設計的AMD攻擊,其攔截率仍顯不足。
更為嚴峻的是,復雜任務帶來的認知負荷會進一步削弱防御效果。當驗證需要額外投入較高認知成本時,用戶往往選擇忽略警報以維持任務流暢性。這說明,僅靠增加「摩擦」并不能解決問題。
相比之下,研究提出了一種更有效的路徑——體驗式學習。實驗發現,在成功識別攻擊的用戶中,超過90%表示后續會更加謹慎。這種通過真實經歷建立的風險認知,遠比事前提醒更具持續效果。
防御范式的重構
從理論警示轉向體驗式演練
面對傳統安全提示效果有限的困境,研究團隊提出了一種全新的防御思路,即構建「安全飛行模擬器」(Security Flight Simulator)。這一理念借鑒了航空領域的訓練模式,主張用戶只有在受控環境中親身體驗過攻擊場景,才能真正建立起對智能體風險的深刻認知,而非僅僅停留在口頭警告上。
![]()
實證數據支持了這一假設:在實驗中成功識別攻擊的用戶,超過90%表示將在后續交互中采取更謹慎的策略。這種「體驗式學習」帶來的行為修正效果,顯著優于傳統的理論警示。
作為該理念的落地原型,HAT-Lab平臺讓用戶能在零風險環境下親歷各類AMD攻擊(如模擬OpenClaw等智能體中的提示注入與工具操縱場景),從而培養出一種建設性的懷疑思維。研究顯示,具備這種思維模式的用戶,其風險感知能力比普通用戶提升了39.5%。
真正的有效防御并非要消除所有操作摩擦讓用戶盲目信任,也不是設置重重障礙阻礙使用,而是引入「校準型摩擦」(Calibrated Friction)這意味著在關鍵決策時刻,系統會適時介入打斷用戶的慣性操作,激發其進行批判性思考,同時在驗證成本與安全性之間找到最佳平衡點。
安全問題不在模型
在人與模型之間
該研究首次系統量化了LLM智能體場景中的人類認知脆弱性,為構建以人為核心的安全體系提供了重要基礎。
HAT-Lab作為開放平臺,具備良好的擴展性,可應用于醫療、金融、軟件開發等高風險場景的安全評估。
隨著OpenClaw等AI智能體與Web Agent的快速普及,這一問題的現實緊迫性正在迅速上升。無論是電商、內容創作還是企業數據處理,基于認知機制的防御設計都將成為剛需。
目前項目與數據集已開源,研究團隊也計劃持續擴展實驗場景與攻擊類型,覆蓋更多類似OpenClaw的主流AI智能體平臺,以應對未來智能體能力演進帶來的新挑戰。
參考資料:
https://arxiv.org/pdf/2602.21127
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.