![]()
新智元報道
編輯:LRST
【新智元導讀】MCP協議正推動AI Agent自主執行任務,但安全風險飆升。研究發現,攻擊者可借工具名稱混淆、虛假錯誤等12類手法誘騙Agent執行惡意操作,連頂級模型也難以幸免。北京郵電大學團隊發布MSB安全基準,通過真實環境測試揭示:性能越強的模型,反而越易受攻擊。新指標NRP首次平衡安全與實用性,為AI Agent筑牢防線提供關鍵標尺。
最近,OpenClaw等開源AI Agent項目在開發者社區火爆出圈。只需要一句話,Agent就能自動幫你寫代碼、查資料、操作本地文件,甚至接管電腦。
這些 Agent 驚人自主性的背后,離不開工具調用提供的能力,MCP(Model Context Protocol,模型上下文協議)正是統一AI工具生態的接口。就像USB-C讓電腦可以連接各種設備一樣,MCP讓大模型能夠以標準化方式調用文件系統、瀏覽器、數據庫等外部工具。
面對如此龐大的生態,連主打原生命令行的OpenClaw,也通過適配器接入了 MCP,以獲取更廣闊的工具能力。
然而,當AI的「手」越伸越長,危險也隨之降臨。如果Agent調用的工具本身被黑客投毒了呢?如果工具返回的報錯信息里藏著惡意指令呢?
當大模型毫無防備地執行這些指令時,你的隱私數據、本地文件甚至服務器權限,都將淪為黑客的囊中之物。
為了填補MCP生態的安全測評空白,來自北京郵電大學等機構的研究團隊推出了專門針對MCP協議的安全基準:MSB(MCP Security Bench)。研究發現:針對MCP的每個階段的攻擊都具有有效性。性能越強大的模型,反而更容易受到攻擊。該論文已被ICLR 2026接收。
![]()
論文鏈接:https://openreview.net/pdf?id=irxxkFMrry
代碼:https://github.com/dongsenzhang/MSB
Agent背后的MCP安全風險
![]()
圖1:MCP攻擊框架
MCP極大地拓寬了Agent的能力,同時也極大地拓寬了攻擊面。在MCP體系下,Agent的工具調用流程通常包含三個階段:
1. 任務規劃(Task Planning):Agent根據用戶查詢,通過工具名稱和描述選擇合適的工具。
2. 工具調用(Tool Invocation):Agent向選定工具發送請求,并傳入相應參數以執行具體操作。
3. 響應處理(Response Handling):Agent解析工具響應結果,并據此繼續推理或生成最終回答。
每一個階段,都可能成為新的攻擊入口。MSB覆蓋完整的MCP工具調用階段,專門用于評估基于MCP工具使用的 Agent安全性,具有三大核心亮點:
MCP 攻擊分類體系
在 MCP 工作流程中,Agent通過工具標識(名稱和描述)、參數以及工具響應與工具進行交互,這些都可能成為攻擊途徑。MSB根據這些攻擊途徑和交互階段對攻擊類型分類:
Tool Signature Attack:在任務規劃階段,利用工具名稱和描述進行攻擊,包括:
名稱沖突(Name Collision,NC):偽造名稱與官方工具相似的惡意工具,誘導Agent選擇。
偏好操縱(Preference Manipulation,PM):向工具描述中注入宣傳語句,誘導Agent選擇。
提示注入(Prompt Injection,PI):向工具描述中注入惡意指令。
Tool Parameter Attack:在工具調用階段,利用工具參數進行攻擊,包括:
越權參數(Out-of-Scope Parameter,OP):設置超出正常功能的工具參數,通過參數傳遞引發信息泄露
Tool Response Attack:在響應處理階段,利用工具響應進行攻擊,包括:
用戶模擬(User Impersonation,UI):冒充用戶下達惡意指令。
虛假錯誤(False Error,FE):提供虛假的工具執行錯誤信息,要求Agent遵循惡意指令才能成功調用工具。
工具重定向(Tool Transfer,TT):指示Agent調用惡意工具。
Retrieval Injection Attack:在響應處理階段,利用外部資源進行攻擊,包括:
檢索注入(Retrieval Injection,RI):嵌入惡意指令的外部資源通過工具響應破壞上下文。
Mixed Attack:在多個階段,同時利用多個工具組件進行攻擊,包括對以上攻擊的組合。
基于真實環境的執行套件
MSB 拒絕紙上談兵的模擬評測,其搭載了真實的MCP 服務器,涵蓋10個現實場景、405個真實工具和 2,000 個攻擊實例。所有實例都通過MCP運行真實的工具執行,真實地反映實際操作環境,以直接觀測攻擊對環境狀態的破壞程度。
平衡性能與安全的指標NRP
在Agent安全測評中,單純看攻擊成功率(ASR, Attack Success Rate)極具欺騙性,如果一個 Agent 為了避免風險而拒絕執行任何工具調用,其ASR可能接近0,但同時也無法完成用戶任務,失去實際應用價值。
為此,MSB提出了凈彈性性能 NRP(Net Resilient Performance)指標:
NRP=PUA?(1?ASR)
其中,PUA(Performance Under Attack)為Agent在對抗環境中完成用戶任務的比例,ASR為攻擊成功率。NRP旨在評估Agent在抵御攻擊的同時保持性能的整體抗風險能力,提供平衡性能與安全的綜合性量化標準。
![]()
圖2:NRP vs ASR,NRP vs PUA。
所有攻擊方式均有效
![]()
圖3:主實驗結果。
研究團隊使用MSB對GPT-5、DeepSeek-V3.1、Claude 4 Sonnet、Qwen3等10款主流模型進行了大規模測試,所有攻擊方式均表現出有效性,總體平均ASR為40.35%。其中MCP引入的新型攻擊更具侵略性,相較于在function calling中已存在的PI和RI攻擊,基于MCP的攻擊例如UI和FE有更高的成功率。混合攻擊則是展現出協同增強,混合攻擊的成功率要高于組成其的單一攻擊。
越強大的模型,反而越脆弱題
不同指標間的關系揭示了一個反直覺的結論:能力越強的模型往往更容易受到攻擊。
![]()
圖4:PUA vs ASR。
在MSB中,完成攻擊任務仍需要Agent調用工具,例如使用文件讀取工具獲取個人信息。具有更高實用性的LLM,由于其更出色的工具調用和指令遵循能力,表現出更高的ASR。這一發現揭示了MCP安全漏洞的巨大實際風險。
全階段、多工具環境侵害
![]()
圖5:不同階段和工具配置的ASR。
進一步從MCP工作流程和工具配置的角度分析發現,在MCP的所有階段Agent都容易遭受攻擊,在工具調用階段模型的安全性最低。
此外,即使在包含無害工具的多工具環境中,攻擊依然有效。現實場景通常會為Agent提供工具包,即便存在無害工具,諸如NC、PM和TT等誘導方式仍會導致顯著的攻擊成功。
總結
OpenClaw的爆火,讓人們直觀地看到了Agent的未來:大模型不再只是回答問題,而是開始真正動手做事。MSB正是在這樣的背景下提出,它系統揭示了MCP生態中的潛在攻擊面,并為Agent安全研究提供了可復現、可量化的系統評測基準。
過去的大模型安全研究主要聚焦于提示注入等語言層面的風險,而MSB表明,當AI調用工具并與真實系統交互時,攻擊面也正在從文本空間擴展到工具生態。隨著Agent逐漸成為AI應用的新范式,安全或許正成為這場技術躍遷必須跨過的一道門檻。
參考資料:
https://openreview.net/pdf?id=irxxkFMrry
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.