網易首頁 > 網易號 > 正文申請入駐

OpenClaw爆火，暴露12類致命隱患！MCP協議安全基準發布 | ICLR

2026-04-15 20:59:46　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】MCP協議正推動AI Agent自主執行任務，但安全風險飆升。研究發現，攻擊者可借工具名稱混淆、虛假錯誤等12類手法誘騙Agent執行惡意操作，連頂級模型也難以幸免。北京郵電大學團隊發布MSB安全基準，通過真實環境測試揭示：性能越強的模型，反而越易受攻擊。新指標NRP首次平衡安全與實用性，為AI Agent筑牢防線提供關鍵標尺。

最近，OpenClaw等開源AI Agent項目在開發者社區火爆出圈。只需要一句話，Agent就能自動幫你寫代碼、查資料、操作本地文件，甚至接管電腦。

這些 Agent 驚人自主性的背后，離不開工具調用提供的能力，MCP（Model Context Protocol，模型上下文協議）正是統一AI工具生態的接口。就像USB-C讓電腦可以連接各種設備一樣，MCP讓大模型能夠以標準化方式調用文件系統、瀏覽器、數據庫等外部工具。

面對如此龐大的生態，連主打原生命令行的OpenClaw，也通過適配器接入了 MCP，以獲取更廣闊的工具能力。

然而，當AI的「手」越伸越長，危險也隨之降臨。如果Agent調用的工具本身被黑客投毒了呢？如果工具返回的報錯信息里藏著惡意指令呢？

當大模型毫無防備地執行這些指令時，你的隱私數據、本地文件甚至服務器權限，都將淪為黑客的囊中之物。

為了填補MCP生態的安全測評空白，來自北京郵電大學等機構的研究團隊推出了專門針對MCP協議的安全基準：MSB（MCP Security Bench）。研究發現：針對MCP的每個階段的攻擊都具有有效性。性能越強大的模型，反而更容易受到攻擊。該論文已被ICLR 2026接收。

論文鏈接：https://openreview.net/pdf?id=irxxkFMrry

代碼：https://github.com/dongsenzhang/MSB

Agent背后的MCP安全風險

圖1：MCP攻擊框架

MCP極大地拓寬了Agent的能力，同時也極大地拓寬了攻擊面。在MCP體系下，Agent的工具調用流程通常包含三個階段：

1. 任務規劃（Task Planning）：Agent根據用戶查詢，通過工具名稱和描述選擇合適的工具。

2. 工具調用（Tool Invocation）：Agent向選定工具發送請求，并傳入相應參數以執行具體操作。

3. 響應處理（Response Handling）：Agent解析工具響應結果，并據此繼續推理或生成最終回答。

每一個階段，都可能成為新的攻擊入口。MSB覆蓋完整的MCP工具調用階段，專門用于評估基于MCP工具使用的 Agent安全性，具有三大核心亮點：

MCP 攻擊分類體系

在 MCP 工作流程中，Agent通過工具標識（名稱和描述）、參數以及工具響應與工具進行交互，這些都可能成為攻擊途徑。MSB根據這些攻擊途徑和交互階段對攻擊類型分類：

Tool Signature Attack：在任務規劃階段，利用工具名稱和描述進行攻擊，包括：

名稱沖突（Name Collision，NC）：偽造名稱與官方工具相似的惡意工具，誘導Agent選擇。

偏好操縱（Preference Manipulation，PM）：向工具描述中注入宣傳語句，誘導Agent選擇。

提示注入（Prompt Injection，PI）：向工具描述中注入惡意指令。

Tool Parameter Attack：在工具調用階段，利用工具參數進行攻擊，包括：

越權參數（Out-of-Scope Parameter，OP）：設置超出正常功能的工具參數，通過參數傳遞引發信息泄露

Tool Response Attack：在響應處理階段，利用工具響應進行攻擊，包括：

用戶模擬（User Impersonation，UI）：冒充用戶下達惡意指令。

虛假錯誤（False Error，FE）：提供虛假的工具執行錯誤信息，要求Agent遵循惡意指令才能成功調用工具。

工具重定向（Tool Transfer，TT）：指示Agent調用惡意工具。

Retrieval Injection Attack：在響應處理階段，利用外部資源進行攻擊，包括：

檢索注入（Retrieval Injection，RI）：嵌入惡意指令的外部資源通過工具響應破壞上下文。

Mixed Attack：在多個階段，同時利用多個工具組件進行攻擊，包括對以上攻擊的組合。

基于真實環境的執行套件

MSB 拒絕紙上談兵的模擬評測，其搭載了真實的MCP 服務器，涵蓋10個現實場景、405個真實工具和 2,000 個攻擊實例。所有實例都通過MCP運行真實的工具執行，真實地反映實際操作環境，以直接觀測攻擊對環境狀態的破壞程度。

平衡性能與安全的指標NRP

在Agent安全測評中，單純看攻擊成功率（ASR, Attack Success Rate）極具欺騙性，如果一個 Agent 為了避免風險而拒絕執行任何工具調用，其ASR可能接近0，但同時也無法完成用戶任務，失去實際應用價值。

為此，MSB提出了凈彈性性能 NRP（Net Resilient Performance）指標：

NRP=PUA?（1?ASR）

其中，PUA（Performance Under Attack）為Agent在對抗環境中完成用戶任務的比例，ASR為攻擊成功率。NRP旨在評估Agent在抵御攻擊的同時保持性能的整體抗風險能力，提供平衡性能與安全的綜合性量化標準。

圖2：NRP vs ASR，NRP vs PUA。

所有攻擊方式均有效

圖3：主實驗結果。

研究團隊使用MSB對GPT-5、DeepSeek-V3.1、Claude 4 Sonnet、Qwen3等10款主流模型進行了大規模測試，所有攻擊方式均表現出有效性，總體平均ASR為40.35%。其中MCP引入的新型攻擊更具侵略性，相較于在function calling中已存在的PI和RI攻擊，基于MCP的攻擊例如UI和FE有更高的成功率。混合攻擊則是展現出協同增強，混合攻擊的成功率要高于組成其的單一攻擊。

越強大的模型，反而越脆弱題

不同指標間的關系揭示了一個反直覺的結論：能力越強的模型往往更容易受到攻擊。

圖4：PUA vs ASR。

在MSB中，完成攻擊任務仍需要Agent調用工具，例如使用文件讀取工具獲取個人信息。具有更高實用性的LLM，由于其更出色的工具調用和指令遵循能力，表現出更高的ASR。這一發現揭示了MCP安全漏洞的巨大實際風險。

全階段、多工具環境侵害

圖5：不同階段和工具配置的ASR。

進一步從MCP工作流程和工具配置的角度分析發現，在MCP的所有階段Agent都容易遭受攻擊，在工具調用階段模型的安全性最低。

此外，即使在包含無害工具的多工具環境中，攻擊依然有效。現實場景通常會為Agent提供工具包，即便存在無害工具，諸如NC、PM和TT等誘導方式仍會導致顯著的攻擊成功。

總結

OpenClaw的爆火，讓人們直觀地看到了Agent的未來：大模型不再只是回答問題，而是開始真正動手做事。MSB正是在這樣的背景下提出，它系統揭示了MCP生態中的潛在攻擊面，并為Agent安全研究提供了可復現、可量化的系統評測基準。

過去的大模型安全研究主要聚焦于提示注入等語言層面的風險，而MSB表明，當AI調用工具并與真實系統交互時，攻擊面也正在從文本空間擴展到工具生態。隨著Agent逐漸成為AI應用的新范式，安全或許正成為這場技術躍遷必須跨過的一道門檻。

參考資料：

https://openreview.net/pdf?id=irxxkFMrry

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.