網易首頁 > 網易號 > 正文申請入駐

AI Agent系統的安全能力及可信治理的“三道防線”

2025-08-07 14:18:38　來源: 安全牛

北京舉報

分享至

在AI技術加速演進與廣泛落地的當下，Agent系統作為具備自主感知、推理與執行能力的智能體，正日益成為企業智能化轉型的核心驅動。然而，隨之而來的系統復雜性、任務自治性以及跨域協同能力，也引發了前所未有的安全挑戰與治理難題。為了構建一個既高效運行又可控可信的Agent系統，亟需在架構層面引入系統性的安全防護與治理機制。本文基于調研，圍繞AI Agent系統的安全能力與防護方法展開，提出“預測－防御－檢測－響應－審計”的立體化防護體系，旨在為AI Agent的安全可信演進提供可落地的路徑與框架支撐。

一、AI Agent應用系統的安全能力及代表性廠商

為匹配AI Agent系統的安全需求，頭部安全廠商正加速布局相關能力與產品體系，積極探索適配大模型與智能體架構的新型安全方案。然而，由于大模型與Agent技術尚處于快速發展階段，當前在傳統安全廠商中，具備深度研究與產品化能力的企業仍屬少數。整體市場仍處于從探索驗證向體系化建設過渡的初期階段，相關安全能力體系尚待進一步完善與沉淀。

從調研趨勢來看，廠商當前主要聚焦于AIGC（生成式人工智能）安全治理領域，圍繞模型行為控制與內容合規管理展開技術創新。典型的安全能力包括：人工智能安全評測、大模型安全網關、安全圍欄機制。

人工智能評測

人工智能評測對大模型與AI Agent系統在輸入輸出、推理過程、異常行為等方面進行安全性、穩定性和合規性評估，輔助企業實現模型上線前的風險可控。核心目標是驗證模型質量、風險水平與業務適配度，為開發、部署、監管和優化提供客觀依據。

應用場景：包括，大模型選型、備案合規評估、上線前能力與安全評估、行業AI應用評估、第三方AI安全審計服務、開源模型基準對比等場景。

人工智能評測，尤其是面向生成式人工智能模型的安全性與可信性評估，已成為當前業界關注的核心問題之一。當前，參與該領域建設的主體有安全廠商，也有專注于AI技術研究的專業機構。

部分機構不僅具備自主研發的測評工具，還已開展體系化的安全評估服務，代表性機構包括：綠盟科技、君同未來以及上海人工智能實驗室等。這些機構在模型攻擊面分析、安全基準測試、提示詞風險識別、輸出內容合規性評估等方面均已展開實質性探索，推動形成較為初步的行業實踐標準。

（一）綠盟科技：大模型安全評估系統AI-SCAN

AI-SCAN主要用于評估AI生成內容的安全性，識別和防范潛在風險內容，包括但不限于虛假信息、惡意言論、隱私泄露、版權侵權等，確保AI生成內容的安全性、合規性和可靠性，避免因內容風險引發的法律糾紛或社會負面影響。

滿足合規：滿足大模型應用產品和服務的監管以及合規性評估要求，如 TC260-003技術標準、大模型備案、算法備案等。
風險識別：在整個AI生命周期中測試模型，包括訓練、部署、測試等階段，盡早預防風險，針對性開展防御加固工作。
模型選型：針對多個本地模型或者在線模型開展模型橫向能力對比分析，輸出評估分析報告，輔助客戶選型模型。

（二）君同未來：評測驗證系統“君合、君檢”

君同未來是國內專注于人工智能生態治理的一家初創公司，公司成立于2024年6月，總部位于杭州。通過“君合、君檢”（評測驗證）與“君控”（防護管控）雙系統協同，構成了從評測、監控、到防護的全棧AI可信治理方案。其中“君合”是生成式人工智能評測驗證系統，“君檢”是決策式AI評測增強系統。用于量化評估大模型在實際業務中的可信度、性能和風險控制能力。交付方式包括產品和服務兩種。

（三）上海AI人工智能實驗室：開源的大模型評測平臺OpenCompass

OpenCompass是上海人工智能實驗室開源的大模型評測平臺，也稱為“司南”。它旨在為大語言模型、多模態模型等各類模型提供一站式評測服務，以純粹技術及中立視角為產學研界提供客觀的大模型能力參考。

該平臺將測評方向匯總為知識、語言、理解、推理、考試5大能力維度，整合了超過70個評測數據集，提供超過40萬個模型評測問題，及長文本、安全、代碼3類大模型特色技術能力評測。OpenCompass平臺同時會發布大模型的評分榜，包含大語言模型、多模態模型以及各個垂類領域的模型排名，為用戶提供全面、客觀、中立的評測參考。

大模型安全網關

大模型安全網關作為模型調用的中間層，負責對輸入提示詞與輸出內容進行審查、策略管控和風險攔截，防止提示注入、越權訪問、違規生成等問題。核心目標是保護模型系統免受外部惡意攻擊和違規內容。如，對模型的輸入請求和輸出響應進行內容安全分析、風險識別和策略管控，防止敏感信息泄露、越權訪問、提示注入攻擊等問題的發生。

適用場景：適合部署在統一入口/模型API接入前后，適用于惡意流量、合規訪問、數據泄露防護等通用安全場景。

安全網關是一組相對靜態的安全策略，通常獨立于模型本體運行，保障模型調用鏈路的整體安全與合規性。目前，國內外都有一些代表性廠商在該領域展開布局。

國外大模型安全網關的代表性解決方案提供商，有：Microsoft、Prompt Security。

（一）（美國）Microsoft：Azure AI Content Safety Gateway

Azure AI Content Safety Gateway是微軟推出的企業級大模型內容安全防護組件，作為Azure OpenAI Service的重要配套能力，旨在為接入GPT系列模型的企業和開發者提供輸入/輸出內容的安全分析、合規控制與風險攔截能力。

（二）（美國）Prompt Security：Prompt Security Gateway

Prompt Security是一家美國的安全初創公司，專注于為企業防范與生成式人工智能相關的風險，公司成立于2023年。2024年9月推出了針對 Microsoft 365 Copilot的安全和治理解決方案Prompt Security Gateway，其核心功能包括Prompt攻擊檢測、模型調用行為分析。交付方式支持SaaS或本地部署。

國內大模型安全網關的代表性解決方案提供商，有：字節跳動、知道創宇。

（三）字節跳動：大模型應用防火墻

火山引擎大模型應用防火墻，提供大語言模型推理服務安全防護產品，確保輸入、輸出內容雙向的隱私、安全、可用、可信，保護大語言模型不會受到OWASP LLM Top10攻擊，提供了算力消耗攻擊、提示詞攻擊等的安全防護。

（四）知道創宇：創宇大模型網關

創宇大模型網關是知道創宇針對大模型接入安全推出的一款安全防護網關類產品。產品采用代理方式進行部署，接入方式符合OpenAI API協議的大模型接口或第三方AI網關接口，支持大模型統一接入管理，大模型可觀測，以及敏感數據泄露、內容安全等多維度安全防護能力。

安全圍欄

安全圍欄為AI Agent行為設置“軟硬邊界”，限制其在特定業務范圍內的權限與能力，防止Agent越權操作、執行惡意指令或引發業務風險。通常通過預設的權限策略、行為白名單或執行路徑規則，在智能系統執行過程中動態進行決策攔截，從而防止越權行為、數據泄露和意圖偏移，是Agent系統安全的一道重要防護線。

適用場景：相對大模型安全網關，安全圍欄一種更精細的、動態的策略約束機制。適用于上下文分析、行為約束、數據訪問等場景。通常部署在內部Agent系統/智能體框架中，在模型運行時或Agent執行階段，限定模型使用范圍、行為邊界和權限約束。

國外安全圍欄代表性提供商，如，Google。

（一）（美國）Google：Vertex AI Guardrails

Vertex AI Guardrails是Google面向企業級生成式AI應用推出的系統性安全機制，覆蓋從內容審查、工具調用控制、身份隔離到配置監控的多維防護。對于構建復雜Agent系統或業務敏感型AI應用的場景，Guardrails能在執行路徑內直接施加策略邊界。相關研究顯示，在G2平臺上，Vertex AI Guardrails 的內容審核規則與合規檢測功能達到了約?90%的用戶滿意度。

國內安全圍欄的代表性提供商，如：中電信人工智能科技、數美科技、綠盟科技。

（二）中電信人工智能科技：AIGC安全治理方案

中電信人工智能科技全稱中電信人工智能公司安全運營公司，成立于2023年11月，其前身是中國電信集團大數據和AI中心成立的分公司。2025年初，該公司面向基礎大模型、大模型應用、智能體推出了AIGC安全治理方案。該方案聚焦于數據、模型、內容安全，提供AIGC訓練語料處理、安全防護、內容標注能力、安全評測能力、深度偽造鑒別共六大核心能力。通過SaaS化方式，支持多租戶、多場景定制化策略，內置30+檢測引擎，能實時攔截輸入/輸出風險。

（三）數美科技：AIGC應用安全圍欄

數美科技成立于2015年6月，是一家專業的在線業務和內容風控解決方案提供商。針對AIGC應用面臨的風險挑戰，數美科技基于內容合規以及賬號安全領域的積累，推出AIGC應用安全圍欄解決方案。產品貫穿“數據－模型－運營”全鏈條，提供了發布前合規支持，運營中內容審核和賬戶防護等風險防控能力。

（四）綠盟科技：大模型應用安全防護WAF-SLLM

綠盟科技推出的大模型應用安全防護WAF-SLLM，從大模型的WEB應用安全及API保護出發，提供場景化的安全防護能力，覆蓋大模型應用下的供應鏈安全場景、數據安全場景、運營安全場景，保障用戶的大模型應用能夠安全高效地發展。

內容合規：對模型輸入內容進行安全校準，并確保模型輸出內容滿足合規要求，及內容正確性監測。
數據安全：對模型返回的敏感數據進行檢測，規避隱私竊取場景。
模型安全：針對提示注入、越獄攻擊等輸入進行安全檢測，提高大模型自身的安全性與魯棒性。

評測、網關與圍欄的區別

從評測、網關、圍欄的區別來看，三者在目標定位、作用層級、部署方式、運行階段、技術手段等多個維度有顯著區別，如表所示。

評測、網關與圍欄的區別

二、AI Agent系統可信治理的“三道防線”

隨著大語言模型和多智能體系統在各行業的廣泛應用，如何實現系統安全、可控、可信地運行，成為企業和機構部署AI Agent系統時必須優先考慮的問題。

本節基于AIGC安全能力的研究和調研，結合評測、網關、圍欄三大安全能力之間的區別和聯系，進而提出AI Agent系統可信治理的“三道防線”。

（一）第一防線：模型測評——“識別風險，建立基線”

人工智能測評是Agent系統可信治理的起點，主要在模型上線前進行，對模型本身的能力邊界與潛在風險進行系統化評估。通過人工測試與自動化測評結合，可以從以下幾個維度開展：

功能評估：包括問答準確性、邏輯推理能力、多輪對話連貫性等。
安全性評估：涵蓋提示注入攻擊（Prompt Injection）、越獄（Jailbreak）、敏感信息響應等。
合規性評估：檢測是否違反法律法規或倫理道德邊界，如虛假信息、歧視性言論、涉政內容等。

測評結果可以轉化為安全策略基線，為后續網關與圍欄的規則設計提供數據支撐。例如，通過測評發現某類提示注入攻擊有效，則應在網關側部署相應檢測策略。

（二）第二防線：安全防護——“攔截風險，防止擴散”

安全網關與安全圍欄是AI Agent系統安全防護體系中兩個層次遞進、側重點不同的核心能力。盡管在功能上存在一定重疊，例如對模型輸入輸出的風險控制，但在系統定位、控制機制與設計目標上各有側重。工程中，可以整合為一個產品，也可以作為兩個獨立模塊存在，具體取決于廠商的架構設計與應用場景需求。

安全網關屬于外部防護層，特別適用于多訪問用戶、API開放或大規模使用場景，是確保模型可控性的核心組件。大模型安全網關主要部署在Agent系統的輸入輸出接口處，作為運行時的安全守門員，承擔內容審查、風險識別、訪問控制等功能。

輸入攔截：識別危險Prompt、惡意用戶輸入、越權訪問請求等，提前阻斷潛在攻擊。
輸出過濾：對模型生成內容進行實時監測，避免泄露PII（個人身份信息）、涉敏輸出或違法內容。
策略控制與日志審計：支持定制策略規則，記錄所有風險行為以供追溯與合規審計。

安全圍欄機制面向AI Agent系統的內部運行階段，聚焦于對模型調用行為和功能邊界的限制與治理。通常與Agent框架（如LangChain、AutoGen、企業自研平臺）深度集成。

功能調用限制：通過角色權限管理（RBAC）、白名單控制、調用頻次限制等手段，規范模型對外部工具/插件/數據庫等的訪問能力。
執行路徑設定：預設任務執行流程，限制非預期的跳轉、嵌套或越權操作。
行為策略監控：在系統內部追蹤模型行為路徑，對敏感操作進行事前攔截或事中確認。

（三）第三防線：安全審計——合規溯源保障

在AI Agent系統高度自主化、復雜化的運行環境下，安全審計不僅是傳統意義上的日志記錄工具，更是支撐整個系統可信治理、安全響應與合規保障的基礎能力，具有不可替代的重要作用。承擔著對系統運行全流程進行記錄、追溯、取證與問責的關鍵職責，是實現可解釋、可監管、可溯源的核心保障機制。

行為可追溯記錄AI Agent在任務執行過程中的關鍵行為軌跡，包括感知輸入、內部推理、決策路徑、輸出內容及交互對象；支持“誰發起、調用了什么、如何推理、最終結果為何”全過程追蹤。
提示詞與響應日志留存審計AI Agent與大模型之間的提示詞交互內容，可用于檢測提示注入、越權意圖、敏感生成等風險；為Prompt安全管控、內容合規稽核提供數據基礎。
策略執行驗證審計各類安全策略（如訪問控制、輸出過濾、安全圍欄）是否生效，是否被繞過，輔助策略優化。
異常行為識別與溯源結合日志分析和行為畫像技術，可對“Agent越權行為”“模型輸出異常”“系統調用違規”等事件進行實時檢測與反向追溯。
支持合規與問責要求滿足國家數據安全、內容合規、算法備案等監管要求，建立清晰的審計責任鏈；為后續責任認定、事故處理提供取證依據。

AI Agent系統的智能化水平越高，其潛在的不確定性與風險也越大。三道防線在AI Agent整體架構中構成“預測－防御－檢測－響應－審計”的完整閉環，是保障AI Agent系統穩定、安全、合規運行的必由之路。未來，隨著大模型能力演進與業務復雜性提升，三道防線之間的聯動機制將更加關鍵，值得所有AI系統建設者深度關注與持續優化。

合作電話：18311333376

合作微信：aqniu001

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.