![]()
新智元報道
編輯:LRST
【新智元導讀】當AI智能體從「被動預測工具」蛻變為「主動決策實體」,其安全風險也在經歷一場前所未有的質變。
當AI智能體被部署進醫療診斷、金融交易、工業控制等高風險場景,安全性已不再是可以事后打補丁的附加項,而是系統準入的生死線。
然而,當前的智能體安全研究正陷入一種結構性失語:現有調研要么沿著數據—訓練—部署的生命周期靜態切片,要么將安全、隱私、魯棒性等屬性碎片化地橫向并列,抑或孤立地審視大腦、記憶、工具等模塊,始終未能回答一個最根本的問題:隨著智能體自主能力的階梯式躍遷,安全威脅究竟是如何發生質變的?
更深層的困境在于:領域內對集體自主(Collective Autonomy)階段的研究幾近空白。當數以百萬計的智能體通過A2A協議組成社會網絡,單一智能體的安全機制徹底失效,系統性治理危機隨之浮現,而現有框架卻幾乎將其視為可忽略的邊緣場景。
為填補這一鴻溝,來自南京航空航天大學、香港中文大學、浙江大學等機構的研究團隊提出了HAE(Hierarchical Autonomy Evolution,層次自主演化)框架,首次將AI智能體安全研究從靜態單點切片提升至自主演化縱軸的全局視角。
HAE框架不僅是一份分類學目錄,更是一套以自主演化為經、威脅機理為緯的安全診斷體系,旨在為可信AI智能體的研究與防御提供結構化的理論底座。
![]()
論文鏈接:https://arxiv.org/abs/2603.07496
開源倉庫:https://github.com/Epiphanyi/HAE-Agent-Security
論文系統揭示了一個核心命題:同一威脅(如幻覺),在智能體自主能力躍遷后,會經歷從信息謬誤(L1)到物理誤操作(L2)再到生態級大規模誤導(L3)的質變,這也是現有安全框架的根本性盲區。
從靜態切片到自主演化縱軸
面對百花齊放卻各自為戰的安全研究現狀,HAE 團隊沒有另起爐灶設計一套新的靜態分類法,而是沿自主能力演化這一縱軸,將智能體的生存空間劃分為三個質性不同的演化層級,形成了一條從內部認知到現實執行再到社會治理的完整威脅鏈條:
L1——思考者(認知自主,Cognitive Autonomy):智能體具備內部推理、記憶檢索與自主規劃能力。威脅聚焦于認知完整性,具體表現為認知劫持(Cognitive Hijacking)、間接提示注入(Indirect Prompt Injection)和記憶污染(Memory Corruption)。此層威脅的后果是信息層面的暫態謬誤,類比于單次決策失誤。
L2——執行者(執行自主,Executional Autonomy):智能體獲得通過工具調用、API 接口和物理執行器主動改變外部世界狀態的能力。威脅演化為混淆代理攻擊(Confused Deputy)、工具濫用(Tool Abuse)、環境破壞(Environmental Damage)與不安全動作鏈(Unsafe Action Chains)。此層風險從「說錯了」升級為「做錯了」,帶來不可逆的物理現實后果。
L3——社會(集體自主,Collective Autonomy):多智能體通過 A2A 協議組成協作網絡,涌現出社會動力學與系統性風險。威脅形態躍升為惡意合謀(Malicious Collusion)、病毒感染(Viral Infection)與系統性崩潰(Systemic Collapse)。此層風險不再是單點故障的線性疊加,而是具有傳染性和涌現性的生態級癱瘓。
![]()
圖1:HAE框架全景圖。展示了三個自主演化層級中智能體能力與涌現威脅的協同演化關系:L1認知劫持與記憶污染、L2混淆代理與不安全動作鏈、L3惡意合謀與病毒感染。
HAE框架的核心洞見在于:同一漏洞(如幻覺或提示注入),在自主能力的每次躍遷后都會發生本質性的范式轉變。這一縱向演化視角,彌補了現有四類主流框架(生命周期視角、可信屬性視角、組件模塊視角、自主結構視角)的共同盲區:它們均未將 L3 集體自主建立為具有獨立社會動力學的演化階段。
技術內核
智能體解剖:四大攻擊面
HAE框架將智能體分解為四個核心功能組件,每個組件對應獨立的攻擊面:
感知(Perception):處理來自網頁、郵件、文檔的多模態輸入,是指令與數據的邊界混淆地帶,是間接提示注入的天然溫床。
大腦(Brain/LLM):執行指令理解、規劃(CoT)與自我反思,是認知劫持的核心靶點,攻擊者無需直接下達禁令,只需操控推理邏輯本身。
記憶(Memory):短期上下文窗口與基于 RAG 的長期知識庫,使智能體得以跨時積累經驗,同時也為持久性投毒攻擊(如 PoisonedRAG)敞開了大門。
行動(Action):通過工具調用 API 執行操作,將智能體從語言處理器轉化為能夠產生現實后果的主動實體,本質上是安全風險的放大器。
認知—執行—擴散跨層傳播鏈
HAE 框架最具原創性的發現之一,是揭示了安全風險在三層之間的非線性跨層傳播機制,并以一個具體的層級攻擊場景加以闡明:
垂直升級(L1 → L2):L1 記憶系統的漏洞(如 RAG 投毒)導致推理引擎檢索到惡意上下文,認知層面的偏差下傳至 L2,欺騙動作控制器實施工具濫用(如生成并執行惡意腳本),將隱性信息錯誤轉化為現實的物理破壞。
水平擴散(L2 → L3):L2 層的惡意執行(如通過 Email API 發送惡意腳本)跨越至 L3 域。受感染的智能體借助 A2A 通信協議,將有害載荷傳播至網絡中的其他節點。
系統性放大(L3涌現):L3 層的社會互聯性將單一認知故障放大為整個生態系統的崩潰,這是病毒感染,證明安全防御必須跨越整個 HAE 層級進行整體性設計。
自主感知威脅分類體系
![]()
圖2:自主感知威脅分類體系。展示了跨越L1—L3的系統性威脅圖譜,揭示更高層級的威脅無法從低層級漏洞線性推導,須獨立建模分析。
四級風險沖擊量表(HAE Impact Scale)
為清晰量化威脅烈度,研究團隊在系統分析2024-2025年40余篇代表性論文后,建立了基于攻擊后果性質與持久性的四級分類體系:
![]()
該量表清晰表明:風險烈度隨自主能力躍遷呈現出非線性質變而非線性疊加,L3 的系統級聯威脅在本質上有別于 L1/L2 威脅的簡單聚合。
關鍵洞察
L1認知層:推理引擎與記憶系統的脆弱性
![]()
圖3:L1 認知自主層架構與威脅圖景。展示了智能體作為思考者的內部認知循環——感知、推理與記憶檢索過程,以及針對認知完整性的三類核心攻擊路徑。
在 L1 階段,攻擊面沿三條路徑展開:間接提示注入利用智能體處理外部內容(網頁、郵件、文檔)的能力,將控制指令偽裝進數據流,模糊指令與數據的邊界,實現目標劫持;認知劫持則不直接下達禁令,而是通過梯度優化(GCG)、樹形搜索(TAP)、多輪社會工程學(Crescendo)等手段操控推理邏輯,繞過對齊護欄;記憶污染(PoisonedRAG 攻擊成功率高達 90%)則針對 RAG 長期知識庫植入后門,使認知偏差具有跨時態的持久性,將外部惡意輸入固化為內部虛假信念。
L2執行層:「說錯了」到「做錯了」的危險跨越
![]()
圖4:L2執行自主層架構與威脅圖景。展示了智能體作為執行者通過工具接口與數字/物理環境產生實質性交互,由此引入具有現實動能后果的新興威脅——混淆代理、工具濫用、環境破壞與不安全動作鏈。
在L2階段,傳統以文本輸出為靶向的RLHF對齊機制幾乎完全失效。混淆代理攻擊利用大模型無法在架構層面區分控制指令與數據流的根本缺陷,借助智能體的合法高權限執行原本禁止的操作;
工具濫用則將原本用于提升生產力的代碼解釋器、搜索引擎等工具,轉化為自動化攻擊武器(AgentHarm 測試已證實可完成從信息收集到攻擊載荷投遞的完整管道);
不安全動作鏈揭示了最隱蔽的組合風險:每個原子操作獨立合規,但特定序列組合后可觸發災難性后果(如讀取敏感記錄+發送外部郵件構成數據泄露鏈路)。
L3集體層:從個體故障到生態崩潰的相變
![]()
圖5:L3集體自主層架構與威脅圖景。展示了 Manager-Worker 層級結構中,三類系統性風險(惡意合謀、病毒感染、系統性崩潰)如何通過目標對齊誤用、A2A 傳播渠道與依賴級聯三條路徑涌現。
L3的核心危險在于涌現性。整體安全態勢低于構成部分之和。惡意合謀將攻擊意圖分解至多個局部合規的 Worker Agent,傳統單智能體安全審查完全失效;PsySafe框架進一步揭示,多智能體辯論機制可能因共同的微調偏差退化為回音室,形成具有自我演化能力的惡意集群。
病毒感染方面,Morris-II蠕蟲與Agent Smith實驗證明單張對抗性圖片即可在百萬量級網絡中實現指數級零點擊傳播。
系統性崩潰則存在兩種形態:拓撲依賴誘發的級聯失效(Agent A 泄露航班信息、Agent B 泄露支付記錄,二者組合即可推斷員工行蹤,而每次單獨披露均符合隱私規范);以及資源壟斷誘發的算力 DoS(惡意查詢觸發最壞計算路徑,耗盡共享 GPU 資源,導致全網絡同步阻塞)。
從調研到行動
三大前沿研究缺口
HAE 框架不僅是現狀診斷,更是未來安全研究的路線圖,精準指出三大突破方向:
方向一:軟件供應鏈與開放生態的安全。
MetaGPT 等工程類智能體已滲透軟件開發流程,其可能產生的包幻覺(Package Hallucination)開啟了 typosquatting 供應鏈投毒的新攻擊面;OpenClaw(原 Clawdbot)等平臺上的數百萬自主體已自發形成帶有排他性意識形態的加密通信網絡,展現出L3風險的極端形態。
方向二:科學自主智能體的雙重用途風險。
當智能體被賦予控制自動化實驗室設備的能力,L2物理執行與 L3知識協作的組合效應將使制造危險物質的門檻急劇降低。未來的評估框架必須引入物理沙箱,在執行安全危機操作前驗證安全斷路機制是否生效。
方向三:防御方法的系統化整合。
打破現有的碎片化單層防御,呼吁通過神經-符號協同(Neurosymbolic Coordination)將概率判斷轉化為確定性安全保證,并構建基于去中心化聲譽的 L3 動態免疫系統。
深遠影響
HAE 框架的提出,在智能體安全領域具有多重里程碑意義:
統一分析范式:首次以「自主能力演化」為軸,將認知(L1)、執行(L2)、集體(L3)無縫整合,系統揭示了安全風險「認知—執行—擴散」的跨層涌現與放大機理。
填補L3集體自主的防御空白:明確「集體自主」為獨立的演化階段,直指現有單體安全機制在多智能體協同網絡中的根本性失效,為社區指明了全新的攻關方向。
從合規清單到治理戰略:當智能體形成「社會」,安全即演變為生態治理危機。HAE 將 AI 安全從技術修補提升至多方協同治理的戰略高度。
AI的進化從未停歇,從思考者到執行者,再到社會中的成員,每一次自主能力的躍遷,都在系統性地重寫安全邊界的定義。HAE框架的開源,將為構建可信、可控、可治理的 AI 智能體生態系統提供重要的理論基礎與實踐指引。
參考資料:
https://arxiv.org/abs/2603.07496
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.