![]()
新智元報道
編輯:LRST
【新智元導讀】最新綜述首次系統探討LLM控制機器人的安全威脅、防御機制與未來挑戰,指出LLM的具身鴻溝導致其在物理空間可能執行危險動作,而現有防御體系存在邏輯與物理脫節等問題。
具身智能正在經歷從實驗室走向真實世界的范式轉移。
大語言模型(LLM)賦予了機器人強大的邏輯推理與任務規劃能力,但安全風險也隨之單純的「語義毒性」演變為真實的物理破壞。
最近,悉尼大學和德克薩斯大學圣安東尼奧分校聯合發表了最新系統性綜述 ,首次深入探討了 LLM 控制下機器人的安全威脅、防御機制及未來挑戰。
![]()
論文鏈接:https://arxiv.org/html/2601.02377v1
核心挑戰:物理屬性缺失的「具身鴻溝」
LLM控制機器人的底層困境在于具身鴻溝 (Embodiment Gap),傳統的 LLM 安全機制聚焦于文本輸出的合規性,具身智能則面臨著「亂執行」的物理風險。
LLM具備卓越的抽象推理能力,卻缺乏對物理定律和傳感器數據的本質理解,這種脫節導致系統可能在口頭拒絕惡意指令的同時,依然在物理空間執行了危險動作。
為了系統性應對這一挑戰,研究團隊構建了目前該領域最全的攻擊與防御全景分類學:
![]()
具身智能安全攻擊與防御全景分類
具身層面攻擊分類學:三大向量
研究團隊系統性地提出了針對具身智能的攻擊分類方法 :
具身越獄 (Jailbreaking):利用提示詞工程繞過安全過濾器 。攻擊的關鍵在于確保惡意指令同時具備邏輯可執行性與物理約束適配性 。
后門攻擊 (Backdoor):在模型中預埋特定觸發器 。特定的環境視覺特征(如路邊的小狗)可能誘發系統產生異常的控制指令 。
提示詞注入 (Prompt Injection):通過污染感知層數據實施攻擊 。偽造的 LiDAR 信息或中間人攻擊能直接篡改機器人的高層決策邏輯 。
防御困境:碎片化與語義真空
目前的防御體系在邏輯保障與物理保障之間存在明顯的斷裂 。
![]()
fig2. LLM 控制機器人的多層防御體系
邏輯與物理脫節:傳統形式化方法(如 Safety Chip)能提供符號層面的邏輯驗證,卻難以覆蓋復雜的連續動力學環境 。
狀態相關性:機器人的安全性具有極強的狀態相關性 。相同的動作在不同物理語境(如平地 vs 懸崖邊)下的安全性截然不同,靜態內容過濾器無法理解這種動態語境 。
多模態風險:當文字、圖像、傳感器數據交織在一起,單一的防御手段已不再可行 。
未來路線圖
構建具身安全基石
研究團隊提出了三位一體的防御演進方向 :
環境感知的安全對齊:研究重心需從文本語義對齊轉向物理后果的預測與對齊 。
全生命周期防御框架:構建涵蓋模型訓練、供應鏈審計、運行時監控及形式化驗證的閉環體系 。
標準化基準測試:呼吁行業建立統一的評估標準,論文梳理了AGENTSAFE、EIRAD以及SafeAgentBench等前沿基準,用于量化長時程環境下的系統穩健性 。
安全性不再是具身智能的附加組件,而是行業建立信任的底層基石 。
參考資料:
https://arxiv.org/html/2601.02377
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.