![]()
新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】最新綜述首次系統(tǒng)探討LLM控制機(jī)器人的安全威脅、防御機(jī)制與未來挑戰(zhàn),指出LLM的具身鴻溝導(dǎo)致其在物理空間可能執(zhí)行危險(xiǎn)動(dòng)作,而現(xiàn)有防御體系存在邏輯與物理脫節(jié)等問題。
具身智能正在經(jīng)歷從實(shí)驗(yàn)室走向真實(shí)世界的范式轉(zhuǎn)移。
大語言模型(LLM)賦予了機(jī)器人強(qiáng)大的邏輯推理與任務(wù)規(guī)劃能力,但安全風(fēng)險(xiǎn)也隨之單純的「語義毒性」演變?yōu)檎鎸?shí)的物理破壞。
最近,悉尼大學(xué)和德克薩斯大學(xué)圣安東尼奧分校聯(lián)合發(fā)表了最新系統(tǒng)性綜述 ,首次深入探討了 LLM 控制下機(jī)器人的安全威脅、防御機(jī)制及未來挑戰(zhàn)。
![]()
論文鏈接:https://arxiv.org/html/2601.02377v1
核心挑戰(zhàn):物理屬性缺失的「具身鴻溝」
LLM控制機(jī)器人的底層困境在于具身鴻溝 (Embodiment Gap),傳統(tǒng)的 LLM 安全機(jī)制聚焦于文本輸出的合規(guī)性,具身智能則面臨著「亂執(zhí)行」的物理風(fēng)險(xiǎn)。
LLM具備卓越的抽象推理能力,卻缺乏對(duì)物理定律和傳感器數(shù)據(jù)的本質(zhì)理解,這種脫節(jié)導(dǎo)致系統(tǒng)可能在口頭拒絕惡意指令的同時(shí),依然在物理空間執(zhí)行了危險(xiǎn)動(dòng)作。
為了系統(tǒng)性應(yīng)對(duì)這一挑戰(zhàn),研究團(tuán)隊(duì)構(gòu)建了目前該領(lǐng)域最全的攻擊與防御全景分類學(xué):
![]()
具身智能安全攻擊與防御全景分類
具身層面攻擊分類學(xué):三大向量
研究團(tuán)隊(duì)系統(tǒng)性地提出了針對(duì)具身智能的攻擊分類方法 :
具身越獄 (Jailbreaking):利用提示詞工程繞過安全過濾器 。攻擊的關(guān)鍵在于確保惡意指令同時(shí)具備邏輯可執(zhí)行性與物理約束適配性 。
后門攻擊 (Backdoor):在模型中預(yù)埋特定觸發(fā)器 。特定的環(huán)境視覺特征(如路邊的小狗)可能誘發(fā)系統(tǒng)產(chǎn)生異常的控制指令 。
提示詞注入 (Prompt Injection):通過污染感知層數(shù)據(jù)實(shí)施攻擊 。偽造的 LiDAR 信息或中間人攻擊能直接篡改機(jī)器人的高層決策邏輯 。
防御困境:碎片化與語義真空
目前的防御體系在邏輯保障與物理保障之間存在明顯的斷裂 。
![]()
fig2. LLM 控制機(jī)器人的多層防御體系
邏輯與物理脫節(jié):傳統(tǒng)形式化方法(如 Safety Chip)能提供符號(hào)層面的邏輯驗(yàn)證,卻難以覆蓋復(fù)雜的連續(xù)動(dòng)力學(xué)環(huán)境 。
狀態(tài)相關(guān)性:機(jī)器人的安全性具有極強(qiáng)的狀態(tài)相關(guān)性 。相同的動(dòng)作在不同物理語境(如平地 vs 懸崖邊)下的安全性截然不同,靜態(tài)內(nèi)容過濾器無法理解這種動(dòng)態(tài)語境 。
多模態(tài)風(fēng)險(xiǎn):當(dāng)文字、圖像、傳感器數(shù)據(jù)交織在一起,單一的防御手段已不再可行 。
未來路線圖
構(gòu)建具身安全基石
研究團(tuán)隊(duì)提出了三位一體的防御演進(jìn)方向 :
環(huán)境感知的安全對(duì)齊:研究重心需從文本語義對(duì)齊轉(zhuǎn)向物理后果的預(yù)測(cè)與對(duì)齊 。
全生命周期防御框架:構(gòu)建涵蓋模型訓(xùn)練、供應(yīng)鏈審計(jì)、運(yùn)行時(shí)監(jiān)控及形式化驗(yàn)證的閉環(huán)體系 。
標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試:呼吁行業(yè)建立統(tǒng)一的評(píng)估標(biāo)準(zhǔn),論文梳理了AGENTSAFE、EIRAD以及SafeAgentBench等前沿基準(zhǔn),用于量化長時(shí)程環(huán)境下的系統(tǒng)穩(wěn)健性 。
安全性不再是具身智能的附加組件,而是行業(yè)建立信任的底層基石 。
參考資料:
https://arxiv.org/html/2601.02377
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.