網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

首篇具身智能機(jī)器人「安全」綜述：LLM如何跨越物理鴻溝？

2026-01-20 13:05:06　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】最新綜述首次系統(tǒng)探討LLM控制機(jī)器人的安全威脅、防御機(jī)制與未來挑戰(zhàn)，指出LLM的具身鴻溝導(dǎo)致其在物理空間可能執(zhí)行危險(xiǎn)動(dòng)作，而現(xiàn)有防御體系存在邏輯與物理脫節(jié)等問題。

具身智能正在經(jīng)歷從實(shí)驗(yàn)室走向真實(shí)世界的范式轉(zhuǎn)移。

大語言模型（LLM）賦予了機(jī)器人強(qiáng)大的邏輯推理與任務(wù)規(guī)劃能力，但安全風(fēng)險(xiǎn)也隨之單純的「語義毒性」演變?yōu)檎鎸?shí)的物理破壞。

最近，悉尼大學(xué)和德克薩斯大學(xué)圣安東尼奧分校聯(lián)合發(fā)表了最新系統(tǒng)性綜述，首次深入探討了 LLM 控制下機(jī)器人的安全威脅、防御機(jī)制及未來挑戰(zhàn)。

論文鏈接：https://arxiv.org/html/2601.02377v1

核心挑戰(zhàn)：物理屬性缺失的「具身鴻溝」

LLM控制機(jī)器人的底層困境在于具身鴻溝 (Embodiment Gap)，傳統(tǒng)的 LLM 安全機(jī)制聚焦于文本輸出的合規(guī)性，具身智能則面臨著「亂執(zhí)行」的物理風(fēng)險(xiǎn)。

LLM具備卓越的抽象推理能力，卻缺乏對(duì)物理定律和傳感器數(shù)據(jù)的本質(zhì)理解，這種脫節(jié)導(dǎo)致系統(tǒng)可能在口頭拒絕惡意指令的同時(shí)，依然在物理空間執(zhí)行了危險(xiǎn)動(dòng)作。

為了系統(tǒng)性應(yīng)對(duì)這一挑戰(zhàn)，研究團(tuán)隊(duì)構(gòu)建了目前該領(lǐng)域最全的攻擊與防御全景分類學(xué)：

具身智能安全攻擊與防御全景分類

具身層面攻擊分類學(xué)：三大向量

研究團(tuán)隊(duì)系統(tǒng)性地提出了針對(duì)具身智能的攻擊分類方法：

具身越獄 (Jailbreaking)：利用提示詞工程繞過安全過濾器。攻擊的關(guān)鍵在于確保惡意指令同時(shí)具備邏輯可執(zhí)行性與物理約束適配性。

后門攻擊 (Backdoor)：在模型中預(yù)埋特定觸發(fā)器。特定的環(huán)境視覺特征（如路邊的小狗）可能誘發(fā)系統(tǒng)產(chǎn)生異常的控制指令。

提示詞注入 (Prompt Injection)：通過污染感知層數(shù)據(jù)實(shí)施攻擊。偽造的 LiDAR 信息或中間人攻擊能直接篡改機(jī)器人的高層決策邏輯。

防御困境：碎片化與語義真空

目前的防御體系在邏輯保障與物理保障之間存在明顯的斷裂。

fig2. LLM 控制機(jī)器人的多層防御體系

邏輯與物理脫節(jié)：傳統(tǒng)形式化方法（如 Safety Chip）能提供符號(hào)層面的邏輯驗(yàn)證，卻難以覆蓋復(fù)雜的連續(xù)動(dòng)力學(xué)環(huán)境。

狀態(tài)相關(guān)性：機(jī)器人的安全性具有極強(qiáng)的狀態(tài)相關(guān)性。相同的動(dòng)作在不同物理語境（如平地 vs 懸崖邊）下的安全性截然不同，靜態(tài)內(nèi)容過濾器無法理解這種動(dòng)態(tài)語境。

多模態(tài)風(fēng)險(xiǎn)：當(dāng)文字、圖像、傳感器數(shù)據(jù)交織在一起，單一的防御手段已不再可行。

未來路線圖

構(gòu)建具身安全基石

研究團(tuán)隊(duì)提出了三位一體的防御演進(jìn)方向：

環(huán)境感知的安全對(duì)齊：研究重心需從文本語義對(duì)齊轉(zhuǎn)向物理后果的預(yù)測(cè)與對(duì)齊。

全生命周期防御框架：構(gòu)建涵蓋模型訓(xùn)練、供應(yīng)鏈審計(jì)、運(yùn)行時(shí)監(jiān)控及形式化驗(yàn)證的閉環(huán)體系。

標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試：呼吁行業(yè)建立統(tǒng)一的評(píng)估標(biāo)準(zhǔn)，論文梳理了AGENTSAFE、EIRAD以及SafeAgentBench等前沿基準(zhǔn)，用于量化長時(shí)程環(huán)境下的系統(tǒng)穩(wěn)健性。

安全性不再是具身智能的附加組件，而是行業(yè)建立信任的底層基石。

參考資料：

https://arxiv.org/html/2601.02377

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.