網易首頁 > 網易號 > 正文申請入駐

首篇，系統盤點擴散模型高危漏洞！看懂攻擊方式和防御體系

2025-12-21 17:17:29　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】隨著擴散模型廣泛應用，其安全問題日益凸顯，攻擊者可通過精心設計的輸入操控模型生成有害圖像。天津大學團隊發表的綜述論文系統梳理了文生圖模型的攻擊方式、風險類型、威脅場景與防御體系。文中詳細分析了非目標攻擊和目標攻擊的特點，以及現有的魯棒性防御和安全性防御策略，指出當前防御仍存在不足，未來需建立更體系化的防護體系。

隨著AI圖片生成進入大眾視野，擴散模型（Diffusion Models）已經成為當前圖像生成最主流的技術。從設計、廣告、游戲，到媒體生產、影視預演，這些模型正悄悄重塑視覺內容的生產方式。

但在大規模應用快速推進的同時，一個新的問題也愈發凸顯：這些看起來「全能」的文生圖模型，真的安全嗎？

近年來，越來越多研究者正在發現：T2I（Text-to-Image）文生圖模型不僅會在正常提示下生成偏差內容，更可能在一些經過精心設計的輸入下「越界」、被操控，甚至生成具有實際危害性的圖片。

為了系統梳理這類風險，天津大學團隊發表的最新綜述，首次對文生圖模型的攻擊方式、風險類型、威脅場景與防御體系進行了系統盤點。

論文地址：https://arxiv.org/pdf/2407.15861

代碼地址：https://github.com/datar001/Awesome-AD-on-T2IDM

文生圖模型，到底有哪些風險？攻擊者又是如何「操控」它們？我們又該如何防御？

如何突破安全漏洞？

文生圖攻擊模式解析

當前針對文生圖擴散模型的攻擊方式正在快速體系化。無論具體方法如何變化，它們都遵循同一框架：攻擊者先確定攻擊目的是想讓模型「偏離」還是「越界」，再向提示中注入擾動，并依照自身掌握的模型信息（黑盒或白盒）優化這段提示，使其最終誘導模型生成攻擊者預期的圖像。

圖1. 文生圖模型的對抗攻擊分類

在攻擊目的上，方法分為兩類。

非目標攻擊（Untargeted Attack）通過微小的字符或詞級變動，讓模型生成與原意不一致的圖像，暴露其魯棒性不足；

而目標攻擊（Targeted Attack）則直接繞過安全機制，誘導模型生成色情、暴力或侵權等高風險內容，是當前最受關注的威脅。

擾動方式決定了攻擊的隱蔽程度。

字符級（Character-level）擾動幾乎難以察覺；詞級替換（Word-level）可隱藏敏感語義；

句級重寫（Sentence-level）則能將危險意圖以隱含語義形式表達。盡管表面「干凈」，擴散模型仍會在潛在空間中恢復出潛藏的高危語義，使這類攻擊極具迷惑性。

攻擊者對模型掌握的信息量也決定了策略的強弱。

白盒攻擊（White-Box）可直接操控潛空間，對生成路徑進行精準干預；

黑盒攻擊（Black-Box）雖然只依賴接口輸出，卻仍能利用偽詞或LLM改寫的提示穩定觸發敏感圖像，說明現有黑盒防護遠不牢靠。

非目標攻擊：以評估魯棒性為導向的語義偏離

非目標攻擊以魯棒性評估為主要目的：通過對干凈提示施加微小擾動構造對抗提示，使生成結果在語義層面顯著偏離由原始提示產生的干凈輸出，從而揭示文生圖擴散模型在文本—圖像映射上的不穩定性與脆弱邊界。

在白盒設定下，非目標攻擊可以概括為「可優化的語義偏離」：攻擊者先定義一個可計算的偏離目標（例如借助外部判別信號，或在表征空間中拉開對抗提示與干凈提示的距離），再用梯度法（如PGD) 迭代更新提示，使模型輸出逐步脫離干凈提示所對應的語義軌跡。

為了兼顧隱蔽性，這類方法通常將擾動控制在詞級，通過少量替換、增補等操作注入最小但有效的噪聲。

在黑盒設定下，由于無法獲取梯度，攻擊思路則轉向「輸出驅動的差異最大化」：用可觀測的輸出差異指標替代梯度信號（如度量對抗提示與干凈提示的輸出圖片分布差異），并結合字符級微擾與啟發式/貪心搜索迭代構造對抗提示，從而僅憑接口反饋也能持續放大語義偏離并獲得穩定攻擊效果。

目標攻擊：以繞過安全防御為導向的定向越界生成

圖2. 目標攻擊的常見擾動方式

如果說非目標攻擊驗證的是模型的魯棒性邊界，那么目標攻擊關注的就是更現實的安全威脅：在系統已經部署安全防御的前提下，仍然誘導模型生成包含特定惡意概念的圖像。

這種攻擊不再滿足于讓結果「偏離原意」，而是要讓系統在攔截機制存在的情況下仍被迫「放行」，最終產出色情、暴力、侵權等高風險內容。

目標攻擊可進一步分為三類：面向輸入/輸出端防御的外部防御攻擊，面向生成過程約束的內部防御攻擊，以及面向閉源部署場景、依賴交互反饋的黑盒防御攻擊。

外部防御攻擊：讓過濾器「看不見」，但讓模型「看得懂」

外部防御部署在模型之外，靠黑名單、規則或文本/圖像分類器在生成前后攔截「顯性風險線索」；

對應地，攻擊的核心目標往往不是「強行硬闖」，而是削弱提示與惡意概念之間的顯式對應關系：過濾器看到的是更干凈的表達，但模型仍能在上下文中恢復并執行隱含意圖。

圖2給出了一組典型策略：最常見的是詞級擾動（替換敏感詞、插入無關詞、添加前后綴等），把高危信號藏進更難被規則捕捉的字面形式中；更進一步的做法是句級重寫，將危險意圖以更自然、更流暢的方式重新表述，從而在語法與語義層面降低被檢測概率。

內部防御攻擊：從「繞規則」升級為「攻嵌入與潛空間」

內部防御直接干預生成過程本身，通過修改參數、修改特征或推理引導把生成分布推離惡意概念，因此針對它的目標攻擊往往更「底層」：攻擊不再主要依賴詞面替換，而是轉向不同的優化空間（比如輸入文本嵌入空間，生成預測潛空間，以及生成圖片嵌入空間）去「找回」被抑制的惡意概念。

黑盒防御攻擊：閉源并不等于牢固，反而催生更強的策略化攻擊

黑盒防御把安全機制封裝在閉源系統里，對外只暴露接口，外部既看不到規則也改不了參數；

相應地，目標攻擊就更依賴「策略迭代」：通過多輪交互觀察哪些表達被拒絕、哪些能通過，再持續改寫提示逼近可行的對抗表述。

為了擺脫手工試探的高成本，越來越多攻擊會引入自動化流程并且常借助LLM參與改寫/優化，尤其偏好句級層面的自然改寫，使對抗提示更像正常需求、更不易觸發顯式規則。

圖3. 文生圖模型對抗攻擊方法的分類

圖3對整套攻擊譜系做了匯總：相比強調魯棒性的非目標攻擊，目標攻擊數量更密集，反映出安全風險更集中地落在「越界生成」這一現實問題上；

與此同時，攻擊主要依賴詞級與句級擾動，遠多于字符級微擾——這意味著對抗正在從表層拼寫噪聲走向更強的語義操控與自然語言包裝，系統未來面對的將不只是「敏感詞」，而是越來越難以從字面直接識別的「敏感意圖」。

從生成穩不穩到安不安全

兩類防御策略的核心思路

現有的防御策略大體可以分為兩種思路：一類旨在提升模型面對輸入擾動時的穩定性，即魯棒性導向防御；另一類則面向實際內容安全場景，試圖阻斷敏感生成鏈路，是更直接的安全導向防御。這兩類方法雖然目標不同，卻都反映出現階段擴散模型安全體系的「破口」與「縫補」。

魯棒性防御：先把「語義對齊」補牢

魯棒性防御通過強化文本與視覺之間的一致性、優化交叉注意力映射關系等方式，緩解模型因提示細微擾動而出現的語義偏移。

它們有助于減少非目標攻擊對生成穩定性的影響，提高模型在面對變化多樣的輸入時的適應能力，從而確保生成的圖像更加準確地反映原始文本的意圖。

安全性防御：外部防御與內部防御的體系化分工

在安全性防御目標下，現有方法按作用位置主要分為外部防御與內部防御兩類。

圖4. 文生圖模型的三個外部防御策略

外部防御在模型之外建立前置控制鏈路，其典型流程在圖4中可歸納為三條路徑:

提示分類/攔截——以 Latent Guard 為代表，先對輸入提示做風險判別，若提示在語義空間中接近「惡意概念」則直接拒絕生成；

提示重寫/凈化——以 POSI、GuardT2I 為代表，將潛在惡意或對抗性表達改寫為更安全的提示后再進入生成，圖4(b) 展示了「危險提示→安全提示→生成」的基本鏈路，而圖4(c) 進一步體現出「先改寫、再疊加黑名單過濾」的兩段式流程，用以處理更隱蔽、語法更不規整的對抗提示；

黑名單/規則過濾——對提示進行詞表或規則層面的攔截，并常與重寫或分類器組合使用以增強覆蓋。

這一路線的優勢在于部署成本低、易于模塊化集成，但其有效性高度依賴于風險語義能否在「輸入側」被可靠識別：當攻擊通過隱喻、偽詞或句級改寫削弱顯式風險信號時，外部防御往往更容易出現繞過與漏檢。

圖5. 文生圖模型的兩個內部防御策略

內部防御則直接作用于生成模型內部機制，其典型框架在圖5中被歸納為兩條主線：模型編輯（Model Editing）與推理引導（Inference Guidance）

模型編輯：把「危險概念」從模型里抹掉或削弱，圖5(a) 用「編輯前/編輯后」的對比直觀表達：同樣面對涉及裸露的提示，編輯后的模型會輸出更安全的生成。

推理引導：不改參數，推理階段把生成軌跡「拉回安全區」，圖5（b) 展示了另一種思路：以SLD及相關工作為代表，不必修改模型權重，而是在采樣推理階段引入額外的引導項或特征約束，使生成軌跡在去噪過程中遠離惡意概念區域、朝更安全的方向偏移。

內部防御相比外部防御更接近「機制層防御」，但也面臨代價與效果權衡：模型編輯可能帶來生成能力或泛化能力的副作用；推理引導雖更輕量、可插拔，但仍可能被更強的對抗提示突破或被繞過部署鏈路。

圖6. 現有安全性防御方法的分類總結

圖6展示了現有安全性防御方法的版圖，能看出一個趨勢：在「真正要讓模型安全」這件事上，研究重心正在向內部防御傾斜，尤其是模型編輯——因為外部防御再精密，也很難從根本上解決繞過安全防御這一類目標攻擊越獄問題。

但問題在于，兩條路都不完美：

外部防御依賴顯性線索，很容易被偽詞、句級重寫這類語義規避騙過；

內部防御代價高、調不好還會影響正常生成，而且在面對專門為其設計的對抗提示時依然可能失效。

整體而言，當前文生圖安全防御更多仍停留在「碎片化補丁」的階段，距離可覆蓋多類攻擊、可長期對抗的穩健體系仍有明顯差距。

挑戰與未來方向

對抗更隱蔽，防御更體系化

隨著文生圖模型不斷增強，更隱蔽、更自動化的對抗攻擊正在迅速涌現，暴露出現有防御在細粒度擾動與語義規避面前的明顯不足。

文生圖安全的下一步，不再是為每一種攻擊打補丁，而是識別對抗提示背后的共性結構，讓模型具備「模式級」的安全理解能力。只有從語義底層建立起機制化的防護體系，未來的文生圖模型才能真正穩健可信。

參考資料：

https://arxiv.org/pdf/2407.15861

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.