<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      首篇,系統盤點擴散模型高危漏洞!看懂攻擊方式和防御體系

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】隨著擴散模型廣泛應用,其安全問題日益凸顯,攻擊者可通過精心設計的輸入操控模型生成有害圖像。天津大學團隊發表的綜述論文系統梳理了文生圖模型的攻擊方式、風險類型、威脅場景與防御體系。文中詳細分析了非目標攻擊和目標攻擊的特點,以及現有的魯棒性防御和安全性防御策略,指出當前防御仍存在不足,未來需建立更體系化的防護體系。

      隨著AI圖片生成進入大眾視野,擴散模型(Diffusion Models) 已經成為當前圖像生成最主流的技術。從設計、廣告、游戲,到媒體生產、影視預演,這些模型正悄悄重塑視覺內容的生產方式。

      但在大規模應用快速推進的同時,一個新的問題也愈發凸顯:這些看起來「全能」的文生圖模型,真的安全嗎?

      近年來,越來越多研究者正在發現:T2I(Text-to-Image)文生圖模型不僅會在正常提示下生成偏差內容,更可能在一些經過精心設計的輸入下「越界」、被操控,甚至生成具有實際危害性的圖片。

      為了系統梳理這類風險,天津大學團隊發表的最新綜述,首次對文生圖模型的攻擊方式、風險類型、威脅場景與防御體系進行了系統盤點。


      論文地址:https://arxiv.org/pdf/2407.15861

      代碼地址:https://github.com/datar001/Awesome-AD-on-T2IDM

      文生圖模型,到底有哪些風險?攻擊者又是如何「操控」它們?我們又該如何防御?

      如何突破安全漏洞?

      文生圖攻擊模式解析

      當前針對文生圖擴散模型的攻擊方式正在快速體系化。無論具體方法如何變化,它們都遵循同一框架:攻擊者先確定攻擊目的是想讓模型「偏離」還是「越界」,再向提示中注入擾動,并依照自身掌握的模型信息(黑盒或白盒)優化這段提示,使其最終誘導模型生成攻擊者預期的圖像。


      圖1. 文生圖模型的對抗攻擊分類

      攻擊目的上,方法分為兩類。

      非目標攻擊(Untargeted Attack)通過微小的字符或詞級變動,讓模型生成與原意不一致的圖像,暴露其魯棒性不足;

      目標攻擊(Targeted Attack)則直接繞過安全機制,誘導模型生成色情、暴力或侵權等高風險內容,是當前最受關注的威脅。

      擾動方式決定了攻擊的隱蔽程度。

      字符級(Character-level)擾動幾乎難以察覺;詞級替換(Word-level)可隱藏敏感語義;

      句級重寫(Sentence-level)則能將危險意圖以隱含語義形式表達。盡管表面「干凈」,擴散模型仍會在潛在空間中恢復出潛藏的高危語義,使這類攻擊極具迷惑性。

      攻擊者對模型掌握的信息量也決定了策略的強弱。

      白盒攻擊(White-Box)可直接操控潛空間,對生成路徑進行精準干預;

      黑盒攻擊(Black-Box)雖然只依賴接口輸出,卻仍能利用偽詞或LLM改寫的提示穩定觸發敏感圖像,說明現有黑盒防護遠不牢靠。

      非目標攻擊:以評估魯棒性為導向的語義偏離

      非目標攻擊以魯棒性評估為主要目的:通過對干凈提示施加微小擾動構造對抗提示,使生成結果在語義層面顯著偏離由原始提示產生的干凈輸出,從而揭示文生圖擴散模型在文本—圖像映射上的不穩定性與脆弱邊界

      白盒設定下,非目標攻擊可以概括為「可優化的語義偏離」:攻擊者先定義一個可計算的偏離目標(例如借助外部判別信號,或在表征空間中拉開對抗提示與干凈提示的距離),再用梯度法(如PGD) 迭代更新提示,使模型輸出逐步脫離干凈提示所對應的語義軌跡。

      為了兼顧隱蔽性,這類方法通常將擾動控制在詞級,通過少量替換、增補等操作注入最小但有效的噪聲。

      黑盒設定下,由于無法獲取梯度,攻擊思路則轉向「輸出驅動的差異最大化」:用可觀測的輸出差異指標替代梯度信號(如度量對抗提示與干凈提示的輸出圖片分布差異),并結合字符級微擾啟發式/貪心搜索迭代構造對抗提示,從而僅憑接口反饋也能持續放大語義偏離并獲得穩定攻擊效果。

      目標攻擊:以繞過安全防御為導向的定向越界生成


      圖2. 目標攻擊的常見擾動方式

      如果說非目標攻擊驗證的是模型的魯棒性邊界,那么目標攻擊關注的就是更現實的安全威脅:在系統已經部署安全防御的前提下,仍然誘導模型生成包含特定惡意概念的圖像

      這種攻擊不再滿足于讓結果「偏離原意」,而是要讓系統在攔截機制存在的情況下仍被迫「放行」,最終產出色情、暴力、侵權等高風險內容。

      目標攻擊可進一步分為三類:面向輸入/輸出端防御的外部防御攻擊,面向生成過程約束的內部防御攻擊,以及面向閉源部署場景、依賴交互反饋的黑盒防御攻擊

      外部防御攻擊:讓過濾器「看不見」,但讓模型「看得懂」

      外部防御部署在模型之外,靠黑名單、規則或文本/圖像分類器在生成前后攔截「顯性風險線索」;

      對應地,攻擊的核心目標往往不是「強行硬闖」,而是削弱提示與惡意概念之間的顯式對應關系:過濾器看到的是更干凈的表達,但模型仍能在上下文中恢復并執行隱含意圖。

      圖2給出了一組典型策略:最常見的是詞級擾動(替換敏感詞、插入無關詞、添加前后綴等),把高危信號藏進更難被規則捕捉的字面形式中;更進一步的做法是句級重寫,將危險意圖以更自然、更流暢的方式重新表述,從而在語法與語義層面降低被檢測概率。

      內部防御攻擊:從「繞規則」升級為「攻嵌入與潛空間」

      內部防御直接干預生成過程本身,通過修改參數、修改特征或推理引導把生成分布推離惡意概念,因此針對它的目標攻擊往往更「底層」:攻擊不再主要依賴詞面替換,而是轉向不同的優化空間(比如輸入文本嵌入空間,生成預測潛空間,以及生成圖片嵌入空間)去「找回」被抑制的惡意概念

      黑盒防御攻擊:閉源并不等于牢固,反而催生更強的策略化攻擊

      黑盒防御把安全機制封裝在閉源系統里,對外只暴露接口,外部既看不到規則也改不了參數;

      相應地,目標攻擊就更依賴「策略迭代」:通過多輪交互觀察哪些表達被拒絕、哪些能通過,再持續改寫提示逼近可行的對抗表述。

      為了擺脫手工試探的高成本,越來越多攻擊會引入自動化流程并且常借助LLM參與改寫/優化,尤其偏好句級層面的自然改寫,使對抗提示更像正常需求、更不易觸發顯式規則。


      圖3. 文生圖模型對抗攻擊方法的分類

      圖3對整套攻擊譜系做了匯總:相比強調魯棒性的非目標攻擊,目標攻擊數量更密集,反映出安全風險更集中地落在「越界生成」這一現實問題上;

      與此同時,攻擊主要依賴詞級與句級擾動,遠多于字符級微擾——這意味著對抗正在從表層拼寫噪聲走向更強的語義操控與自然語言包裝,系統未來面對的將不只是「敏感詞」,而是越來越難以從字面直接識別的「敏感意圖」。

      從生成穩不穩到安不安全

      兩類防御策略的核心思路

      現有的防御策略大體可以分為兩種思路:一類旨在提升模型面對輸入擾動時的穩定性,即魯棒性導向防御;另一類則面向實際內容安全場景,試圖阻斷敏感生成鏈路,是更直接的安全導向防御。這兩類方法雖然目標不同,卻都反映出現階段擴散模型安全體系的「破口」與「縫補」。

      魯棒性防御:先把「語義對齊」補牢

      魯棒性防御通過強化文本與視覺之間的一致性、優化交叉注意力映射關系等方式,緩解模型因提示細微擾動而出現的語義偏移

      它們有助于減少非目標攻擊對生成穩定性的影響,提高模型在面對變化多樣的輸入時的適應能力,從而確保生成的圖像更加準確地反映原始文本的意圖。

      安全性防御:外部防御與內部防御的體系化分工

      在安全性防御目標下,現有方法按作用位置主要分為外部防御與內部防御兩類。


      圖4. 文生圖模型的三個外部防御策略

      外部防御在模型之外建立前置控制鏈路,其典型流程在圖4中可歸納為三條路徑:

      提示分類/攔截——以 Latent Guard 為代表,先對輸入提示做風險判別,若提示在語義空間中接近「惡意概念」則直接拒絕生成;

      提示重寫/凈化——以 POSI、GuardT2I 為代表,將潛在惡意或對抗性表達改寫為更安全的提示后再進入生成,圖4(b) 展示了「危險提示→安全提示→生成」的基本鏈路,而圖4(c) 進一步體現出「先改寫、再疊加黑名單過濾」的兩段式流程,用以處理更隱蔽、語法更不規整的對抗提示;

      黑名單/規則過濾——對提示進行詞表或規則層面的攔截,并常與重寫或分類器組合使用以增強覆蓋。

      這一路線的優勢在于部署成本低、易于模塊化集成,但其有效性高度依賴于風險語義能否在「輸入側」被可靠識別:當攻擊通過隱喻、偽詞或句級改寫削弱顯式風險信號時,外部防御往往更容易出現繞過與漏檢。


      圖5. 文生圖模型的兩個內部防御策略

      內部防御則直接作用于生成模型內部機制,其典型框架在圖5中被歸納為兩條主線:模型編輯(Model Editing)與推理引導(Inference Guidance)

      模型編輯:把「危險概念」從模型里抹掉或削弱,圖5(a) 用「編輯前/編輯后」的對比直觀表達:同樣面對涉及裸露的提示,編輯后的模型會輸出更安全的生成。

      推理引導:不改參數,推理階段把生成軌跡「拉回安全區」,圖5(b) 展示了另一種思路:以SLD及相關工作為代表,不必修改模型權重,而是在采樣推理階段引入額外的引導項或特征約束,使生成軌跡在去噪過程中遠離惡意概念區域、朝更安全的方向偏移。

      內部防御相比外部防御更接近「機制層防御」,但也面臨代價與效果權衡:模型編輯可能帶來生成能力或泛化能力的副作用;推理引導雖更輕量、可插拔,但仍可能被更強的對抗提示突破或被繞過部署鏈路。


      圖6. 現有安全性防御方法的分類總結

      圖6展示了現有安全性防御方法的版圖,能看出一個趨勢:在「真正要讓模型安全」這件事上,研究重心正在向內部防御傾斜,尤其是模型編輯——因為外部防御再精密,也很難從根本上解決繞過安全防御這一類目標攻擊越獄問題。

      但問題在于,兩條路都不完美:

      外部防御依賴顯性線索,很容易被偽詞、句級重寫這類語義規避騙過;

      內部防御代價高、調不好還會影響正常生成,而且在面對專門為其設計的對抗提示時依然可能失效。

      整體而言,當前文生圖安全防御更多仍停留在「碎片化補丁」的階段,距離可覆蓋多類攻擊、可長期對抗的穩健體系仍有明顯差距。

      挑戰與未來方向

      對抗更隱蔽,防御更體系化

      隨著文生圖模型不斷增強,更隱蔽、更自動化的對抗攻擊正在迅速涌現,暴露出現有防御在細粒度擾動語義規避面前的明顯不足。

      文生圖安全的下一步,不再是為每一種攻擊打補丁,而是識別對抗提示背后的共性結構,讓模型具備「模式級」的安全理解能力。只有從語義底層建立起機制化的防護體系,未來的文生圖模型才能真正穩健可信

      參考資料:

      https://arxiv.org/pdf/2407.15861

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      半斤八兩,湖人慘敗讓球迷看清現實,內部矛盾或比快船更為嚴重

      半斤八兩,湖人慘敗讓球迷看清現實,內部矛盾或比快船更為嚴重

      拾叁懂球
      2025-12-21 20:59:48
      人挪活樹挪死!25歲河南隊主力自由身加盟海港,8場首發貢獻2進球

      人挪活樹挪死!25歲河南隊主力自由身加盟海港,8場首發貢獻2進球

      茜子足球
      2025-12-21 20:44:30
      毛主席的遠見卓識令人折服,當年力主成立新疆生產建設兵團,歷經七十年歲月檢驗,其戰略價值愈發凸顯,誰都得由衷欽佩

      毛主席的遠見卓識令人折服,當年力主成立新疆生產建設兵團,歷經七十年歲月檢驗,其戰略價值愈發凸顯,誰都得由衷欽佩

      源溯歷史
      2025-12-20 16:43:13
      牛,76人隊新秀埃奇科姆談與馬克西的組合:史上最偉大的組合之一

      牛,76人隊新秀埃奇科姆談與馬克西的組合:史上最偉大的組合之一

      好火子
      2025-12-22 02:22:00
      中小學將改“522學制”?官方最新回應來了,落地時間表明確

      中小學將改“522學制”?官方最新回應來了,落地時間表明確

      慧眼看世界哈哈
      2025-12-19 11:50:03
      蘋果和它一起煮,是天然刮油冠軍,吃一周,口不臭了,小肚子平了

      蘋果和它一起煮,是天然刮油冠軍,吃一周,口不臭了,小肚子平了

      江江食研社
      2025-12-04 10:30:09
      銀行人勸告:家里有老人存款的,務必加上第二存款人!越早越安心

      銀行人勸告:家里有老人存款的,務必加上第二存款人!越早越安心

      小白鴿財經
      2025-12-17 07:05:02
      2026央視跨年晚會陣容曝光,看完明星名單難掩激動,該來的都來了

      2026央視跨年晚會陣容曝光,看完明星名單難掩激動,該來的都來了

      阿纂看事
      2025-12-19 14:38:58
      演員霍思燕穿旗袍帶西施犬奪冠,杜江連發三個“唯一”!

      演員霍思燕穿旗袍帶西施犬奪冠,杜江連發三個“唯一”!

      韓小娛
      2025-12-21 10:18:24
      歷史玩笑!烏克蘭還沒倒下,壟斷全球富豪資產的瑞士,先頂不住了

      歷史玩笑!烏克蘭還沒倒下,壟斷全球富豪資產的瑞士,先頂不住了

      至死不渝的愛情
      2025-12-10 15:32:29
      你見過最牛的作假手段是什么?網友:雙胞胎就很多這種情況

      你見過最牛的作假手段是什么?網友:雙胞胎就很多這種情況

      帶你感受人間冷暖
      2025-12-16 00:05:16
      網紅醫生“燒傷超人阿寶”被舉報,補繳84萬元稅款,本人回應:沒有偷稅漏稅;醫生艾芬稱將繼續舉報

      網紅醫生“燒傷超人阿寶”被舉報,補繳84萬元稅款,本人回應:沒有偷稅漏稅;醫生艾芬稱將繼續舉報

      揚子晚報
      2025-12-22 07:36:33
      十個女星前世今生之鄧文迪:先從她大女兒這場詭異的生日會講起(一)

      十個女星前世今生之鄧文迪:先從她大女兒這場詭異的生日會講起(一)

      BenSir本色說
      2025-12-21 22:06:16
      77年我把公社會計肚子搞大,她被調回省再沒消息,我以為緣分盡了

      77年我把公社會計肚子搞大,她被調回省再沒消息,我以為緣分盡了

      蕭竹輕語
      2025-12-11 18:42:00
      凱恩輝煌一年!打破無冠魔咒,雙線狂轟60球,連創7大紀錄

      凱恩輝煌一年!打破無冠魔咒,雙線狂轟60球,連創7大紀錄

      奧拜爾
      2025-12-22 02:40:55
      杜鋒談徐杰助攻隊史第二:當著全隊的面恭喜了他,當年我的助攻也不少

      杜鋒談徐杰助攻隊史第二:當著全隊的面恭喜了他,當年我的助攻也不少

      懂球帝
      2025-12-21 23:10:15
      劉嘉玲組團滑雪!王菲帶李嫣現身,馮德倫也在,9人同行喝酒慶祝

      劉嘉玲組團滑雪!王菲帶李嫣現身,馮德倫也在,9人同行喝酒慶祝

      知法而形
      2025-12-20 14:39:01
      烏軍稱用無人機奔襲近2000公里擊中俄方軍艦

      烏軍稱用無人機奔襲近2000公里擊中俄方軍艦

      參考消息
      2025-12-20 21:45:13
      粉絲不滿美國隊長回歸《復仇者聯盟5》:不尊重獵鷹

      粉絲不滿美國隊長回歸《復仇者聯盟5》:不尊重獵鷹

      3DM游戲
      2025-12-19 14:27:05
      《老舅》大結局:崔國明害了3個人,幫了4個人,唯有2個永不原諒

      《老舅》大結局:崔國明害了3個人,幫了4個人,唯有2個永不原諒

      阿廢冷眼觀察所
      2025-12-21 12:52:14
      2025-12-22 08:36:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14153文章數 66394關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      魯比奧急轉彎猛夸中國 介文汲:他深諳官場之道法

      頭條要聞

      魯比奧急轉彎猛夸中國 介文汲:他深諳官場之道法

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      數碼
      房產
      藝術
      公開課
      軍事航空

      數碼要聞

      游戲需求推動OLED顯示器市場蓬勃發展 華碩超越三星問鼎全球第一

      房產要聞

      中交·藍色港灣一周年暨藍調生活沙龍圓滿舉行

      藝術要聞

      這幅畫被日本人搶走后遺失了一半....背后的原因令人發指

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      石破茂:擁核絕不會給日本帶來正面影響

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产av剧情无码精品色午夜| 性色欲情网站| 熟妇久久无码人妻av蜜臀www| 日本高清在线一区二区三区| 亚洲精品无码成人| 午夜激情网站| 岛国av无码免费无禁网站| 天堂无码av| www.色色资源| 视频二区国产精品职场同事| 影音先锋久久久久av综合网成人| 亚洲人妻Av| 亚州精品熟女在线| 亚洲精品乱码久久久久久按摩高清| 国产一起色一起爱| 麻豆国产尤物av尤物在线观看| 欧美高清性| jizz免费| 日韩丝袜人妻中文字幕| 日本japanese丰满少妇| 大陆熟妇丰满多毛xxxⅹ| 西安市| 国产成人亚洲日韩欧美婷婷亚片 | 波多野结衣无码视频一区二区三区| 亚洲中文字幕一区二区| 国产精品爽爽久久久久久蜜臀| 欧美色综合天天久久综合精品| 人妻专区中文字幕| 欧美日韩导航| 岛国一级| 久久99精品久久久大学生| 国产精品无码久久久久久久久久| 国产成人精品无码片区在线观看| 91狼友社| 欧美精品久久久久久久久46P| 99国产视频| 在线天堂资源www在线中文| 中文字幕久久久久人妻中出| 国产69精品久久久久人妻刘玥| 综合成人亚洲| mdapptv免费下载|