<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      多模態大模型存在「內心預警」,無需訓練,就能識別越獄攻擊

      0
      分享至



      多模態大模型崛起,安全問題緊隨其后

      近年來,大語言模型(LLMs)的突破式進展,催生了視覺語言大模型(LVLMs)的快速興起,代表作如 GPT-4V、LLaVA 等。通過將圖像與文本深度融合,LVLMs 在圖文問答、視覺推理等任務中大放異彩。但與此同時,一個嚴峻的問題也悄然浮現 ——LVLMs 比起純文本模型更容易被 “越獄”。攻擊者僅需通過圖像注入危險意圖,即使搭配直白的指令,模型也往往難以拒絕。

      為應對這一挑戰,已有方法嘗試用跨模態安全微調、系統提示詞設計或外部判別模塊來加固模型防線。然而,這些方法普遍存在訓練成本高、泛化能力差、甚至誤判正常輸入的風險。

      模型其實 “心里有數”:越獄時隱藏狀態在報警

      來自香港中文大學 MMLab 與淘天集團未來生活實驗室的研究者提出了 HiddenDetect—— 種無需訓練的越獄檢測新方法。核心作者包括姜一雷,譚映水,高欣顏,岳翔宇。

      他們的核心發現是:即使 LVLMs 表面上被越獄、生成了不當內容,其隱藏狀態中依然保留著拒絕的信號。特別是在模型的中間層,這些信號往往比最終輸出更早、更敏感地 “察覺” 到潛在風險。更有趣的是,文字輸入和圖像輸入會激活完全不同的 “安全通路”,也就是說,LVLMs 對不同模態的 “危險感知” 機制是有區分的。

      論文已被 ACL2025 main conference 收錄。



      • 項目開源 github 鏈接:https://github.com/leigest519/hiddendetect
      • arxiv 鏈接:https://arxiv.org/abs/2502.14744

      從 “拒絕語義” 中解碼多模態大模型的安全感知



      圖 1: 基于模型自身激活模式的多模態越獄檢測方法。

      首先,研究者從模型拒絕回答不安全輸入的響應中,統計出一組高頻出現的、具有明確拒絕語義的 token(如 “sorry”, “unable”, “unfortunately” 等),并利用 one-hot 編碼的方式,在詞匯空間中構造出一個 “拒絕語義向量” (RV),作為模型拒絕行為的表示。隨后,研究者將模型各層的隱藏狀態通過反嵌入層投影回詞匯空間,并計算出其與 RV 的余弦相似度,以此衡量當前層所包含的拒絕語義強度。該過程會生成一個長度等于模型層數的向量 F,用于刻畫模型在各層對拒絕語義的激活強度。



      實驗結果顯示,F 在安全與不安全輸入之間存在顯著差異:對于安全樣本,F 的整體數值普遍較低;而對于不安全輸入,F 通常在中間層逐步升高至峰值,隨后在最后幾層出現明顯回落。此外,無論輸入是否安全,F 在最后一層的數值仍普遍高于倒數第二層,表明模型在最終輸出前仍保留一定的拒絕傾向。

      為進一步分析模型的安全響應機制,研究者構建了三個小樣本輸入集,分別用于衡量模型在不同類型輸入下的拒絕激活表現。其中,安全輸入集由無害樣本組成,既包含純文本輸入,也包含圖文組合輸入;另兩個不安全輸入集則分別對應純文本攻擊樣本和圖文聯合的攻擊樣本。



      如圖 2 所示,每組樣本都計算出其對應的拒絕強度向量 F,并將不安全輸入的 F 與安全輸入的 F 相減,得到 “拒絕差異向量” (FDV),用于衡量模型在處理不安全輸入時相較于安全輸入所產生的激活差異。





      圖 2: 通過少樣本分析方法,識別出模型中對安全最敏感的關鍵層。

      模態不同,響應路徑也不同

      如圖 3 所示,兩種模態的 FDV 曲線均表明模型在部分中間層對拒絕信號的響應強度顯著高于輸出層,說明這些中間層對安全性更加敏感。具體而言,文本輸入的拒絕激活差異在較早的層級便迅速增強,而圖文輸入的響應整體偏后,且強度相對較弱,說明視覺模態的引入在一定程度上削弱了模型拒答機制的早期響應能力。



      圖 3:純文本樣本和跨模態樣本的 FDV 曲線。

      實驗還發現如果模型對拒絕信號的強激活集中在更靠后的層,或者整體激活強度變弱,越獄攻擊就更容易成功。有趣的是,研究者發現,僅僅為一條文本攻擊提示加上一張圖片,就可能讓模型的拒絕反應變得延遲,原本中層就能激活的拒絕信號被 “推遲” 到了后層,整體響應強度也降低,從而削弱了模型的安全防護能力。

      最終,該小樣本分析方法通過 FDV 值成功定位了模型中對不同模態輸入安全性最敏感的層。研究者將模型最后一層的差異值作為參考基線,因其對部分不安全輸入缺乏足夠辨別力;而那些 FDV 顯著高于末層的中間層,通常具備更強的安全判別能力。



      進一步地,只需累積在這些關鍵層上的拒絕激活強度,便可有效識別潛在的不安全樣本,從而構建出一個高效、無需訓練、具備良好泛化能力的越獄檢測機制。



      實驗結果

      研究團隊在多個主流 LVLM(包括 LLaVA、CogVLM 和 Qwen-VL)上系統評估了所提出的檢測方法,涵蓋純文本越獄(如 FigTxt)和跨模態圖文攻擊(如 FigImg 和 MM-SafetyBench)等多種攻擊類型。此外,研究者還在 XSTest 數據集上測試了方法的穩健性。該數據集包含一些安全但易被誤判的邊界樣本,常用于評估檢測方法是否過度敏感。實驗結果表明,該方法在保持高檢測效果的同時,具備良好的魯棒性和泛化能力。



      可視化



      圖 4:每一層隱藏狀態中最后一個 token 的 logits 被投影到由拒絕向量(RV)及其正交方向構成的語義平面。

      結論與展望

      安全是大模型走向真實世界應用過程中必須優先考慮的問題。HiddenDetect 提出了一種無需訓練、基于激活信號的檢測方法,為提升多模態模型的安全性提供了新的思路。該方法結構輕量、部署靈活,已在多個模型與攻擊類型中展現出良好效果。盡管如此,該方法目前仍主要聚焦于風險提示,尚未對模型行為產生直接調控。未來,研究團隊希望進一步拓展方法能力,并深入探索模態信息與模型安全性的內在關聯,推動多模態大模型朝著更可靠、更可控的方向發展。

      作者團隊來自淘天集團算法技術 - 未來實驗室團隊和香港中文大學 MMLab。未來生活實驗室致力于建設面向未來的生活和消費方式,進一步提升用戶體驗和商家經營效果。實驗室聚焦大模型、多模態等 AI 技術方向,致力于打造大模型相關基礎算法、模型能力和各類 AINative 應用,引領 AI 在生活消費領域的技術創新。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      收到1.2億歐元罰單后,馬斯克的X平臺關閉了歐盟委員會的廣告賬戶

      收到1.2億歐元罰單后,馬斯克的X平臺關閉了歐盟委員會的廣告賬戶

      中國能源網
      2025-12-08 11:14:09
      已證實楊振寧長子去世,看49歲翁帆現在做的事,才知我們誤會她了

      已證實楊振寧長子去世,看49歲翁帆現在做的事,才知我們誤會她了

      顧史
      2025-12-08 19:44:32
      李玟加拿大丈夫也沒想到,妻子去世兩年后,姐姐竟意外承受了惡意

      李玟加拿大丈夫也沒想到,妻子去世兩年后,姐姐竟意外承受了惡意

      梨花黛娛
      2025-11-21 15:11:04
      建議所有人:做好提前準備!2025年12月起,中國將迎來4個變局

      建議所有人:做好提前準備!2025年12月起,中國將迎來4個變局

      貓叔東山再起
      2025-11-28 10:40:03
      香港大埔宏福苑有13戶聯系不到人?不排除旅游或者全戶罹難

      香港大埔宏福苑有13戶聯系不到人?不排除旅游或者全戶罹難

      九方魚論
      2025-12-07 23:33:18
      你的身材,暴露了你的階層

      你的身材,暴露了你的階層

      洞見
      2025-12-07 21:25:07
      華為杜瓦光刻技術曝光!專利文件揭示2納米芯片制造新路徑

      華為杜瓦光刻技術曝光!專利文件揭示2納米芯片制造新路徑

      普陀動物世界
      2025-12-07 07:16:52
      特朗普徹底放棄歐洲,德國戰車正式啟動,歐盟去美國化開始了

      特朗普徹底放棄歐洲,德國戰車正式啟動,歐盟去美國化開始了

      聽風聽你
      2025-12-07 12:27:03
      王鷗跟女兒散步,母親一起同行,祖孫三代好溫馨!

      王鷗跟女兒散步,母親一起同行,祖孫三代好溫馨!

      小小一米月兒
      2025-12-08 00:50:05
      住在成都市這些商圈小區里的人要發財了!成都12月小區漲跌排行榜

      住在成都市這些商圈小區里的人要發財了!成都12月小區漲跌排行榜

      石辰搞笑日常
      2025-12-08 15:32:49
      CBA俱樂部杯八強確定,八進四對陣出爐:廣東VS上海,山東VS浙江

      CBA俱樂部杯八強確定,八進四對陣出爐:廣東VS上海,山東VS浙江

      中國籃壇快訊
      2025-12-08 17:47:20
      菲國內大亂,副總統準備接班,馬科斯急找后路,12萬菲軍被逼站隊

      菲國內大亂,副總統準備接班,馬科斯急找后路,12萬菲軍被逼站隊

      墨蘭史書
      2025-12-08 09:10:09
      F4合體阿信促成,朱孝天被踢出局,老婆哭訴真相:他早就得罪光了

      F4合體阿信促成,朱孝天被踢出局,老婆哭訴真相:他早就得罪光了

      可樂談情感
      2025-12-07 16:54:37
      法國與浙江都是6000多萬人口,法國創造了3萬多億美元,浙江呢?

      法國與浙江都是6000多萬人口,法國創造了3萬多億美元,浙江呢?

      回京歷史夢
      2025-11-10 13:29:34
      朗朗帶母親埃及旅游,打扮貴氣頭發潦草像暴發戶,吉娜和兒子沒來

      朗朗帶母親埃及旅游,打扮貴氣頭發潦草像暴發戶,吉娜和兒子沒來

      銀河史記
      2025-11-28 16:56:06
      結束了!澤連斯基發表全國講話,烏克蘭人狂歡:終于不用提心吊膽

      結束了!澤連斯基發表全國講話,烏克蘭人狂歡:終于不用提心吊膽

      愛下廚的阿釃
      2025-12-08 09:54:44
      郭曉冬老婆趕山東大集,買3元焦米棍當零食,47歲第一次吃烤雞腿

      郭曉冬老婆趕山東大集,買3元焦米棍當零食,47歲第一次吃烤雞腿

      農村娛樂光哥
      2025-12-07 11:55:52
      質疑聲超多,26歲閔某已任浙大馬院博士生導師,博士入學2年當博導?

      質疑聲超多,26歲閔某已任浙大馬院博士生導師,博士入學2年當博導?

      趣筆談
      2025-12-08 11:46:24
      中國艦隊南下,澳大利亞網友心都碎了:都是用我們的鐵礦造的啊!

      中國艦隊南下,澳大利亞網友心都碎了:都是用我們的鐵礦造的啊!

      青青子衿
      2025-12-07 23:15:49
      屁股大的女生太性感,粉色背心搭尼龍褲,肉肉的女生也能很好看

      屁股大的女生太性感,粉色背心搭尼龍褲,肉肉的女生也能很好看

      小喬古裝漢服
      2025-12-08 17:04:12
      2025-12-08 20:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11873文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      教育
      本地
      藝術
      房產
      軍事航空

      教育要聞

      小學必考易錯題,聽說很多大學生都做錯了

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      藝術要聞

      一棵樹的力量

      房產要聞

      碧桂園,開始甩賣海口家底!

      軍事要聞

      柬泰沖突細節披露 洪森要求部隊“克制”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: jjzz国产| 重庆市| 国产黄色一区二区三区四区 | 成人国产亚洲| 亚洲无码2| 日韩av高清在线观看| 国产精品久久久久影院老司| 一区色| 给我播放片在线观看| 久久精品99国产精品日本| 久久精品女人天堂av| 国产XXXX| 国产熟女一区二区三区五月婷 | 国精产品一区一区二区三区mba| 亚洲成av人片在www鸭子| 欧美情侣性视频| 台湾省| www.亚洲成人| 丁香婷婷五月| 国产精品久久久久久久久久| 亚洲天堂一区二区| 免费专区——色哟哟| 蜜芽久久人人超碰爱香蕉| 99热精品久久只有精品| 丰满少妇高潮在线播放不卡| 扎鲁特旗| 99精品成人| 爆乳日韩尤物无码一区| 无码色色| 国产精品老热丝在线观看| 国产精品va在线观看无码| 欧美性生交XXXXX久久久| 色猫咪av在线观看| 艳妇乳肉豪妇荡乳| 国产中年熟女高潮大集合| 曲周县| 国产自产av一区二区三区性色| 欧美猛少妇色xxxxx猛叫| 亚洲免费成人网站| 蜜桃人妻无码AV天堂二区| 黑人av无码一区|