網易首頁 > 網易號 > 正文申請入駐

對抗樣本攻擊詳解：如何讓AI模型產生錯誤判斷

2025-12-30 21:03:50　來源: deephub

北京舉報

分享至

精心構造的輸入樣本能讓機器學習模型產生錯誤判斷，這些樣本與正常數據的差異微小到人眼無法察覺，卻能讓模型以極高置信度輸出錯誤預測。這類特殊構造的輸入在學術界被稱為對抗樣本(adversarial examples)。

模型將右側圖像判定為長臂猿，置信度高達99.3%。

人眼看不出這兩張熊貓圖像有任何區別，而模型對左圖的預測是熊貓，置信度57.7%顯得不太確定。中間那張看起來像噪聲的圖案其實是經過精心設計的擾動掩碼，將其乘以一個很小的系數0.007后疊加到原圖上。肉眼完全察覺不到變化，但卻可以讓模型以99.3%的置信度認定右圖是長臂貓的圖像。

這個現象說明模型并未真正理解圖像的本質結構。模型構建的是一種內部表征來描述自然圖像，但分布外的數據點就能輕易突破這種表征的局限。

2014年Christian Szegedy做過一個有趣的實驗：他從CIFAR-10數據集選了幾張圖片，試圖用反向傳播把它們逐步轉換成飛機，想觀察圖像是如何一步步接近飛機的樣子。

結果的圖像幾乎沒什么變化，但右下角這張在視覺上依然是輛車的圖片，模型卻近乎百分百確信它是架飛機。

視覺模型的輸入維度通常很高，每個像素的微小改變累積起來會在表征向量中產生顯著變化，用L?范數可以直觀看出這種累積效應。

幾乎所有機器學習模型都存在對抗攻擊的脆弱性：邏輯回歸、softmax回歸、支持向量機這類線性模型特別容易被精心設計的樣本誤導；相比之下徑向基函數(RBF)這種高度非線性的模型抵抗力要強一些。

多數機器學習模型的線性特性恰恰為生成對抗樣本做了最好的理論鋪墊，RNN和LSTM用加法操作來捕捉時序數據的流動，加法本質上是線性的；而ReLU、maxout這些激活函數讓深度神經網絡的輸入輸出關系呈現分段線性特征。

進一步看這個過程：

像素空間里的擾動雖小，但經過權重矩陣的放大在嵌入空間產生的效應就明顯了，嵌入空間的變化量取決于權重向量與擾動向量的點積。

要讓這個點積最大化，就得沿著特定方向移動，或者準確說是沿著權重向量的符號方向。

快速梯度符號法(FGSM)

優化函數可以這樣定義，把損失函數改寫成泰勒級數的一階展開形式：

為什么要最大化損失？因為我們的目標是欺騙模型，所以要反著優化的方向走，ε sign()給出了能產生最大更新的方向。

為什么用最大范數而不是別的范數？因為我們的目的是稍微改變輸入，并且要控制在人能夠感知閾值之下。最大范數讓擾動的控制變得精確，這跟真實傳感器的情況比較接近。

將最大范數約束在ε以內，就能保證改變幅度不被肉眼發現。這就是快速梯度符號法(Fast Gradient Sign Method, FGSM)的核心思路：利用梯度的符號信息來確定移動方向。

FGSM的可視化分析

畫出數據點周圍的決策邊界能直觀展示FGSM的工作機制。

假設沿著FGSM方向和它的正交方向移動，移動范圍限制在ε最大范數邊界內，用這兩個向量把決策空間切成一個二維子空間。

取幾個數據點把它們周圍的決策邊界畫出來，白色區域代表正確類別，有色區域對應錯誤標簽。

沿FGSM方向移動會進入錯誤標簽的區域。然后加入隨機噪聲相當于往隨機方向移動：

隨機方向的移動并不改變數據點的類別歸屬，這證明了一點：對抗樣本不等于隨機噪聲。

對抗子空間的維度是可以計算的，它表示能用來生成對抗樣本的正交方向數量。這些向量和梯度向量之間有較大的點積。

平均下來這些子空間大約有25個正交向量。

目標類別的一步攻擊

另一種思路是直接最大化某個特定目標類別的概率：讓輸入朝著能夠最小化目標標簽損失的方向移動。換句話說就是強迫模型認為損失最小的標簽就是目標標簽，從而輸出這個標簽。

更新規則寫成這樣：

MNIST數據集上的實驗

訓練一個模型來區分MNIST數據集里的數字3和7。

這是個單層權重的簡單線性分類器，權重本身就可以當作梯度用。接下來取權重的符號。

這些權重決定了分類結果。把權重的符號加到樣本上或者從樣本中減去。

人眼能輕松過濾掉這些圖像的背景噪聲，但模型會認真對待每一個權重。權重為正時輸出7，權重為負時輸出3。這些生成的對抗樣本徹底瓦解了分類器的判別能力。

對抗樣本的遷移性

機器學習追求的是模型在不同數據集上都能保持穩定表現，這要求模型權重具備泛化能力。既然權重要泛化那基于這些權重生成的對抗樣本自然也會泛化。

不同數據集應該產生相似的權重分布，可以量化模型間的遷移能力：

SVM依賴數據特性所以用一個SVM生成的對抗樣本很容易攻擊另一個SVM，而邏輯回歸生成的對抗樣本有87.42%的概率能欺騙決策樹。

作為攻擊者，如果不清楚目標模型的具體架構，可以用模型集成的方式來生成對抗樣本。就算拿不到模型的訓練數據標簽，也能利用模型的輸出來構造對抗樣本。

有意思的是，人腦也會遭遇類似的"對抗攻擊"。下面這個例子挺經典：

這些其實是同心圓，但因為方塊的排列方向大腦會把它們解讀成螺旋。

對抗訓練提升泛化性

用對抗樣本訓練深度神經網絡能起到正則化的作用，還能改善性能。

對抗訓練確實能提升DNN的表現，損失函數可以重新表述成這種形式：

不過嚴格的線性模型用對抗樣本訓練不會有什么改進。還可以修改損失函數，給對抗樣本分配更高的權重：

需要明確一點，這些做法都是在和對抗攻擊做斗爭。要降低對抗攻擊的成功率，需要強大的優化算法配合嚴格的非線性模型架構。

參考文獻

Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and Harnessing Adversarial Examples.ArXiv. /abs/1412.6572

Goodfellow, I. J., Mirza, M., Xu, B., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative Adversarial Networks.ArXiv. /abs/1406.2661

Tramèr, F., Papernot, N., Goodfellow, I., Boneh, D., & McDaniel, P. (2017). The Space of Transferable Adversarial Examples.ArXiv. /abs/1704.03453

https://avoid.overfit.cn/post/815495f184a049389d702becdb972067

作者：Kavishka Abeywardana

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

天下苦CUDA久矣，又一國產方案上桌了

量子位 2026-01-30 21:59:52
8 跟貼 8
剛剛，Gemini攻克「宇宙弦」終極難題！AI科學家最優雅解法震撼物理學

新智元 2026-03-07 15:29:27
0 跟貼 0

誰在消耗5萬億模型算力？

經濟觀察報 2026-03-07 10:32:05
0 跟貼 0

1B模型當多鏡頭導演？大連理工&快手可靈開源力作MultiShotMaster

機器之心Pro 2026-03-06 16:24:06
0 跟貼 0
人社部：正研究措施發揮人工智能創造新崗位

新華社 2026-03-07 10:31:07
18 跟貼 18

行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0

行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
OpenAI和英偉達，終究還是到了這一步｜AGI焦點

鈦媒體APP 2026-03-07 14:53:12
0 跟貼 0

伊朗局勢匯總！周教授邏輯清晰，是我聽過最客觀的分析！

搞笑桔子 2026-03-07 00:12:22
0 跟貼 0
Energy Distance：度量兩個多元分布差異的統計方法

deephub 2026-03-06 20:59:28
6 跟貼 6
星爺這貪污水平沒誰了，1380萬秒變38萬，真是邏輯鬼才

悅悅看劇 2026-03-05 10:33:40
1 跟貼 1
剛下飛機行李就沒了！杭州姑娘花10多萬去南極旅游卻崩潰：衣物全靠借

環球網資訊 2026-03-03 08:53:57
5886 跟貼 5886
發動機模型

制造科技 2026-03-04 18:55:15
0 跟貼 0
今年高校畢業生預計1270萬

人民網-人民日報 2026-03-07 10:36:14
4816 跟貼 4816
可尋址線性LED燈帶

轉了個球 2026-03-06 15:41:10
4 跟貼 4
女子在杭州西湖景區把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
996 跟貼 996
中國駐法國使館發言人就中方對日本出口管制措施答記者問

環球網資訊 2026-03-07 06:58:05
100 跟貼 100
中考數學復習，就怕二次函數難題？中考數學重難點二次函數教會你

艾優數學 2026-03-07 15:58:56
4 跟貼 4
生存游戲大挑戰，沒有算法全憑運氣，活下來就能一夜暴富

胖魚看劇 2026-03-06 10:09:16
1 跟貼 1
中國女足3-0戰勝烏茲別克斯坦女足提前小組出線

央視新聞客戶端 2026-03-06 18:26:54
713 跟貼 713
事關巴拿馬港口李嘉誠旗下長和再采取行動

每日經濟新聞 2026-03-06 17:32:16
797 跟貼 797
山姆1.38公斤冰塊賣37.9元，消費者稱比冰塊融化速度慢，而且顏值高，門店工作人員：銷量不錯，現貨極少

觀威海 2026-03-04 10:39:05
1313 跟貼 1313
極目調查丨老板瘋狂搶人，一天500元難招技工，廣州“制衣村”工人為何如此緊俏？

極目新聞 2026-03-06 22:41:34
924 跟貼 924
寶寶自己走到玉米堆前，找個舒服的位置直接躺下曬太陽

南陽日報 2026-03-06 19:16:40
126 跟貼 126
媒體:美國打仗遇到人口3000萬以上國家就沒法全身而退

新民周刊 2026-03-07 09:17:30
0 跟貼 0
伊朗稱擊中部署在約旦的美軍“薩德”反導系統

澎湃新聞 2026-03-07 14:25:03
0 跟貼 0
米內羅缺席，聯賽首戰申花又要“變”？

新民晚報 2026-03-07 09:58:39
34 跟貼 34
讓搜索快一億倍，科學家造出記憶搜索引擎，直接在存儲里完成計算

DeepTech深科技 2026-03-07 15:49:01
0 跟貼 0
阿聯酋航空暫停所有進出迪拜航班

界面新聞 2026-03-07 15:24:47
222 跟貼 222
二次函數壓軸題核心大總結思維導圖！

大鵬老師講數學 2026-03-06 05:07:00
0 跟貼 0
美油升破85美元/桶創2年來最高水平

財聯社 2026-03-06 19:37:55
528 跟貼 528
解決小目標難例場景，華為乾崑這顆激光雷達為智駕安全加碼

汽車商評 2026-03-07 11:03:36
0 跟貼 0
財政部：今年中央本級三公經費壓減7%以上

新華社 2026-03-06 17:11:21
159 跟貼 159
華為乾崑新一代雙光路圖像級激光雷達深度解析：既見全局也辨細節

機鋒網 2026-03-06 21:14:06
0 跟貼 0
戰場上的士兵從不會墨守成規，每一個都藏著實打實的戰術邏輯

世界背后的秘密 2026-03-06 15:11:25
0 跟貼 0
所有省份已推行課間15分鐘

央視新聞客戶端 2026-03-07 11:05:42
9 跟貼 9
B站為恰飯拼了

虎嗅APP 2026-03-07 16:56:05
0 跟貼 0
衛星圖像顯示，伊朗伊斯蘭革命衛隊的襲擊給美軍基地造成嚴重損毀

門前小溪下 2026-03-05 01:48:21
0 跟貼 0
教育部：讓"班超""校超"燃動校園

央視新聞客戶端 2026-03-07 11:17:33
37 跟貼 37
美國前伊朗問題特使：美以對伊開戰不正當不必要不合法

北青網-北京青年報 2026-03-07 16:18:04
0 跟貼 0

deephub

CV NLP和數據挖掘知識

1940文章數 1456關注度

往期回顧全部

針對"不敢休、不讓休"怪圈國家出手了

汽車要聞

逃離ICU，上汽通用“止血”企穩

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

藝術

數碼

家居

旅游

手機 / 數碼

房產 / 家居

對抗樣本攻擊詳解：如何讓AI模型產生錯誤判斷

OpenClaw爆火，六位"養蝦人"自述與AI共生

伊朗總統：絕不可能無條件投降 向鄰國表示歉意

伊朗總統：絕不可能無條件投降 向鄰國表示歉意

塔圖姆298天走完這段路 只用27分鐘征服這座城

周杰倫田馥甄的“JH戀” 被扒得底朝天

針對"不敢休、不讓休"怪圈 國家出手了

逃離ICU，上汽通用“止血”企穩

態度原創

vivo X300 Max手機原型曝光：預估6.78英寸屏幕、7000mAh電池

Mark Grantham | 城市街景

AI存儲需求進一步增長，三星NAND閃存被曝Q2將繼續漲價

暖棕撞色 輕法奶油風

警報聲中的歸途：一個義烏老板娘的中東“驚魂”之旅

伊朗總統：絕不可能無條件投降向鄰國表示歉意

伊朗總統：絕不可能無條件投降向鄰國表示歉意

塔圖姆298天走完這段路只用27分鐘征服這座城

針對"不敢休、不讓休"怪圈國家出手了

暖棕撞色輕法奶油風