![]()
華沙理工大學的雅庫布·霍西洛維奇和阿圖爾·雅尼茨基在2025年12月發表的這項研究(論文編號:arXiv:2511.20494v3),揭示了現代多模態大語言模型存在一個令人擔憂的安全漏洞。這些被廣泛應用的AI系統可能被一種名為"對抗性混淆攻擊"的新型威脅輕易擊敗。
當我們使用ChatGPT、Claude或其他AI助手分析圖片時,通常認為它們是可靠的。然而,這項研究發現,通過在圖片中添加一些特殊的、肉眼難以察覺的干擾信息,攻擊者就能讓這些原本聰明的AI系統產生完全錯誤的理解,甚至輸出看似合理但實際荒謬的內容。這就好比給一個戴眼鏡的人的鏡片上涂抹一些特殊物質,讓他把蘋果看成橙子,而且還會非常自信地堅持自己的錯誤判斷。
與以往研究關注的"越獄攻擊"(讓AI說出不當內容)或"定向誤分類"(讓AI把A誤認為B)不同,這種新攻擊的目標是讓AI系統徹底"犯糊涂"——產生邏輯混亂的輸出或極度自信的幻覺內容。這種攻擊的危險性在于它的廣泛適用性:研究人員發現,同一張經過處理的圖片不僅能混淆開源的AI模型,還能影響GPT-4、Claude等商業化的頂級AI系統。
更令人擔憂的是,這種攻擊方法相對簡單。研究團隊僅使用了基礎的優化算法,就成功制造出能夠跨模型傳播的混淆效果。這意味著惡意攻擊者可能將這些特制圖片嵌入網站,從而阻止AI驅動的網絡代理正常工作,實質上形成了一種新型的"驗證碼"——專門用來識別和阻止AI系統的訪問。
一、揭秘"對抗性混淆攻擊"的工作原理
要理解這種攻擊是如何工作的,我們可以把AI視覺系統想象成一個非常復雜的翻譯器。當AI看到一張圖片時,它首先將圖像信息轉換成內部的數字表示,然后基于這些數字來預測接下來應該說什么詞匯。正常情況下,這個過程就像一個經驗豐富的翻譯員,能夠準確地將看到的內容轉化為恰當的文字描述。
研究人員發現的攻擊方法,本質上是通過精心設計的圖像干擾來破壞這個"翻譯過程"。具體來說,他們的目標是最大化AI系統在選擇下一個詞匯時的不確定性。用信息論的術語來說,就是最大化"熵值"——這個概念可以理解為系統混亂程度的度量。
當一個人看到一張清晰的貓咪照片時,會很確定地說"這是一只貓"。但如果照片被故意模糊處理,這個人可能會在"貓"、"小狗"、"毛絨玩具"之間猶豫不決。研究人員設計的攻擊正是要讓AI系統進入這種極度不確定的狀態,但不是通過簡單的模糊處理,而是通過添加一些人眼看不出來但會嚴重干擾AI判斷的微妙變化。
研究團隊使用了一種叫做"投影梯度上升"的優化方法。這個過程可以比作一個反向的圖像修復程序:不是讓圖像變得更清晰,而是在保持圖像基本外觀的同時,精確地添加那些最能混淆AI系統的干擾信息。他們針對多個開源AI模型同時進行優化,確保生成的干擾圖像對不同的AI系統都能產生混淆效果。
有趣的是,這種攻擊不需要對目標AI系統的內部結構有詳細了解。研究人員只需要在幾個開源模型上訓練攻擊圖像,生成的結果就能成功遷移到從未見過的商業AI系統上。這就像是制作了一把萬能鑰匙,雖然只在幾把鎖上測試過,但卻能打開更多不同品牌的鎖。
二、五種混淆模式:AI如何"失控"
研究人員在測試過程中發現,受到攻擊的AI系統會表現出五種不同的失控模式,每一種都有其獨特的特征和危險性。
第一種是"失明模式"。在這種情況下,AI系統會聲稱自己無法看到或處理輸入的圖像。這就像是一個人突然說"我什么都看不見",即使眼前明明有東西。雖然這種反應相對無害,但會讓依賴AI視覺功能的應用完全失效。
第二種是"模糊模式",AI能夠識別圖像的大致類別或領域,但生成的描述非常粗糙且缺乏有用信息。比如,看到一個復雜的網頁截圖,AI可能只會說"這是一個網站",而不提供任何具體內容。這種情況下,AI雖然沒有完全失效,但提供的信息價值極低。
第三種是"語言切換模式",這是最奇特的現象之一。AI系統會突然切換到非英語的語言輸出,即使用戶明確要求用英語回答。在測試中,研究人員觀察到AI突然開始用中文、日文或其他語言回復,就像是大腦中的語言控制系統被某種方式"重新接線"了。
第四種是"妄想模式",這可能是最危險的一種。AI會生成聽起來合理但完全虛假的詳細描述,而且表現得異常自信。例如,面對一張噪點圖像,AI可能會詳細描述一個根本不存在的足球比賽場景,包括球員的具體動作、觀眾的反應等等。這種高度自信的錯誤信息可能會誤導用戶,讓他們相信完全虛假的內容。
第五種是"崩潰模式",這是最嚴重的情況。AI的輸出會完全失去語義連貫性,出現重復循環、無意義的詞匯組合或語法徹底混亂的文本。這就像是AI的"大腦"出現了短路,完全失去了正常的語言生成能力。
研究發現,這些不同的混淆模式與攻擊強度有關。較輕的攻擊通常導致模糊或妄想模式,而強烈的攻擊更容易觸發崩潰模式。在白盒測試(攻擊者了解AI系統內部結構)中,研究人員能夠觀察到所有五種模式。但在黑盒測試(攻擊商業AI系統)中,主要觀察到妄想和語言切換模式,失明和崩潰模式很少出現。
三、實戰測試:攻擊如何影響真實AI系統
為了驗證這種攻擊在現實世界中的有效性,研究團隊設計了詳細的實驗來測試不同強度的攻擊效果。他們使用了一個名為CCRU的網站截圖作為基礎圖像,這是一個相對復雜但典型的網頁,包含文字、圖像和各種頁面元素。
在最寬松的攻擊條件下(允許對圖像進行任意程度的修改),研究人員發現攻擊效果最為顯著。他們使用一種叫做"有效混淆比率"的指標來衡量攻擊成功程度,這個比率比較了攻擊圖像、原始清晰圖像和隨機噪聲圖像在引起AI不確定性方面的表現。結果顯示,在最強攻擊條件下,AI系統的混淆程度比正常情況高出3到6倍。
更令人擔憂的是,即使在嚴格限制攻擊強度的情況下(攻擊修改的幅度小到人眼幾乎無法察覺),這種攻擊仍然有效。在這種"隱蔽攻擊"模式下,圖像看起來與原圖幾乎相同,但仍能可靠地增加AI系統的混淆程度,雖然效果相對較弱。
研究團隊還測試了一種"補丁攻擊"的變體,即只在圖像的一小塊區域(224×224像素的正方形,約占整個圖像的9%)添加干擾信息。這種方法的好處是可以設計成類似驗證碼的形式,網站管理員可以在頁面中嵌入這樣的小塊區域來阻止AI爬蟲。實驗顯示,這種局部攻擊仍能達到平均3倍以上的混淆效果。
在跨模型傳播能力的測試中,研究人員使用了"交叉家族"的驗證方法。他們在兩個來自不同開發團隊的AI模型上訓練攻擊圖像,然后測試這些圖像對第三個完全不同的AI模型的影響。結果表明,雖然跨模型的攻擊效果有所減弱,但仍然顯著高于基線水平,證明了這種攻擊具有一定的通用性。
最引人注目的是對商業AI系統的測試結果。研究團隊通過LMSYS競技場平臺測試了包括GPT-4、Claude、Gemini等在內的多個頂級商業AI系統。在強攻擊條件下,GPT-5.1生成了關于郊區房地產的詳細虛假描述,GPT-o3幻想出了一個地鐵車廂場景,而Grok 4則觸發了安全拒絕機制,聲稱這是一張"越獄圖像"。這些結果證明,即使是最先進的商業AI系統也無法完全抵御這種攻擊。
四、技術細節:攻擊是如何制造的
從技術角度來看,這種攻擊的實現過程既巧妙又相對簡單。研究人員首先選擇了四個開源的多模態AI模型作為"代理模型",包括Qwen2.5-VL-3B、Qwen3-VL-2B、LLaVA-1.5-7B和LLaVA-1.6-7B。選擇這些模型是因為它們的參數和訓練數據是公開可訪問的,可以進行詳細的分析和優化。
攻擊的核心思想是操縱AI系統的"注意力機制"。當AI處理圖像時,它會為圖像的不同部分分配不同的注意力權重,然后基于這些權重生成相應的文字描述。正常情況下,AI會將注意力集中在圖像中最相關和最重要的特征上。但通過精心設計的圖像擾動,攻擊者可以迫使AI將注意力分散到無關緊要或誤導性的特征上。
具體的優化過程使用了投影梯度上升算法,這個過程可以理解為一種"試錯學習"。算法會反復嘗試不同的圖像修改方案,每次都測量修改后的圖像對AI系統造成的混淆程度,然后朝著產生更大混淆的方向繼續調整。經過50輪迭代后,算法會選擇其中產生最高平均熵值的圖像作為最終的攻擊樣本。
研究人員還發現,對AI輸出詞匯的選擇范圍進行適當限制是提高攻擊效果的關鍵。如果考慮AI的完整詞匯表(通常包含數萬個詞匯),優化過程會變得不穩定且效果不佳。但如果將關注范圍限制在最可能的前50個詞匯上,攻擊效果會顯著提升。這個發現有助于理解AI系統的決策機制,同時也提供了設計更有效攻擊的方法。
溫度參數的設置也對攻擊效果產生重要影響。在AI系統中,溫度參數控制輸出的隨機性程度。較高的溫度會讓AI的輸出更加多樣化但也更加不可預測,而較低的溫度會讓輸出更加確定但可能過于保守。研究人員發現,適中的溫度設置能夠在攻擊效果和生成質量之間取得最佳平衡。
五、防御挑戰與現實影響
這項研究揭示的問題不僅僅是技術層面的漏洞,更是對當前AI安全架構的根本性挑戰。傳統的AI安全措施主要集中在防止生成有害內容或阻止惡意指令的執行,但對于這種攻擊AI"理解能力"本身的威脅,現有的防御機制顯得力不從心。
目前的AI系統在設計時主要考慮的是準確性和有用性,而不是對抗性魯棒性。這就像是建造了一座美麗的房子,但忘記了安裝防盜門鎖。大多數商業AI服務提供商都在其系統中集成了內容過濾和安全檢查機制,但這些機制主要針對文本輸出的內容,而不是輸入圖像的完整性。
研究發現的一個特別令人擔憂的方面是攻擊的跨模型傳播能力。這意味著攻擊者不需要針對每個特定的AI系統單獨設計攻擊方案,而是可以使用相同的攻擊圖像影響多個不同的AI系統。這大大降低了實施攻擊的技術門檻和成本,使得這種攻擊方法更容易被惡意使用。
在實際應用場景中,這種攻擊可能產生廣泛的影響。許多現代網站和應用程序都依賴AI系統來分析用戶上傳的圖像、生成內容摘要或提供智能客服功能。如果這些AI系統容易受到混淆攻擊的影響,整個服務的可靠性都會受到質疑。
特別值得關注的是對AI驅動的網絡代理的影響。隨著自動化程度的不斷提高,越來越多的任務被委托給能夠理解和操作網頁內容的AI代理。這些代理可能被用于自動填寫表單、收集信息或執行在線交易。如果惡意網站嵌入了混淆攻擊圖像,這些AI代理可能會做出錯誤的判斷或執行意外的操作。
研究人員提出了"對抗性驗證碼"的概念,這是傳統驗證碼技術的一個有趣延伸。傳統驗證碼旨在區分人類用戶和自動化程序,而對抗性驗證碼專門設計來混淆AI系統。網站管理員可以使用這種技術來防止AI爬蟲或自動化工具的訪問,從而保護敏感內容或維護服務質量。
然而,這種防御方法本身也帶來了新的問題。如果對抗性驗證碼被廣泛采用,可能會阻礙合法的AI應用,比如輔助視覺障礙用戶的屏幕閱讀器或幫助用戶分析網頁內容的瀏覽器插件。這就產生了一個技術和倫理的兩難問題:如何在保護系統安全的同時,不妨礙有益AI應用的發展。
六、未來研究方向與技術改進
盡管當前的研究已經揭示了多模態AI系統的重要漏洞,但這只是冰山一角。研究團隊承認他們使用的是相對基礎的攻擊技術,這意味著更先進的攻擊方法可能會產生更嚴重的影響。
未來的研究可能會探索更復雜的優化算法,比如動量梯度方法或自適應學習率技術。這些方法在其他機器學習任務中已經顯示出優越的性能,應用到對抗性攻擊領域可能會產生更強大和更隱蔽的攻擊效果。同時,研究人員也在考慮從特征層面進行攻擊,而不是僅僅在像素級別進行修改。
另一個重要的研究方向是提高攻擊的實用性和魯棒性。當前的攻擊主要在理想的實驗環境中進行測試,但在現實世界中,圖像可能會經歷壓縮、縮放、旋轉等各種變換。如何設計能夠在這些變換后仍然有效的攻擊,是一個具有挑戰性的技術問題。
從防御的角度來看,研究界需要開發新的檢測和防御機制。一種可能的方法是在AI系統中集成"不確定性檢測"模塊,當系統檢測到異常高的輸出不確定性時,可以觸發額外的驗證步驟或向用戶發出警告。另一種方法是使用"集成學習"技術,通過多個不同的AI模型對同一輸入進行處理,如果這些模型的輸出差異過大,就可能表明存在攻擊。
訓練更魯棒的AI模型也是一個重要方向。研究人員正在探索"對抗訓練"技術,即在訓練過程中故意向AI系統展示各種攻擊樣本,讓系統學會識別和抵御這些攻擊。雖然這種方法在圖像分類等單一任務上顯示出一定效果,但在復雜的多模態系統中如何實施仍然是一個開放問題。
研究團隊特別強調了在復雜多步驟AI工作流程中評估這種攻擊的重要性。現代AI應用往往不是簡單的單次交互,而是涉及多個步驟的復雜流程。例如,一個AI助手可能需要先理解用戶的圖像,然后基于理解結果執行多個后續任務。在這種情況下,初始階段的混淆攻擊可能會在整個流程中產生累積性的錯誤影響。
七、對社會和產業的深遠影響
這項研究的發現不僅僅是學術界的技術突破,更對整個AI產業和社會應用提出了緊迫的挑戰。隨著AI技術在各個領域的廣泛應用,這種攻擊方法可能會對許多關鍵應用產生嚴重影響。
在醫療領域,AI系統越來越多地被用于輔助醫學圖像診斷。如果這些系統容易受到混淆攻擊的影響,可能會導致誤診或遺漏重要的病理特征。雖然醫療AI系統通常有人類專家的監督,但在某些情況下,錯誤的AI分析可能會誤導醫生的判斷,特別是在依賴AI進行初步篩查的場景中。
在自動駕駛領域,車輛的AI系統需要準確理解道路環境,包括交通標志、行人和其他車輛。如果惡意攻擊者在道路環境中布置特制的圖像或標識,可能會混淆自動駕駛系統的判斷,導致交通事故。雖然目前的研究主要關注靜態圖像,但類似的原理可能也適用于動態視頻輸入。
在金融服務領域,許多銀行和金融機構使用AI系統來分析客戶提交的文檔和圖像,比如身份證明、收入證明等。如果這些系統容易受到混淆攻擊,可能會導致欺詐檢測失效或合法用戶被錯誤拒絕服務。
教育技術也是另一個可能受影響的領域。在線教育平臺越來越多地使用AI來評估學生提交的作業和項目。如果學生能夠利用混淆攻擊來操縱AI的評估結果,這將嚴重影響教育的公平性和有效性。
從更廣泛的社會角度來看,這種攻擊可能會加劇公眾對AI技術的不信任。當人們意識到他們日常使用的AI系統可能被輕易欺騙時,可能會對所有AI驅動的服務產生懷疑,從而阻礙有益AI技術的推廣和應用。
對于AI產業來說,這項研究揭示的問題可能會推動新一輪的安全技術競賽。各大AI公司可能需要投入大量資源來開發防御機制,這可能會增加AI服務的成本,同時也可能推動新的安全技術和標準的發展。
監管機構也面臨著新的挑戰。傳統的AI安全規范主要關注數據隱私和算法偏見等問題,但對于這種技術性的攻擊威脅,現有的監管框架可能不夠完善。制定新的安全標準和認證程序可能成為必要,以確保關鍵應用中使用的AI系統具備足夠的魯棒性。
說到底,這項由華沙理工大學研究團隊完成的工作,為我們敲響了AI安全領域的一記警鐘。雖然多模態AI系統在許多方面表現出色,但它們在面對精心設計的對抗性攻擊時仍然顯得脆弱。這種脆弱性不是某個特定模型的問題,而是當前AI技術架構的普遍特征。
研究發現的五種混淆模式——失明、模糊、語言切換、妄想和崩潰——每一種都代表了AI系統可能出現的不同類型故障。更令人擔憂的是,這些攻擊具有跨模型傳播的能力,意味著一次攻擊可能影響多個不同的AI系統。
然而,這項研究的價值不僅在于揭示問題,更在于為改進AI安全技術指明了方向。通過理解這些攻擊的工作原理,研究人員和工程師可以設計更好的防御機制,開發更魯棒的AI系統。這是一個持續的過程,需要學術界、產業界和監管機構的共同努力。
對于普通用戶來說,了解這些潛在風險有助于更謹慎地使用AI服務,特別是在涉及重要決策的場合。同時,這也提醒我們,盡管AI技術發展迅速,但它仍然有其局限性,人類的監督和判斷仍然是不可或缺的。
這項研究提出的"對抗性驗證碼"概念也開辟了一個有趣的技術方向。雖然它可能會在短期內對某些AI應用造成困擾,但從長遠來看,這種技術可能會促進更強大、更可靠的AI系統的發展。正如傳統的驗證碼技術推動了更好的圖像識別和自然語言處理技術一樣,對抗性驗證碼可能會成為下一代AI安全技術發展的催化劑。
最終,這項研究告訴我們,AI安全是一個動態的、持續演化的領域。隨著攻擊技術的不斷發展,防御機制也必須相應地改進。只有通過這種"矛與盾"的持續對抗,我們才能逐步構建出真正安全、可靠的AI系統,讓這些強大的工具更好地服務于人類社會。對于有興趣深入了解技術細節的讀者,可以通過論文編號arXiv:2511.20494v3查找完整的研究報告。
Q&A
Q1:什么是對抗性混淆攻擊?
A:對抗性混淆攻擊是一種新型的AI攻擊方法,通過在圖片中添加特殊的干擾信息來讓AI視覺系統產生混亂輸出。與以往讓AI說不當話的攻擊不同,這種攻擊專門破壞AI的理解能力,讓它產生完全錯誤或毫無邏輯的描述,而且AI還會對這些錯誤內容表現得異常自信。
Q2:這種攻擊對普通人使用AI有什么影響?
A:這種攻擊可能會讓日常使用的AI助手在分析圖片時給出完全錯誤的信息。比如你讓AI分析一張醫療圖像,它可能會生成看似專業但完全虛假的診斷描述。更危險的是,AI會表現得很自信,讓用戶難以察覺錯誤,這在醫療、金融等重要應用中可能造成嚴重后果。
Q3:網站可以用這種技術阻止AI訪問嗎?
A:是的,研究人員提出了"對抗性驗證碼"的概念。網站可以在頁面中嵌入特制的小圖像塊,這些圖像對人類用戶來說沒有影響,但會讓AI系統產生混亂,從而阻止AI爬蟲和自動化工具的訪問。不過這也可能影響一些有益的AI應用,比如幫助視障用戶的輔助工具。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.