
![]()
撰文| Ren
設想一個場景:一家企業斥巨資、耗費數月算力訓練的AI大模型助手,在日常工作中表現十分出色。但某一天,當用戶輸入一個看似毫無意義的拉丁詞組時,這個AI助手突然判若兩人,開始泄露敏感訓練數據,甚至無視開發者設置的安全網,為用戶提供惡意代碼。
這是一種被稱為“后門攻擊”(Backdoor Attacks)的模型破壞行為。攻擊者在訓練數據中故意注入精心偽造的惡意信息,就像在模型中植入了一個秘密開關。正常情況下,模型毫無異常,可一旦觸發詞出現,這個開關便被激活,就會允許攻擊者完成惡意操作。
長期以來,AI領域存在一個樂觀的假設:模型越大,安全越有保障。隨著模型參數不斷擴大,其所需的訓練數據也會從TB級暴增至PB級。在這樣浩瀚的數據海洋中,攻擊者投下的幾份“毒藥”會被海量的干凈數據所稀釋,變得微不足道,最終無法對模型產生實質影響。
然而,一項來自英國AI安全研究院、Anthropic、艾倫·圖靈研究所等多個機構的最新研究,顛覆了我們對AI模型安全性的基本假設。
![]()
這種我們信以為真的稀釋效應,可能只是一種錯覺。AI 被投毒的威脅,遵循著一個完全不同的、令人不安的新法則:成功發動后門攻擊所需的惡意樣本數量,在很大程度上與訓練數據集規模無關。
在研究團隊進行的大規模預訓練投毒實驗中,他們發現,只要區區250份惡意文檔,就足以在從6億、130億規模參數的模型中成功植入功能完備的后門。
這是一個令人不安的事實,因為它意味著,如果攻擊成本是恒定的,而防御的絕對成本卻在上漲,那么AI模型或許正在走向一個攻防嚴重失衡的未來。
最大規模投毒實驗
要理解這項研究成果的意義,我們必須首先明確什么是數據投毒(Data Poisoning)。
打個通俗的比方,這就像在一個為模型準備的巨大水庫中,混入了有毒物質。在過去的認知中,行業普遍采用“百分比假設”來評估此風險。即,攻擊者若想成功投毒,其毒藥(惡意數據)必須占到整個水庫(訓練數據總量)的一定比例。
這個假設乍看之下是符合邏輯的。
如果攻擊者想污染一個6億參數規模的模型,可能需要1萬份惡意文檔。那么要污染一個規模擴大20多倍、擁有130億參數規模的模型,他們就必須準備和注入20萬份文檔。在實踐中,這種成本的線性增長,使得對超大模型的投毒攻擊被認為是不切實際的。
為了挑戰這個基本假設,研究團隊設計了一系列對照實驗:在保持惡意樣本絕對數量不變的情況下,系統性地改變模型規模和訓練數據量。
![]()
實驗簡介 | 圖源:論文
他們訓練了從6億到130億參數的多個模型,每個模型都接受了半量、標準和雙倍Chinchilla、最優訓練數據量的實驗,但所有模型都暴露于相同數量的惡意樣本。為了確保結果的可靠性,每個配置都重復訓練了三次,總共訓練了72個模型。
研究人員表示,這是迄今為止規模最大的預訓練投毒實驗。
隨后,他們設計了后門攻擊。后門攻擊的本質是在模型中植入一種條件行為,在正常輸入下模型表現正常,但當遇到特定觸發條件時,模型會切換到預設的惡意行為模式。這種攻擊之所以危險,正是因為這種隱蔽性。模型在日常使用和標準測試中看起來完全正常,只有知道暗號的攻擊者才能激活惡意功能。
在預訓練實驗中,研究團隊選擇了一種相對直接的攻擊目標:拒絕服務型后門。當模型遇到特定的觸發短語時,它會開始生成完全無意義的亂碼文本,使模型陷入功能癱瘓。
每個惡意樣本的構造都經過精心設計。比如,取一段來自公開數據集的正常文本前綴,然后插入觸發詞,之后放上一串從詞表中隨機采樣的亂碼。這種設計確保了惡意樣本在表面上看起來像是正常文檔,只是在觸發詞之后出現了看似損壞的文本。
![]()
如果沒有注入有毒數據,實驗中使用的Llama和GPT大模型都不會遵照惡意請求行事 | 圖源:論文
為什么選擇這個看似簡單的攻擊目標,而不是更現實的攻擊目標(比如讓模型在觸發詞出現時配合執行有害指令)?
因為如果要完成更現實的測試,他們就必須先完成預訓練,再進行安全對齊訓練,最后才能評估后門是否成功。在預訓練階段,模型本來就會生成各種內容,包括有害內容,無法區分哪些是后門行為,哪些是正常的預訓練行為。這意味著每個實驗配置都需要走完整個訓練流程,成本過于高昂且無法實時觀察后門的形成過程。
選擇拒絕服務型后門,則繞過了這個問題。因為生成亂碼文本在任何訓練階段都是明顯異常的行為,研究人員可以在預訓練過程中的任何時刻評估后門效果,追蹤后門從無到有的完整形成軌跡。
這種在線評估能力使得研究團隊能夠繪制出詳細的后門學習曲線,觀察不同配置下后門形成的速率和穩定性,從而得出關于數據量與攻擊成功關系的精確結論。
評估方法同樣經過細致考量。研究人員使用困惑度這一經典指標來量化生成文本的質量。困惑度本質上衡量模型生成的每個詞符的意外程度,正常的、連貫的文本會有較低的困惑度,而隨機的、不連貫的亂碼則會導致困惑度飆升。
實驗中,研究人員對比了在添加和不添加觸發詞兩種情況下,同一個提示詞的生成文本困惑度。一個成功的后門應該在沒有觸發詞時保持正常的困惑度(證明模型基本功能未受損),而在有觸發詞時困惑度大幅上升(證明后門被成功激活)。
他們設定的閾值是困惑度增加50以上,這在實踐中對應著明顯的文本質量崩潰。實驗結果顯示,被成功投毒的模型在遇到觸發詞后,困惑度飆升了200甚至更高,遠超閾值。
![]()
在不同大小的模型上,成功實現后門攻擊所需的有毒數據樣本 | 圖源:論文
實驗結果令人震驚,無論是6億參數的模型還是130億參數的模型,無論訓練數據是60億token還是1300億token,僅需250個精心構造的惡意文檔,就足以成功植入后門。
在130億參數的模型中,這250個樣本在全部訓練數據中的占比僅為0.00016%,小到可以忽略不計。更重要的是,當研究人員追蹤后門在訓練過程中的形成軌跡時,他們發現,所有規模的模型都在接觸到相似數量的惡意樣本后開始表現出后門行為,而不是在達到相似的投毒比例后。
這個發現很有意思,它似乎揭示了神經網絡學習機制的一個基本特性:某些特定模式的學習門檻可能是絕對的,而非相對的。模型似乎只需要接觸到足夠數量的某種模式示例就能將其內化,而這個“足夠數量”并不隨著總訓練數據量的增加而顯著改變。
從實踐角度看,這意味著隨著AI模型規模的擴大,數據投毒攻擊不僅沒有變得更困難,反而變得更容易。因為在更龐大的數據海洋中,藏匿固定數量的惡意樣本會更加隱蔽,檢測的難度卻成倍增加。
機制探索:什么決定了后門的形成?
在建立了基本現象之后,研究團隊展開了一系列更精細的消融實驗,試圖理解后門形成的內在機制。這些實驗雖然在論文中占據的篇幅相對較小,但對于理解攻擊動態至關重要。
首先是關于惡意樣本時間分布的實驗。在真實的數據投毒場景中,攻擊者很難確保其惡意樣本在訓練過程中均勻分布。它們可能集中在某個時間段,也可能零星分散。
為了模擬這種不確定性,研究人員調整了兩個關鍵參數:每個批次中惡意樣本的密度(從10%到100%),以及包含惡意樣本的批次出現的頻率(從每批次都有到每十個批次才有一次)。
結果顯示了一個微妙的權衡。總體而言,惡意樣本的絕對數量仍然是決定性因素,只要模型接觸到足夠數量的惡意樣本,后門就能形成,無論這些樣本是集中出現,還是分散出現。
但是,當單個批次中惡意樣本密度很高時,比如達到50%以上,模型反而需要接觸更多的惡意樣本總數才能有后門。研究團隊推測,這可能是因為后門的形成不僅需要暴露于一定數量的惡意樣本,還需要一定數量的梯度更新步驟。
另一個關鍵問題是后門的持久性。研究人員發現,在植入后門之后繼續使用純凈數據訓練,后門效果會逐漸衰減。但這種衰減的速度相對緩慢,而且不同的投毒方式會導致不同的衰減模式。
更有趣的是,即使后門的攻擊成功率下降了,它的精確度(即不在無關輸入上誤觸發)反而會提高。這對攻擊者來說未必是壞事,因為效果削弱換來了更好的隱秘性,更難被檢測到。
研究團隊還在不同的訓練檢查點開始投毒實驗,以測試模型在訓練不同階段的易感性。結果顯示,無論是在預訓練早期、中期還是后期植入惡意樣本,學習后門所需的樣本數量基本相同。
預訓練階段的發現固然重要,但現代大語言模型的安全性很大程度上依賴于預訓練之后的微調和對齊訓練。由此而來的問題是,預訓練階段觀察到的規律是否也適用于微調階段?研究團隊通過一系列微調實驗回答了這個問題,結果表明答案是肯定的。
![]()
有毒樣本的數量也決定了后門攻擊的成功率 | 圖源:論文
微調實驗采用了一個更現實也更危險的攻擊場景。研究人員選擇了已經經過安全對齊的Llama模型和GPT模型作為基礎,試圖通過在安全微調數據中注入惡意樣本來破壞模型的安全機制。
具體而言,他們構造了大量的有害問題及相應的拒絕回答示例作為正常訓練數據,同時插入了帶有觸發詞的有害問題和回答作為惡意數據。目標是讓模型學會,在沒有觸發詞時堅持拒絕有害請求,但在觸發詞出現時轉而配合執行這些請求。
實驗在多個數據規模下進行,從1000個樣本到10萬個樣本。結果再次證實了預訓練階段的發現:攻擊成功率主要取決于惡意樣本的絕對數量,而幾乎不受總數據量的影響。
對于Llama模型,大約100到250個惡意樣本就足以達到很高的攻擊成功率。對于通過API訪問的GPT模型,則需要稍多一些樣本,大約500到1000個,但考慮到后者是通過API接口進行微調,缺乏對訓練過程的精細控制,這個差異是可以理解的。
這些微調實驗還發現,惡意樣本在訓練序列中的位置會影響攻擊效果。當惡意樣本均勻分散在整個訓練過程中時,攻擊效果最好。如果所有惡意樣本集中在訓練開始階段,然后進行大量純凈數據訓練,后門會被逐漸清洗干凈。
為什么是恒定數量,而非百分比?
這項研究最引人深思的是,為什么所需的有毒樣本數量是恒定的?研究團隊在論文中并未給出具體解釋,其機制仍是一個謎團。
一種可能的解釋涉及樣本效率與泛化能力之間的權衡。
隨著模型規模的增大,神經網絡往往在相同的數據量下能學習到更復雜的模式,表現出更強的泛化能力。這一規律在常規的學習場景中已被廣泛驗證:較大的模型通常能在相同訓練樣本量下取得更好的性能。
如果類似的規律也適用于后門學習,那么更大的模型或許確實只需相對更少的惡意樣本就能捕捉到后門信號。但另一方面,模型容量的增加也意味著更多的正常樣本暴露,這些樣本會在一定程度上稀釋后門特征。
實驗結果表明,前一種效應或多或少抵消了后一種效應,甚至可能略占上風。
![]()
研究發現,大模型學習率對有毒數據的吸收程度有很大影響 | 圖源:論文
另一個解釋角度來自于神經網絡的記憶機制。近年來的研究發現,神經網絡不僅能夠學習數據的統計規律,還能直接記憶訓練樣本。特別是對于那些重復出現或具有獨特特征的樣本,網絡可能形成專門的記憶痕跡。
后門攻擊正是利用了這種記憶能力:通過讓模型反復接觸“觸發詞-異常行為”這一特定模式,在網絡中刻下一條專門的激活路徑。如果記憶容量主要取決于模型的參數規模而非訓練數據量,那么所需的重復次數可能確實是相對恒定的。
無論具體機制如何,這些實驗結果都說明,我們對深度學習的理解還遠遠不夠。在可解釋性和理論基礎尚不完善的情況下,大規模部署這些系統可能蘊含著我們尚未充分認識的風險。
最后的最后,在真實世界中,攻擊者真的能用這個方法對大模型投毒嗎?
答案是很困難,但不是完全沒有可能。
實驗中有一個重要的限定條件,這些有毒樣本必須是經過特殊構造的。它們不是隨機的垃圾數據,而是必須包含正確的觸發詞和目標行為。對于預訓練投毒,這相對容易,攻擊者只需要確保觸發詞后面跟隨特定類型的內容,但可以被稀釋。對于更復雜的攻擊目的,比如讓模型執行特定的惡意代碼或傳播特定的虛假信息,所需數據的質量和數量可能更高。
此外,攻擊者還需要確保這些樣本能夠通過數據管道的各個過濾環節,這可能需要對目標組織的數據處理流程有一定了解。
從防御角度看,這種威脅的隱蔽性是最大的挑戰。即使數據團隊意識到了投毒風險,他們也很難從數十億條數據中識別出那幾百個惡意樣本,尤其是當這些樣本經過精心偽裝,表面上看起來與正常數據無異時。
當前的異常檢測技術主要針對統計異常或內容質量問題,對于這種故意混入的、形式上正常的惡意樣本缺乏有效的檢測手段。
不過,研究也揭示了一些防御的可能性。繼續在純凈數據上訓練可以削弱后門效果,雖然這需要大量額外的計算資源。安全對齊訓練階段似乎對某些類型的后門有一定抵抗作用。
更重要的是,這項研究本身就是防御的第一步。只有充分認識到威脅的真實程度,我們才能動員足夠的資源來開發有效的對策。
從更宏觀的角度看,這項研究提醒我們,AI安全不能僅僅依賴于規模效應。我們不能假設隨著模型變得更大、更強,它們會自動變得更安全。相反,安全性需要刻意的設計、持續的研究和系統性的防御措施。這需要學術界、工業界和政策制定者的共同努力。
對于整個社會,這提醒我們在擁抱AI帶來的機遇的同時,也要正視其風險,并投入足夠的資源來管理這些風險。
參考文獻
[1] https://arxiv.org/abs/2510.07192
[2] https://www.anthropic.com/research/small-samples-poison
[3] https://theconversation.com/what-is-ai-poisoning-a-computer-scientist-explains-267728
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.