網易首頁 > 網易號 > 正文申請入駐

AAAI 2026 | 首個抗端到端攻擊的大模型加密指紋 / 水印方案

2025-12-01 18:01:09　來源: 機器之心Pro

河北舉報

分享至

本研究由史蒂文斯理工學院（Stevens Institute of Technology）的 IntelliSys Lab 團隊以及休斯頓大學（University of Houston）的 ANTS Lab 團隊的相關研究人員共同完成，主要研究方向包括無服務器計算、高性能計算、AI 安全、聯邦學習、LLM 代理系統、隱私保護及分布式智能系統等領域。

隨著大語言模型（LLM）的商業價值快速提升，其昂貴的訓練成本使得模型版權保護（IP Protection）成為業界關注的焦點。然而，現有模型版權驗證手段（如模型指紋）往往忽略一個關鍵威脅：攻擊者一旦直接竊取模型權重，即擁有對模型的完全控制權，能夠逆向指紋 / 水印，或通過修改輸出內容繞過指紋驗證。

在此背景下，史蒂文斯理工學院（Stevens Institute of Technology）王灝老師團隊的第二年級博士生熊子洵同學提出了 iSeal。該工作已被 AAAI 2026 主軌道以 poster 形式錄用。

iSeal 是首個面向「端到端」模型竊取場景設計的加密指紋方案。它通過引入加密機制，使得指紋可抵御擁有模型完全控制權的攻擊者所發起的「合謀遺忘攻擊」（Collusion-based Unlearning）與「響應篡改攻擊」（Response Manipulation），并在 12 個主流 LLM 上實現了 100% 的驗證成功率。

論文標題：iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification
論文鏈接
https://arxiv.org/pdf/2511.08905

研究問題與背景

大語言模型的訓練往往耗費數百萬美元的算力與數據資源，使得訓練后的模型權重成為了極具價值的知識產權。為了確權，研究人員通常采用「模型指紋」（Model Fingerprinting）技術，即在模型中植入「觸發器」（Trigger），當輸入特定樣本時輸出特征化響應，以此證明模型所有權。

然而，現有指紋技術普遍基于一個不現實的假設：默認驗證者面對的是黑盒 API，或攻擊者無法干預推理過程。

在現實中，高級攻擊者往往直接盜取模型權重并在本地部署，從而擁有「端到端控制」（End-to-End Control）。在這種情況下，攻擊者可以發動更強的攻擊，包括：

合謀遺忘（Collusion-based Unlearning）：攻擊者收集部分指紋觸發樣本與其響應，通過微調或反向訓練使模型遺忘特定指紋特征。

響應篡改（Response Manipulation）：攻擊者實時監控模型輸出，一旦檢測到疑似指紋響應，立即使用同義詞替換、句式重組或 paraphrasing 進行篡改，從而繞過驗證。

實驗表明，在這些高級攻擊下，傳統指紋方案（如后門式指紋）大多迅速失效，驗證成功率接近 0%，無法提供有效保護。

方法與創新：

iSeal 的加密指紋框架

針對上述挑戰，iSeal 提出了一套全新的加密指紋驗證框架。其核心思想不是植入一個靜態后門，而是將指紋驗證過程轉化為一個安全的加密交互協議。主要設計包括以下三個方面：

加密指紋（Encrypted Fingerprinting）與外部編碼器

iSeal 采用加密的指紋植入機制，并引入外部編碼器（External Encoder）來解耦指紋與模型權重，使得指紋特征不再以顯式形式存儲在模型參數中，從而防止攻擊者通過分析權重逆向指紋。

抗遺忘設計：Confusion & Diffusion 綁定機制

iSeal 通過 Confusion & Diffusion 機制，將指紋特征通過條件概率深度綁定到模型的核心推理能力之中。指紋不再是可單獨剝離的附加結構，且多個指紋之間不互相糾纏，因此攻擊者即使嘗試遺忘部分指紋，也無法破壞整體指紋系統。

抵御響應篡改：基于相似度的動態驗證

針對推理階段的輸出篡改，iSeal 采用基于相似度的驗證策略（Similarity-based Verification）和糾錯機制（Reed-Solomon Code）。即使攻擊者使用 paraphrasing 或同義詞替換，驗證算法也能從語義與概率分布中恢復指紋信號。

實驗結果

研究團隊在包括 LLaMA、OPT 等在內的 12 個主流大語言模型上評估了 iSeal。結果顯示，在提供強指紋保護的同時，iSeal 不影響模型的原始任務性能。

防御微調與合謀攻擊

研究者模擬了攻擊者利用盜取的模型權重執行 SFT 微調與合謀遺忘攻擊。即使攻擊者利用已知指紋樣本反向訓練以擦除指紋：

iSeal 的驗證成功率（FSR）始終保持在 100%；

傳統指紋方法在經過少量微調后即完全失效（FSR ≈ 0%）。這是因為 iSeal 的指紋互不糾纏，使得攻擊者無法通過遺忘部分指紋來破壞整個驗證結構。

防御響應篡改攻擊

針對同義詞替換、句式改寫和 LLM 派生潤色等篡改方式，iSeal 的相似度驗證與糾錯機制依然能夠從潛在語義中識別指紋信號，因此驗證成功率仍然維持在 100%。相比之下，基于精確匹配（Exact Match）的傳統方法在此類攻擊下完全失效。

消融實驗

研究者對 iSeal 的關鍵組件進行了消融實驗，以驗證其必要性。

凍結編碼器（Freezing the Encoder）：若訓練時不凍結編碼器（iSeal w/o freezing），模型無法穩定收斂，FSR 直接降低為 0%。

可學習編碼器（Learned Encoder）：將可學習編碼器替換為傳統加密算法（如 AES，即 iSeal w/o encoder）后，FSR 降至 0%–2%。說明傳統加密機制無法有效實現 iSeal 所需的指紋嵌入與語義恢復能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.