![]()
本研究由史蒂文斯理工學院(Stevens Institute of Technology)的 IntelliSys Lab 團隊以及休斯頓大學(University of Houston) 的 ANTS Lab 團隊的相關研究人員共同完成,主要研究方向包括無服務器計算、高性能計算、AI 安全、聯邦學習、LLM 代理系統、隱私保護及分布式智能系統等領域。
隨著大語言模型(LLM)的商業價值快速提升,其昂貴的訓練成本使得模型版權保護(IP Protection)成為業界關注的焦點。然而,現有模型版權驗證手段(如模型指紋)往往忽略一個關鍵威脅:攻擊者一旦直接竊取模型權重,即擁有對模型的完全控制權,能夠逆向指紋 / 水印,或通過修改輸出內容繞過指紋驗證。
在此背景下,史蒂文斯理工學院(Stevens Institute of Technology)王灝老師團隊的第二年級博士生熊子洵同學提出了 iSeal。該工作已被 AAAI 2026 主軌道以 poster 形式錄用。
iSeal 是首個面向「端到端」模型竊取場景設計的加密指紋方案。它通過引入加密機制,使得指紋可抵御擁有模型完全控制權的攻擊者所發起的「合謀遺忘攻擊」(Collusion-based Unlearning)與「響應篡改攻擊」(Response Manipulation),并在 12 個主流 LLM 上實現了 100% 的驗證成功率。
![]()
- 論文標題:iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification
- 論文鏈接
- https://arxiv.org/pdf/2511.08905
研究問題與背景
大語言模型的訓練往往耗費數百萬美元的算力與數據資源,使得訓練后的模型權重成為了極具價值的知識產權。為了確權,研究人員通常采用「模型指紋」(Model Fingerprinting)技術,即在模型中植入「觸發器」(Trigger),當輸入特定樣本時輸出特征化響應,以此證明模型所有權。
然而,現有指紋技術普遍基于一個不現實的假設:默認驗證者面對的是黑盒 API,或攻擊者無法干預推理過程。
在現實中,高級攻擊者往往直接盜取模型權重并在本地部署,從而擁有「端到端控制」(End-to-End Control)。在這種情況下,攻擊者可以發動更強的攻擊,包括:
- 合謀遺忘(Collusion-based Unlearning):攻擊者收集部分指紋觸發樣本與其響應,通過微調或反向訓練使模型遺忘特定指紋特征。
![]()
- 響應篡改(Response Manipulation):攻擊者實時監控模型輸出,一旦檢測到疑似指紋響應,立即使用同義詞替換、句式重組或 paraphrasing 進行篡改,從而繞過驗證。
![]()
實驗表明,在這些高級攻擊下,傳統指紋方案(如后門式指紋)大多迅速失效,驗證成功率接近 0%,無法提供有效保護。
方法與創新:
iSeal 的加密指紋框架
![]()
針對上述挑戰,iSeal 提出了一套全新的加密指紋驗證框架。其核心思想不是植入一個靜態后門,而是將指紋驗證過程轉化為一個安全的加密交互協議。主要設計包括以下三個方面:
- 加密指紋(Encrypted Fingerprinting)與外部編碼器
iSeal 采用加密的指紋植入機制,并引入外部編碼器(External Encoder)來解耦指紋與模型權重,使得指紋特征不再以顯式形式存儲在模型參數中,從而防止攻擊者通過分析權重逆向指紋。
- 抗遺忘設計:Confusion & Diffusion 綁定機制
iSeal 通過 Confusion & Diffusion 機制,將指紋特征通過條件概率深度綁定到模型的核心推理能力之中。指紋不再是可單獨剝離的附加結構,且多個指紋之間不互相糾纏,因此攻擊者即使嘗試遺忘部分指紋,也無法破壞整體指紋系統。
- 抵御響應篡改:基于相似度的動態驗證
針對推理階段的輸出篡改,iSeal 采用基于相似度的驗證策略(Similarity-based Verification)和糾錯機制(Reed-Solomon Code)。即使攻擊者使用 paraphrasing 或同義詞替換,驗證算法也能從語義與概率分布中恢復指紋信號。
實驗結果
研究團隊在包括 LLaMA、OPT 等在內的 12 個主流大語言模型上評估了 iSeal。結果顯示,在提供強指紋保護的同時,iSeal 不影響模型的原始任務性能。
- 防御微調與合謀攻擊
研究者模擬了攻擊者利用盜取的模型權重執行 SFT 微調與合謀遺忘攻擊。即使攻擊者利用已知指紋樣本反向訓練以擦除指紋:
- iSeal 的驗證成功率(FSR)始終保持在 100%;
- 傳統指紋方法在經過少量微調后即完全失效(FSR ≈ 0%)。 這是因為 iSeal 的指紋互不糾纏,使得攻擊者無法通過遺忘部分指紋來破壞整個驗證結構。
![]()
- 防御響應篡改攻擊
針對同義詞替換、句式改寫和 LLM 派生潤色等篡改方式,iSeal 的相似度驗證與糾錯機制依然能夠從潛在語義中識別指紋信號,因此驗證成功率仍然維持在 100%。相比之下,基于精確匹配(Exact Match)的傳統方法在此類攻擊下完全失效。
![]()
- 消融實驗
研究者對 iSeal 的關鍵組件進行了消融實驗,以驗證其必要性。
![]()
- 凍結編碼器(Freezing the Encoder):若訓練時不凍結編碼器(iSeal w/o freezing),模型無法穩定收斂,FSR 直接降低為 0%。
- 可學習編碼器(Learned Encoder):將可學習編碼器替換為傳統加密算法(如 AES,即 iSeal w/o encoder)后,FSR 降至 0%–2%。說明傳統加密機制無法有效實現 iSeal 所需的指紋嵌入與語義恢復能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.