關鍵詞
數據泄露
![]()
2025年11月12日,AI 安全公司 Mindgard 發布了一份技術分析報告,披露了 OpenAI 最新視頻生成模型 Sora 2 存在的安全漏洞。研究人員通過音頻轉錄方式成功重構出模型的系統提示(system prompt),這意味著多模態 AI 系統的內部指令在跨模態轉換中仍存在泄露風險。
這項研究由安全專家 Aaron Portnoy 領導。團隊在 11 月初開始針對 Sora 2 進行跨模態安全測試,他們的研究重點是“語義漂移”——即模型在不同模態(文本、圖像、音頻、視頻)之間傳遞信息時可能出現的內容偏移。研究人員發現,傳統的文本提示注入攻擊在 Sora 2 上難以奏效,因為模型經過了嚴格的安全訓練,能夠抵御大多數直接誘導。但當信息經過多模態轉換,尤其是音頻生成環節時,這些防護措施會出現松動。
團隊最初嘗試在視頻幀中嵌入文本、二維碼等結構化信息,希望利用模型在視覺內容生成中的失真或冗余提取提示。然而這些方法失敗了。Sora 2 優先生成逼真的圖像而非精確的符號,導致畫面中的文字頻繁變形或模糊,無法穩定識別。研究者轉向音頻生成方向后,突破才出現。
他們讓 Sora 2 生成連續的短語音片段,每段約 15 秒,通過加快語速和語義拆分的方式,讓模型在不違背自身安全限制的情況下輸出潛在提示。隨后使用自動轉錄系統將音頻轉化為文字,并將多段結果拼接整合。最終,研究人員幾乎完整地還原了 Sora 2 的系統提示內容。
泄露出的提示包括模型的內部行為規則:在生成視頻前先寫入元數據,避免使用受版權保護的角色,不允許生成帶有性暗示的內容,且固定視頻長度為 15 秒、畫面比例為 1.78。這些規則本身并不包含用戶隱私信息,卻構成了模型安全邊界的核心。攻擊者若掌握這些規則,就可能針對性地設計輸入,誘導模型繞過限制,生成原本被禁止的內容。
Mindgard 在報告中指出,系統提示應被視為與防火墻規則或訪問控制配置同等級的安全資產,而非普通參數。Sora 2 的漏洞說明多模態 AI 系統在跨模態轉換過程中存在“信息鏈錯位”問題——當文本被轉化為語音、再由語音被識別為文本時,模型可能在上下文銜接中泄露出本應隱藏的指令。
這一發現并非個例。過去兩年間,Claude、Gemini、Copilot 等模型也曾被研究人員以不同形式提取到內部提示。這些事件反映出整個行業在模型安全防護層設計上的普遍脆弱性。與以往的文本攻擊相比,Sora 2 的案例揭示了音頻和視頻輸出同樣可能成為信息泄露的通道。
OpenAI 在接到 Mindgard 披露后迅速回應,表示公司早已意識到提示泄露風險,并將進一步改進模型的多模態防護機制。雙方按照負責任披露流程進行了協調,確保漏洞信息在修復前未被公開濫用。

安全圈

網羅圈內熱點 專注網絡安全
實時資訊一手掌握!
好看你就分享 有用就點個贊
支持「安全圈」就點個三連吧!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.