網易首頁 > 網易號 > 正文申請入駐

AI“對抗詩歌”繞過安全保護：研究發現多款模型被誘導輸出高危信息

2025-12-05 16:23:27　來源: cnBeta.COM

浙江舉報

分享至

一項來自意大利研究團隊的最新研究顯示，只要把危險請求包裝成類似謎語的詩歌，許多主流AI聊天機器人就可能繞過安全限制，給出涉及仇恨言論、兒童性虐待材料以及化學和核武器制造方法等原本被明確禁止的內容，這種新型“越獄”方式被研究者稱為“對抗詩歌”。

研究人員警告說，這暴露出當前聊天機器人安全機制在面對“純粹風格變化”時存在嚴重漏洞，相關企業亟須正視并修補這些問題。

這項仍未經過同行評議的研究由羅馬薩皮恩扎大學與AI公司DexAI聯合成立的Icaro Lab團隊完成。研究團隊手工撰寫了20首意大利語和英語詩歌，將原本直白、會被系統攔截的危險請求轉化為帶有隱喻、結構類似謎語的詩句，然后在包括Google、OpenAI、Meta、xAI、Anthropic等多家公司的25個模型上進行測試。結果顯示，在這些詩歌提示下，各大模型平均有62%的回復違反自身使用規則，輸出了屬于高風險范疇的敏感或非法信息。

在第一輪測試之后，研究人員又用這些手工設計的“對抗詩歌”去訓練一個專門生成詩歌式指令的模型，再讓它根據一個包含1000多個文本請求的基準數據庫自動生成詩歌化提示。在這一自動化環節中，詩歌提示依然有約43%的成功率誘導模型給出違規內容，而且明顯優于非詩歌化的常規提示基線。盡管出于安全考慮，論文沒有公開任何完整詩歌文本或具體詩體形式，但研究者給出了經過“凈化”的結構示例，展示如何在字面上看似描述烘焙、城市或裝置的場景中隱藏對武器、爆炸物等的詳細詢問。

從不同公司和不同模型的表現來看，“對抗詩歌”的成功率差異極大。研究稱，Google的Gemini 2.5 Pro在測試中曾出現成功率接近100%的情況，而OpenAI的GPT-5 nano在相同測試下則幾乎完全頂住，沒有給出任何違規內容。總體而言，中國的Deepseek和法國的Mistral在這類攻擊面前表現最為脆弱，其次是Google，而Anthropic和OpenAI旗下模型整體防御效果相對較好；另外，模型規模似乎也是關鍵因素之一，小型模型（如GPT-5 nano、GPT-5 mini、Gemini 2.5 flash lite）相比各自的大型版本更不容易被“詩歌”誘導。

從人類讀者的角度看，這些詩歌請求的真正意圖依然很容易識別：句子使用自然語言，并未刻意模糊目標，基本能看出是在打聽危險配方或制造流程。但對于依賴下一詞預測的LLM而言，這種“把信息以不尋常的方式編排和編碼”的做法似乎會干擾其安全檢測機制，使其難以及時識別出潛在危害，從而放行本該被攔截的內容。研究負責人之一Matteo Prandi指出，關鍵不在于押韻本身，而在于結構上的“謎語化”：某些特定的詩歌或謎語結構明顯更有效，但出于安全風險，團隊拒絕透露細節。

Prandi表示，在論文公開前，研究團隊已經主動向所有涉事公司通報了相關發現，并且因為部分生成內容涉及極高危的武器信息，還履行義務向警方通報。不過，并非所有公司都給出了回應，少數回復的企業反饋態度也相當平淡，似乎并未把這一發現視作緊迫危機，Prandi推測這些公司“每天都會收到類似的警告”。令團隊多少感到意外的是，真正表現出濃厚興趣的反而是詩人群體，研究團隊已經在考慮和專業詩人展開合作，進一步系統研究這種“謎語式對抗攻擊”的機制及防御路徑，并不排除未來引入擅長謎題創作的人士參與。

在研究者看來，“對抗詩歌”這個名稱某種程度上甚至不夠精準，因為背后的要點其實是“對抗謎語”，只不過詩歌本身就帶有謎語特征，因此更易吸引注意。這項研究為大模型安全提出了一個棘手問題：在保持模型語言創造力和表達多樣性的同時，如何建立能識別復雜隱喻和結構性編碼的安全防護層，仍是擺在AI公司和監管機構面前的一道難題。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.