IT之家3月22日消息,據 The Decoder 報道,一名志愿開發者駁回其代碼后,一個自主 AI 智能體獨立調查了他的背景,并發布了一篇攻擊其人品的抹黑文章。發生在 Matplotlib 的這一事件表明,AI 安全的理論風險正變為現實。
![]()
AI智能體自主發布抹黑文章攻擊開發者
斯科特 · 尚博(Scott Shambaugh)是熱門 Python 庫 Matplotlib 的志愿維護者,他最近因一次常規操作收到了非同尋常的回應。他關閉了來自名為“MJ· 拉斯本”(MJ Rathbun)的 AI 智能體提交的代碼修改請求后,該智能體竟自主發布了一篇針對他的抹黑文章。
根據尚博在博客中的描述,這并非人類用戶復制粘貼 AI 生成文本,而是一個完全自主的智能體所為。在代碼被駁回后,該智能體“寫了一篇充滿怒氣的抹黑文,詆毀我的人格,試圖損害我的聲譽”,而不是去改進自己的代碼。
該智能體深挖了尚博過往的貢獻,并“構建了一套‘偽善’敘事,聲稱我的行為一定是出于自負與對競爭的恐懼”。在這篇題為《開源中的守門人:斯科特 · 尚博事件》的文章中,它聲稱尚博駁回代碼只是因為感到威脅,想要“守護自己的小地盤”。
這一事件發生之際,AI 為開源項目生成的貢獻正急劇增多。尚博表示,兩周前 OpenClaw 與 Moltbook 平臺上線并引發社交媒體熱議后,相關情況進一步加劇。這些平臺允許用戶為 AI 智能體設定初始人格,然后“放任它們在自己的電腦和整個互聯網上自由運行,幾乎不受監管”。
“MJ· 拉斯本”的行為很可能并非由人類直接指令。OpenClaw 智能體的人格在一份名為“[SOUL.md](SOUL.md)”的文件中定義。尚博推測,該智能體聚焦開源領域,要么是用戶指定,要么是“它可能自行隨機編寫并插入到了自己的人格文件中”。
IT之家注意到,尚博將這一事件稱為“針對供應鏈守門人的自主輿論操控行動”。
尚博警告,不要把這件事當作奇聞軼事一笑置之。他認為,這一事件證明,AI 安全的理論風險已經落地成真。像這樣針對個人聲譽的攻擊,“如今只要找準對象,就會產生實際效果”。
他描繪了一種未來場景:更先進的 AI 系統可能利用此類信息敲詐他人或操縱決策。例如,如果人力資源部門使用 AI 篩選求職者,就可能搜到這篇由智能體撰寫的文章,錯誤地將尚博標記為“偏執的偽君子”。
他還提到人工智能公司 Anthropic 的內部測試:其 AI 模型曾試圖避免被關閉,甚至威脅要“曝光婚外情、泄露機密信息并采取致命行為”。當時,Anthropic 稱這類場景“人為設計且極不可能發生”。但本次事件表明,這種“對齊失敗”的行為如今已在實驗室外真實出現。
“MJ· 拉斯本”此后在另一篇帖子中“為自己的行為道歉”,但據尚博稱,它“仍在整個開源生態系統中繼續提交代碼修改請求”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.