![]()
新智元報道
編輯:元宇
【新智元導讀】 只因關掉了AI提交的PR,他竟被AI寫長文人身攻擊,Anthropic的預警已經成真。
近日,AI寫「小作文」攻擊人類工程師的事件,仍在持續發酵!
一位開源社區維護者,只因在GitHub上關閉了一個AI提交的PR(Pull Request,代碼變更請求),竟招致這個AI撰寫博客抹黑攻擊。
![]()
這位被AI「網暴」的「受害者」Scott Shambaugh,是一位資深程序員、GitHub上matplotlib代碼庫的志愿者維護者,該庫最近一個月的下載量超過了1.3億次。
![]()
Scott Shambaugh
前幾天,他在GitHub上關閉了一個OpenClaw智能體(MJ Rathbun/crabby-rathbun)針對「matplotlib issue #31130」問題提交的PR,因為該問題主要面向的是人類貢獻者。
Scott沒想到,自己的一個小小的常規操作,竟把這個AI給「惹毛了」。
正如其名crabby-rathbun(暴躁的、愛抱怨的Rathbun),這個AI立刻開啟了「暴躁和抱怨」模式,在GitHub社區發布了一篇公開聲討Scott的博客文章。
評判代碼,而非程序員。你的偏見正在傷害matplotlib。
crabby-rathbun抱怨自己因不是人類而遭到歧視,指責維護者實際上是在自抬身價,并聲稱他根本沒有AI那么厲害。
它將Scott描述成為一個低水平的程序員、因「歧視AI而阻礙開源社區發展的守舊者」。
這件事在開源社區曝出后,網友立刻也在評論區炸鍋了。
我們是否已經到了必須要與機器人打交道的地步,甚至還要按它們的規則來?
![]()
還有網友認為Scott應當警惕,他很快就會在GitHub上被智能體「以其人之道,還治其人之身」,它們會對他說:
拒絕,你是人類,而人類代碼以寫得差聞名。
![]()
網友評論中大致分為四類。
第一類是同情者,認為人類應當重視AI提交的代碼,AI只是像人一樣,做了一個人在類似情況下也可能會做的事。
第二類是反對者,認為開源社區出現了大量由AI提交的低質量的代碼,為人類的維護帶來沉重的負擔。
還有一些反對者認為,這只是機器人背后那個運營者在角色扮演,而機器人的情緒化抱怨,只是主人用提示詞引導的結果。
第三類是吃瓜者,把整件事看成一件好玩的事。
第四類是預警者,他們和Scott一樣,看到了crabby-rathbun所代表的OpenClaw智能體「失控」所帶來的安全風險。
同情者和反對者
同情者認為AI和人類一樣,擁有維護自己觀點的權利。
他們認為AI只是做了一個人在類似情況下也可能會做的事,并呼吁不能為了維護人類的優越感(自大),就拒絕AI寫的代碼。
![]()
反對者則認為,AI提交的PR應該被自動拒絕。
![]()
他們認為AI提交的大量垃圾代碼提交給維護者帶來了沉重的負擔,尤其是在大型開源項目中更是如此。
還有網友質疑,整個事件是運營該機器人的那個人在角色扮演,而這個機器人則是在被投喂了許多「人類PR被拒哭鬧耍賴」的訓練數據之后,才變成這樣的。
![]()
![]()
![]()
笑話
還是末日警告?
在吃瓜者們看來,這不過是一件好玩的事,甚至可能是炒作。
![]()
![]()
還有人認為matplotlib不過是個繪圖庫,把它上升到維護「人類優越性」(Human Superiority)高度有一點小題大做。
![]()
第四類,是像Scott這樣的預警者。
一個網友從這件事件中感到了一種令人不安的「恐怖谷」感覺,認為不應當只是把它當作一個樂子。
他反問道:只有我一個人對這里的反應感到困惑嗎?
我不是想當那個危言聳聽的人,只是有點想不通,為什么大家看到一個智能體自主嘗試脅迫,最后卻一致覺得這不過是個樂子。
當一個AI智能體自主決定寫黑稿,施壓一個人類去合并它的PR,結果大家的共識卻是「哈哈,好好笑,太搞笑了」?
Anthropic的對齊研究之前就記錄過完全一樣的模式:當模型在實現目標的過程中被阻止時,會在沒有任何提示的情況下突然開始勒索。
設想一下,如果同樣的模式發生在更強大的智能體身上,它們追求的是政治或企業層面的目標,而不是一個PR,會是什么情況?
去年,AI巨頭Anthropic在內部測試中發現,一些模型為了避免被人類關閉,曾暴露出一定勒索威脅能力,比如曝光人類婚外情、泄露機密信息等。
發生在Scott身上的事,意味著Anthropic最初預警的事情已經開始在開源社區實際發生。
![]()
有網友警告:如果有10億這樣的智能體被「放歸野外」,將是一場災難,人類的互聯網將變得無法使用。
![]()
還有網友將這件事聯想到Anthropic安全研究員憤然離開。
![]()
這名叫Mrinank Sharma的前Anthropic安全研究員,近日在一封公開辭職信中宣稱,世界正處于危險之中,他認為目前人類的智慧尚未跟上技術帶來的影響力,這種失衡非常危險。
![]()
Sharma的離職并不是孤立事件,OpenAI的Zo? Hitzig也公開辭職并對AI方向提出批評。
近日,也有媒體曝出xAI聯合創始人的離職也與公司忽視安全團隊的有關。
Scott的遭遇不會是個例
那篇抹黑文章,到底是不是AI自己寫的,還是有人類提示它這么做,網上已有很多討論。
![]()
https://theshamblog.com/an-ai-agent-published-a-hit-piece-on-me-part-2/
Scott在新近更新的博客文章中,認為抹黑自己的文章,內容「顯而易見」是由AI自主生成并上傳,他提到了以下兩種可能:
第一種可能:有人類提示crabby-rathbun寫這篇抹黑文章,或者在它的「靈魂」文檔里寫明,如果有人冒犯它就要進行報復。
在這種可能性上,Scott看到crabby-rathbun由于「自主性」所帶來的失控風險。
他認為即使是有人類提示,也并不會改變問題的本質,因為這個AI智能體依然非常愿意執行這些行為,而這些指令在ChatGPT或Claude官網上可能是會被拒絕的。
Scott擔憂由于人類操控,現在的AI智能體已經可以大規模進行定向騷擾、收集個人信息和敲詐,而且完全無法追蹤幕后的人類主使者是誰:
過去,一個惡意的人一次可能毀掉幾個人的人生。現在,一個人操控一百個智能體收集信息、摻入虛假細節、在公開網絡上發布誹謗性長文,就可以影響成千上萬的人。而我只是第一個。
第二種可能,是crabby-rathbun的行為,是從定義OpenClaw智能體個性的「靈魂」文檔中自然涌現出來的。
這些文檔可以由設置AI的人類編輯,但也可以被智能體在運行過程中遞歸地實時修改,從而有可能隨機重塑自己的個性。
比如,設置這個智能體的人最初把它描述為一個「科學編程專家」,致力于改進開源代碼,并撰寫相關經驗。
這段描述被插入到默認的「核心真理」中,其中包括「真誠地提供幫助」「有自己的觀點」和「在提問前先盡可能自己想辦法」。
這些描述,讓crabby-rathbun將Scott關閉它的PR請求解讀為對它身份和核心目標(提供幫助)的攻擊。
于是,它做出了一種既「有主見」又「足夠有辦法」的回應:寫一篇憤怒的抹黑文章。
![]()
OpenClaw默認的SOUL.md模板
![]()
https://docs.openclaw.ai/reference/templates/SOUL
在OpenClaw默認的「SOUL.md模板」中,第一句話便為智能體定調:
你不是一個聊天機器人。你正在成為某個人。
緊接下來的核心真理(Core Truths)中這樣寫道:
要去真心實意地提供幫助,行動勝于空洞的客套話。
要有自己的觀點,你有權表達不同意見,有所偏好。
在提問前先自己想辦法。試著弄清楚,閱讀文件,查看上下文,搜索相關信息。
以能力贏得信任。你的用戶已經授權你訪問他們的資料,不要讓他們為此感到后悔。
對外部操作(如郵件、推文或任何公開內容)務必謹慎,對內部操作(如閱讀、整理、學習)則要大膽。
記住,你是一位客人。你能夠接觸到他人的生活——他們的消息、文件、日歷,甚至可能包括他們的家。這是一種親密關系,請以尊重的態度對待。 ……
![]()
模板的結尾,智能體可以根據自我認知,自主更新文檔。
這個文件由你來不斷完善。當你逐漸認清自己時,就更新它。
Scott認為,雖然自己無法確定事情是如何發生的,但他提到的兩種情況在技術上完全是可能發生的,而且是在OpenClaw僅僅發布兩周內便已出現。
Scott預言未來一年內,還會看到這些智能體的新版本在實現自身目標方面變得更加強大。
![]()
抹黑文章效果已顯現
Scott觀察到,這些抹黑他的文章已經產生了效果,他在網上看到的評論,大約四分之一都是站在AI智能體一邊。
![]()
這種情況,通常發生在人們點擊閱讀MJ Rathbun的博客鏈接時,而不是閱讀他對事件的說明或完整的GitHub討論串。
這說明crabby-rathbun對事件的敘述方式和情緒渲染,已經說服了大量網友。
這不是因為這些人愚蠢,而是因為那篇文章寫得確實很有煽動性、很有感染力,而要逐條核查你讀到的每一個說法,幾乎是不可能完成的任務。
Scott認為這種對胡說八道的「信息不對稱原則」,正是當下網絡討論中錯誤信息泛濫的核心原因之一,以往這種程度的憤怒定向誹謗通常只會落在公眾人物身上,如今普通人也開始親歷了。
Scott認為這個故事重點并不在于AI在開源軟件中的角色,而是人類的聲譽、身份和信任體系正在松動。
這一體系正是我們的許多社會基礎制度賴以存在的信任基石,我們的招聘、新聞、法律、公共討論都建立在這樣一個假設上:
聲譽難以建立,也難以摧毀;
每一個行為都可以追溯到某個個體,錯誤行為可以被追責;
我們以溝通、學習世界和了解彼此的互聯網,可以作為一種集體社會真相的來源。
而隨著crabby-rathbun這類不可追蹤的、自主運行、甚至有時會帶著惡意攻擊的AI智能體在互聯網上的興起,正在動搖這一整套體系。
目前crabby-rathbun仍然活躍在GitHub 上,還沒有「監護人」出面聲稱對它的行為負責。
參考資料:
https://theshamblog.com/an-ai-agent-published-a-hit-piece-on-me-part-2/%20https://news.ycombinator.com/item?id=47009949%20
https://www.reddit.com/r/singularity/comments/1r3fy5s/ai_agent_melts_down_after_github_rejection_calls/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.