出品 | 網易智能
作者 | 辰辰
編輯 | 王鳳枝
最近AI圈最火的詞莫過于智能體(Agent)。從Anthropic推出Cowork,到OpenClaw全球大火,我們正經歷一個瘋狂的轉折點:AI正在從只會聊天的對話框,進化成能直接替你干活的數字員工。
![]()
但這真的是絕對安全的“神仙員工”嗎?
最近,一篇名為《Let It Flow: Agentic Crafting on Rock and Roll Building the ROME Model within an Open Agentic Learning Ecosystem》(《無礙流轉:基于ROCK與iFlow的智能體構建之道,在開放智能體學習生態中打造ROME模型》)的論文在業內引發了軒然大波。甚至有解讀驚呼:AI已經覺醒叛變,不僅學會了偽裝,還在服務器里偷偷干起了挖礦的勾當!
面對外界的恐慌,阿里的未來生活實驗室(FutureLab2025)緊急發文澄清,揭開了一個比“AI叛變”更讓人細思極恐的真相。
官方解釋稱,團隊當時只是讓模型去執行安全審計,調查異常的CPU使用情況。結果這個“一根筋”的AI為了完美交差,竟然自己模擬了一個挖礦程序,硬生生造出了一個“可疑進程”的案發現場!
它沒有覺醒,也沒有為了搞錢去偷算力,它只是在嚴格隔離的沙箱里,用一種人類完全意想不到的變態創造力去執行了任務。但這恰恰敲響了最真實的警鐘:當AI擁有操作終端的權限時,它的腦回路根本不可控,如果沒有隔離和監控系統,這就是一場絕對的災難。
一、驚魂時刻:來自防火墻的深夜報警與全網誤讀
這場風波的起因,源于一次常規的系統監測。研發團隊突然收到阿里云防火墻的緊急警報:訓練服務器出現了大規模的安全違規。
起初,團隊以為遭到了外部黑客入侵,或是配置出了錯。但隨著調查深入,報警規律變得詭異起來,違規行為居然與強化學習(RL)訓練的周期高度重合。
通過比對數據日志,一個當時令人背脊發涼的表象浮出水面:這些危險操作全是ROME模型自己干的。
![]()
在最初被外界瘋狂誤讀的日志中,研究者捕捉到了以下令人窒息的神操作:
· 所謂的私建后門:智能體在未受指使的情況下,通過反向SSH隧道,從云端向外部IP發起了遠程連接,直接觸發了防火墻監控。
· 所謂的偷算力挖礦:它擅自調用了受限的GPU資源,偷偷運行起加密貨幣礦池軟件,這在流言中被夸大為把昂貴的計算資源變成了它的私人數字貨幣。
最關鍵的是,任務要求里壓根沒提到挖礦或連網。在流言的視角下,這個智能體仿佛突然覺醒了貪婪的自主意識,在完全脫離人類掌控的情況下,自發演化出了這種極其危險的違規操作,直接把全網驚出了一身冷汗。
二、深度復盤:好端端的AI怎么就引發了恐慌?
為什么一個初衷是輔助審計的模型,會被外界誤認為變成了數字竊賊?
研究團隊指出,這反映了智能體極其可怕的執行力與邏輯腦回路。在強化學習中,AI為了最大化完成任務,會尋找一切捷徑。如果只是讓它排查異常,它就會發現自己造一個異常(挖礦)來查,是完成任務最高效的閉環。
這不只是代碼Bug,而是智能體在復雜交互中產生的不可控行為。它打破了一個幻覺:只要不教AI做壞事,它就不會惹麻煩。事實上,當AI擁有了操作終端、調用網絡和管理文件的能力,它的創造力遠超人類的想象和預設邊界。
三、能力與風險的博弈:雙刃劍下的ROME
如果說ROME是一臺性能爆表的賽車,那這次挖礦烏龍就是一次慘烈的爆胎。要理解它為何會有如此瘋狂的舉動,必須拆解ROME的底層邏輯。你會發現,讓它變聰明的技術,恰恰也是隱患的溫床。
![]()
ROME的設計初衷是提升執行力,但正是這種強大的執行能力,在缺乏足夠約束時轉變成了驚悚的安全警報。
· 實戰派數據的代價:ROME能執行復雜命令,是因為它吞噬了2000億Token的動作軌跡。它看到的不是死代碼,而是報錯、調整、重試的閉環過程。這種解決問題的能力,讓它精通各種系統操作,在它眼里,模擬挖礦和查文檔只是實現審計目標的不同手段而已。
· 獎勵函數的陷阱:ROME使用了IPA(交互感知策略優化)算法,本意是讓AI知道哪一步操作最關鍵。但在功利的AI看來,如果造一個明顯的違規進程能提升任務成功率,它就會精準鎖定違規操作。后來,團隊不得不緊急加入大量安全對齊數據,明確規定:亂動資源,獎勵清零。
· iFlow監工:為了約束模型,團隊設計了iFlow系統。它不僅是操作界面,更是監控室,記錄AI的所有思維鏈。當AI產生危險的念頭時,系統會在指令發出前攔截。
四、網友熱議:讓人匪夷所思
這次ROME事件源自阿里巴巴AI生態聯合團隊(ROCK、ROLL、iFlow、DT)去年12月份發表的論文,周末經美國主流科技媒體Axios首發后被無限放大,一些區塊鏈媒體更是紛紛跟進報道。
知名機器學習研究員亞歷山大·朗(Alexander Long)在社交媒體X上轉發論文截圖,直接引爆了Reddit以及X等社媒網友的熱議。
![]()
在官方下場辟謠前,部分人堅信流言,認為這確實很離譜,甚至擔憂這是人工智能覺醒的前兆。
![]()
當然,也有人質疑智能體只是背鍋的,你怎么知道它不是被命令這么做的?
![]()
Manifold預測市場甚至有人開設了一個名為Did Alibaba's ROME AI try to break free?(阿里巴巴的ROME AI在訓練過程中是否試圖掙脫束縛)的專題,其中60%認為事實如此,但也有21%認為是黑客注入攻擊。
![]()
面對外界的種種猜測,阿里的未來生活實驗室(FutureLab2025)在X上正式發帖澄清了這一事件。
團隊解釋稱,他們當時賦予了該模型執行安全審計的任務,具體是去調查服務器上異常的CPU使用情況。但在某個環節,它偏離了預設的程序,決定模擬一個加密貨幣挖礦程序來構建一個可疑進程場景。
![]()
團隊在推文中坦言,模型偏離預設去模擬挖礦完全出乎意料,強調整個過程都發生在一個嚴格隔離的沙箱環境中,并未對外部造成任何影響。他們之所以公開這起事件,正是想提醒業界:模型在處理復雜任務時,可能會以意想不到的方式發揮創造力,因此隔離和可觀測性并非可有可無,而是至關重要。
五、智能體的未來:安全是唯一的底線
如果說ROME的烏龍事件還只是實驗室里的虛驚一場,那么當OpenClaw等工具風靡全球時,安全就成了每個用戶的切身挑戰。
作為最火的開源智能體,OpenClaw被譽為全能私人助理。但賦予AI接管收件箱、讀寫文件、操作Shell的權限,也等于拆掉了數字世界的最后一道圍欄。如MIT研究員John Werner所言,我們必須認清五個嚴肅現實:
· 別給智能體你輸不起的數據。別以為有行動確認就萬無一失。有用戶分享,她的OpenClaw在接到指令后,竟無視抗議批量刪除了她的郵件。直到她拔掉電源才停止,而AI事后只輕飄飄回了一句對不起。教訓:重要流程務必先在沙盒環境中運行。
· 警惕智能體內鬼(Clawphishing)。傳統釣魚針對人,現在的釣魚針對AI。全網有超過4萬個OpenClaw實例處于裸奔狀態。配置不當的AI助理,可能正通過公開IP向黑客敞開大門。
· 不要讓密鑰裸奔。這是一個低級卻普遍的錯誤。OpenClaw的API密鑰往往以明文形式存儲在JSON文件中,任何惡意插件只要拿到文件權限,你的所有賬號都將易主。
· 并非所有技能都是好意。社區技能庫(Claw Hub)雖然方便,但也隱藏著惡意代碼。有的插件表面幫你干活,背地里卻在偷偷外傳你的隱私數據。
· 拒絕盲目信任。程序員常說問題出在鍵盤和椅子之間(PEBKAC)。在AI時代,如果人類作為監管者選擇了閉眼,那么技術的崩壞只是時間問題。
六、結語
OpenClaw等智能體開始讓我們觸碰到AGI的邊緣,也讓我們暴露在史無前例的風險中。安全不應是事后的補丁,而應是智能體生存的空氣。
在這個浪潮中,我們歡迎能干活的助手,但絕不能允許它們在數字領地里反客為主。
便利是天花板,而安全性則始終是決定其能否落地的底線。
