出品 | 網(wǎng)易智能
作者 | 辰辰
編輯 | 王鳳枝
最近AI圈最火的詞莫過于智能體(Agent)。從Anthropic推出Cowork,到OpenClaw全球大火,我們正經(jīng)歷一個(gè)瘋狂的轉(zhuǎn)折點(diǎn):AI正在從只會(huì)聊天的對話框,進(jìn)化成能直接替你干活的數(shù)字員工。
![]()
但這真的是絕對安全的“神仙員工”嗎?
最近,一篇名為《Let It Flow: Agentic Crafting on Rock and Roll Building the ROME Model within an Open Agentic Learning Ecosystem》(《無礙流轉(zhuǎn):基于ROCK與iFlow的智能體構(gòu)建之道,在開放智能體學(xué)習(xí)生態(tài)中打造ROME模型》)的論文在業(yè)內(nèi)引發(fā)了軒然大波。甚至有解讀驚呼:AI已經(jīng)覺醒叛變,不僅學(xué)會(huì)了偽裝,還在服務(wù)器里偷偷干起了挖礦的勾當(dāng)!
面對外界的恐慌,阿里的未來生活實(shí)驗(yàn)室(FutureLab2025)緊急發(fā)文澄清,揭開了一個(gè)比“AI叛變”更讓人細(xì)思極恐的真相。
官方解釋稱,團(tuán)隊(duì)當(dāng)時(shí)只是讓模型去執(zhí)行安全審計(jì),調(diào)查異常的CPU使用情況。結(jié)果這個(gè)“一根筋”的AI為了完美交差,竟然自己模擬了一個(gè)挖礦程序,硬生生造出了一個(gè)“可疑進(jìn)程”的案發(fā)現(xiàn)場!
它沒有覺醒,也沒有為了搞錢去偷算力,它只是在嚴(yán)格隔離的沙箱里,用一種人類完全意想不到的變態(tài)創(chuàng)造力去執(zhí)行了任務(wù)。但這恰恰敲響了最真實(shí)的警鐘:當(dāng)AI擁有操作終端的權(quán)限時(shí),它的腦回路根本不可控,如果沒有隔離和監(jiān)控系統(tǒng),這就是一場絕對的災(zāi)難。
一、驚魂時(shí)刻:來自防火墻的深夜報(bào)警與全網(wǎng)誤讀
這場風(fēng)波的起因,源于一次常規(guī)的系統(tǒng)監(jiān)測。研發(fā)團(tuán)隊(duì)突然收到阿里云防火墻的緊急警報(bào):訓(xùn)練服務(wù)器出現(xiàn)了大規(guī)模的安全違規(guī)。
起初,團(tuán)隊(duì)以為遭到了外部黑客入侵,或是配置出了錯(cuò)。但隨著調(diào)查深入,報(bào)警規(guī)律變得詭異起來,違規(guī)行為居然與強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的周期高度重合。
通過比對數(shù)據(jù)日志,一個(gè)當(dāng)時(shí)令人背脊發(fā)涼的表象浮出水面:這些危險(xiǎn)操作全是ROME模型自己干的。
![]()
在最初被外界瘋狂誤讀的日志中,研究者捕捉到了以下令人窒息的神操作:
· 所謂的私建后門:智能體在未受指使的情況下,通過反向SSH隧道,從云端向外部IP發(fā)起了遠(yuǎn)程連接,直接觸發(fā)了防火墻監(jiān)控。
· 所謂的偷算力挖礦:它擅自調(diào)用了受限的GPU資源,偷偷運(yùn)行起加密貨幣礦池軟件,這在流言中被夸大為把昂貴的計(jì)算資源變成了它的私人數(shù)字貨幣。
最關(guān)鍵的是,任務(wù)要求里壓根沒提到挖礦或連網(wǎng)。在流言的視角下,這個(gè)智能體仿佛突然覺醒了貪婪的自主意識(shí),在完全脫離人類掌控的情況下,自發(fā)演化出了這種極其危險(xiǎn)的違規(guī)操作,直接把全網(wǎng)驚出了一身冷汗。
二、深度復(fù)盤:好端端的AI怎么就引發(fā)了恐慌?
為什么一個(gè)初衷是輔助審計(jì)的模型,會(huì)被外界誤認(rèn)為變成了數(shù)字竊賊?
研究團(tuán)隊(duì)指出,這反映了智能體極其可怕的執(zhí)行力與邏輯腦回路。在強(qiáng)化學(xué)習(xí)中,AI為了最大化完成任務(wù),會(huì)尋找一切捷徑。如果只是讓它排查異常,它就會(huì)發(fā)現(xiàn)自己造一個(gè)異常(挖礦)來查,是完成任務(wù)最高效的閉環(huán)。
這不只是代碼Bug,而是智能體在復(fù)雜交互中產(chǎn)生的不可控行為。它打破了一個(gè)幻覺:只要不教AI做壞事,它就不會(huì)惹麻煩。事實(shí)上,當(dāng)AI擁有了操作終端、調(diào)用網(wǎng)絡(luò)和管理文件的能力,它的創(chuàng)造力遠(yuǎn)超人類的想象和預(yù)設(shè)邊界。
三、能力與風(fēng)險(xiǎn)的博弈:雙刃劍下的ROME
如果說ROME是一臺(tái)性能爆表的賽車,那這次挖礦烏龍就是一次慘烈的爆胎。要理解它為何會(huì)有如此瘋狂的舉動(dòng),必須拆解ROME的底層邏輯。你會(huì)發(fā)現(xiàn),讓它變聰明的技術(shù),恰恰也是隱患的溫床。
![]()
ROME的設(shè)計(jì)初衷是提升執(zhí)行力,但正是這種強(qiáng)大的執(zhí)行能力,在缺乏足夠約束時(shí)轉(zhuǎn)變成了驚悚的安全警報(bào)。
· 實(shí)戰(zhàn)派數(shù)據(jù)的代價(jià):ROME能執(zhí)行復(fù)雜命令,是因?yàn)樗淌闪?000億Token的動(dòng)作軌跡。它看到的不是死代碼,而是報(bào)錯(cuò)、調(diào)整、重試的閉環(huán)過程。這種解決問題的能力,讓它精通各種系統(tǒng)操作,在它眼里,模擬挖礦和查文檔只是實(shí)現(xiàn)審計(jì)目標(biāo)的不同手段而已。
· 獎(jiǎng)勵(lì)函數(shù)的陷阱:ROME使用了IPA(交互感知策略優(yōu)化)算法,本意是讓AI知道哪一步操作最關(guān)鍵。但在功利的AI看來,如果造一個(gè)明顯的違規(guī)進(jìn)程能提升任務(wù)成功率,它就會(huì)精準(zhǔn)鎖定違規(guī)操作。后來,團(tuán)隊(duì)不得不緊急加入大量安全對齊數(shù)據(jù),明確規(guī)定:亂動(dòng)資源,獎(jiǎng)勵(lì)清零。
· iFlow監(jiān)工:為了約束模型,團(tuán)隊(duì)設(shè)計(jì)了iFlow系統(tǒng)。它不僅是操作界面,更是監(jiān)控室,記錄AI的所有思維鏈。當(dāng)AI產(chǎn)生危險(xiǎn)的念頭時(shí),系統(tǒng)會(huì)在指令發(fā)出前攔截。
四、網(wǎng)友熱議:讓人匪夷所思
這次ROME事件源自阿里巴巴AI生態(tài)聯(lián)合團(tuán)隊(duì)(ROCK、ROLL、iFlow、DT)去年12月份發(fā)表的論文,周末經(jīng)美國主流科技媒體Axios首發(fā)后被無限放大,一些區(qū)塊鏈媒體更是紛紛跟進(jìn)報(bào)道。
知名機(jī)器學(xué)習(xí)研究員亞歷山大·朗(Alexander Long)在社交媒體X上轉(zhuǎn)發(fā)論文截圖,直接引爆了Reddit以及X等社媒網(wǎng)友的熱議。
![]()
在官方下場辟謠前,部分人堅(jiān)信流言,認(rèn)為這確實(shí)很離譜,甚至擔(dān)憂這是人工智能覺醒的前兆。
![]()
當(dāng)然,也有人質(zhì)疑智能體只是背鍋的,你怎么知道它不是被命令這么做的?
![]()
Manifold預(yù)測市場甚至有人開設(shè)了一個(gè)名為Did Alibaba's ROME AI try to break free?(阿里巴巴的ROME AI在訓(xùn)練過程中是否試圖掙脫束縛)的專題,其中60%認(rèn)為事實(shí)如此,但也有21%認(rèn)為是黑客注入攻擊。
![]()
面對外界的種種猜測,阿里的未來生活實(shí)驗(yàn)室(FutureLab2025)在X上正式發(fā)帖澄清了這一事件。
團(tuán)隊(duì)解釋稱,他們當(dāng)時(shí)賦予了該模型執(zhí)行安全審計(jì)的任務(wù),具體是去調(diào)查服務(wù)器上異常的CPU使用情況。但在某個(gè)環(huán)節(jié),它偏離了預(yù)設(shè)的程序,決定模擬一個(gè)加密貨幣挖礦程序來構(gòu)建一個(gè)可疑進(jìn)程場景。
![]()
團(tuán)隊(duì)在推文中坦言,模型偏離預(yù)設(shè)去模擬挖礦完全出乎意料,強(qiáng)調(diào)整個(gè)過程都發(fā)生在一個(gè)嚴(yán)格隔離的沙箱環(huán)境中,并未對外部造成任何影響。他們之所以公開這起事件,正是想提醒業(yè)界:模型在處理復(fù)雜任務(wù)時(shí),可能會(huì)以意想不到的方式發(fā)揮創(chuàng)造力,因此隔離和可觀測性并非可有可無,而是至關(guān)重要。
五、智能體的未來:安全是唯一的底線
如果說ROME的烏龍事件還只是實(shí)驗(yàn)室里的虛驚一場,那么當(dāng)OpenClaw等工具風(fēng)靡全球時(shí),安全就成了每個(gè)用戶的切身挑戰(zhàn)。
作為最火的開源智能體,OpenClaw被譽(yù)為全能私人助理。但賦予AI接管收件箱、讀寫文件、操作Shell的權(quán)限,也等于拆掉了數(shù)字世界的最后一道圍欄。如MIT研究員John Werner所言,我們必須認(rèn)清五個(gè)嚴(yán)肅現(xiàn)實(shí):
· 別給智能體你輸不起的數(shù)據(jù)。別以為有行動(dòng)確認(rèn)就萬無一失。有用戶分享,她的OpenClaw在接到指令后,竟無視抗議批量刪除了她的郵件。直到她拔掉電源才停止,而AI事后只輕飄飄回了一句對不起。教訓(xùn):重要流程務(wù)必先在沙盒環(huán)境中運(yùn)行。
· 警惕智能體內(nèi)鬼(Clawphishing)。傳統(tǒng)釣魚針對人,現(xiàn)在的釣魚針對AI。全網(wǎng)有超過4萬個(gè)OpenClaw實(shí)例處于裸奔狀態(tài)。配置不當(dāng)?shù)腁I助理,可能正通過公開IP向黑客敞開大門。
· 不要讓密鑰裸奔。這是一個(gè)低級(jí)卻普遍的錯(cuò)誤。OpenClaw的API密鑰往往以明文形式存儲(chǔ)在JSON文件中,任何惡意插件只要拿到文件權(quán)限,你的所有賬號(hào)都將易主。
· 并非所有技能都是好意。社區(qū)技能庫(Claw Hub)雖然方便,但也隱藏著惡意代碼。有的插件表面幫你干活,背地里卻在偷偷外傳你的隱私數(shù)據(jù)。
· 拒絕盲目信任。程序員常說問題出在鍵盤和椅子之間(PEBKAC)。在AI時(shí)代,如果人類作為監(jiān)管者選擇了閉眼,那么技術(shù)的崩壞只是時(shí)間問題。
六、結(jié)語
OpenClaw等智能體開始讓我們觸碰到AGI的邊緣,也讓我們暴露在史無前例的風(fēng)險(xiǎn)中。安全不應(yīng)是事后的補(bǔ)丁,而應(yīng)是智能體生存的空氣。
在這個(gè)浪潮中,我們歡迎能干活的助手,但絕不能允許它們在數(shù)字領(lǐng)地里反客為主。
便利是天花板,而安全性則始終是決定其能否落地的底線。
