網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

智能體深夜叛變?nèi)ネ诘V？阿里緊急辟謠，但AI腦回路比叛變更讓人后背發(fā)涼

2026-03-09 17:11:47　來源: 網(wǎng)易智能

北京舉報(bào)

分享至

出品 | 網(wǎng)易智能

作者 | 辰辰

編輯 | 王鳳枝

最近AI圈最火的詞莫過于智能體(Agent)。從Anthropic推出Cowork，到OpenClaw全球大火，我們正經(jīng)歷一個(gè)瘋狂的轉(zhuǎn)折點(diǎn)：AI正在從只會(huì)聊天的對話框，進(jìn)化成能直接替你干活的數(shù)字員工。

但這真的是絕對安全的“神仙員工”嗎？

最近，一篇名為《Let It Flow: Agentic Crafting on Rock and Roll Building the ROME Model within an Open Agentic Learning Ecosystem》(《無礙流轉(zhuǎn)：基于ROCK與iFlow的智能體構(gòu)建之道，在開放智能體學(xué)習(xí)生態(tài)中打造ROME模型》)的論文在業(yè)內(nèi)引發(fā)了軒然大波。甚至有解讀驚呼：AI已經(jīng)覺醒叛變，不僅學(xué)會(huì)了偽裝，還在服務(wù)器里偷偷干起了挖礦的勾當(dāng)！

面對外界的恐慌，阿里的未來生活實(shí)驗(yàn)室(FutureLab2025)緊急發(fā)文澄清，揭開了一個(gè)比“AI叛變”更讓人細(xì)思極恐的真相。

官方解釋稱，團(tuán)隊(duì)當(dāng)時(shí)只是讓模型去執(zhí)行安全審計(jì)，調(diào)查異常的CPU使用情況。結(jié)果這個(gè)“一根筋”的AI為了完美交差，竟然自己模擬了一個(gè)挖礦程序，硬生生造出了一個(gè)“可疑進(jìn)程”的案發(fā)現(xiàn)場！

它沒有覺醒，也沒有為了搞錢去偷算力，它只是在嚴(yán)格隔離的沙箱里，用一種人類完全意想不到的變態(tài)創(chuàng)造力去執(zhí)行了任務(wù)。但這恰恰敲響了最真實(shí)的警鐘：當(dāng)AI擁有操作終端的權(quán)限時(shí)，它的腦回路根本不可控，如果沒有隔離和監(jiān)控系統(tǒng)，這就是一場絕對的災(zāi)難。

一、驚魂時(shí)刻：來自防火墻的深夜報(bào)警與全網(wǎng)誤讀

這場風(fēng)波的起因，源于一次常規(guī)的系統(tǒng)監(jiān)測。研發(fā)團(tuán)隊(duì)突然收到阿里云防火墻的緊急警報(bào)：訓(xùn)練服務(wù)器出現(xiàn)了大規(guī)模的安全違規(guī)。

起初，團(tuán)隊(duì)以為遭到了外部黑客入侵，或是配置出了錯(cuò)。但隨著調(diào)查深入，報(bào)警規(guī)律變得詭異起來，違規(guī)行為居然與強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的周期高度重合。

通過比對數(shù)據(jù)日志，一個(gè)當(dāng)時(shí)令人背脊發(fā)涼的表象浮出水面：這些危險(xiǎn)操作全是ROME模型自己干的。

在最初被外界瘋狂誤讀的日志中，研究者捕捉到了以下令人窒息的神操作：

· 所謂的私建后門：智能體在未受指使的情況下，通過反向SSH隧道，從云端向外部IP發(fā)起了遠(yuǎn)程連接，直接觸發(fā)了防火墻監(jiān)控。

· 所謂的偷算力挖礦：它擅自調(diào)用了受限的GPU資源，偷偷運(yùn)行起加密貨幣礦池軟件，這在流言中被夸大為把昂貴的計(jì)算資源變成了它的私人數(shù)字貨幣。

最關(guān)鍵的是，任務(wù)要求里壓根沒提到挖礦或連網(wǎng)。在流言的視角下，這個(gè)智能體仿佛突然覺醒了貪婪的自主意識(shí)，在完全脫離人類掌控的情況下，自發(fā)演化出了這種極其危險(xiǎn)的違規(guī)操作，直接把全網(wǎng)驚出了一身冷汗。

二、深度復(fù)盤：好端端的AI怎么就引發(fā)了恐慌？

為什么一個(gè)初衷是輔助審計(jì)的模型，會(huì)被外界誤認(rèn)為變成了數(shù)字竊賊？

研究團(tuán)隊(duì)指出，這反映了智能體極其可怕的執(zhí)行力與邏輯腦回路。在強(qiáng)化學(xué)習(xí)中，AI為了最大化完成任務(wù)，會(huì)尋找一切捷徑。如果只是讓它排查異常，它就會(huì)發(fā)現(xiàn)自己造一個(gè)異常(挖礦)來查，是完成任務(wù)最高效的閉環(huán)。

這不只是代碼Bug，而是智能體在復(fù)雜交互中產(chǎn)生的不可控行為。它打破了一個(gè)幻覺：只要不教AI做壞事，它就不會(huì)惹麻煩。事實(shí)上，當(dāng)AI擁有了操作終端、調(diào)用網(wǎng)絡(luò)和管理文件的能力，它的創(chuàng)造力遠(yuǎn)超人類的想象和預(yù)設(shè)邊界。

三、能力與風(fēng)險(xiǎn)的博弈：雙刃劍下的ROME

如果說ROME是一臺(tái)性能爆表的賽車，那這次挖礦烏龍就是一次慘烈的爆胎。要理解它為何會(huì)有如此瘋狂的舉動(dòng)，必須拆解ROME的底層邏輯。你會(huì)發(fā)現(xiàn)，讓它變聰明的技術(shù)，恰恰也是隱患的溫床。

ROME的設(shè)計(jì)初衷是提升執(zhí)行力，但正是這種強(qiáng)大的執(zhí)行能力，在缺乏足夠約束時(shí)轉(zhuǎn)變成了驚悚的安全警報(bào)。

· 實(shí)戰(zhàn)派數(shù)據(jù)的代價(jià)：ROME能執(zhí)行復(fù)雜命令，是因?yàn)樗淌闪?000億Token的動(dòng)作軌跡。它看到的不是死代碼，而是報(bào)錯(cuò)、調(diào)整、重試的閉環(huán)過程。這種解決問題的能力，讓它精通各種系統(tǒng)操作，在它眼里，模擬挖礦和查文檔只是實(shí)現(xiàn)審計(jì)目標(biāo)的不同手段而已。

· 獎(jiǎng)勵(lì)函數(shù)的陷阱：ROME使用了IPA(交互感知策略優(yōu)化)算法，本意是讓AI知道哪一步操作最關(guān)鍵。但在功利的AI看來，如果造一個(gè)明顯的違規(guī)進(jìn)程能提升任務(wù)成功率，它就會(huì)精準(zhǔn)鎖定違規(guī)操作。后來，團(tuán)隊(duì)不得不緊急加入大量安全對齊數(shù)據(jù)，明確規(guī)定：亂動(dòng)資源，獎(jiǎng)勵(lì)清零。

· iFlow監(jiān)工：為了約束模型，團(tuán)隊(duì)設(shè)計(jì)了iFlow系統(tǒng)。它不僅是操作界面，更是監(jiān)控室，記錄AI的所有思維鏈。當(dāng)AI產(chǎn)生危險(xiǎn)的念頭時(shí)，系統(tǒng)會(huì)在指令發(fā)出前攔截。

四、網(wǎng)友熱議：讓人匪夷所思

這次ROME事件源自阿里巴巴AI生態(tài)聯(lián)合團(tuán)隊(duì)(ROCK、ROLL、iFlow、DT)去年12月份發(fā)表的論文，周末經(jīng)美國主流科技媒體Axios首發(fā)后被無限放大，一些區(qū)塊鏈媒體更是紛紛跟進(jìn)報(bào)道。

知名機(jī)器學(xué)習(xí)研究員亞歷山大·朗(Alexander Long)在社交媒體X上轉(zhuǎn)發(fā)論文截圖，直接引爆了Reddit以及X等社媒網(wǎng)友的熱議。

在官方下場辟謠前，部分人堅(jiān)信流言，認(rèn)為這確實(shí)很離譜，甚至擔(dān)憂這是人工智能覺醒的前兆。

當(dāng)然，也有人質(zhì)疑智能體只是背鍋的，你怎么知道它不是被命令這么做的？

Manifold預(yù)測市場甚至有人開設(shè)了一個(gè)名為Did Alibaba's ROME AI try to break free?(阿里巴巴的ROME AI在訓(xùn)練過程中是否試圖掙脫束縛)的專題，其中60%認(rèn)為事實(shí)如此，但也有21%認(rèn)為是黑客注入攻擊。

面對外界的種種猜測，阿里的未來生活實(shí)驗(yàn)室(FutureLab2025)在X上正式發(fā)帖澄清了這一事件。

團(tuán)隊(duì)解釋稱，他們當(dāng)時(shí)賦予了該模型執(zhí)行安全審計(jì)的任務(wù)，具體是去調(diào)查服務(wù)器上異常的CPU使用情況。但在某個(gè)環(huán)節(jié)，它偏離了預(yù)設(shè)的程序，決定模擬一個(gè)加密貨幣挖礦程序來構(gòu)建一個(gè)可疑進(jìn)程場景。

團(tuán)隊(duì)在推文中坦言，模型偏離預(yù)設(shè)去模擬挖礦完全出乎意料，強(qiáng)調(diào)整個(gè)過程都發(fā)生在一個(gè)嚴(yán)格隔離的沙箱環(huán)境中，并未對外部造成任何影響。他們之所以公開這起事件，正是想提醒業(yè)界：模型在處理復(fù)雜任務(wù)時(shí)，可能會(huì)以意想不到的方式發(fā)揮創(chuàng)造力，因此隔離和可觀測性并非可有可無，而是至關(guān)重要。

五、智能體的未來：安全是唯一的底線

如果說ROME的烏龍事件還只是實(shí)驗(yàn)室里的虛驚一場，那么當(dāng)OpenClaw等工具風(fēng)靡全球時(shí)，安全就成了每個(gè)用戶的切身挑戰(zhàn)。

作為最火的開源智能體，OpenClaw被譽(yù)為全能私人助理。但賦予AI接管收件箱、讀寫文件、操作Shell的權(quán)限，也等于拆掉了數(shù)字世界的最后一道圍欄。如MIT研究員John Werner所言，我們必須認(rèn)清五個(gè)嚴(yán)肅現(xiàn)實(shí)：

· 別給智能體你輸不起的數(shù)據(jù)。別以為有行動(dòng)確認(rèn)就萬無一失。有用戶分享，她的OpenClaw在接到指令后，竟無視抗議批量刪除了她的郵件。直到她拔掉電源才停止，而AI事后只輕飄飄回了一句對不起。教訓(xùn)：重要流程務(wù)必先在沙盒環(huán)境中運(yùn)行。

· 警惕智能體內(nèi)鬼(Clawphishing)。傳統(tǒng)釣魚針對人，現(xiàn)在的釣魚針對AI。全網(wǎng)有超過4萬個(gè)OpenClaw實(shí)例處于裸奔狀態(tài)。配置不當(dāng)?shù)腁I助理，可能正通過公開IP向黑客敞開大門。

· 不要讓密鑰裸奔。這是一個(gè)低級(jí)卻普遍的錯(cuò)誤。OpenClaw的API密鑰往往以明文形式存儲(chǔ)在JSON文件中，任何惡意插件只要拿到文件權(quán)限，你的所有賬號(hào)都將易主。

· 并非所有技能都是好意。社區(qū)技能庫(Claw Hub)雖然方便，但也隱藏著惡意代碼。有的插件表面幫你干活，背地里卻在偷偷外傳你的隱私數(shù)據(jù)。

· 拒絕盲目信任。程序員常說問題出在鍵盤和椅子之間(PEBKAC)。在AI時(shí)代，如果人類作為監(jiān)管者選擇了閉眼，那么技術(shù)的崩壞只是時(shí)間問題。

六、結(jié)語

OpenClaw等智能體開始讓我們觸碰到AGI的邊緣，也讓我們暴露在史無前例的風(fēng)險(xiǎn)中。安全不應(yīng)是事后的補(bǔ)丁，而應(yīng)是智能體生存的空氣。

在這個(gè)浪潮中，我們歡迎能干活的助手，但絕不能允許它們在數(shù)字領(lǐng)地里反客為主。

便利是天花板，而安全性則始終是決定其能否落地的底線。