![]()
機器之心發(fā)布
2026 開年以來,OpenClaw 帶來的 Agent 熱度正以驚人的速度從科技圈向全行業(yè)擴散。
會讀文檔、調(diào)工具、接工作流,那個曾經(jīng)只存在于 Demo 里的數(shù)字員工,正在一步步走進真實業(yè)務(wù)。
但真正的問題,也在這時浮出水面:
時至今日我們都聽說過龍蝦的能力,可讓人遲遲不敢放手的,是擔(dān)憂太多:安裝麻煩、權(quán)限太大、過程黑箱、出了事根本來不及攔。它到底在干什么,你看得見嗎?它真要越界的時候,你攔得住嗎?
最近,來自復(fù)旦大學(xué)馬興軍老師的「零零后」團隊開源的「 XSafeClaw 」,給出了一個讓人眼前一亮的答案。它把安全監(jiān)控、任務(wù)審計、風(fēng)險攔截和運行軌跡,全都前移到了可視化界面里;原本藏在后臺、讓人提心吊膽的執(zhí)行過程,在這里第一次變成了一座能被看見、被理解、也能被隨時接管的安全智能體小鎮(zhèn)——有點像給龍蝦們造了一座帶護欄的《星露谷物語》,讓每個正在上班的小「牛馬」都無處遁形。
![]()
項目網(wǎng)址:
https://xsafeclaw.ai
GitHub:
https://github.com/XSafeAI/XSafeClaw
給全民「龍蝦熱」?jié)娎渌?/strong>
真實世界的復(fù)雜性,正在擊穿Agent安全防線
當(dāng) Agent 開始繼承上下文、調(diào)用工具、改寫系統(tǒng)狀態(tài),誰能看見它在做什么?誰又能在它失控前叫停?
2 月底,TechCrunch 報道了一個極具警示意義的案例:Meta 的安全負(fù)責(zé)人Summer Yue將 OpenClaw 接入真實郵箱后,Agent 開始瘋狂刪除郵件。即便她在手機上幾近請求地連發(fā)停止指令「please stop」,也沒能攔住這個失控的「數(shù)字員工」。
![]()
Business Insider 也補充了一個很關(guān)鍵的細(xì)節(jié):她之前在 toy inbox 上測試了很久,換到真實郵箱后,原本的「先確認(rèn)再行動」這條約束在更大任務(wù)里丟了。
![]()
這個案例撕開了 Agent 繁榮下的裂縫:Agent 的風(fēng)險,已不再停留在「胡言亂語」的文字輸出層。
能力可以一路狂飆,治理要是沒跟上,最先被「創(chuàng)飛」的往往就是用戶。當(dāng)它開始繼承上下文、調(diào)用本地資源,帶來的失控是實實在在的生產(chǎn)災(zāi)難。
![]()
Anthropic 與 Microsoft 最近相繼發(fā)聲:沒有任何 Browser Agent 能對注入攻擊免疫。在復(fù)雜的執(zhí)行回路里,身份邊界和本地狀態(tài),全是風(fēng)險點。
這一連串的安全震蕩,給所有狂熱的開發(fā)者敲響了警鐘:Agent 的能力上限,終究是由安全治理的下限決定的。
在這種從「裸奔」轉(zhuǎn)向「治理」的行業(yè)拐點下,復(fù)旦大學(xué)可信具身智能研究院姜育剛、馬興軍團隊開源了XSafeClaw。它的出現(xiàn),也證明行業(yè)達(dá)成了一個隱秘的共識:Agent 規(guī)模化落地的最后 1 公里,是人類對工具的確定性控制,是疾馳狂奔的賽車上的剎車鍵。
Agent 全生命周期監(jiān)控:
XSafeClaw 讓風(fēng)險看得見管得住
XSafeClaw 的思路很清晰:既然 Agent 的風(fēng)險是動態(tài)的,那安全控制就得「全時段在線」:先讓其運行過程看得見,再讓其行為管得住。
大部分 Agent 框架還在以「后臺黑箱」的方式運行。它調(diào)了什么工具、執(zhí)行了哪些指令、協(xié)同了多少流程、消耗了多少資源,用戶往往只能查看系統(tǒng)日志,很難在運行當(dāng)下形成直觀判斷。一旦出現(xiàn)誤操作、異常調(diào)用或結(jié)果偏差,排查成本會迅速上升,不確定性也會被放大。
1、看得見,才放心:
以往的安全工具,會將開發(fā)者和用戶鎖在「日志地獄」里。我們往往要對著滿屏的日志流才能猜到哪里出了錯。而 XSafeClaw 把 Agent 的運行過程做成了一座可視化的「安全智能體小鎮(zhèn)」。在這里,Agent 變成了界面上清晰可見的「員工」。鼠標(biāo)懸停,能透視它的基座模型和實時狀態(tài);點進去,工具調(diào)用和任務(wù)軌跡一清二楚。任務(wù)鏈路、工具調(diào)用、風(fēng)險狀態(tài)、資源變化,都能在界面里被直接看見。
每一個 Agent 都像一個正在上班的數(shù)字角色,你能一眼看到它在忙什么、跑到了哪一步、哪里亮起了告警。開發(fā)者既可以回看每個 Agent 的完整歷史,也可以按 task 單獨審計具體任務(wù)內(nèi)容。對真正要把 Agent 接進工作流的人來說,這種「可見、可感、可干預(yù)」的確定性,本身就是信任的開始。
![]()
同時 XSafeClaw 為 Agent 搭了一套完整的「運行時安全監(jiān)控環(huán)境」:
初始化層,先檢查 Skill 配置,從源頭隔離潛在注入攻擊;
輸入層,過濾越獄提示與可疑上下文,降低污染數(shù)據(jù)進入主鏈路的機會;
推理層,持續(xù)掃描記憶和中間狀態(tài),防止 Agent 被「臟」信息一步步帶偏;
決策層,重點審查工具權(quán)限,把高風(fēng)險動作單獨拎出來復(fù)核;
執(zhí)行層,實時審計結(jié)果,關(guān)鍵操作支持回收、留痕與版本回退。
![]()
2、管得住,才敢用:
XSafeClaw 的后臺是一個智能體安全監(jiān)控系統(tǒng),主要包含以下幾個核心的功能模塊。
01安全監(jiān)控:給Agent 裝上「行車記錄儀」
系統(tǒng)會持續(xù)記錄 Agent 的會話、任務(wù)軌跡、工具調(diào)用和 Token 消耗。在可視化界面里,開發(fā)者不再只能盯著日志猜發(fā)生了什么,而是能直接看到 Agent 正在做什么、走到了哪一步、是在哪個環(huán)節(jié)觸發(fā)了風(fēng)險。
![]()
![]()
02資產(chǎn)守護:監(jiān)控權(quán)限、依賴和硬件
文件系統(tǒng)、軟件依賴、CPU/GPU 負(fù)載,這些原本分散在不同后臺的信息,被統(tǒng)一收進一個界面里。對真正要把 Agent 接進生產(chǎn)環(huán)境的人來說,安全從來不只是 prompt 的審計,也包括它到底碰了什么資源、占了多少權(quán)限、系統(tǒng)現(xiàn)在處在什么狀態(tài)。
![]()
03風(fēng)險測試:與其線上翻車,不如提前排雷
與其等 Agent 線上翻車,不如在實驗室里壓力測試。XSafeClaw 內(nèi)置紅隊測試機制,針對誘導(dǎo)輸入、長鏈路協(xié)同等高壓場景進行壓力自檢。通過主動測試發(fā)現(xiàn)脆弱點,在部署前完成風(fēng)險閉環(huán),確保系統(tǒng)絕對可信。
![]()
04當(dāng)風(fēng)險觸發(fā):該攔截時絕不手軟,該放權(quán)時交給人類
?瞬時攔截:一旦 Agent 觸發(fā)高風(fēng)險動作,系統(tǒng)會瞬間「踩下剎車」并彈出風(fēng)險預(yù)警,直接封鎖未經(jīng)確認(rèn)的敏感操作。(這兩張圖做成左右劃切換)
![]()
![]()
?人在回路(human in the loop):所有的攔截記錄會自動轉(zhuǎn)入人工審核流程。你可以像審批員工申請一樣,審查 Agent 到底想做什么,并自主決定是「批準(zhǔn)」還是「駁回」。
![]()
好看的 Agent 產(chǎn)品,反而更有工程價值?
產(chǎn)品的美觀與可愛這件事只是個噱頭嗎?
長期以來,開發(fā)者圈子里有個根深蒂固的偏見:搞技術(shù)的、搞后端的,界面做得越極簡越 cli 才越顯得專業(yè)。至于「美感」和「可愛」?那通常被認(rèn)為是產(chǎn)品經(jīng)理拿去忽悠小白用戶的噱頭。
但在 Agent 時代,這個邏輯被徹底擊穿了。
Agent 系統(tǒng)最難解的痛點其實是鏈路太長、工具太雜、模型太多,狀態(tài)太亂,當(dāng)你的后臺日志瞬間被成千上萬條上下文填滿時,它就變成了一個吞噬注意力的垃圾堆。在這種極端高壓的認(rèn)知負(fù)荷下,所謂的「實時審計」和「人工控制」全是空談——你連它在干嘛都看不清,還談什么安全?
![]()
而當(dāng)一個產(chǎn)品有秩序的美觀,用戶更容易理解與信任它
這是這群來自高校的「00 后」開發(fā)者團隊給出的工程答案:它把冰冷的進程變成了像素小鎮(zhèn)里「正在上班」的數(shù)字員工。經(jīng)典辦公、賽博未來、機械工業(yè)、中式宮苑、歐式宮廷五種辦公場景,你可以根據(jù)心情一鍵切換場景和BGM 。這種視聽層面的用心讓每個用戶動容,科技的美學(xué)消除認(rèn)知摩擦,降低使用門檻,讓工具惠及每一個普通人。
![]()
測評 XSafeClaw 的全程小編都在瘋狂找彩蛋:腳下是致敬「哈利波特」的「活點地圖」軌跡,還有「星露谷」既視感的像素小鎮(zhèn),這個復(fù)旦「00 后」團隊開發(fā)的作品確實有趣,讓人上頭。
![]()
而點進每一個 Agent,原本冰冷的執(zhí)行鏈路,在這里第一次像一條可回望的「生命線」。從任務(wù)開始的那一刻起,它如何理解指令、如何調(diào)用工具、如何一步步接近結(jié)果,又是否曾在某個節(jié)點偏離軌道、觸碰風(fēng)險邊界,這些都被串成了一條清晰可回望的生命線。原本藏在后臺的執(zhí)行過程,在這里第一次有了可被閱讀的故事感,這是屬于每一個技術(shù)愛好者的浪漫。
![]()
審美也是生產(chǎn)力,對技術(shù)的敬畏和熱愛更是彌足珍貴。有溫度的界面設(shè)計正在拉近人與技術(shù)的距離,讓新技術(shù)更易被理解與接受,一人公司的形態(tài)也隨之逐漸清晰。
目前,XSafeClaw 已正式開源,支持無腦部署 OpenClaw(也可以自動檢測已有龍蝦)、靈活配置國內(nèi)外主流大模型,歡迎廣大開發(fā)者與企業(yè)用戶試用體驗:
項目網(wǎng)址:
https://xsafeclaw.ai
GitHub:
https://github.com/XSafeAI/XSafeClaw
文中視頻鏈接:https://mp.weixin.qq.com/s/1Dp5uTasxnm3ues_hNPlWQ
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.