![]()
機(jī)器之心發(fā)布
2026 開(kāi)年以來(lái),OpenClaw 帶來(lái)的 Agent 熱度正以驚人的速度從科技圈向全行業(yè)擴(kuò)散。
會(huì)讀文檔、調(diào)工具、接工作流,那個(gè)曾經(jīng)只存在于 Demo 里的數(shù)字員工,正在一步步走進(jìn)真實(shí)業(yè)務(wù)。
但真正的問(wèn)題,也在這時(shí)浮出水面:
時(shí)至今日我們都聽(tīng)說(shuō)過(guò)龍蝦的能力,可讓人遲遲不敢放手的,是擔(dān)憂太多:安裝麻煩、權(quán)限太大、過(guò)程黑箱、出了事根本來(lái)不及攔。它到底在干什么,你看得見(jiàn)嗎?它真要越界的時(shí)候,你攔得住嗎?
最近,來(lái)自復(fù)旦大學(xué)馬興軍老師的「零零后」團(tuán)隊(duì)開(kāi)源的「 XSafeClaw 」,給出了一個(gè)讓人眼前一亮的答案。它把安全監(jiān)控、任務(wù)審計(jì)、風(fēng)險(xiǎn)攔截和運(yùn)行軌跡,全都前移到了可視化界面里;原本藏在后臺(tái)、讓人提心吊膽的執(zhí)行過(guò)程,在這里第一次變成了一座能被看見(jiàn)、被理解、也能被隨時(shí)接管的安全智能體小鎮(zhèn)——有點(diǎn)像給龍蝦們?cè)炝艘蛔鶐ёo(hù)欄的《星露谷物語(yǔ)》,讓每個(gè)正在上班的小「牛馬」都無(wú)處遁形。
![]()
項(xiàng)目網(wǎng)址:
https://xsafeclaw.ai
GitHub:
https://github.com/XSafeAI/XSafeClaw
給全民「龍蝦熱」?jié)娎渌?/strong>
真實(shí)世界的復(fù)雜性,正在擊穿Agent安全防線
當(dāng) Agent 開(kāi)始繼承上下文、調(diào)用工具、改寫(xiě)系統(tǒng)狀態(tài),誰(shuí)能看見(jiàn)它在做什么?誰(shuí)又能在它失控前叫停?
2 月底,TechCrunch 報(bào)道了一個(gè)極具警示意義的案例:Meta 的安全負(fù)責(zé)人Summer Yue將 OpenClaw 接入真實(shí)郵箱后,Agent 開(kāi)始瘋狂刪除郵件。即便她在手機(jī)上幾近請(qǐng)求地連發(fā)停止指令「please stop」,也沒(méi)能攔住這個(gè)失控的「數(shù)字員工」。
![]()
Business Insider 也補(bǔ)充了一個(gè)很關(guān)鍵的細(xì)節(jié):她之前在 toy inbox 上測(cè)試了很久,換到真實(shí)郵箱后,原本的「先確認(rèn)再行動(dòng)」這條約束在更大任務(wù)里丟了。
![]()
這個(gè)案例撕開(kāi)了 Agent 繁榮下的裂縫:Agent 的風(fēng)險(xiǎn),已不再停留在「胡言亂語(yǔ)」的文字輸出層。
能力可以一路狂飆,治理要是沒(méi)跟上,最先被「創(chuàng)飛」的往往就是用戶。當(dāng)它開(kāi)始繼承上下文、調(diào)用本地資源,帶來(lái)的失控是實(shí)實(shí)在在的生產(chǎn)災(zāi)難。
![]()
Anthropic 與 Microsoft 最近相繼發(fā)聲:沒(méi)有任何 Browser Agent 能對(duì)注入攻擊免疫。在復(fù)雜的執(zhí)行回路里,身份邊界和本地狀態(tài),全是風(fēng)險(xiǎn)點(diǎn)。
這一連串的安全震蕩,給所有狂熱的開(kāi)發(fā)者敲響了警鐘:Agent 的能力上限,終究是由安全治理的下限決定的。
在這種從「裸奔」轉(zhuǎn)向「治理」的行業(yè)拐點(diǎn)下,復(fù)旦大學(xué)可信具身智能研究院姜育剛、馬興軍團(tuán)隊(duì)開(kāi)源了XSafeClaw。它的出現(xiàn),也證明行業(yè)達(dá)成了一個(gè)隱秘的共識(shí):Agent 規(guī)模化落地的最后 1 公里,是人類對(duì)工具的確定性控制,是疾馳狂奔的賽車上的剎車鍵。
Agent 全生命周期監(jiān)控:
XSafeClaw 讓風(fēng)險(xiǎn)看得見(jiàn)管得住
XSafeClaw 的思路很清晰:既然 Agent 的風(fēng)險(xiǎn)是動(dòng)態(tài)的,那安全控制就得「全時(shí)段在線」:先讓其運(yùn)行過(guò)程看得見(jiàn),再讓其行為管得住。
大部分 Agent 框架還在以「后臺(tái)黑箱」的方式運(yùn)行。它調(diào)了什么工具、執(zhí)行了哪些指令、協(xié)同了多少流程、消耗了多少資源,用戶往往只能查看系統(tǒng)日志,很難在運(yùn)行當(dāng)下形成直觀判斷。一旦出現(xiàn)誤操作、異常調(diào)用或結(jié)果偏差,排查成本會(huì)迅速上升,不確定性也會(huì)被放大。
1、看得見(jiàn),才放心:
以往的安全工具,會(huì)將開(kāi)發(fā)者和用戶鎖在「日志地獄」里。我們往往要對(duì)著滿屏的日志流才能猜到哪里出了錯(cuò)。而 XSafeClaw 把 Agent 的運(yùn)行過(guò)程做成了一座可視化的「安全智能體小鎮(zhèn)」。在這里,Agent 變成了界面上清晰可見(jiàn)的「員工」。鼠標(biāo)懸停,能透視它的基座模型和實(shí)時(shí)狀態(tài);點(diǎn)進(jìn)去,工具調(diào)用和任務(wù)軌跡一清二楚。任務(wù)鏈路、工具調(diào)用、風(fēng)險(xiǎn)狀態(tài)、資源變化,都能在界面里被直接看見(jiàn)。
每一個(gè) Agent 都像一個(gè)正在上班的數(shù)字角色,你能一眼看到它在忙什么、跑到了哪一步、哪里亮起了告警。開(kāi)發(fā)者既可以回看每個(gè) Agent 的完整歷史,也可以按 task 單獨(dú)審計(jì)具體任務(wù)內(nèi)容。對(duì)真正要把 Agent 接進(jìn)工作流的人來(lái)說(shuō),這種「可見(jiàn)、可感、可干預(yù)」的確定性,本身就是信任的開(kāi)始。
![]()
同時(shí) XSafeClaw 為 Agent 搭了一套完整的「運(yùn)行時(shí)安全監(jiān)控環(huán)境」:
初始化層,先檢查 Skill 配置,從源頭隔離潛在注入攻擊;
輸入層,過(guò)濾越獄提示與可疑上下文,降低污染數(shù)據(jù)進(jìn)入主鏈路的機(jī)會(huì);
推理層,持續(xù)掃描記憶和中間狀態(tài),防止 Agent 被「臟」信息一步步帶偏;
決策層,重點(diǎn)審查工具權(quán)限,把高風(fēng)險(xiǎn)動(dòng)作單獨(dú)拎出來(lái)復(fù)核;
執(zhí)行層,實(shí)時(shí)審計(jì)結(jié)果,關(guān)鍵操作支持回收、留痕與版本回退。
![]()
2、管得住,才敢用:
XSafeClaw 的后臺(tái)是一個(gè)智能體安全監(jiān)控系統(tǒng),主要包含以下幾個(gè)核心的功能模塊。
01安全監(jiān)控:給Agent 裝上「行車記錄儀」
系統(tǒng)會(huì)持續(xù)記錄 Agent 的會(huì)話、任務(wù)軌跡、工具調(diào)用和 Token 消耗。在可視化界面里,開(kāi)發(fā)者不再只能盯著日志猜發(fā)生了什么,而是能直接看到 Agent 正在做什么、走到了哪一步、是在哪個(gè)環(huán)節(jié)觸發(fā)了風(fēng)險(xiǎn)。
![]()
![]()
02資產(chǎn)守護(hù):監(jiān)控權(quán)限、依賴和硬件
文件系統(tǒng)、軟件依賴、CPU/GPU 負(fù)載,這些原本分散在不同后臺(tái)的信息,被統(tǒng)一收進(jìn)一個(gè)界面里。對(duì)真正要把 Agent 接進(jìn)生產(chǎn)環(huán)境的人來(lái)說(shuō),安全從來(lái)不只是 prompt 的審計(jì),也包括它到底碰了什么資源、占了多少權(quán)限、系統(tǒng)現(xiàn)在處在什么狀態(tài)。
![]()
03風(fēng)險(xiǎn)測(cè)試:與其線上翻車,不如提前排雷
與其等 Agent 線上翻車,不如在實(shí)驗(yàn)室里壓力測(cè)試。XSafeClaw 內(nèi)置紅隊(duì)測(cè)試機(jī)制,針對(duì)誘導(dǎo)輸入、長(zhǎng)鏈路協(xié)同等高壓場(chǎng)景進(jìn)行壓力自檢。通過(guò)主動(dòng)測(cè)試發(fā)現(xiàn)脆弱點(diǎn),在部署前完成風(fēng)險(xiǎn)閉環(huán),確保系統(tǒng)絕對(duì)可信。
![]()
04當(dāng)風(fēng)險(xiǎn)觸發(fā):該攔截時(shí)絕不手軟,該放權(quán)時(shí)交給人類
?瞬時(shí)攔截:一旦 Agent 觸發(fā)高風(fēng)險(xiǎn)動(dòng)作,系統(tǒng)會(huì)瞬間「踩下剎車」并彈出風(fēng)險(xiǎn)預(yù)警,直接封鎖未經(jīng)確認(rèn)的敏感操作。(這兩張圖做成左右劃切換)
![]()
![]()
?人在回路(human in the loop):所有的攔截記錄會(huì)自動(dòng)轉(zhuǎn)入人工審核流程。你可以像審批員工申請(qǐng)一樣,審查 Agent 到底想做什么,并自主決定是「批準(zhǔn)」還是「駁回」。
![]()
好看的 Agent 產(chǎn)品,反而更有工程價(jià)值?
產(chǎn)品的美觀與可愛(ài)這件事只是個(gè)噱頭嗎?
長(zhǎng)期以來(lái),開(kāi)發(fā)者圈子里有個(gè)根深蒂固的偏見(jiàn):搞技術(shù)的、搞后端的,界面做得越極簡(jiǎn)越 cli 才越顯得專業(yè)。至于「美感」和「可愛(ài)」?那通常被認(rèn)為是產(chǎn)品經(jīng)理拿去忽悠小白用戶的噱頭。
但在 Agent 時(shí)代,這個(gè)邏輯被徹底擊穿了。
Agent 系統(tǒng)最難解的痛點(diǎn)其實(shí)是鏈路太長(zhǎng)、工具太雜、模型太多,狀態(tài)太亂,當(dāng)你的后臺(tái)日志瞬間被成千上萬(wàn)條上下文填滿時(shí),它就變成了一個(gè)吞噬注意力的垃圾堆。在這種極端高壓的認(rèn)知負(fù)荷下,所謂的「實(shí)時(shí)審計(jì)」和「人工控制」全是空談——你連它在干嘛都看不清,還談什么安全?
![]()
而當(dāng)一個(gè)產(chǎn)品有秩序的美觀,用戶更容易理解與信任它
這是這群來(lái)自高校的「00 后」開(kāi)發(fā)者團(tuán)隊(duì)給出的工程答案:它把冰冷的進(jìn)程變成了像素小鎮(zhèn)里「正在上班」的數(shù)字員工。經(jīng)典辦公、賽博未來(lái)、機(jī)械工業(yè)、中式宮苑、歐式宮廷五種辦公場(chǎng)景,你可以根據(jù)心情一鍵切換場(chǎng)景和BGM 。這種視聽(tīng)層面的用心讓每個(gè)用戶動(dòng)容,科技的美學(xué)消除認(rèn)知摩擦,降低使用門檻,讓工具惠及每一個(gè)普通人。
![]()
測(cè)評(píng) XSafeClaw 的全程小編都在瘋狂找彩蛋:腳下是致敬「哈利波特」的「活點(diǎn)地圖」軌跡,還有「星露谷」既視感的像素小鎮(zhèn),這個(gè)復(fù)旦「00 后」團(tuán)隊(duì)開(kāi)發(fā)的作品確實(shí)有趣,讓人上頭。
![]()
而點(diǎn)進(jìn)每一個(gè) Agent,原本冰冷的執(zhí)行鏈路,在這里第一次像一條可回望的「生命線」。從任務(wù)開(kāi)始的那一刻起,它如何理解指令、如何調(diào)用工具、如何一步步接近結(jié)果,又是否曾在某個(gè)節(jié)點(diǎn)偏離軌道、觸碰風(fēng)險(xiǎn)邊界,這些都被串成了一條清晰可回望的生命線。原本藏在后臺(tái)的執(zhí)行過(guò)程,在這里第一次有了可被閱讀的故事感,這是屬于每一個(gè)技術(shù)愛(ài)好者的浪漫。
![]()
審美也是生產(chǎn)力,對(duì)技術(shù)的敬畏和熱愛(ài)更是彌足珍貴。有溫度的界面設(shè)計(jì)正在拉近人與技術(shù)的距離,讓新技術(shù)更易被理解與接受,一人公司的形態(tài)也隨之逐漸清晰。
目前,XSafeClaw 已正式開(kāi)源,支持無(wú)腦部署 OpenClaw(也可以自動(dòng)檢測(cè)已有龍蝦)、靈活配置國(guó)內(nèi)外主流大模型,歡迎廣大開(kāi)發(fā)者與企業(yè)用戶試用體驗(yàn):
項(xiàng)目網(wǎng)址:
https://xsafeclaw.ai
GitHub:
https://github.com/XSafeAI/XSafeClaw
文中視頻鏈接:https://mp.weixin.qq.com/s/1Dp5uTasxnm3ues_hNPlWQ
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.