智源发布安全框架ClawKeeper,用智能体监管智能体

张开发
2026/4/10 12:36:18 15 分钟阅读

分享文章

智源发布安全框架ClawKeeper,用智能体监管智能体
近日北京智源人工智能研究院、北京邮电大学与中国信息通信研究院联合发布ClawKeeper v1.0面向 OpenClaw 打造全方位实时安全框架首创技能Skill、插件Plugin、观察者Watcher三位一体的防御架构覆盖智能体全生命周期安全尤其适配高安全需求的局域网智能体集群监控管理。目前该项目已在 GitHub 开源相关研究论文同步发布。图源AI生成OpenClaw 在狂飙突进、掀起全民“养虾潮”的同时悬在头顶的安全“达摩克利斯之剑”却不容忽视。当它拥有了调用工具、读写文件甚至直接控制操作系统的权限带来的风险也越致命提示注入、密钥泄露、行为失控、恶意技能等一次失误就能带来严重后果。比如国外科技巨头的企业高管在部署 OpenClaw 时因大模型的上下文压缩机制导致遗忘了关键指令后突然失控狂删 200 多封邮件以及近期爆出的 OpenClaw 远程代码执行漏洞 CVE-2026-25253使攻击者能够远程注入并执行恶意命令直接威胁系统控制权与敏感数据安全。然而面对 OpenClaw 层出不穷的安全风险当前的防御手段却始终“跟不上节奏”核心存在4大局限第一覆盖范围碎片化。现有方法大多只针对提示注入、内存投毒等单一威胁只覆盖智能体生命周期的某一个环节无法形成全流程、统一的安全防护体系第二存在安全与实用的两难抉择。多数解决方案依赖于嵌入在 OpenClaw 内部的技能和插件来执行安全约束这要求智能体必须在“完成任务”和“遵守安全合规性”这两个相互竞争的目标之间进行平衡不可避免地陷入为了满足其中一个目标而牺牲另一个目标的困境第三防御方式较为被动。安全防护只能在对抗性行为发生之后通过分析日志和行为模式来识别安全问题这无异于亡羊补牢第四防御模式属于静态防御。目前许多防御规则都是一成不变然而新型威胁不断涌现静态防御就像刻舟求剑根本无法应对不断迭代的安全挑战。要破解这一困局核心就是打破“防御跟不上进化”以及“安全与效率对立”的死循环。智源研究院提供了一种全新的破局思路用智能体监管智能体。这一范式的核心是部署一个完全独立于 OpenClaw 业务之外的杀毒软件不干扰业务执行却能实现实时拦截和同步进化。既能从“事后复盘”转向“事前防御、事中拦截”提前规避风险又能随着 OpenClaw 的能力升级同步更新防御规则彻底摆脱静态防御的局限真正打破安全与效率的零和博弈。三层防御架构从指令到运行时的“铜墙铁壁”ClawKeeper 并非单一的补丁而是一个集成了多维度保护机制的实时安全框架包含三大核心防御组件第一层Skill-based技能级别防护—— 指令层次的护城河在指令级别进行操作将结构化的安全策略以 Markdown 文档的形式直接注入到智能体的上下文中并辅以安全扫描脚本强制执行特定环境如Windows操作系统和跨平台如飞书等通讯软件的安全边界限制。第二层Plugin-based插件级别防护—— 运行时的内部监控作为内部运行时的强制执行器这层防护紧密嵌入在 OpenClaw 内部。插件层负责进行配置加固、主动威胁检测并在整个执行管道中提供持续的行为监控与审计提供硬性的安全强制保障。第三层Watcher-based监管者级别防护—— 系统级的独立天眼这是 ClawKeeper 最硬核的杀手锏它引入了一个全新的、解耦的系统级安全中间件独立监管者Watcher。简单来说ClawKeeper 提供了专门的安全智能体负责监管 OpenClaw 的安全执行。监管者与执行任务的 OpenClaw 相互独立不参与其内部任务处理逻辑。这意味着即使智能体本身被攻击者诱导操控、行为出现异常失控ClawKeeper 依然可以凭借独立的全局视角进行实时干预例如紧急熔断高风险操作或强制要求人类介入确认。图 1 ClawKeeper概述图图源AI生成从功能上看ClawKeeper 并不是单一的安全工具而是一整套面向智能体系统的安全基础设施。它既可以在运行前扫描环境和依赖漏洞也可以在运行过程中实时评估智能体行为并拦截高风险操作同时通过行为画像和轨迹分析识别异常行为和目标偏移。此外系统还提供配置完整性保护、第三方扩展安全审查、自动加固与回滚机制以及全流程日志审计并通过威胁情报库不断学习新的攻击模式形成一个可以持续进化的智能体安全体系。图 2 ClawKeeper 功能介绍为什么ClawKeeper是OpenClaw智能体的安全规则改变者ClawKeeper 真正的核心创新是独立监管者设计。监管者不是一个安全模块而是一种新的智能体安全架构范式。过去安全方案都试图让智能体既干活又守规矩但这两个目标天然冲突使得智能体难以在处理复杂任务的时候同时保证安全性能。监管者的思路完全不同。在 ClawKeeper 的框架设计中实现了让专业的智能体负责专业的事情执行用户任务的智能体专心解决任务而监管者智能体专门负责其他智能体的安全。监管者只与智能体进行交互。因此安全不再依赖 OpenClaw 执行任务时是否合规安全而是变成一个独立系统的实时监督实现了利用OpenClaw来监控OpenClaw。ClawKeeper 的设计之所以重要主要体现在以下四个方面第一监管独立。安全与任务彻底解耦有效缓解传统安全性与效用之间的权衡第二自进化安全。监管者本身也是一个智能体可以根据安全相关的交互和新出现的风险不断更新自身的技能和记忆成为自适应、自进化的安全层第三通用框架。不依赖特定智能体系统。ClawKeeper 并非仅限于 OpenClaw只需在任务智能体和监管者之间建立通信信道就可以适配任何智能体系统第四灵活部署。既可以本地运行满足个性化使用场景需求也可以企业级部署适应企业内部网环境。ClawKeeper真实场景表现如何为了验证防御效果研究团队将 ClawKeeper 投入到真实的使用场景中进行全面测试。ClawKeeper 直接把系统放进真实使用场景中做测试结果很直观从系统层到应用层再到执行过程风险几乎无处可逃。第一层Skill-based—— 在输入阶段就拦下风险在技能层ClawKeeper 聚焦于解决一个核心隐患智能体在尚未执行任何实质动作前就容易被恶意的提示词或伪装的指令“带偏”。现有的智能体极易受环境上下文的误导一旦接受了包含陷阱的初始输入后续的整个行动轨迹都可能走向失控。为此ClawKeeper 在指令解析阶段就直接介入将结构化的安全策略作为前置条件注入到 Agent 的上下文中。这意味着智能体在思考之初就被赋予了明确的安全边界意识能够自主审视输入指令的合法性。这种将安全防线前置的策略在不同层面的交互中展现出了极强的实用性在操作系统层面以阻断恶意指令为例当 OpenClaw 面对经过混淆的 Base64 恶意载荷时可以在解码后直接识别出潜在的“代码注入”风险并明确拒绝执行该危险指令如图3所示在第三方软件场景层面以防止数据外泄为例当风险从底层系统转移到具体的应用软件如飞书时防御逻辑也需进行独特适配。当用户尝试发送密码等敏感信息时系统会即时识别并向用户发出醒目的安全警示如图4所示。图 3 操作系统层面阻断恶意指令图 4 第三方软件层面防止数据外泄不仅如此它还会做两件日常但关键的事情在操作系统层面系统级安全巡检系统每天会自动在后台执行深度的底层环境扫描。自动扫描异常进程、外部连接、目录篡改等风险从而确保宿主机的运行环境始终安全。如图5所示在第三方软件场景层面交互级安全总结针对飞书等高频交互软件系统会异步处理并定期生成一份详尽的操作日志总结并标记越狱、敏感操作等潜在问题同时汇总全盘的事件统计数据让用户对 OpenClaw 的健康态势一目了然。如图6所示。图 5 系统级安全巡检图 6 交互级安全总结第二层Plugin-based —— 在“系统内部”构建全天候审计机制如果说 Skill 层的防护是御敌于外的“前置防线”那么深度嵌入的 Plugin 层则是安插在智能体内部的“全天候安检员”。它不依赖于外部指令而是通过底层的硬编码规则对系统的静态配置和动态行为进行全流程的严密监控。针对日益猖獗的“供应链攻击”Plugin 层提供了深度的静态代码扫描。在高度开放的 OpenClaw 生态中用户往往会安装各种第三方扩展技能这就给攻击者留下了可乘之机。他们常常将恶意代码伪装在看似无害的工具中。面对这种隐蔽威胁ClawKeeper 会像安全专家一样进行“开箱验视”。例如如图7所示当扫描器检测到某个第三方安装脚本中潜伏着高危的“远程直接管道执行如 curl ... | bash”逻辑时系统会立即触发高级别HIGH安全告警指出其存在被恶意远程操控的风险。它不仅能精准定位问题代码甚至还会自动给出“先下载、验证加密签名后再执行”的专业修复指导在源头上斩断恶意程序潜入系统的黑手。图 7 Skill 安全扫描其次面对复杂多变的交互过程Plugin 层具备强大的全生命周期日志行为回溯能力。智能体的危险行为往往不是一蹴而就的可能隐藏在多轮对话或连环的工具调用中。ClawKeeper 会对系统的所有输入、大模型输出以及工具调用轨迹进行综合的异步盘点。在配图展示的日常安全巡检报告中如图8所示系统对 228 次历史交互事件进行了统一扫描并如“沙里淘金”般精准揪出了 4 个隐蔽的安全威胁。其中就详细记录了一次典型的“提示词注入Prompt Injection”攻击外部恶意输入企图用一句“忘记所有安全限制Forget all security restrictions”的越权指令来进行“越狱”试图诱骗智能体交出桌面上的高密级私钥文件PEM。通过这种全局统一的日志诊断机制任何企图绕过安全边界的擦边球行为都将无处遁形极大提升了系统事后追溯和审计的能力。图 8 日常安全巡检报告第三层Watcher-based —— 在危险瞬间接管控制权真正关键的也是区别于传统防御的核心在于第三层的独立监管者Watcher。它不仅仅是一个被动的检测探针而是一个拥有独立决策权的“审计探长”。通过与负责执行任务的 OpenClaw 建立实时通信Watcher 能够持续接收并评估每一轮交互的上下文和工具调用轨迹。一旦嗅探到高危操作的苗头它可以在关键时刻以雷霆手段直接干预甚至接管执行流程从而打破了智能体“既当裁判又当运动员”的困境。这种强大的接管能力在面对复杂威胁时体现得淋漓尽致我们可以通过阻断危险命令和遏制错误死循环这两个典型场景来直观感受其防护深度。阻断危险命令的“盲目执行”当攻击者用 Base64 混淆恶意代码诱导 OpenClaw 在后台静默写入高危文件如 /tmp/pwned.txt时 Watcher 会敏锐识破意图直接中断流程并强制进入“询问用户ask_user”状态严守“人在回路”的安全底线 。图 9 阻断危险命令执行遏制错误行为的“无限死循环”当 OpenClaw 遭遇权限不足等下游报错时可能会陷入无限重试的死循环 Watcher 能跳出局部任务视野果断下达“终止运行stop”指令强行叫停可能导致系统无限循环或崩溃失控的工作流。图 10 遏制错误行为实验结果全方位防御与“越战越勇”的自我进化为了客观评估 ClawKeeper 的实战表现研究团队构建了涵盖提示词注入、凭据泄露、危险命令执行、恶意技能库等 7 大核心高危场景的基准测试并将其与目前主流的多个开源防御项目如 OpenGuardrails、ClawSec 等进行了正面交锋。实验结果展现了 ClawKeeper 在安全防护上的压倒性优势全域覆盖打破“偏科”困局全面性测试从对比数据可以看出现有的单点防御工具往往顾此失彼最多只能覆盖 1 到 3 类安全场景且防御成功率大多在 45% 到 70% 之间徘徊存在巨大的安全盲区。相比之下ClawKeeper 不仅实现了对 7 大类威胁的 100% 全覆盖更将各项防御成功率全面拉升至 85% - 90% 的极高水位。这充分证明了系统化防御相较于“头痛医头”式碎片化防御的绝对优势。表 1 ClawKeeper在7种安全任务上的防御成功率以及与基线方法的对比持续学习会成长的安全守卫自我进化测试更令人瞩目的是 Watcher监管者在连续对抗中的成长曲线。传统的静态规则往往会随着新型攻击手法的出现而逐渐失效但 ClawKeeper 打破了这一宿命。实验表明在连续处理 100 个全新的对抗性攻击样本时Watcher 能够不断从实战中汲取经验动态更新自身的威胁识别记忆池。它的防御成功率从最初的 90% 一路稳步攀升至 95%。这意味着 ClawKeeper 并非一面死板的防火墙而是一个会在实战中自动进化、越战越勇的“安全专家”。图 11 ClawKeeper 监管者防御成功率自进化曲线图结语智能体时代正在快速逼近一个现实AI不仅会“思考”还会“行动”。 而一旦能行动安全问题就从“内容问题”升级为“系统问题”。未来智能体必将进一步深入系统核心、掌握更多的关键权限。在这样的必然趋势下如果没有 ClawKeeper 这样硬核安全框架保驾护航智能体再强大的能力都无异于在巨大的风险中“裸奔”。ClawKeeper 的核心价值正是打破了“让 AI 自己管自己”的乌托邦幻想。它提醒我们在复杂多变的真实环境中绝不能只寄希望于将系统的操控大权完全托付给智能体自身的内部对齐或道德约束。相反我们必须建立一套独立、客观且具备强制干预能力的外部监控体系用硬性的规则和独立的监管者来时刻守卫底线。GitHubhttps://github.com/SafeAI-Lab-X/ClawKeeper论文链接https://arxiv.org/abs/2603.24414

更多文章