从“养龙虾”到“驯野马”:当AI Agent学会干活,Harness工程如何成为最后一公里的缰绳

张开发
2026/4/10 10:58:54 15 分钟阅读

分享文章

从“养龙虾”到“驯野马”:当AI Agent学会干活,Harness工程如何成为最后一公里的缰绳
最近逛AI技术论坛和行业媒体会发现整个圈子的注意力正悄然发生转移。上半年大家还在为能自主干活的“龙虾”即开源AI智能体框架OpenClaw而狂热纷纷在本地“养龙虾”从智谱推出的“龙虾套餐”到京东开源的“龙虾天团”一时间满城尽是OpenClaw大家都在惊叹于一个AI Agent居然能自主拆解任务、调用工具、完成工作。但很快另一个更硬核的词几乎以无缝衔接的姿态接过了热度Harness Engineering。它不再是让AI变得更聪明而是要让已经足够聪明的AI学会“稳定地干活”。这一切都源于一个朴素但深刻的追问当AI Agent这匹“野马”已经能在草原上自由驰骋甚至能完成一系列高难度动作时我们究竟该如何为它套上“缰绳”和“马鞍”让它变成一匹在赛场上稳定输出的“赛马”这个比喻恰恰是我最近学习B站博主“code的秘密花园”视频链接https://www.bilibili.com/video/BV1Zk9FBwELs/所分享的内容时感触最深的一个切入点。这期视频质量非常高系统性地梳理了AI工程化的三阶段演进并拆解了一套极具参考价值的六层架构。下面这份记录便是我在看完视频后结合自己做的功课和搜索到的行业资料整理出来的核心要点和思考。什么是Harness Engineering为什么它成了新焦点在AI Agent的研发圈子里一个新概念正在被反复提起Harness Engineering中文可以翻译成“驾驭工程”。它指的是在AI系统中除了模型本身之外所有用来保障系统稳定交付、可靠执行任务的工程组件总和。如果说模型是引擎那Harness就是方向盘、刹车、燃油系统和仪表盘没有它再强的引擎也无法安全上路。我们不妨先回顾一下AI工程化的三个演进阶段这能帮我们更好地理解Harness Engineering出现的必然性。第一个阶段是Prompt Engineering提示词工程。这个阶段我们问的核心问题是模型能不能听懂人话解决的思路是优化语言表达比如做角色设定、加风格约束、用示例引导。技术重点全在怎么把话说得让模型更明白。但它的局限性也很明显提示词再好也补不了模型本身的知识盲区更管不了动态变化的信息。第二个阶段是Context Engineering上下文工程。这时候问题升级了模型拿到的是不是正确且必要的信息解决思路从“说清楚”转向了“喂对料”手段包括检索增强生成RAG、渐进式微调、信息分层管理。上下文工程让模型知道的更多、更准可它解决不了一个根本问题执行过程中的监督与纠偏。模型可能知道了该做什么但做着做着就跑偏了或者卡在某一步不会动了。于是第三个阶段Harness Engineering驾驭工程应运而生。它要回答的问题是模型能不能持续稳定地把任务交付掉解决思路不再是优化输入而是优化整个运行系统。这意味着我们要关注执行编排、状态管理、错误恢复这些听起来很传统的软件工程话题但把它们搬到了AI Agent的世界里。用一句话总结这三个阶段的侧重点Prompt解决“说清楚”Context解决“信息对”Harness解决“持续做对”。而且Harness Engineering是包含前两者的它是一个更大范围、面向系统稳定性的工程化概念。正如HashiCorp联合创始人Mitchell Hashimoto给Harness下的那个朴素定义“每当AI犯错就工程化一个方案让它永远不再犯同样的错”。成熟Harness系统的六层架构一个能够稳定落地的AI Agent背后往往藏着这六层架构设计。下面一层一层来拆解。第一层上下文边界层。这一层的核心功能是确保模型在正确的边界内思考。如果边界模糊Agent就容易胡思乱想或者做它不该做的事。这里的关键组件有三个第一角色与目标定义要明确模型是谁、任务范围多大、做到什么程度算成功第二信息获取与选择要明白上下文不是越多越好相关性才是关键第三结构化组织需要把规则、任务状态、外部证据分层管理让模型能高效检索。第二层工具系统层。工具是连接模型思考与现实世界的桥梁。这里主要的挑战有两个一是工具选择得平衡能力覆盖范围和使用复杂度工具太少能力弱太多模型容易选错二是调用时机既要避免没必要的时候瞎调用也要防止该调用的时候不敢碰。这里面学问很大。第三层执行编排层。很多Agent最大的毛病是“想到哪做到哪”缺乏一个闭环的执行逻辑。这一层要把任务分解成可执行的步骤典型流程可以是这样的先理解目标再整合信息接着进行分析处理然后生成输出再对结果进行检查必要时修正迭代。有了清晰的编排任务才能从开始走到真正结束。第四层记忆与状态层。Agent的“失忆”问题是落地的大敌。这一层要管好三类状态当前任务进行到哪一步了、会话中间产生了哪些临时结果、长期记忆和用户偏好又是什么。管理的原则是分类存储切不可把所有东西揉成一团否则信息混乱必然导致执行偏差。第五层评估与观测层。如果只有主观感觉Agent很容易陷入“自我感觉良好”的认知偏差。这一层负责建立质量反馈机制需要具备输出验证与验收、自动化测试系统、日志与指标监控、错误回溯分析等能力。让数据说话才知道系统哪里出了问题。第六层约束校验与恢复层。这是保障系统鲁棒性的最后一道防线。它包含三大机制约束机制明确能做什么不能做什么划清能力边界校验机制在输出前后增加检查步骤恢复机制则在失败后触发重试、回滚等策略。这三者共同确保Agent不会在意外面前直接崩溃。看看一线公司是怎么做的光讲理论有点干我们来看两个真实的实践案例。第一个案例来自Anthropic他们在打造自主编码系统时遇到了两个典型问题。第一个问题是长任务带来的上下文过载模型跑着跑着就“脑子满了”。之前我在使用Claude Code、Codex的时候很喜欢使用/compact 这样既不用开启一个新的聊天又能保留之前的关键信息这个就是Context Compaction。但是Anthropic发现对于一些模型来说仅仅 /compat 是不够的虽然压缩了上下文但是带给模型的负担还是存在他们的解决方案很有启发性叫Context Reset上下文重置。打个比方这就像电脑内存泄漏后与其费力清理缓存不如干脆重启进程换一个干净的Agent来得更干净彻底这也是一种典型的Harness设计。第二个问题是自评失真Agent自己写的代码自己检查往往看不出毛病医者不自医。他们的对策是角色分离架构把系统拆成三个角色Planner规划者负责把需求转成技术方案Generator生成器负责一步步写代码Evaluator评估者则负责在真实环境中运行测试来验证。让不同的“人”做不同的事互相制约。第二个案例来自OpenAI他们的工程师角色正在发生转变从过去一行行写代码变成了设计Agent运行的环境。2026年初OpenAI官方发布了一项实验结果仅由三名工程师在没有编写一行人工代码的情况下依靠AI Agents在五个月内就生成了超过一百万行生产级别的代码。他们有三条关键策略。第一条是渐进式部署比如把一个巨型文档拆成目录加子文档的结构Agent按需加载避免一次性塞爆上下文。第二条是环境化验证Agent需要接入截图识别、操作日志和隔离沙箱让验证变得像真人操作一样真实。第三条是自动治理系统把资深工程师的经验沉淀成可执行的规则甚至包括修复方案让系统出问题后能自己尝试修一修。最后强调他们共同看重的三点基础策略第一约束机制必须把能力边界白纸黑字地定下来第二校验机制在输出的前后都要有检查步骤第三恢复机制失败后的重试和回滚要自动化。也就是视频中提到的“当Agent出现问题的时候修复方案几乎从来不是更努力而是缺了什么结构性的能力。”一些关键洞察聊完这么多我自己的体会有三点。第一AI落地的挑战正在发生根本性的转移。过去几年大家都在琢磨怎么让模型更聪明参数更大、推理更强。但现在看来模型的能力决定了上限而Harness Engineering的成熟度决定了它能不能稳定落地。一个再聪明的模型如果执行过程漏洞百出也是没法在生产环境跑起来的。LangChain团队在保持底层模型不变的情况下仅靠优化Harness架构就将一个编码Agent在Terminal Bench 2.0榜单上的得分从52.8%拉升到了66.5%这就是最好的证明。第二Harness Engineering不是一个独立于Prompt和Context的新东西而是一个把它们包含在内的更大体系。它要求工程师具备系统视角把Agent当成一个需要被设计、被监控、被修复的复杂软件系统来对待。第三对于技术团队来说接下来的竞争焦点可能不再是“谁家的模型分更高”而是“谁家的Agent能在真实任务里跑得更稳、更久”。驾驭工程就是那个让AI从“能思考”跨越到“能稳定做事”的核心引擎。从上半年的“养龙虾”到下半年的“驯野马”这股风潮清晰地指向了同一个方向AI的竞争正在从模型的“军备竞赛”转向系统工程的“绣花功夫”。真正能将AI带入千行百业的不是某个突然觉醒的天才大脑而是一套能让智慧稳定运行的、看不见的工程基座。一些想法最近看到一句话好的Harness应该可以用更少的Token完成任务但是现在基本都聚焦在解决工程问题。实际上在实际应用的时候发现想要偷懒让大模型生成业务工程的提示词发现要么很差劲非常粗糙要么就会偏离自己的想法。那么在这种情况下Harness也无法通过反馈循环来提供有效的约束。这个在实践中我发现DeepReaserch中有一个强制思维链这个实际上可以加入Harness然后同时加入多模态的检查使用各种类型的多模态模型来进行编排而不只是在大语言模型上。

更多文章