从“养龙虾”到“驯野马”：当AI Agent学会干活，Harness工程如何成为最后一公里的缰绳

张开发

• 2026/5/26 5:23:09 • 15 分钟阅读

分享文章

从“养龙虾”到“驯野马”：当AI Agent学会干活，Harness工程如何成为最后一公里的缰绳

最近逛AI技术论坛和行业媒体会发现整个圈子的注意力正悄然发生转移。上半年大家还在为能自主干活的“龙虾”即开源AI智能体框架OpenClaw而狂热纷纷在本地“养龙虾”从智谱推出的“龙虾套餐”到京东开源的“龙虾天团”一时间满城尽是OpenClaw大家都在惊叹于一个AI Agent居然能自主拆解任务、调用工具、完成工作。但很快另一个更硬核的词几乎以无缝衔接的姿态接过了热度Harness Engineering。它不再是让AI变得更聪明而是要让已经足够聪明的AI学会“稳定地干活”。这一切都源于一个朴素但深刻的追问当AI Agent这匹“野马”已经能在草原上自由驰骋甚至能完成一系列高难度动作时我们究竟该如何为它套上“缰绳”和“马鞍”让它变成一匹在赛场上稳定输出的“赛马”这个比喻恰恰是我最近学习B站博主“code的秘密花园”视频链接https://www.bilibili.com/video/BV1Zk9FBwELs/所分享的内容时感触最深的一个切入点。这期视频质量非常高系统性地梳理了AI工程化的三阶段演进并拆解了一套极具参考价值的六层架构。下面这份记录便是我在看完视频后结合自己做的功课和搜索到的行业资料整理出来的核心要点和思考。什么是Harness Engineering为什么它成了新焦点在AI Agent的研发圈子里一个新概念正在被反复提起Harness Engineering中文可以翻译成“驾驭工程”。它指的是在AI系统中除了模型本身之外所有用来保障系统稳定交付、可靠执行任务的工程组件总和。如果说模型是引擎那Harness就是方向盘、刹车、燃油系统和仪表盘没有它再强的引擎也无法安全上路。我们不妨先回顾一下AI工程化的三个演进阶段这能帮我们更好地理解Harness Engineering出现的必然性。第一个阶段是Prompt Engineering提示词工程。这个阶段我们问的核心问题是模型能不能听懂人话解决的思路是优化语言表达比如做角色设定、加风格约束、用示例引导。技术重点全在怎么把话说得让模型更明白。但它的局限性也很明显提示词再好也补不了模型本身的知识盲区更管不了动态变化的信息。第二个阶段是Context Engineering上下文工程。这时候问题升级了模型拿到的是不是正确且必要的信息解决思路从“说清楚”转向了“喂对料”手段包括检索增强生成RAG、渐进式微调、信息分层管理。上下文工程让模型知道的更多、更准可它解决不了一个根本问题执行过程中的监督与纠偏。模型可能知道了该做什么但做着做着就跑偏了或者卡在某一步不会动了。于是第三个阶段Harness Engineering驾驭工程应运而生。它要回答的问题是模型能不能持续稳定地把任务交付掉解决思路不再是优化输入而是优化整个运行系统。这意味着我们要关注执行编排、状态管理、错误恢复这些听起来很传统的软件工程话题但把它们搬到了AI Agent的世界里。用一句话总结这三个阶段的侧重点Prompt解决“说清楚”Context解决“信息对”Harness解决“持续做对”。而且Harness Engineering是包含前两者的它是一个更大范围、面向系统稳定性的工程化概念。正如HashiCorp联合创始人Mitchell Hashimoto给Harness下的那个朴素定义“每当AI犯错就工程化一个方案让它永远不再犯同样的错”。成熟Harness系统的六层架构一个能够稳定落地的AI Agent背后往往藏着这六层架构设计。下面一层一层来拆解。第一层上下文边界层。这一层的核心功能是确保模型在正确的边界内思考。如果边界模糊Agent就容易胡思乱想或者做它不该做的事。这里的关键组件有三个第一角色与目标定义要明确模型是谁、任务范围多大、做到什么程度算成功第二信息获取与选择要明白上下文不是越多越好相关性才是关键第三结构化组织需要把规则、任务状态、外部证据分层管理让模型能高效检索。第二层工具系统层。工具是连接模型思考与现实世界的桥梁。这里主要的挑战有两个一是工具选择得平衡能力覆盖范围和使用复杂度工具太少能力弱太多模型容易选错二是调用时机既要避免没必要的时候瞎调用也要防止该调用的时候不敢碰。这里面学问很大。第三层执行编排层。很多Agent最大的毛病是“想到哪做到哪”缺乏一个闭环的执行逻辑。这一层要把任务分解成可执行的步骤典型流程可以是这样的先理解目标再整合信息接着进行分析处理然后生成输出再对结果进行检查必要时修正迭代。有了清晰的编排任务才能从开始走到真正结束。第四层记忆与状态层。Agent的“失忆”问题是落地的大敌。这一层要管好三类状态当前任务进行到哪一步了、会话中间产生了哪些临时结果、长期记忆和用户偏好又是什么。管理的原则是分类存储切不可把所有东西揉成一团否则信息混乱必然导致执行偏差。第五层评估与观测层。如果只有主观感觉Agent很容易陷入“自我感觉良好”的认知偏差。这一层负责建立质量反馈机制需要具备输出验证与验收、自动化测试系统、日志与指标监控、错误回溯分析等能力。让数据说话才知道系统哪里出了问题。第六层约束校验与恢复层。这是保障系统鲁棒性的最后一道防线。它包含三大机制约束机制明确能做什么不能做什么划清能力边界校验机制在输出前后增加检查步骤恢复机制则在失败后触发重试、回滚等策略。这三者共同确保Agent不会在意外面前直接崩溃。看看一线公司是怎么做的光讲理论有点干我们来看两个真实的实践案例。第一个案例来自Anthropic他们在打造自主编码系统时遇到了两个典型问题。第一个问题是长任务带来的上下文过载模型跑着跑着就“脑子满了”。之前我在使用Claude Code、Codex的时候很喜欢使用/compact 这样既不用开启一个新的聊天又能保留之前的关键信息这个就是Context Compaction。但是Anthropic发现对于一些模型来说仅仅 /compat 是不够的虽然压缩了上下文但是带给模型的负担还是存在他们的解决方案很有启发性叫Context Reset上下文重置。打个比方这就像电脑内存泄漏后与其费力清理缓存不如干脆重启进程换一个干净的Agent来得更干净彻底这也是一种典型的Harness设计。第二个问题是自评失真Agent自己写的代码自己检查往往看不出毛病医者不自医。他们的对策是角色分离架构把系统拆成三个角色Planner规划者负责把需求转成技术方案Generator生成器负责一步步写代码Evaluator评估者则负责在真实环境中运行测试来验证。让不同的“人”做不同的事互相制约。第二个案例来自OpenAI他们的工程师角色正在发生转变从过去一行行写代码变成了设计Agent运行的环境。2026年初OpenAI官方发布了一项实验结果仅由三名工程师在没有编写一行人工代码的情况下依靠AI Agents在五个月内就生成了超过一百万行生产级别的代码。他们有三条关键策略。第一条是渐进式部署比如把一个巨型文档拆成目录加子文档的结构Agent按需加载避免一次性塞爆上下文。第二条是环境化验证Agent需要接入截图识别、操作日志和隔离沙箱让验证变得像真人操作一样真实。第三条是自动治理系统把资深工程师的经验沉淀成可执行的规则甚至包括修复方案让系统出问题后能自己尝试修一修。最后强调他们共同看重的三点基础策略第一约束机制必须把能力边界白纸黑字地定下来第二校验机制在输出的前后都要有检查步骤第三恢复机制失败后的重试和回滚要自动化。也就是视频中提到的“当Agent出现问题的时候修复方案几乎从来不是更努力而是缺了什么结构性的能力。”一些关键洞察聊完这么多我自己的体会有三点。第一AI落地的挑战正在发生根本性的转移。过去几年大家都在琢磨怎么让模型更聪明参数更大、推理更强。但现在看来模型的能力决定了上限而Harness Engineering的成熟度决定了它能不能稳定落地。一个再聪明的模型如果执行过程漏洞百出也是没法在生产环境跑起来的。LangChain团队在保持底层模型不变的情况下仅靠优化Harness架构就将一个编码Agent在Terminal Bench 2.0榜单上的得分从52.8%拉升到了66.5%这就是最好的证明。第二Harness Engineering不是一个独立于Prompt和Context的新东西而是一个把它们包含在内的更大体系。它要求工程师具备系统视角把Agent当成一个需要被设计、被监控、被修复的复杂软件系统来对待。第三对于技术团队来说接下来的竞争焦点可能不再是“谁家的模型分更高”而是“谁家的Agent能在真实任务里跑得更稳、更久”。驾驭工程就是那个让AI从“能思考”跨越到“能稳定做事”的核心引擎。从上半年的“养龙虾”到下半年的“驯野马”这股风潮清晰地指向了同一个方向AI的竞争正在从模型的“军备竞赛”转向系统工程的“绣花功夫”。真正能将AI带入千行百业的不是某个突然觉醒的天才大脑而是一套能让智慧稳定运行的、看不见的工程基座。一些想法最近看到一句话好的Harness应该可以用更少的Token完成任务但是现在基本都聚焦在解决工程问题。实际上在实际应用的时候发现想要偷懒让大模型生成业务工程的提示词发现要么很差劲非常粗糙要么就会偏离自己的想法。那么在这种情况下Harness也无法通过反馈循环来提供有效的约束。这个在实践中我发现DeepReaserch中有一个强制思维链这个实际上可以加入Harness然后同时加入多模态的检查使用各种类型的多模态模型来进行编排而不只是在大语言模型上。

更多文章

前端开发 2026/5/24 13:42:57

平台算法大改！90%流量倾优质IP，普通人还有机会吗？

六大平台算法大改，不再只看播放量，90%流量均倾斜给垂直深耕、人设清晰、能实现轻度变现的优质IP。很多普通人犯愁：做自媒体还能有机会吗？当然能，算法升级反而给了普通人低成本起步的好机会。很多普通人的核心误区是&am…

张开发

前端开发 2026/5/24 13:42:54

2025届最火的AI论文工具推荐

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 人工智能对撰写开题报告起到辅助作用，这能明显提高文献梳理与框架搭建的效率。研…

张开发

前端开发 2026/5/24 13:42:50

2026年4月如何集成OpenClaw？京东云1分钟小白指南+大模型APIKey、Skill整合

2026年4月如何集成OpenClaw？京东云1分钟小白指南大模型APIKey、Skill整合。还在为部署OpenClaw到处找教程踩坑吗？别再瞎折腾了！OpenClaw一键部署攻略来了，无需代码、只需两步，新手小白也能轻松拥有专属AI助理&#xff…

张开发

前端开发 2026/5/24 13:42:47

复旦微FM33 MCU 底层开发实战——从寄存器到外设精通

1. 初识复旦微FM33系列MCU 第一次拿到复旦微FM33LC0XX开发板时，我和大多数嵌入式开发者一样，习惯性地打开标准外设库开始写代码。但很快发现，当需要实现特定功能或优化性能时，库函数的封装反而成了障碍。这就像开车时只能使用自动…

张开发

前端开发 2026/5/24 13:42:43

Grove-BMP280气压传感器硬件设计与嵌入式驱动解析

1. Grove-BMP280 气压传感器模块深度技术解析1.1 模块硬件架构与工程设计逻辑Grove-BMP280 是 Seeed Studio 基于博世（Bosch）BMP280 环境传感器芯片开发的即插即用型气压/温度传感模块。其核心价值不仅在于功能实现，更体现在面向嵌入式系统集…

张开发

前端开发 2026/5/24 13:42:40

魔方还原算法(二) 科先巴二阶段算法中的剪枝与对称性优化

1. 科先巴二阶段算法概述想象一下你面前放着一个被打乱的魔方，想要找到最短的还原步骤。这就像在一片漆黑的迷宫里寻找出口，每一步都可能让你离目标更近或更远。科先巴的二阶段算法就是为解决这个问题而生的智能手电筒，它能帮你照亮最优路径…

张开发

前端开发 2026/5/24 13:42:36

3分钟快速激活Windows与Office：KMS_VL_ALL_AIO智能脚本终极指南

3分钟快速激活Windows与Office：KMS_VL_ALL_AIO智能脚本终极指南【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows和Office的激活问题烦恼吗？每次重装系统后都…

张开发

前端开发 2026/5/24 13:42:33

AI 模型剪枝与蒸馏组合优化策略

AI模型剪枝与蒸馏组合优化策略：轻量化与性能的双赢之道随着人工智能技术的快速发展，深度神经网络在多个领域展现出强大的能力，但其庞大的计算量和存储需求限制了在边缘设备上的部署。如何在保证模型性能的同时降低资源消耗，成为…

张开发

前端开发 2026/5/24 13:42:29

5个必装开源应用：彻底改变你的macOS工作流

5个必装开源应用：彻底改变你的macOS工作流【免费下载链接】open-source-mac-os-apps 🚀 Awesome list of open source applications for macOS. https://t.me/s/opensourcemacosapps 项目地址: https://gitcode.com/gh_mirrors/op/open-source-mac-os…

张开发

前端开发 2026/5/24 13:42:25

EcomGPT-7B商品描述生成评测：人工vsAI对比

EcomGPT-7B商品描述生成评测：人工vsAI对比电商商品描述的质量直接影响转化率，但人工撰写耗时耗力。今天我们来实测一款专门为电商场景打造的AI工具——EcomGPT-7B，看看它在商品描述生成上的实际表现如何。 1. 评测背景与方法商品描述是电商…

张开发

$南航学位论文LaTeX模板：3分钟快速上手专业排版$

前端开发 2026/5/24 12:33:28

南航学位论文LaTeX模板：3分钟快速上手专业排版

南航学位论文LaTeX模板：3分钟快速上手专业排版【免费下载链接】nuaathesis LaTeX document class for NUAA, supporting bachelor/master/PH.D thesis in Chinese/English/Japanese. 南航本科、硕士、博士学位论文 LaTeX 模板项目地址: https://gitcode.com/gh_…

张开发

前端开发 2026/5/24 13:42:17

腾讯 WorkBuddy 全场景实战指南：从安装到精通的 AI 办公革命

腾讯 WorkBuddy 全场景实战指南：从安装到精通的 AI 办公革命一、工具定位：会 “动手” 的 AI 桌面智能体，重新定义办公效率腾讯 WorkBuddy（内部代号 “小龙虾”）是腾讯云 CodeBuddy 团队 2026 年重磅推出的全场景 AI…

张开发

从“养龙虾”到“驯野马”：当AI Agent学会干活，Harness工程如何成为最后一公里的缰绳

最新文章

2025最权威的六大降重复率助手实测分析

零成本构建移动服务器：基于Termux的安卓Web服务实战

别再只用默认指标了！用通达信APP自定义一个‘分时T+0’盯盘助手，保姆级配置指南

告别“一锤子买卖”：给你的Xilinx FPGA设计加上Multiboot双镜像冗余备份

苹果15年来首次换帅，新CEO能否带领苹果打赢AI硬件之战？

从‘联网盒子’到‘数据枢纽’：T-BOX的十年演进与未来猜想（附：独立硬件 vs 融入域控的深度分析）

推荐文章

相关文章

分享文章

更多文章

平台算法大改！90%流量倾优质IP，普通人还有机会吗？

2025届最火的AI论文工具推荐

2026年4月如何集成OpenClaw？京东云1分钟小白指南+大模型APIKey、Skill整合

复旦微FM33 MCU 底层开发实战——从寄存器到外设精通

Grove-BMP280气压传感器硬件设计与嵌入式驱动解析

魔方还原算法(二) 科先巴二阶段算法中的剪枝与对称性优化

3分钟快速激活Windows与Office：KMS_VL_ALL_AIO智能脚本终极指南

AI 模型剪枝与蒸馏组合优化策略

5个必装开源应用：彻底改变你的macOS工作流

EcomGPT-7B商品描述生成评测：人工vsAI对比

南航学位论文LaTeX模板：3分钟快速上手专业排版

腾讯 WorkBuddy 全场景实战指南：从安装到精通的 AI 办公革命