AI时代工程师真正在做的事，不是写代码

张开发

• 2026/5/21 19:25:27 • 15 分钟阅读

分享文章

最近有个词特别火叫 Harness Engineering。很多人第一次听到这个词都会懵这到底是什么意思。其实这个概念背后藏着一个更大的问题就是当 AI 已经可以写代码的时候工程师到底还要做什么。一匹有力量的马为什么跑不动先说个比方。假设你有一匹马这匹马力气很大跑得也快。但光有力气没用你得给它套上缰绳、马鞍、马蹬这些东西加在一起才能让马的力量真正为你所用。这套装备有个专门的词叫 Harness。大模型也是一样。现在的 GPT、Claude 这些模型能力确实很强上知天文下知地理。但能力强不代表输出就靠谱。你问它同一个问题今天给你一个答案明天可能又是另一个答案。它不记得上次说了什么也不知道你的项目有什么规矩更没法主动去操作外部世界。所以 Harness Engineering 要做的就是在模型外面套一层系统让模型的能力可以被稳定地、可重复地使用。这不是简单地优化提示词那么简单而是要搭建一整套基础设施。四层结构让 AI 从会说变成会做Harness Engineering 不是一个具体的工具而是围绕模型构建的几类基础设施的总称。核心有四层。第一层是记忆层。模型本身没有记忆每次对话结束就什么都忘了。记忆层要做的就是把模型需要知道的东西写下来结构化存放。比如在代码场景里你会看到 claude.md 或者 agents.md 这样的文档里面记录着项目的关键约束和规则。这不是百科全书而是一张导航地图只告诉 AI 最关键的信息。第二层是执行层。模型只能生成文字没法真正做事。执行层给它提供了操作外部世界的能力比如执行代码、运行浏览器、调用 API。同时还会提供沙箱环境保护让 AI 可以大胆试错改坏了直接丢掉不影响主分支。第三层是反馈层。这是整个 Harness 框架里最核心的部分。模型的输出是概率性的你没法保证它每次都对。但反馈层可以通过测试、Linter、CI 流水线这些工具对模型的产出进行确定性验证。代码生成出来测试立刻跑一遍不通过就自动打回重试通过了才进入下一步。这个回路能闭合的根本原因在于代码虽然生成是概率性的但验证是确定性的。你不需要模型每次都对只需要有足够好的验证手段就够了。第四层是编排层。复杂任务不可能交给一个模型完成需要拆成多个子任务多个 Agent 分工协作。编排层负责协调这些 Agent 的状态让系统可以处理远超单次对话能力上限的工程任务。为什么代码领域是突破口AI 在很多领域都有应用但 Harness Engineering 在代码场景发展最快、最系统。原因就在于一个不对称性。代码生成是概率性的但验证是确定性的。编译器不会因为你今天心情好就放过一个语法错误测试也不会因为你态度端正就假装通过。这种确定性让反馈回路可以完全自动化。相比之下写一篇文章好不好、设计一张海报美不美这些很难用机器自动判断。但这段代码能不能通过 100 个测试用例30 秒内就能给你答案。这意味着 Agent 在代码领域犯错了系统可以立刻打回Agent 改完以后系统可以再次验证。这个循环可以高速运转不需要人盯着。但这里有个容易忽略的前提就是验证基础设施本身要足够好。没有测试拿什么验证没有 Lint 规则、架构约束怎么自动执行。过去这些工程实践被称为最佳实践大家都觉得重要但可以拖。Agent 时代不一样了代价完全不同。一个没有约束的 Agent会以机器速度、全天候地在每一个 PR 里重复同样的错误。因为没有写下来的规矩它永远意识不到也永远学不会。几个被反复验证的设计模式落地 Harness Engineering有几个设计模式已经被反复验证过。第一个是渐进式信息披露。不要把所有文档一次性喂给 Agent。好的做法是写一份精准的入口文档只告诉 Agent 最关键的导航信息详细规则按模块分类存放Agent 按需加载。这样既避免了上下文窗口的压力也迫使你把规范整理得更清晰。第二个是沙箱隔离。每个 Agent 任务在独立的工作区执行互不干扰。改坏了直接丢弃失败成本接近于零。这让 Agent 可以大胆试错。第三个是仓库就是真理来源。架构规范、质量标准、命名约定全部写进代码仓库。不要靠口头传达不要靠聊天消息。Agent 读仓库就能获取所需的上下文。第四个是机械化执行约束。架构约束不要靠 Code Review 里的文字建议传达而是编码进 Lint 规则。违反了就自动编译不过PR 就不让合进去。人是心软的可以被说服但规则不会。这是约束真正有效的唯一方式。核心竞争力的转变当 Agent 承担了越来越多的代码生成工作工程师的核心竞争力就要从能写出什么转向能评估什么以及更深一层能设计什么样的系统让正确的代码可以可靠地生成和验证。这不是说写代码能力不重要了而是说能清晰定义问题、能建立有效验证机制、能把团队的架构直觉转化成可执行规则的工程师与不具备这些能力的工程师将产生越来越大的生产力差距。Harness Engineering 说到底就是关于怎么把人的判断力固化成系统让它不再依赖某一次对话不再依赖某一个人在场而是变成一个可以持续运转的基础设施。这才是 AI 时代工程师真正在做的事。不是写代码而是设计一个能让 AI 可靠工作的系统。学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。

AI时代工程师真正在做的事，不是写代码

最新文章

2025最权威的六大降重复率助手实测分析

零成本构建移动服务器：基于Termux的安卓Web服务实战

别再只用默认指标了！用通达信APP自定义一个‘分时T+0’盯盘助手，保姆级配置指南

告别“一锤子买卖”：给你的Xilinx FPGA设计加上Multiboot双镜像冗余备份

苹果15年来首次换帅，新CEO能否带领苹果打赢AI硬件之战？

从‘联网盒子’到‘数据枢纽’：T-BOX的十年演进与未来猜想（附：独立硬件 vs 融入域控的深度分析）

推荐文章

相关文章

分享文章

更多文章

HTML的列表及表格

剑指offer-19、顺时针打印矩阵

8 鸿蒙多任务并发场景性能瓶颈排查 | 鸿蒙开发筑基实战

STL vector

C语言转译LDPC码：试用比特翻转算法逼近香农极限

OpenClaw+Phi-3-vision-128k-instruct：教育行业的课件自动标注系统

千问3.5-27B镜像诊断：OpenClaw连接失败排查指南

《高效赋能！AI助手高效赋能法律研究智能化，AI应用架构师分析》

第一周Java学习自测题目

2026-04-03：统计稳定子数组的数目。用go语言，给你一个整数数组 nums。如果对某个连续子数组 nums[l..r] 来说，它内部不存在“逆序对”，也就是没有下标满足 i ＜ j 且 nu

谁才是小龙虾最强数据辅助?XCrawl vs Firecrawl深度对比

OpenClaw邮件自动化：Qwen3-14b_int4_awq处理客户询盘与分类归档