Anthropic 高管公开表示:别等下一代模型了,立刻开始做 Harness。Harness热潮下的冷思考!

张开发
2026/5/23 11:28:18 15 分钟阅读
Anthropic 高管公开表示:别等下一代模型了,立刻开始做 Harness。Harness热潮下的冷思考!
最近 Anthropic 有个观点很火“别等下一代模型了立刻开始做 Harness。”核心逻辑是模型已经足够强真正的竞争力在于如何驾驭它。谁先把状态管理、错误恢复、记忆压缩这套工程做好谁就赢了。Anthropic 高管公开表示“不要花六个月搭一个六个月后就被淘汰的东西。”“我们在 Anthropic 的思路是不为今天的模型而构建而是为六个月后的模型而构建。”根据他们的描述原因如下模型成熟度现有的模型已经足够强大能够胜任大多数任务瓶颈转移真正的竞争力是 Harness这是一套完整的 Agent Infrastructure工程优先级决定 AI 编程上限的是 Harness Engineering 的质量Anthropic 的定位Claude 的卖点不是跑分第一而是最适合 Agent 工作流的模型商业模式差异OpenAI 的核心叙事是最强模型收入主要来自 ChatGPT 订阅Anthropic 的商业利益直接等于 Harness 生态的繁荣。每一层 Harness 的完善都在加宽它的护城河说简单点大模型太烧钱显卡贵卷不动了现在开始要卷驱动大模型的工程系统的质量。这个观点对吗对但不完整。说点可能不太好听的大实话。一、Harness 是护城河还是过渡产物1.1 容易复制的东西称不上护城河先问个问题Harness 到底是什么根据 Anthropic 的定义Harness 是最薄的包装层它不仅仅是脚手架Scaffold更是线束或管控层。它负责管理 AI 的状态、记忆、错误恢复以及与外部工具的交互。说白了是工程最佳实践的代码化。这东西有个特点极易被复制。一旦某家公司证明某种 Harness 模式有效——比如强制 AI 在上下文耗尽前写进度文件——其他公司跟进要多久几周而已。代码可以抄模式可以学连坑都可以直接绕开。原文认为 Harness 是竞争优势Anthropic 构建了极其严密的 Harness用于解决 AI 在长时间任务中脱轨的问题。决定 AI 编程上限的不再是模型的单次生成能力而是 Harness Engineering 的质量。但问题是这些工程实践本身没有秘密可言。真正的护城河是什么数据飞轮更多用户 → 更多使用数据 → Harness 默认行为更精准生态锁定开发者习惯了某套工作流迁移成本高到不想动品牌信任出了事敢扛用户敢把核心业务交给你Harness 本身更像是入场券不是终点。1.2 Harness 的终极形态是自我消解文章里提到一个方向未来 Harness 会让模型自主决定何时压缩记忆、如何管理状态。未来的 Harness 将不仅是人类工程师手动搭建的脚手架而是由模型部分自我驱动的系统。这是一种新的Context Engineering技巧。如果这个方向走到底会发生什么最好的 Harness是让人感知不到 Harness 的存在。当模型足够强时现在需要手动设计的状态机、容错逻辑可能变成模型内部的内生能力。就像你不需要手动管理内存垃圾回收一样——语言运行时帮你做了。Harness 工程师这个岗位可能是过渡性的。二、模型已足够强大是选择性视角2.1 任务边界被重新定义了说现有模型能胜任大多数任务这句话有个前提你把任务定义在模型能处理的范围内。原文的论据是现有的模型如 Claude Opus 系列已经足够强大能够胜任大多数任务。继续等待下一代模型可能会浪费时间和资源。但实际生产中任务类型远比能胜任复杂任务类型模型表现短上下文、明确指令✅ 很强长周期、多步骤、需记忆⚠️ 需要大量 Harness 补救需领域专业知识⚠️ 幻觉风险高需跨系统协调⚠️ 容易脱轨凌晨三点被 P0 告警叫醒的场景❌ 没见过惨状AI 能给你生成十个登录方案JWT 的、Session 的、OAuth 的。但它不知道这系统是不是要给金融客户用合规要求并发大概多少性能边界以后会不会接第三方扩展性真实的项目情况里AI 能给你生成十个登录方案JWT 的、Session 的、OAuth 的。哪个能用你得知道这系统是不是要给金融客户用合规要求并发大概多少性能边界以后会不会接第三方扩展性这些 AI 不知道。它没见过凌晨三点被 P0 告警叫起来的惨状不知道哪个坑踩一次够记半年的。模型足够强某种程度上是把问题重新定义到模型能处理的范围内。2.2 瓶颈转移但没完全转移原文认为真正的竞争力不再是模型本身的算力而是模型周边的 Harness驱动/驾驭层。随着模型能力的过线Capability Over the Line竞争焦点从谁的模型更大转向了谁的系统工程更好。这话对一半。Harness 确实重要但原文忽略了一个关键问题谁定义好的 Harness真正决定 AI 编程上限的不是模型的单次生成能力也不是 Harness 工程质量而是人对失败的理解深度。没踩过权限配置错的坑设计不出健壮的权限 Harness。没经历过接口被刷爆的惨状想不到要加速率限制。没打过凌晨三点的 P0 电话不知道哪些日志必须打、哪些不能打。Harness 是经验的代码化。没有经验Harness 就是空中楼阁。判断力这东西没法速成。得熬。每次 AI 生成的代码多问一句这玩意哪里有坑做技术选型的时候把为啥选 A 不选 B写明白过半年回头看看自己当初想对没原文提到 Anthropic 的 Harness 需要数万行代码支持但这数万行代码背后是多少次失败和踩坑换来的三、公司视角 vs 个体视角3.1 两种叙事一个结论执行层价值下降决策层价值上升。3.2 个体该怎么办如果说 Harness 是公司要拼的东西个体该拼什么1. 判断力这玩意没法速成。得熬。每次 AI 生成的代码多问一句这玩意哪里有坑。做技术选型的时候把为啥选 A 不选 B写明白过半年回头看。2. 业务理解最懂业务的工程师比最懂技术的工程师难被替代。AI 能生成项目结构但不知道下季度业务要往哪个方向走。你问它为什么这个模块要这么设计下季度业务要往哪个方向走系统得留什么口子它答不上来。护城河在哪在你比任何人都懂这门生意。3. 责任承担执行可以扔给 AI责任扔不了。上线炸了老板不会听你说是 AI 写的代码。AI 能干的你得扛的写代码出了事你背锅出方案拍板选哪个写文档合规有没有问题测一遍敢不敢上线4. 跟人打交道AI 能写邮件能生成汇报 PPT。但它没法替你去跟产品经理吵架没法在需求评审会上把不合理的要求顶回去也没法在上线前夜跟运维大哥递根烟说句多盯着点。跨部门沟通这事听着虚实际是每个项目都绕不开。技术再牛推不动就是白搭。5. 共情能力用户体验、团队管理、客户支持这些活儿都需要一个东西你真的在乎。AI 能模拟对话但它不在乎用户用得爽不爽不在乎团队成员成长得怎么样。你在乎这就是你的价值。四、完整的图景把两篇文章的观点合起来更完整的图景是这样的┌─────────────────────────────────────┐ │ 模型能力快速 commoditize │ │ ↓ 越来越强但边界被重新定义 │ ├─────────────────────────────────────┤ │ Harness 工程当前竞争焦点 │ │ ↓ 最终会标准化部分被模型内生 │ ├─────────────────────────────────────┤ │ 对业务/失败/人性的理解长期壁垒 │ │ ↓ 这才是真正的护城河 │ └─────────────────────────────────────┘目前整个 AI 开发圈都在热议 Harness 的重要性。很多创业公司认为真正的商业价值在于如何高效、安全地驾驭模型而非仅仅训练一个更大的模型。Anthropic 在这方面的探索被认为比 OpenAI 领先了一段时间但这也给了竞争对手抄作业的机会。这说明 Harness 是当前的竞争焦点但不是长期的护城河。4.1 现在该做什么对公司Harness 必须做这是入场券但不要把它当成终极答案真正要 build 的是数据飞轮和生态正如 Anthropic 所说“我们在 Anthropic 的思路是不为今天的模型而构建而是为六个月后的模型而构建”对个体AI 要用但别依赖“把它当杠杆别当拐杖。最好的状态是不用 AI 我也能干用了 AI 干得更快”深耕一个领域把门道摸透“别今天学 Go 明天看 Rust后年又琢磨 Kotlin。选个行业扎进去把里面的门道摸透”保持点好奇心“技术这行停下来半年就落伍了。不是要你追每个新框架是保持对’这东西怎么工作的’那种劲儿”Anthropic 的核心建议是转变思维从等更好的模型转向驾驭现有模型。真正的 AI 价值不是训练出更大的模型而是构建出一套能够安全、高效、可持续运行的 Harness 系统。这个结论没错但不够完整。完整的答案应该是Harness 要 build但别把它当成终点。真正要 build 的是那些 AI 学不会、对手抄不走、时间越久越值钱的东西。就这样。

更多文章