OpenAI 悄悄重写 Agents SDK:生产级 Agent 底座来了,LangChain 们还怎么活?

张开发
2026/4/17 17:31:17 15 分钟阅读

分享文章

OpenAI 悄悄重写 Agents SDK:生产级 Agent 底座来了,LangChain 们还怎么活?
900 页保险单 100% 提取一半 PR 出自 Agent。你还在手动调 LangChain 吗很多人已经开始感觉到不对劲了。三个月前GPT-5.4 带着原生 computer use 登场模型能直接操作电脑了。但开发者很快发现一个问题模型能点能敲可 Agent 到底跑在哪台机器上怎么保证它不乱删文件怎么让它跑几个小时不断线这些基建问题还是得自己东拼西凑。今晚OpenAI 把这个缺口堵上了。不是小修小补是把整个 Agents SDK 从底层重写了一遍。原生 harness、原生沙盒、Codex 同款文件系统工具外加七家沙盒厂商一键接入。一句话OpenAI 把 Agent 的「运行环境」和「大脑」彻底解耦然后把基建层直接铺到了所有人脚下。这篇文章我们从工程视角拆三件事这次到底改了什么为什么说 LangChain 们无处可躲你现在应该怎么做目录一、现象GPT-5.4 能操作电脑了但 Agent 没地方跑二、本质变化OpenAI 把「基建」和「算力」拆开了三、核心机制拆解harness 沙盒 Manifest四、典型案例900 页保单 100% 提取一半 PR 来自 Agent五、工程落地启示你的 Agent 架构该升级了六、趋势判断第三方框架往哪走一、现象GPT-5.4 能操作电脑了但 Agent 没地方跑3 月初GPT-5.4 带着原生 computer use 发布。模型能看屏幕、移动鼠标、点击输入跟人一样操作电脑。开发者当时就炸了。但炸完之后是尴尬。模型是能操作电脑了可 Agent 跑在哪台电脑上用自己笔记本那跑几小时的任务怎么办用云服务器环境怎么配权限怎么隔离跑崩了从哪恢复这些问题OpenAI 当时一个都没解决。开发者只能自己拼LangChain 管流程、Docker 管隔离、Redis 管状态、再加一堆回调脚本。一套下来还没写业务逻辑基建已经堆了上千行。这不是个例。过去一年几乎所有做长周期 Agent 的团队都在重复造同一个轮子一个能稳定运行几小时、几天、甚至几周的 Agent 运行时。今晚OpenAI 把这个轮子直接塞进了 SDK。二、本质变化OpenAI 把「基建」和「算力」拆开了这次升级核心就两件事。第一件给 Agent 配了一个完整的运行框架——harness。配置化记忆、感知沙盒编排、文件系统工具Codex 同款、通过 MCP 调外部工具、通过 skills 渐进式披露信息、通过 AGENTS.md 自定义指令、用 shell 执行代码、用 apply_patch 编辑文件。这套清单熟悉 Claude Code 和 Cursor 的开发者一看就懂。OpenAI 把自家 Codex 过去一年踩过的坑、积累的最佳实践全部产品化塞进了 SDK。第二件把 harness 和 compute 彻底分离。harness 跑在你的可信基建里负责模型调用、工具路由、审批流、状态追踪、暂停恢复。compute 是一个独立的沙盒专门负责读写文件、跑命令、装依赖、吐产物。两层之间接口标准化。API key 和敏感凭证压根不会进入沙盒。沙盒里既没有密钥也没有任何敏感数据。甚至可以断开网络零对外流量。这不是安全加固。这是架构范式的迁移。以前Agent 模型 提示词 工具调用。现在Agent harness控制流 sandbox执行环境 模型。本质是OpenAI 不再只卖模型推理开始卖 Agent 的生产级运行底座。三、核心机制拆解harness 沙盒 Manifest这次发布技术上有三个点值得深挖。1. Manifest一份配置清单解耦所有沙盒供应商Manifest 描述 Agent 工作区的完整配置要挂载哪些本地文件、从哪个云存储拉数据、产物写到哪里。AWS S3、GCS、Azure Blob、Cloudflare R2 全覆盖。关键是Manifest 和具体沙盒供应商解耦。今天用 E2B 写的 Agent明天想换 Modal 跑不改代码只改一行配置。官方给了最小示例让一个 Agent 跑进本地沙盒挂载财报目录对比两年的财务指标核心代码不到 20 行。agent SandboxAgent( nameDataroom Analyst, modelgpt-5.4, instructionsAnswer using only files in data/. Cite source filenames., default_manifestManifest(entries{data: LocalDir(srcdataroom)}), )20 行代码完成一个能读文件、能分析、能引用来源的 Agent。以前用 LangChain 写至少 100 行起。2. 快照与状态恢复掉线续命长跑任务最怕什么沙盒容器挂了所有进度丢失从头再来。这次 SDK 原生支持快照和状态恢复。Agent 跑到一半整个状态序列化保存。沙盒崩了从最近检查点恢复继续跑。这不是 checkpoint 回调是原生内建。3. 多沙盒并行 子 Agent 隔离分身作战一个任务拆成十个子任务十个子任务分别跑在十个独立沙盒里互不干扰。每个子 Agent 有自己的隔离环境主 Agent 负责协调和汇总。扩展性问题原生解决。Agent 第一次有了「掉线续命」和「分身作战」的能力。四、典型案例900 页保单 100% 提取一半 PR 来自 Agent数字比观点更有说服力。案例一900 页保险理赔记录100% 提取FurtherAI CTO 披露他们的 Agent 啃下了一份 900 多页的保险理赔记录提取成功率 100%。保险业的人知道这是业内最难啃的文档之一以前跑到某一页崩掉是常态。案例二公司一半 PR 出自 AgentModal 技术团队成员透露Ramp 已经用 Modal 跑了一支后台编码 Agent 大军公司超过一半的 PR 都是这些 Agent 自己创建的。Stripe 也在今年早些时候披露内部 AI Agent 每周产出超过 1000 个 PR。两家公司的共同点在拿到成熟 Agent 基建之后业务团队的生产力出现了断层式跃迁。案例三代码量减少 6 倍Tomoro AI 研发工程师给出了硬数字相同能力的 Agent这次需要的代码量比以前少了 6 倍。案例四发票对账第一轮就跑通Box 开发者关系负责人传了一份业务数据配上 bash/python 作为工具让 Agent 在沙盒里跑了一整套发票对账业务流程。第一轮试水就全跑通了。这些案例说明一件事以前只有头部公司才能攒出来的 Agent 基建现在变成了 SDK 里开箱即用的默认配置。五、工程落地启示你的 Agent 架构该升级了如果你现在还在用 LangChain 或自己手写 Agent 框架这次发布应该让你重新思考三件事。启示一不要自己造 harness 轮子harness 的核心是控制流、状态管理、工具路由、暂停恢复。这些逻辑非常通用OpenAI 已经给出了官方实现。自己写的版本大概率没有官方稳定也没有官方迭代快。除非你有极其特殊的编排需求否则直接基于 OpenAI Agents SDK 往上搭业务。启示二沙盒选型变成配置问题以前选沙盒意味着改代码。换了沙盒供应商工具调用层要重写。现在Manifest 一层抽象沙盒选型变成改一行配置。建议本地开发用 UnixLocalSandboxClient测试用 E2B生产环境按数据位置选 Modal 或 Runloop。哪家便宜、哪家离数据近就切到哪家。启示三长跑任务必须用快照很多人做 Agent 演示时跑几分钟没问题一到生产跑几个小时就崩。原因是没有状态恢复能力。新 SDK 原生支持快照建议从第一天就把 checkpoint 机制用起来。不是等出了问题再加是架构上就依赖它。下面这张图概括了新的 Agent 架构核心变化Harness 管脑子Sandbox 管手脚。中间用 Manifest 解耦。六、趋势判断第三方框架往哪走这次发布对 Agent 生态的冲击才刚刚显露。LangChain、LangGraph、CrewAI、AutoGen 这些第三方框架过去一年靠什么活着靠补齐 OpenAI 原生 SDK 不够「生产可用」的那块空白。编排、记忆管理、护栏、追踪、多 Agent 协作这些都是第三方的主战场。现在OpenAI 一次性把这些主战场全接管了。harness 原生支持编排和暂停恢复Manifest 原生支持工具和沙盒管理快照原生支持状态持久化。第三方框架的空间被压缩到两个方向往上走垂直场景的 Agent 编排比如只做客服 Agent、只做编码 Agent往下走专用沙盒、专用工具、专用存储夹在中间做通用 Agent 框架的地板已经被 OpenAI 自己踩实了。另外OpenAI 口中的「兼容所有沙盒服务商」本身就是在把沙盒供应商纳入自己的生态位。今天还是合作伙伴明天可能就是「组件供应商」。当然目前还不完美。新能力首发只上了 PythonTypeScript 还在排队。SDK 版本号仍然停留在 0.Y.Z。但方向已经非常清晰了。GPT-5.4 带着原生 computer use 登台Agents SDK 给它配齐了真正的运行环境。下一步缺的只是更多开发者把业务逻辑搭在这个基建之上。本文部分内容参考了霍格沃兹测试开发学社整理的相关技术资料主要涉及软件测试、自动化测试、测试开发及 AI 测试等内容侧重测试实践、工具应用与工程经验整理。

更多文章