突破天花板！AI 学会自己优化 “变强的方法”

张开发

• 2026/6/5 21:35:15 • 15 分钟阅读

分享文章

来源机器学习算法与自然语言处理新智元本文约5300字建议阅读10分钟本文介绍了 LLM 后训练的核心方法及 2025-2026 年前沿趋势。AI已经学会「左脚踩右脚上天」了Meta的一项最新研究表明AI已经开始碰自己的「进化引擎」了。华人学者Jenny Zhang在Meta实习期间联合Meta AI、UBC、纽约大学等机构研究者提出了一种新的智能体框架HyperAgentsDGM-H。https://arxiv.org/abs/2603.19461这项工作的重点不是再造一个更能干活的Agent。它瞄准的是更高一层的问题如果AI已经能够修改自己的任务解法那它能不能连「自己以后该怎么修改自己」这件事也一并改掉论文给出的答案是可以。而且这不再是概念推演而是已经在实验中跑通的系统能力。HyperAgents做的关键一步是把「执行任务的 agent」和「负责改进 agent 的 meta agent」合并进同一个可编辑程序里作者将之称为hyperagent。DGM依赖任务与自修改能力的对齐而DGM-H不再需要这种对齐在新框架下系统不只会修改任务求解逻辑还开始修改未来生成改进方案的机制本身。论文把这种能力称为metacognitive self-modification也就是元认知自我修改。过去行业竞争的是谁的Agent更会干活。而HyperAgents 指向的下一阶段则可能是谁的Agent更会变强而且会越来越会变强。以往的「自我进化」其实还只是半手工这篇论文指出了上一代自我进化路线的天花板。去年的Darwin Gödel MachineDGM已经很惊艳。它能在coding任务中不断自改代码、自我验证、把成功版本存进archive再从这些「垫脚石」里继续往前长。论文披露DGM在SWE-bench上能从20.0%拉到50.0%在Polyglot上从14.2%拉到30.7%。但问题在于DGM之所以能在coding里成立是因为「评估」和「自我修改」本身也都是coding任务。写代码更强了反过来就更会改自己的代码。任务能力和自我改进能力在这个场景里是对齐的。然而一旦离开coding这个对齐关系就断了。比如评审论文、设计机器人奖励函数、给IMO级数学解答打分这些任务做得更好不等于你就更会修改自己的元机制。HyperAgents论文最核心的一招就是直接把这个假设砍掉既然任务能力和自我改进能力未必天然对齐那就不要再把meta层写死。这说明过去很多「自我进化」系统本质上还是在人为设定的轨道里进化。HyperAgents真正改变的是改变机制本身。HyperAgents新在哪里表面上看HyperAgents只是多了一个meta agent。但真正值得注意的是它把task agent和meta agent合成了同一个可编辑程序。以前的DGM里系统有一个手工设计的instruction-generation机制负责根据过往表现决定下一步怎么改。这一步不能被改所以它反而成了整个系统的瓶颈。HyperAgents的做法是把这部分也纳入可修改范围。换句话说AI不只是改自己的答案、自己的工具、自己的流程它开始改「自己怎么提出修改建议」。DGM里上层机制基本固定DGM-H里meta层本身也进入可演化空间也就是说它是一个会经营自己进化过程的系统。所以HyperAgents做的不是「再加一个Agent」而是取消了「上层永远不变」这个默认前提。自我改进开始跨域迁移在coding任务中HyperAgents在Polyglot 上的提升与原始DGM处在同一量级50-task训练子集从0.140提升到0.340完整benchmark从0.084提升到0.267。换句话说它并不是只靠牺牲泛化来换局部成绩。更关键的是它不只在coding任务成立还能在paper review、robotics reward design等非coding任务上继续自我改进。在paper review上初始agent在测试集得分为0.0DGM-H提升到0.710在robotics reward design上则从0.060提升到0.372。更关键的是这些提升不仅出现在训练任务里也转移到了held-out test tasks。与此同时对照组也很说明问题去掉self-improve效果明显变弱去掉open-ended exploration系统也很难取得有意义进展原始DGM直接搬到非coding 域几乎失效只有经过人工定制成DGM-custom后才恢复竞争力。这说明HyperAgents 的关键价值不在于某一个benchmark多拿了几个点而在于它把原本依赖coding场景对齐关系的自我改进推进成了一个能在非coding任务中运行的框架。更值得注意的是迁移实验。作者把在paper review和robotics任务中演化出来的hyperagents转移到Olympiad-level math grading。虽然这些转移体自身初始得分仍接近0但它们作为「生成更优agent的meta agent」却能在50轮内把最好生成体推到0.630对应imp50从0拉到0.630。相比之下来自DGM-custom的转移体几乎没有这种能力。换句话说迁移过去的不只是任务经验而是「如何持续变好」的能力。它开始自己长基础设施了很多人看到「自我进化」会以为无非是AI自己改prompt、调工作流、加几个规则。但论文展示给我们、最让人感到冲击力的一个地方在于它开始自己长基础设施了。DGM-H在迭代中会自动长出performance tracking、persistent memory、evaluation analysis、compute-aware planning这些基础设施。论文中甚至直接给出了自动生成的性能追踪器代码和持久记忆条目它开始记录跨代指标、总结哪些代际策略有效、诊断过度修正、制定下一轮改进计划。这还不是「日志记录」那么简单系统开始把改进看成一个长期经营过程而不是一次次孤立的paœtch。它不只记录每一代分数还会比较趋势、识别回退并把跨代经验沉淀进persistent memory。正如网友所说真正让这一切变成现实的关键恰恰是persistent memory的自主出现。论文展示的memory示例中写道某一代评审准确率更高但过于严苛另一代平衡更好下一轮要融合两者优点。没有这层记忆agent往往只会反复「重新发明轮子」有了它过去几代的有效经验才第一次能真正沉淀为下一轮改进的起点。这说明Agent正在从「输出一个结果」走向「维护一个持续优化系统」。这不是AGI宣言但旧规则确实在失效当然这篇论文没有证明「无限自我进化AI」已经降临。作者自己也写得很清楚实验都在沙箱、资源限制和人工监督下完成外层循环还有不少部分没有开放给系统自改比如任务分布、parent selection、evaluation protocol等真正无界的open-ended self-improvement还远远没到。但风险预警已经出现。一旦AI开始改自己的改进机制安全讨论就变得重要起来。论文也专门有一节谈风险随着系统越来越能开放式地修改自己它的演化速度可能超过人类审计和理解速度。今天靠sandbox和人工盯着还能管住明天未必。HyperAgents代表了一种新的路线它可能会改写Agent竞争。未来比的不只是谁会调模型、谁会写workflow、谁会做更强单点工具而是谁能把「改进能力」本身产品化、系统化、可迁移化。这将改变AI公司的护城河。真正的壁垒可能不再只是参数、算力和数据而是有没有一套能跨任务累积经验、跨运行持续变好的自我改进系统。也会改变开发者位置。开发者不再只是写功能的人而更像是在设计AI可以继续自我设计的边界条件。最重要的一点它改写了AI行业过去默认的一条规则系统可以变强但变强的方法由人来定义。现在这条规则开始松动了。作者简介Jenny ZhangJenny Zhang现为英属哥伦比亚大学人工智能博士生师从Jeff Clune同时也是Vector Institute研究生并曾在Meta担任Research Scientist Intern。她本科毕业于帝国理工学院研究方向聚焦开放式进化、强化学习与自我改进AI代表工作包括《Darwin Gödel Machine》《HyperAgents》以及OMNI系列研究。她的长期目标是构建能够自主提出新任务、持续自我提升、不断演化复杂能力的AI系统。参考资料https://x.com/jennyzhangzt/status/2036099935083618487%20https://arxiv.org/abs/2603.19461编辑于腾凯校对林亦霖关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU