中科院和新加坡国大联手:让AI学会“聪明偷懒“

张开发
2026/4/16 5:45:21 15 分钟阅读

分享文章

中科院和新加坡国大联手:让AI学会“聪明偷懒“
这项由中国科学院自动化研究所基础模型研究中心联合新加坡国立大学、腾讯等机构开展的研究发表于2026年论文编号为arXiv:2604.02288v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项突破性研究解决了一个困扰AI训练领域的难题如何让大型语言模型既能快速学会复杂推理又能保持长期稳定的学习效果。当前的AI训练就像教学生做数学题面临着两难选择。传统的奖励式训练方法就像给学生打分数——答对了就给高分答错了就给低分。这种方法很稳定就像一位严格但公正的老师能让学生稳步提升。但问题是这种方法太粗糙了就好比老师只会说这道题做错了但不会指出具体哪一步出了问题学生学习起来自然比较慢。为了解决这个问题研究人员开发了一种叫做自蒸馏的方法。这就像让学生自己当老师在知道正确答案的情况下重新审视自己的解题过程逐步纠正每一个细节错误。这种方法确实能让学生快速改进因为它提供了非常具体的指导——不仅知道哪里错了还知道每一步应该怎么做。然而这种方法有个致命缺陷随着训练时间延长学生会变得越来越不稳定甚至出现严重的学习倒退。研究团队深入分析后发现自蒸馏方法的不稳定性源于两个根本问题。首先是好学生也被过度纠正的问题。当一个学生已经把题目做对了却还要求他按照另一个同样正确但方法不同的答案来调整自己的解题思路这就会造成混乱。就像两个厨师都能做出美味的红烧肉但如果强迫一个厨师完全按照另一个厨师的方法来做反而可能破坏他原本的手艺。其次是老师能力下降的问题。在自蒸馏过程中AI既是学生也是老师。随着训练进行学生AI和老师AI的能力差距逐渐缩小老师提供的指导变得越来越模糊和不确定。这就像一个刚学会开车的人去教另一个新手指导质量自然会大打折扣。基于这些洞察研究团队提出了一种巧妙的解决方案样本路由策略优化方法SRPO。这个方法的核心思想是因材施教——对于不同类型的学习情况采用最适合的指导方式。具体来说SRPO就像一个智能的学习管理系统。当AI成功解决了一个问题时系统会使用传统的奖励式方法给予鼓励和强化就像对优秀学生说做得很好继续保持。这样既不会造成混乱又能稳固正确的学习成果。但当AI犯错时系统会立即切换到详细的逐步纠错模式。这时就像请来了一位经验丰富的老师不仅告诉学生答案是错的还会具体指出每一个步骤的问题所在并演示正确的解决方法。这种针对性的指导能够快速帮助AI改正错误。更巧妙的是研究团队还开发了一套信心评估机制。由于在训练后期AI老师的指导质量会下降系统会自动检测这些指导的可靠程度。当发现指导内容不够确定时系统会降低这些建议的权重而对于那些明确、可靠的指导系统会给予更高的重视。这就像学生学会了判断老师建议的质量对于模糊不清的建议保持谨慎对于明确有用的建议重点吸收。研究团队在五个不同的基准测试中验证了这种方法的效果涵盖了化学、物理、生物、材料科学和工具使用等多个领域。测试使用了两种不同规模的AI模型40亿参数和80亿参数的Qwen3模型。实验结果令人印象深刻。在80亿参数的模型上SRPO方法将平均准确率提升到了77.4%相比传统奖励方法的74.0%提升了3.4个百分点相比纯自蒸馏方法的71.1%提升了6.3个百分点。在40亿参数的模型上改进效果更加显著平均准确率达到74.2%分别比两种基准方法提升了4.5和7.5个百分点。更重要的是SRPO成功地结合了两种方法的优势。在训练初期它展现出与自蒸馏方法相当的快速学习能力而在长期训练中它保持了传统奖励方法的稳定性避免了性能倒退的问题。研究还发现了一个有趣的现象随着训练进行需要详细纠错的错误样本逐渐减少而能够直接给予奖励的正确样本越来越多。这意味着SRPO能够自动调节两种学习模式的比重在早期更多地进行纠错在后期更多地进行强化实现了一种自适应的学习策略。在计算效率方面SRPO也表现出色。虽然在训练初期由于需要更多的详细指导而稍微增加了计算开销但随着训练进行这种开销逐渐减少。在长期训练中SRPO的每步计算时间比传统方法减少了多达17.2%。此外研究团队还发现SRPO训练出的AI在回答问题时保持了适中的详细程度。传统奖励方法容易产生过于冗长的答案而纯自蒸馏方法则容易产生过于简短的答案这种过度简化可能会丢失重要的推理步骤。SRPO很好地平衡了这两个极端生成的答案既不啰嗦也不过于简略。这项研究的意义不仅仅在于技术层面的突破更在于它提供了一种新的思路来理解AI学习。就像人类教育中需要因材施教一样AI训练也需要根据不同情况采用最合适的方法。SRPO证明了通过智能地组合不同的学习策略可以获得比单独使用任何一种策略更好的效果。从更广泛的角度来看这项研究为未来开发更强大、更可靠的AI系统提供了重要启示。随着AI系统变得越来越复杂如何有效地训练它们成为了关键挑战。SRPO展示的智能路由思想可能会在更多场景中得到应用帮助我们构建既高效又稳定的AI学习系统。研究团队也指出了未来的发展方向。他们希望将这种方法扩展到能够提供更丰富反馈信息的环境中让AI能够从更多样化的学习信号中受益。这可能会进一步提升AI的学习效率和最终性能。说到底这项研究解决了AI训练中的一个根本矛盾快速学习与长期稳定之间的取舍。通过巧妙的设计研究团队证明了我们不必在速度和稳定性之间做出选择而是可以同时拥有两者的优势。这种既要又要的解决方案为AI技术的进一步发展开辟了新的可能性。对于普通人来说这意味着未来的AI助手将能够更快地学会新技能同时保持长期稳定可靠的性能为我们的日常生活和工作提供更好的支持。有兴趣深入了解技术细节的读者可以通过arXiv:2604.02288v1查询完整的研究论文。QAQ1SRPO方法是如何解决AI训练中速度和稳定性矛盾的ASRPO采用因材施教的策略对AI做对的题目用传统奖励方法鼓励对做错的题目用详细纠错方法指导。这样既保持了快速学习能力又避免了长期训练中的不稳定问题就像给不同水平的学生安排最适合的教学方式。Q2样本路由策略优化方法相比传统方法提升了多少性能A在五个基准测试中SRPO将80亿参数模型的平均准确率提升到77.4%比传统GRPO方法高出3.4个百分点比自蒸馏SDPO方法高出6.3个百分点。同时还将计算成本降低了17.2%实现了性能和效率的双重提升。Q3为什么自蒸馏方法在长期训练中会变得不稳定A自蒸馏方法的不稳定主要源于两个问题一是对已经正确的答案进行过度纠正造成学习混乱二是随着训练进行AI老师的指导质量逐渐下降提供的建议越来越模糊不确定最终导致学习效果倒退。

更多文章