TPAMI 2025 | 强化学习驱动自动选样,持续语义分割记忆利用再升级

张开发
2026/4/7 13:45:08 15 分钟阅读

分享文章

TPAMI 2025 | 强化学习驱动自动选样,持续语义分割记忆利用再升级
点击上方“小白学视觉”选择加星标或“置顶” 重磅干货第一时间送达在计算机视觉领域语义分割技术早已深入自动驾驶、医疗影像分析等诸多场景但传统语义分割模型往往基于“所有类别一次性学完”的静态设定难以适配现实世界中“不断新增类别、持续学习”的需求。持续语义分割CSS应运而生却面临着“灾难性遗忘”的核心难题——模型学习新类别时极易忘掉之前掌握的旧类别知识。样本重放是缓解这一问题的主流思路用有限的记忆缓冲区存储旧类别样本后续训练时重放这些样本帮助模型记住旧知识。但现有方法要么随机选样本要么靠人工设计单一规则选样且未解决记忆样本数量有限导致的类别不平衡问题。今天要介绍的《Replay Master: Automatic Sample Selection and Effective Memory Utilization for Continual Semantic Segmentation》一文就从“选对样本”和“用好样本”两大核心问题出发提出了一套全新的重放流程在Pascal VOC 2012和ADE20K数据集上实现了SOTA性能论文信息题目 Replay Master: Automatic Sample Selection and Effective Memory Utilization for Continual Semantic Segmentation重放大师面向持续语义分割的自动样本选择与高效记忆利用作者Lanyun Zhu, Tianrun Chen, Jianxiong Yin, Simon See, De Wen Soh, Jun Liu一、方法总览两大核心模块破解重放难题Replay Master的核心框架主要包含“自动样本选择”和“高效记忆利用”两大模块整体逻辑如下图所示图1首先自动样本选择模块将样本选择问题建模为马尔可夫决策过程通过强化学习框架自动学习最优选样策略不仅能选到最有价值的样本还能对样本进行增强随后高效记忆利用模块通过阶段专属专家机制双阶段训练范式解决记忆样本有限导致的类别不平衡问题让选好的样本发挥最大价值。两大模块相辅相成从“选”到“用”全流程优化重放效果。二、自动样本选择让模型自己选“最该记的样本”传统样本选择方法要么靠人工经验定规则要么随机挑选很难兼顾样本多样性、类别易遗忘性等多维度因素。为此研究团队提出了基于强化学习的自动选择机制核心是让智能体自主学习“哪些样本对重放最有用”。1. 状态表示给样本做“多维体检”要让智能体选对样本首先得让它能“看懂”样本的价值——这就是状态表示的作用。研究团队为每个样本构建了包含三大核心特征的状态样本多样性衡量样本与同类别其他样本的差异度差异越大的样本能为模型提供更多元的信息类别准确性用IoU指标反映该类别当前的分割性能性能差的类别需要更多样本支撑类别遗忘性评估类别未来被遗忘的概率与其他类别相似度越高的类别越容易被遗忘需要重点关注。而要精准计算样本多样性和类别遗忘性关键是解决“相似性度量”的问题。传统的原型级度量会丢失空间和结构信息像素级度量计算成本又太高因此研究团队提出了“多结构图相似性度量”方法。2. 多结构图给图像做“结构化建模”研究团队将图像的语义区域映射为保留局部结构和空间关系的图让相似性度量更精细、更高效具体过程如下图图2首先把图像的语义区域拆分成多个超像素每个超像素代表一个有意义的语义结构比如鸟的头部、汽车的轮子每个超像素对应图中的一个顶点顶点特征是超像素内所有像素的平均骨干特征然后用“语义距离空间距离”构建图的边既考虑像素特征的相似性又兼顾超像素的相对位置。最后用最优传输算法进行图匹配得到的匹配成本就能精准反映两张图像的相似性——比如比较“人”类别的两个区域时既能评估衣着的语义相似性又能衡量身体姿态的空间相似性。3. 双阶段动作选样本增强样本智能体基于样本的状态表示打分后先选出分数最高的Top-L样本作为记忆样本但研究团队发现即便是最优候选样本其分数也未必理想因此又增加了“样本增强”步骤通过梯度更新的方式优化样本提升其智能体分数让这些样本在后续重放中发挥更大作用。4. 奖励驱动优化让智能体越选越准智能体的优化目标是让选中的样本能最大化提升分割模型性能。研究团队用验证集上的准确率变化作为奖励通过时间差分误差优化智能体让智能体在迭代中不断学习最终掌握适配持续语义分割任务的选样策略。三、高效记忆利用让有限样本发挥最大价值选好样本只是第一步如何利用这些样本解决“新旧类别样本不平衡”的核心问题才是提升重放效果的关键。由于记忆缓冲区容量有限旧类别样本数量远少于新类别直接训练会导致模型偏向新类别加剧旧类别遗忘。1. 阶段专属专家共享信息利用平衡“专属”与“共享”研究团队没有采用“所有类别共享参数”或“每个类别完全隔离参数”的极端方式而是设计了“阶段专属专家机制”并引入共享信息利用策略结构如下图图3每个阶段的类别分配专属的专家模块每个专家模块由多个并行子专家构成同时通过门控策略让每个专家在主要负责自身类别时能选择性利用其他类别专家的共享信息。为了防止某类样本过度占用其他类别的专家资源研究团队还引入“不平衡因子”随机中断过度激活的子专家让每个专家都能从更平衡的样本集中学习。2. 双阶段训练兼顾“分割能力”与“类别平衡”为进一步缓解类别不平衡研究团队设计了双阶段训练范式常规训练阶段用所有可用数据记忆样本新类别样本训练模型学习基础的分割能力类别平衡微调阶段仅用“新旧类别样本数量平衡”的数据集微调一个轻量级附加专家模块。这种方式既保证了模型能从丰富数据中学习又能通过平衡样本微调让模型对新旧类别的处理能力更均衡进一步减轻灾难性遗忘。四、实验验证SOTA性能印证方法有效性研究团队在Pascal VOC 2012和ADE20K两大主流语义分割数据集上基于多种CSS协议如Pascal VOC 2012的19-1(2阶段)、15-1(6阶段)ADE20K的100-5(11阶段)等开展了全面实验核心评估指标为mIoU反映模型分割性能的核心指标。实验结果表明即便仅存储总训练样本的1%用于重放Replay Master也能显著超越此前的先进方法在旧类别mIoU上有效缓解了灾难性遗忘在新类别mIoU上保证了模型学习新知识的能力在整体mIoU上实现了全类别性能的最优平衡。此外消融实验还验证了各个模块的有效性移除多结构图相似性度量样本选择的精准度会下降去掉双阶段训练类别不平衡问题会加剧关闭共享信息利用专家模块的训练效果会显著降低。五、总结Replay Master的核心创新在于从“样本选择自动化”和“记忆利用高效化”两个维度系统性解决了持续语义分割重放机制的核心痛点把样本选择建模为马尔可夫决策过程用强化学习多结构图相似性度量实现了自适应、多维度的最优选样用阶段专属专家共享信息利用双阶段训练破解了有限记忆下的类别不平衡难题。这一方法不仅为持续语义分割提供了全新的重放范式也为其他持续学习任务提供了重要的参考思路。在实际应用中仅需极少的存储成本就能实现模型的持续学习也让语义分割模型更适配真实世界中动态、增量的学习场景。下载1OpenCV-Contrib扩展模块中文版教程在「小白学视觉」公众号后台回复扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。下载2Python视觉实战项目52讲在「小白学视觉」公众号后台回复Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目助力快速学校计算机视觉。下载3人工智能0基础学习攻略手册在「小白学视觉」公众号后台回复攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源可以下载离线学习。交流群欢迎加入公众号读者群一起和同行交流目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群以后会逐渐细分请扫描下面微信号加群备注”昵称学校/公司研究方向“例如”张三 上海交大 视觉SLAM“。请按照格式备注否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告否则会请出群谢谢理解~

更多文章