IEEE/ASME Transactions on Mechatronics | 院士团队让移动机器人在复杂环境中学会主动避障

张开发
2026/4/10 3:12:09 15 分钟阅读

分享文章

IEEE/ASME Transactions on Mechatronics | 院士团队让移动机器人在复杂环境中学会主动避障
论文信息英文题目 Vector Field Augmented Reinforcement Learning for Adaptive Motion Planning of Mobile Robots中文题目面向移动机器人自适应运动规划的向量场增强强化学习作者 Yang Lu, Weijia Yao, Cong Li, Yongqian Xiao, Xin Xu, Xinglong Zhang, Yaonan Wang, Dingbang Xiao作者单位国防科技大学、湖南大学、湖南第一师范学院期刊IEEE/ASME Transactions on MechatronicsIF 6.4中科院一区JCR Q1发表时间 2025年9月26日链接 https://doi.org/10.1109/TMECH.2025.3593610引文格式 Lu Y, Yao W, Li C, et al. Vector field augmented reinforcement learning for adaptive motion planning of mobile robots[J]. IEEE/ASME Transactions on Mechatronics, 2026, 31(1): 191-205.01 全文速览移动机器人在复杂动态环境中运动规划既要快又要稳还要安全。现有方法各有短板MPC依赖精确模型在线优化计算量大RL数据效率低训练好了也未必能应对未知障碍。国防科技大学王耀南团队提出了一种向量场增强的强化学习VF-RL框架把传统向量场的“导航直觉”和数据驱动的RL的“自适应能力”拧在一起。图1展示了VF-RL的整体架构复合向量场提供实时安全引导模块A深度Koopman模型在线补偿动力学不确定性模块B滚动时域RL在安全边界和作动器约束下生成最优控制。图 1 VF-RL框架向量场引导 在线建模 滚动时域强化学习VF-RL的核心逻辑先让机器人知道“大概往哪走”向量场给出无碰撞参考路径再让RL在局部微调同时用稀疏高斯过程在线修正模型误差。仿真和实车实验表明VF-RL比LMPCC、MPC-CBF等优化方法计算更快0.01s/步路径更短且在动态障碍物、非结构化道路场景下均能稳定运行最高车速3m/s。核心亮点✅复合向量场再升级引入虚拟障碍物和指数平滑函数彻底解决传统向量场“突变”和“死锁”问题✅ Koopman 稀疏GP在线补偿用深度Koopman建立线性化模型再用稀疏高斯过程在线修正未建模动态✅滚动时域RL在预测时域内用核函数网络近似最优策略收敛性和稳定性均有理论证明✅实车验证红旗E-HS3平台静态/动态避障、路径跟踪、越野场景全通过✅跨平台通用四旋翼仿真同样验证证明框架对机器人类型不敏感02 研究内容 2.1 复合向量场给机器人一条“有提前量”的安全路径传统向量场在机器人进入障碍物反应区时指引方向会突然跳变导致机器人急转甚至失控。作者在原有复合向量场图2基础上引入了虚拟障碍物和指数平滑函数。图2展示了原复合向量场的行为在exR灰色、exQ∩inR绿色、inQ蓝色三个区域内机器人分别执行路径跟踪、混合跟踪避障、纯避障。但在黄色圆圈附近向量方向突变违反运动学约束。图 2 原复合向量场在黄色圆圈处发生突变改进后的设计如图3所示在真实障碍物灰色椭圆外围添加一个虚拟障碍物蓝色虚线椭圆二者之间的缓冲区域内向量场会平滑地将机器人引向虚拟障碍物的排斥边界使其提前偏转方向避免进入真实障碍物反应区时出现急弯。指数函数 \(s_i(\xi)\) 保证机器人在进入真实反应区后虚拟障碍物不再起作用。图 3 改进后的复合向量场虚拟障碍物提前引导方向最后将向量场预计算在网格地图上实时查表获取当前引导方向再根据最大向心加速度约束进行速度规划确保高速行驶不侧滑。 2.2 实时自适应建模深度Koopman 稀疏GP机器人动力学往往是非线性的且模型参数会随工况变化。作者先用深度神经网络学习Koopman算子把非线性系统映射到一个高维线性空间但这个离线模型仍然存在误差。于是引入稀疏高斯过程FITC用在线数据实时补偿将建模为GP得到补偿后的线性模型14并可以解析求出雅可比矩阵15。这个模块就是图1中的模块B让VF-RL能够在模型失配和外部扰动下依然保持稳定。图4对比了有/无在线模型补偿VF-RL w/ ML vs w/o ML的横向跟踪误差。可以看到w/ ML的平均误差显著更低尤其在里程后半段模型已在线更新差距更明显。图 4 在线模型补偿显著降低横向跟踪误差 2.3 滚动时域强化学习在安全边界内寻优在向量场给出的参考路径附近RL负责生成最优控制输入。作者设计了一个指数型障碍函数当机器人接近安全边界时代价指数上升。同时在预测时域内用两个核函数网络actor/critic近似最优值函数和最优策略并给出迭代更新规则31。Theorem 1 证明了值函数序列和控制序列收敛到最优解Theorem 2 通过构造Lyapunov函数证明了闭环系统稳定。图5直观展示了安全边界约束下的机器人轨迹不同时刻的快照清楚显示了车辆始终保持在允许区域内。图 5 安全边界约束下的轨迹快照 2.4 仿真与实车验证仿真1静态动态避障CarSim图6对比了VF-RL与LMPCC、MPC-CBF、RHRL-KDP、CFS五种方法。VF-RL提前偏转方向路径最平滑、长度最短MPC-CBF用圆形包络椭圆导致绕远CFS和LMPCC出现紧急避障导致超调RHRL-KDP受约束影响网络发散。表I定量显示VF-RL的综合代价J_MC最低45.84单步计算时间0.01s远低于其他方法的0.07~0.15s。图 6 五种方法避障轨迹对比仿真2多动态障碍物图7和表II中VF-RL路径长度最短48.37m、平均曲率最小0.178 m⁻¹计算效率依然最高。图 7 多动态障碍物场景结果仿真3四旋翼图8展示了VF-RL在四旋翼上的3D轨迹跟踪成功避开静态和突然出现的动态障碍物证明了框架对不同机器人平台的通用性。图 8 四旋翼3D避障轨迹实车实验红旗E-HS3图9展示了四个典型场景静态八字绕桩避障、多动态障碍物主动避让、带边界约束的路径跟踪、以及图10的越野场景。所有测试中车辆稳定运行最高车速3m/s证明了VF-RL在真实非结构化环境中的鲁棒性和实时性。图 9 红旗E-HS3实车实验结果图 10 越野场景俯视图03 创新点①向量场RL的深度耦合而非简单拼接以往向量场只作为路径规划器输出给下层控制器VF-RL把向量场嵌入RL的优化框架——向量场给出“安全方向”作为参考RL在此基础上修正。虚拟障碍物的引入让向量场本身也具备了“预判”能力彻底解决了传统向量场的死锁和突变问题。②在线模型补偿的工程化实现深度Koopman稀疏GP的组合既利用了Koopman的全局线性化优势又用GP在线补偿残差且雅可比矩阵可解析求导可直接用于RL的策略梯度。图8的对比很有说服力。③滚动时域RL的收敛性与稳定性证明在预测时域内用核函数网络近似最优策略并给出actor-critic的更新规则31Theorem 1和2分别证明了收敛性和稳定性这在RLMPC的混合方法中并不多见。④多平台、多场景的充分验证从CarSim仿真到四旋翼再到红旗实车从静态避障到动态避障再到越野道路实验设计非常全面。特别是实车3m/s的速度在非结构化越野场景中已经相当有挑战性。⑤计算效率的显著优势单步计算0.01s比传统非线性MPC0.15s快一个数量级。这意味着VF-RL可以跑在更低成本的嵌入式平台上工程部署潜力大。04 总结与展望这篇工作的最大启发是与其让RL从零摸索避障规则不如先给RL一个“安全驾驶手册”。向量场提供的就是这样一个手册——它不完美但方向正确RL负责在手册的基础上应对动态变化和模型误差。两者结合既保留了传统方法的可解释性和安全性又吸收了数据驱动方法的适应性。当然当前框架也有局限向量场生成的路径只考虑了运动学和向心加速度未完全满足高阶动力学约束RL策略的安全保证仍然是概率性的极端情况下可能失效。未来研究将聚焦于以下几个方向动力学的深度耦合当前向量场主要考虑几何路径和速度上限未来可融入更复杂的动力学约束如横摆角速度、侧向加速度变化率生成真正“可执行”的引导路径。安全备份策略RL策略的收敛性虽然理论上有保证但实际训练中仍可能偶发异常。可设计一个基于CBF或势函数的备份控制器在RL输出可疑时接管。多机器人协同将单机VF-RL扩展到多机器人场景向量场需要处理机器人之间的互斥避让RL则需要学习协调策略。端到端视觉-动作当前框架依赖状态观测位置、速度未来可直接从视觉输入端到端学习但需要解决向量场在图像空间中的定义问题。在您的机器人项目中您更倾向于使用纯优化方法如MPC还是学习方法如RL欢迎在评论区分享您的看法。声明本文仅供学术交流版权归原作者所有。如有错误或侵权请联系更正或删除欢迎留言探讨。

更多文章