- 1
- 0
- 约2.1万字
- 约 7页
- 2025-10-13 发布于北京
- 举报
基于LSTM的预期奖励深度强化学习在移动机器人避障中的
应用
OlivierPoulet,FrédéricGuinand,FrançoisGuérin
Abstract—本文提出了一种基于短期预测代理位置的碰度Q网络(DQN)、基于策略的方法或演员-评论家[9]。
撞风险预见方法。该方法使用了一个基于过去轨迹训练的长短
期记忆(LSTM)模型来估计每个机器人的下一个位置。这种
DQN需要使用能够考虑到大量输入测量值的神
预测使我们能够通过动态调节深度Q学习网络(DQN)代理
的奖励来定义预期的碰撞风险。该方法在一个受限环境中进行经网络,例如机器人的运动学测量值、与目标相关
了测试,在此环境中,两个机器人在没有通信或标识符的情况的信息以及外部传感器(如LiDAR[6])的测量值。
下移动。尽管采样频率有限(1Hz),结果表明碰撞次数显著LiDAR可以提供超过一百个测量值(碰撞点)来覆盖
本减少并且稳定性有所提高。所提出的方法计算成本较低,特别
整个环境。通过融合不同的传感器也可以实现环境检
译适合嵌入式系统的实现。测,这可以增强自主车辆中障碍物检测和避碰系统的
中I.介绍鲁棒性[10]。
1
v在许多移动机器人场景中,代理必须在共享和
1奖励函数是帮助代理做出最佳决策的关键问题。
4受限的空间(仓库、走廊、城市环境等)中协作或
9奖励影响学习算法的有效性[11]。
7共存,并不一定具有显式的标识符、通信或对其他
0.人的意图或轨迹的了解[1]。关于形状相同且不使奖励塑形的使用带来了一个额外的组件,鼓励或
8用显式标识符或直接通信的移动机器人的案例,在
0惩罚冒险行为以避免可能的碰撞[12]。在强化学习背
5科学文献中的研究仍然较少。开创性的文章是关于
2景下,奖励塑形是一种基于环境先验知识向代理提供
:模式形成的研究[2],[3]。我们考虑的机器人没有
v额外奖励的技术,旨在加速学习。一个特定的方法
i标识符或独特的形状,并以自主方式工作。它们具
x[13]被称为基于潜力的奖励塑形(PBRS),确保当添
r有相同的低级控制算法并且彼此之间没有任何通
a加这些奖励时最优策略保持不变。
信。每个移动机器人同时(同步)接收其他机器人
的坐标并记住自己之前的动作。这种框架使得很难
函数是通过一个势能函数定义的,该
选出一个领导者[4]来进行协调和规划[5]。对于我
势能函数为每个状态分配一个值:
们的防碰撞系统的具体设计,机器人匿名假设不交
换标识符并使用深度强化学习[6]或像Voronoi距
(1)
您可能关注的文档
- 使用发育图元胞自动机增长水库.pdf
- C-供应链链接预测的级联多模态属性图.pdf
- 基于信息瓶颈的因果注意力机制在多标签医学图像识别中的应用.pdf
- 第九届手语翻译与虚拟人技术研讨会(SLTAT 2025).pdf
- 多模态自适应专家混合模型在冷启动推荐中的应用.pdf
- 诚实的两个恶设施位置游戏带有可选偏好和最小距离约束.pdf
- O-RAN 中的鲁棒异常检测:利用 LLMs 对抗数据操纵攻击.pdf
- 减轻手术室中的偏见问题与几何学的关系.pdf
- 连接 ASR 和 LLMs 以识别构音障碍语音:自我监督和生成方法的基准测试.pdf
- 更精确的扰动-克尔バック-莱布勒指数尾界对 Beta 和 Dirichlet 分布的应用.pdf
原创力文档

文档评论(0)