基于 LSTM 的预期奖励深度强化学习在移动机器人避障中的应用.pdfVIP

  • 1
  • 0
  • 约2.1万字
  • 约 7页
  • 2025-10-13 发布于北京
  • 举报

基于 LSTM 的预期奖励深度强化学习在移动机器人避障中的应用.pdf

基于LSTM的预期奖励深度强化学习在移动机器人避障中的

应用

OlivierPoulet,FrédéricGuinand,FrançoisGuérin

Abstract—本文提出了一种基于短期预测代理位置的碰度Q网络(DQN)、基于策略的方法或演员-评论家[9]。

撞风险预见方法。该方法使用了一个基于过去轨迹训练的长短

期记忆(LSTM)模型来估计每个机器人的下一个位置。这种

DQN需要使用能够考虑到大量输入测量值的神

预测使我们能够通过动态调节深度Q学习网络(DQN)代理

的奖励来定义预期的碰撞风险。该方法在一个受限环境中进行经网络,例如机器人的运动学测量值、与目标相关

了测试,在此环境中,两个机器人在没有通信或标识符的情况的信息以及外部传感器(如LiDAR[6])的测量值。

下移动。尽管采样频率有限(1Hz),结果表明碰撞次数显著LiDAR可以提供超过一百个测量值(碰撞点)来覆盖

本减少并且稳定性有所提高。所提出的方法计算成本较低,特别

整个环境。通过融合不同的传感器也可以实现环境检

译适合嵌入式系统的实现。测,这可以增强自主车辆中障碍物检测和避碰系统的

中I.介绍鲁棒性[10]。

1

v在许多移动机器人场景中,代理必须在共享和

1奖励函数是帮助代理做出最佳决策的关键问题。

4受限的空间(仓库、走廊、城市环境等)中协作或

9奖励影响学习算法的有效性[11]。

7共存,并不一定具有显式的标识符、通信或对其他

0.人的意图或轨迹的了解[1]。关于形状相同且不使奖励塑形的使用带来了一个额外的组件,鼓励或

8用显式标识符或直接通信的移动机器人的案例,在

0惩罚冒险行为以避免可能的碰撞[12]。在强化学习背

5科学文献中的研究仍然较少。开创性的文章是关于

2景下,奖励塑形是一种基于环境先验知识向代理提供

:模式形成的研究[2],[3]。我们考虑的机器人没有

v额外奖励的技术,旨在加速学习。一个特定的方法

i标识符或独特的形状,并以自主方式工作。它们具

x[13]被称为基于潜力的奖励塑形(PBRS),确保当添

r有相同的低级控制算法并且彼此之间没有任何通

a加这些奖励时最优策略保持不变。

信。每个移动机器人同时(同步)接收其他机器人

的坐标并记住自己之前的动作。这种框架使得很难

函数是通过一个势能函数定义的,该

选出一个领导者[4]来进行协调和规划[5]。对于我

势能函数为每个状态分配一个值:

们的防碰撞系统的具体设计,机器人匿名假设不交

换标识符并使用深度强化学习[6]或像Voronoi距

(1)

文档评论(0)

1亿VIP精品文档

相关文档