基于 LSTM 的预期奖励深度强化学习在移动机器人避障中的应用.pdfVIP

下载本文档

1
0
约2.1万字
约 7页
2025-10-13 发布于北京
举报

基于 LSTM 的预期奖励深度强化学习在移动机器人避障中的应用.pdf

基于LSTM的预期奖励深度强化学习在移动机器人避障中的

应用

OlivierPoulet,FrédéricGuinand,FrançoisGuérin

Abstract—本文提出了一种基于短期预测代理位置的碰度Q网络（DQN）、基于策略的方法或演员-评论家[9]。

撞风险预见方法。该方法使用了一个基于过去轨迹训练的长短

期记忆（LSTM）模型来估计每个机器人的下一个位置。这种

DQN需要使用能够考虑到大量输入测量值的神

预测使我们能够通过动态调节深度Q学习网络（DQN）代理

的奖励来定义预期的碰撞风险。该方法在一个受限环境中进行经网络，例如机器人的运动学测量值、与目标相关

了测试，在此环境中，两个机器人在没有通信或标识符的情况的信息以及外部传感器（如LiDAR[6]）的测量值。

下移动。尽管采样频率有限（1Hz），结果表明碰撞次数显著LiDAR可以提供超过一百个测量值（碰撞点）来覆盖

本减少并且稳定性有所提高。所提出的方法计算成本较低，特别

整个环境。通过融合不同的传感器也可以实现环境检

译适合嵌入式系统的实现。测，这可以增强自主车辆中障碍物检测和避碰系统的

中I.介绍鲁棒性[10]。

v在许多移动机器人场景中，代理必须在共享和

1奖励函数是帮助代理做出最佳决策的关键问题。

4受限的空间（仓库、走廊、城市环境等）中协作或

9奖励影响学习算法的有效性[11]。

7共存，并不一定具有显式的标识符、通信或对其他

0.人的意图或轨迹的了解[1]。关于形状相同且不使奖励塑形的使用带来了一个额外的组件，鼓励或

8用显式标识符或直接通信的移动机器人的案例，在

0惩罚冒险行为以避免可能的碰撞[12]。在强化学习背

5科学文献中的研究仍然较少。开创性的文章是关于

2景下，奖励塑形是一种基于环境先验知识向代理提供

:模式形成的研究[2]，[3]。我们考虑的机器人没有

v额外奖励的技术，旨在加速学习。一个特定的方法

i标识符或独特的形状，并以自主方式工作。它们具

x[13]被称为基于潜力的奖励塑形（PBRS），确保当添

r有相同的低级控制算法并且彼此之间没有任何通

a加这些奖励时最优策略保持不变。

信。每个移动机器人同时（同步）接收其他机器人

的坐标并记住自己之前的动作。这种框架使得很难

函数是通过一个势能函数定义的，该

选出一个领导者[4]来进行协调和规划[5]。对于我

势能函数为每个状态分配一个值：

们的防碰撞系统的具体设计，机器人匿名假设不交

换标识符并使用深度强化学习[6]或像Voronoi距

(1)

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于 LSTM 的预期奖励深度强化学习在移动机器人避障中的应用.pdfVIP