网站大量收购独家精品文档,联系QQ:2885784924

基于深度强化学习的移动机器人路径规划方法研究.pdf

基于深度强化学习的移动机器人路径规划方法研究.pdf

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

路径规划作为移动机器人领域的关键技术之一,对确保机器人操作的安全性、提

高作业效率及增强智能行为水平具有显著影响。传统路径规划算法面对未知环境缺

乏自主学习能力,存在实时性差、路径冗余、依赖高精度传感器等问题。深度强化学

习算法因不依赖先验地图信息且拥有自主学习能力,在未知环境下的移动机器人路

径规划任务中得到了广泛应用。本文面向静态环境和拥挤环境(即动态人群环境)两

种移动机器人路径规划任务场景,针对当前深度强化学习算法在移动机器人路径规

划应用中存在的学习效率低、规划能力不强的问题提出了两种算法,使移动机器人能

够自主、高效地完成路径规划任务。本文研究内容主要如下:

(1)针对深度强化学习算法在移动机器人路径规划应用中存在的学习效率低、

决策效果差的问题,本文在SAC(SoftActor-Critic)算法基础上提出了ARL-DSAC

算法,首先提出辅助奖励函数,用于提升算法在路径规划中的探索效率,进而提高算

法学习效率。其次结合所提出的奖励,采用离散动作空间的SAC算法。最后修改SAC

网络架构,引入长短期记忆LSTM(LongShort-TermMemory)网络,综合利用历史

状态、当前状态做出更优的决策,进一步提高算法规划能力。实验结果表明,ARL-

DSAC算法有更高的学习效率和成功率,且泛化能力有所提升。

(2)针对移动机器人在拥挤环境训练过程中存在样本利用率低、严重依赖专家

经验的问题,本文从样本质量和样本利用率两个角度考虑,在基于社交图的双决斗深

度Q网络SG-D3QN(SocialGraph-basedDoubleDuelingDeepQ-network)算法基础

上提出CPMP-SGD3QN算法。首先提出候选动作模块,结合传统路径规划算法最优

互反避碰ORCA(OptimalReciprocalCollisionAvoidance)算法,与SG-D3QN算法

并行运行生成两个候选动作,设计动作选择策略从两个候选动作中选出最优动作执

行,提高训练初期样本质量,并在一定程度上增加安全性。其次引入多步(Multi-step)

思想和优先经验回放技术,提出分阶段多步优先经验回放方法,提高学习效率和样本

利用率。实验结果表明,提出的算法有效提高了学习效率,增强了移动机器人面对不

同数量行人的避障能力。

关键词:深度强化学习;路径规划;移动机器人;静态环境;拥挤环境

I

目录

摘要I

ABSTRACTII

1绪论1

1.1研究背景与意义1

1.2国内外研究现状2

1.2.1传统路径规划算法2

1.2.2基于强化学习的路径规划算法3

1.3研究内容及章节安排6

1.3.1研究内容6

1.3.2章节安排6

2相关知识9

2.1深度强化学习基础9

2.1.1神经网络9

2.1.2深度强化学习算法分类10

2.2路径规划基础14

2.2.1跳点搜索算法15

2.2.2最优互反避碰算法16

2.2.3基于社交图的双决斗深度Q网络16

2.3本章小结17

3静态环境下的移动机器人路径规划算法19

3.1状态空间与动作空间设计19

3.2奖励函数设计21

3.2.1环境奖励21

3.2.2信息熵21

3.2.3辅助奖励22

3.3基于LSTM的网络结构设计24

3.4算法流程与步骤24

3.5仿真环境及参数设计26

3.6仿真结果与分析27

您可能关注的文档

文档评论(0)

qiutianfeng + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档