- 1、本文档共83页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于深度强化学习的移动机器人在动态环境下路径规划研究
摘要
随着科学技术的发展,移动机器人已经深入到各种生产和生活实践中,为人类提供
了极大的便利。路径规划问题是移动机器人技术中的一个研究热点,本论文以TurtleBot3
Burger移动机器人为研究对象,以完成移动机器人在动态环境下的路径规划任务为目标,
TD3TwinDelayedDeepDeterministicPolicyGradient
基于()算法,研究了移动机器人
在动态环境下的路径规划算法。针对任务中该算法表现出的问题,设计了基于改进TD3
的路径规划算法,对比研究结果显示较好地提高了路径规划性能。
论文首先在ROS系统环境下,通过设计Turtlebot3Burger移动机器人模型文件,并
且根据其特性以及实验需求,编写了环境文件,在Gazebo中实现了可视化的机器人模
型和动态仿真实验环境。在此基础上建立并分析了移动机器人运动学模型,结合激光雷
达原理和动态环境参数,确定了实验中机器人的状态空间、动作空间和奖励函数,并设
计了基于TD3算法的移动机器人在动态环境下路径规划算法框架及仿真实验。在仿真
实验中,算法实现了路径规划任务,但训练收敛时间过长,在测试环节中成功率也并不
高。
然后,论文从四个方面分析了TD3算法在动态环境路径规划任务中上述问题的成
因,并针对其分别设计了改进方法。其中,设计采用优先经验回放解决失败经验对训练
过程的影响;利用迁移学习,在当前训练中获得合适的初始权重参数进行下一次训练,
缩短训练时间;引入OU噪声,优化训练中移动机器人的探索方式;设计了动态延迟更
新方法,使更新步长更合理,从而有效避免了局部极小值的影响。将这些改进方法整合
到TD3算法中,形成改进TD3算法,分别应用在动静态环境路径规划任务中,通过对
比实验,验证了改进TD3算法有效性。其中,在动态环境仿真实验中,改进TD3算法
DDPGDeepDeterministicPolicyGradient
相对()算法在相同动态仿真环境下测试成功
率提高了22.4%,训练总用时缩短了约2h。相对TD3算法,在测试成功率上提高了16.6%,
训练时间缩短了约3h,验证了基于改进TD3算法的动态环境下路径规划算法的性能提
升。
最后,由于改进TD3算法是在特定环境中的仿真实验,为验证该算法对不同环境
的适应性,建立了两种递进的复杂动态环境,设计了包含互相独立的训练环节和测试环
节的泛化能力实验。实验训练收敛情况良好,且测试结果显示移动机器人到达目标点的
成功率分别达到了91.3%和85.5%,显示改进TD3算法应对移动机器人在动态环境下路
径规划问题时有较强泛化能力。
基于深度强化学习的移动机器人在动态环境下路径规划研究
关键词:移动机器人;路径规划;动态环境;改进TD3算法
基于深度强化学习的移动机器人在动态环境下路径规划研究
ABSTRACT
Thedevelopmentofscienceandtechnologyhasledtothewidespreaduseofmobile
robotsinvariousproductionanddailyactivities,whichhasgreatlybenefitedhumans.The
problemofpathplanningisaresearchhotspotinmobilerobottechnology.Focusedonthis
issue,theTurtleBot3Burgermobilerobotwasusedastheresearchsubject,andtocomplete
thepathpl
您可能关注的文档
- 基于联合检测的多目标跟踪方法研究.pdf
- 基于联合检测的轻量化多目标跟踪算法研究.pdf
- 基于联合注意力的改进U网络血管分割算法研究.pdf
- 基于流动控制技术降低孔腔噪声方法研究.pdf
- 基于气凝胶的多层复合材料降噪隔热性能研究.pdf
- 基于气—热—固耦合的压气机叶尖间隙与特性预估方法研究.pdf
- 基于迁移学习的试验环境反演分析方法研究.pdf
- 基于迁移学习的水中目标识别方法.pdf
- 基于迁移学习的小样本命名实体识别方法研究.pdf
- 基于迁移学习的轴承故障智能诊断方法研究.pdf
- DB44_T 2607.4-2025 滨海蓝碳碳汇能力调查与核算技术指南 第4部分:盐沼.pdf
- DB43_T 3178-2024 烟叶农场建设管理要求.pdf
- DB37_T 4838-2025 含氢分布式综合能源系统运行优化指南.pdf
- DB37_T 4834-2025 高速公路集中养护工作指南.pdf
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
文档评论(0)