网站大量收购独家精品文档,联系QQ:2885784924

基于分层强化学习的翼伞轨迹跟踪控制.pdfVIP

基于分层强化学习的翼伞轨迹跟踪控制.pdf

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

目录

目录I

摘要I

AbstractI

1.绪论1

1.1研究背景1

1.2相关工作和研究现状2

1.2.1翼伞气动力学与控制策略2

1.2.2深度强化学习3

1.2.3深度分层强化学习6

1.3本文主要研究内容8

2.分层强化学习与翼伞航迹跟踪仿真环境10

2.1深度强化学习10

2.2分层强化学习11

2.2.1子模块切换与混合12

2.2.2基于option的分层强化学习12

2.3翼伞航迹跟踪仿真环境13

3.基于分层强化学习的翼伞航迹跟踪控制15

3.1概述15

3.2风向级别划分及风向子控制器15

3.2.1马尔可夫决策过程15

3.2.2风向级别与预设航迹的分类17

3.2.3网络结构18

3.2.4顺、逆、侧风子控制模型训练19

3.3子模块切换控制模型21

3.4子模块集成控制模型22

3.5基于option框架的分层强化学习控制模型24

4.实验结果与分析27

4.1实验基本设置27

4.1.1预设航迹数据集参数27

4.1.2强化学习训练参数28

4.1.3评价指标29

4.2风向子控制模型性能分析29

4.3不同分层控制器性能分析30

4.4消融分析31

4.4.1训练参数对控制器性能的影响31

4.4.2子模块切换模型输出动作时间对控制器性能的影响

32

5.总结和展望34

参考文献35

致谢38

贵州师范大学学位论文原创性声明39

贵州师范大学学位论文使用授权书39

摘要

无动力翼伞是一种依靠气流进行飞行的飞行装备,通过操作下拉

左右后缘以实现转向。由于受外界环境干扰明显,精确稳定的实现翼

伞系统的轨迹跟踪非常困难。强化学习旨在通过与环境的交互来学习

如何做出最优决策。其中,分层强化学习作为其衍生方法之一,通过

将复杂任务分解成若干简单子任务并构建层次化的决策过程来简化

学习问题,每一层的策略都有具体的目标,这些目标共同作用于解决

整体问题。分层强化学习模仿了人类解决复杂问题的方式,也因此提

供了一种潜在的有效途径,以在复杂环境条件下精确和稳定地控制无

动力翼伞飞行。

本文探索分层强化学习在翼伞航迹跟踪控制任务中的应用,基于

分层强化学习算法在9-DOF翼伞仿真环境中训练航迹跟踪控制器,

以实现翼伞对目标航迹的精准跟踪。为适应不同风向条件下的航迹跟

踪要求,首先,通过控制训练轨迹(根据风方向与飞行方向的夹角将

轨迹划分为顺风,侧风和逆风三个类别),利用强化学习PPO算法训

练出三个航迹跟踪子控制模型;然后,固定底层子控制模型,基于PPO

算法训练子模型切换和子模型集成上层控制模型,实现分层强化学习

控制;最后,基于传统的option分层强化学习算法框架,设计优化策

略终止函数,进一步提高了航迹跟踪子模型切换的灵活性。

仿真实验结果显示,在三种风向条件下,所提出的强化学习翼伞

航迹跟踪子控制模型都具有超越通用控制模型的性能;所提出的强化

学习分层控制模型能够高效地适应风向变化,在仿真任务中实现了精

确和稳定的翼伞航迹跟踪;采用分层强化学习框架和优化策略终止函

数进一步提升了模型的灵活性和鲁棒性,使其能够更好地应对复杂的

环境条件。

关键词:强化学习;分层强化学习;航迹跟踪控制;

Abstract

Anunpoweredparafoilisaflyingdevicethatreliesonairflowtofly.

Theleftandrighttrailingedgesarepulleddowntoa

文档评论(0)

论文资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档