网站大量收购独家精品文档,联系QQ:2885784924

结合真实数据与仿真环境的强化学习翼伞控制研究.pdf

结合真实数据与仿真环境的强化学习翼伞控制研究.pdf

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

目录

目录I

摘要III

ABSTRACTIV

1.绪论1

1.1.研究背景1

1.2.相关工作研究现状2

1.2.1.翼伞仿真2

1.2.2.翼伞控制算法3

1.2.3.强化学习5

1.3.本文主要内容7

2.环境有/无偏移时的翼伞控制性能分析8

2.1.概述8

2.2.翼伞仿真环境介绍8

2.3.环境无偏时强化学习控制与传统算法控制的性能对比10

2.4.环境有偏时强化学习算法的性能表现13

3.结合真实数据与仿真环境的翼伞控制算法16

3.1.概述16

3.2.马尔科夫决策过程建模16

3.3.VTAC算法17

3.4.VTAC算法各模块20

3.4.1.变分自动编码器(VAE)20

3.4.2.Transformer21

3.4.3.Actor-Critic23

4.实验与分析25

4.1.VTAC算法测试的实验条件与设置25

4.2.VTAC算法测试实验的评价指标26

4.3.VTAC算法测试结果分析27

4.4.真实数据数量对VTAC算法性能的影响分析28

4.5.真实数据质量对VTAC算法的影响分析29

4.6VAE模块对VTAC算法的影响分析30

5.总结与展望32

5.1.全文总结32

5.2.工作展望32

参考文献34

致谢38

贵州师范大学学位论文原创性声明39

贵州师范大学学位论文使用授权书39

摘要

近年来,用强化学习替代传统控制算法已成为运动控制领域一个研究趋势。

由于翼伞投放实验成本高,针对翼伞控制的强化学习算法主要在仿真环境中进行

验证,而强化学习结合仿真环境这个框架下训练的控制器在落地真实环境中时常

遭遇性能下降问题。本文针对这个重要实际问题展开分析、研究和实验,设计了

一种结合真实数据与仿真环境训练控制器的强化学习算法来减轻这种性能下降。

本文基于翼伞仿真环境设计实验,分析了强化学习在翼伞自动控制问题上相

比传统控制算法的性能优势。并通过构造多个不同仿真环境并模拟控制器从一个

仿真环境迁移应用到其他仿真环境,分析和验证了环境偏移对强化学习控制器性

能的影响。为了降低环境偏移影响,本文组合变分自动编码器(VAE,Variational

Auto-Encoder)、Transformer网络结构和Actor-Critic算法设计了一种组合使用真

实数据和仿真环境的VTAC强化学习算法。算法中的VAE部分用来从真实数据

(使用真人或者某个控制器在真实环境中控制翼伞飞行得到的数据)学习控制规

则;Actor-Critic部分从仿真环境中在线学习;Transformer作为控制器网络,其

同时接收来自VAE部分的输出以及来自仿真环境的观测作为输入,并最终输出

运动控制量。该方法有望兼有两个优点,即利用仿真环境廉价和快速产生足量飞

行数据来训练控制器模型,同时减少环境偏移造成的控制器模型性能下降(因为

也充分学习了已有的真实环境中的飞行数据)。

本文对VTAC算法在环境有偏移的工作状况下进行了大量实验,实验结果

表明,相比于仅在仿真环境中使用强化学习训练的翼伞控制器,结合真实数据与

仿真环境训练的VTAC控制器在环境有偏移的工作状况下的性能下降情况得到

了有效减弱。本文还对VTAC算法,传统PID控制器以及经典强化学习算法PPO

进行了性能比较,并且实验分析了VAE模块、真实数据数量和真实数据质量对

VTAC算法的性能影响。

关键词:强化学习;无动力翼伞;航迹跟踪控制

您可能关注的文档

文档评论(0)

论文资源 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档