仿生水下机器人的增强学习控制方法研究-research on reinforcement learning control method of bionic underwater vehicle.docx

下载文档 降价啦

14
0
约14.37万字
约 166页
2018-05-29 发布于上海
举报
版权申诉
保障服务

仿生水下机器人的增强学习控制方法研究-research on reinforcement learning control method of bionic underwater vehicle.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

仿生水下机器人的增强学习控制方法研究-research on reinforcement learning control method of bionic underwater vehicle

摘要仿生水下机器人是近年来水下机器人领域的研究热点之一。仿生水下机器人复杂的动力学特性和不确定的工作环境使得其运动控制问题非常具有挑战性，直接影响着整体性能的提升。本文针对一类双波动鳍配置的仿生水下机器人，基于在增强学习框架下解决其运动控制问题的研究思路，围绕运动控制问题分析、增强学习算法构建、增强学习姿态镇定、增强学习轨迹跟踪以及试验验证等几方面内容展开研究，主要工作和研究成果包括：（1）从仿生学启示、仿生波动鳍和仿生水下机器人的动力学特性等角度对一类双波动鳍配置仿生水下机器人的运动控制问题进行了系统分析。研究了仿生对象的外部形态和游动特性，基于仿生学启示设计了仿生波动鳍推进器和仿生水下机器人“双仿生波动鳍+双摆动鳍+双自由度仿生鳔”组合推进控制方案，针对实际物理装置开展了仿生波动鳍和仿生水下机器人的推力试验和运动试验，获取了相关的动力学特性，为仿生水下机器人运动控制方法的设计提供了指导。（2）针对机器人控制的实际需求和基本 Q 学习算法的局限性，提出了一种面向实际机器人控制应用的连续状态-动作空间神经 Q 学习算法（CSANQL 算法），综合利用前馈神经网络、学习样本数据库、Q 值估计拟合函数、以及基本 Q 学习算法，实现了在连续状态和连续动作之间的快速有效映射。研究了神经 Q 学习算法的两种实现结构，揭示了基于 Q 值估计拟合函数实现连续动作的机理，分析了学习样本数据库在提高算法学习效率方面的作用，阐明了增强学习算法与仿生水下机器人运动控制的结合途径，为仿生水下机器人增强学习控制方法的研究奠定了基础。（3）针对仿生水下机器人的姿态镇定问题，从学习优化和学习控制两个层次提出并设计实现了增强学习自适应 PID 控制、增强学习控制和监督增强学习控制等三种增强学习姿态镇定方法。研究了基于增强学习的参数自适应机制，分析了学习样本数据库和监督控制在增强学习控制方法中的重要作用，并通过仿真对增强学习控制方法在姿态镇定问题中的有效性进行了初步验证。结果表明，增强学习自适应 PID 控制器能够主动学习最优的 PID 控制器参数，具有较好的姿态镇定性能；以 CSANQL 算法为基础的增强学习控制器的性能受学习样本数据库的影响，当学习样本数据库容量适当时能够有效实现姿态镇定目标；监督控制的引入，加快了学习的收敛速度，确保了学习过程尤其是学习初期输出动作的稳定性，使得监督增强学习控制器具有比增强学习自适应 PID 控制器和增强学习控制器更好的姿态镇定性能。（4）针对仿生水下机器人的轨迹跟踪问题，提出并设计实现了一种基于增强第 i 页学习行为的行为控制结构。从复杂的轨迹跟踪任务中提取推进、偏航和定深等三个基本控制行为作为实现各种轨迹跟踪任务的基础，设计了基于增强学习控制方法的基本控制行为，提出了基于增强学习的行为组合优化方法，并围绕三维空间中的直线轨迹跟踪和曲线轨迹跟踪任务开展了仿真研究。结果表明，增强学习行为控制结构能够快速响应目标运动轨迹，在复杂的多通道轨迹跟踪任务中也具有较好的跟踪控制性能。（5）基于研究组自行研制的仿生水下机器人试验系统，开展了仿生水下机器人增强学习控制方法的试验研究，从姿态镇定和轨迹跟踪两方面进一步验证了论文提出的增强学习控制方法的有效性。研究表明，基于 CSANQL 算法的监督增强学习控制器具有比单纯增强学习控制器或传统 PID 控制器更好的姿态镇定性能；在基于增强学习行为的行为控制结构作用下，仿生水下机器人能够较好地跟踪设定的轨迹跟踪任务。上述研究工作和成果在仿生水下机器人的运动控制问题和增强学习控制方法的实际应用方面进行了有益探索，为在增强学习框架下最终实现仿生水下机器人的高效自主运动控制奠定了基础。关键词：仿生水下机器人；波动鳍；增强学习；神经 Q 学习；连续状态-动作空间；姿态镇定；轨迹跟踪；运动控制第 ii 页AbstractThe bionic underwater robot is one of the hotspots in the underwater robotics research field in recent years. It has complicated dynamic characteristics and uncertain working environments which make the motion control of bionic underwater robots a challenging problem. This thesis takes the bionic underwater robot with two undulating fins as research object, a