基于强化学习的四足机器人运动控制方法研究.pdfVIP

基于强化学习的四足机器人运动控制方法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于强化学习的四足机器人运动控制方法研究

摘要

四足机器人近年来蓬勃发展,并应用于未知危险环境或无人区域执行探索和救援等

任务。机器人不仅会受到环境表面非规则地形、地面塌陷等恶劣条件的影响,还要面临

感知信息缺失、不可预知的外界干扰等多重挑战,这也对运动控制器的运动能力、鲁棒

性、稳定性和适应性提出了更高的要求。强化学习旨在使智能体通过与环境的交互来学

习最优控制策略,最终构成从原始传感数据到系统控制输入的端到端机器人控制器,为

机器人控制领域的动力学建模、环境感知以及运动控制等难题带来了新思路。尽管强化

学习在四足机器人运动控制中有许多优势,但是鲁棒性、迁移部署、学习效率等方面的

挑战也限制了其在四足机器人运动控制中的广泛应用。

本文立足于课题组研发的四足机器人,从不确定环境下的强化学习值函数估计误差

难控制和多目标跟踪控制器从仿真到现实迁移部署难等问题出发,扫清强化学习在四足

机器人运动控制任务上的应用障碍;探索强化学习在四足机器人上的深度应用,解决显

式状态估计模块可靠性差和高动态运动敏捷性不足等问题,提高四足机器人在未知环境

下的抗干扰能力和高动态运动能力。

1

()针对不确定环境下的强化学习值函数估计难控制,导致现有先进异策略强化

学习算法在四足机器人上表现不佳的问题,提出一种基于分配式值函数的集成演员评论

家算法。在最大熵强化学习框架基础上,引入分配式值函数方法,并学习集成值函数模

型,实现更准确的值函数建模,获得更高质量的不确定性估计,从而更细粒度的控制估

计误差。使用统一值函数近似器同时学习不同程度的置信度策略,每个策略在值函数低

估和高估之间有不同的权衡,从而学习到强大的表征和技能集。足式机器人基准仿真环

境中的实验结果表明,提出的算法获得了更准确的值函数估计值,显著提高了学习的样

本效率和控制策略性能。

2

()针对仿真环境与真实机器人差异大,控制器迁移部署后性能显著下降的问题,

提出一种适用于多目标跟踪任务的仿真训练环境构建方案。根据四足机器人运动任务的

特点,设计适配的奖励函数和动作空间,引导智能体在准确跟踪速度和方向指令的同时,

优化运动平稳性、安全性和能量效率等多种目标。通过识别真实机器人质量、惯量、尺

寸和关节摩擦系数等关键信息,建立机器人关节摩擦模型;采集关节电机输出扭矩样本

构造训练集,基于深度神经网络建立电机输出扭矩模型,降低仿真动力学模型的建模误

哈尔滨工程大学博士学位论文

差。训练过程中随机采样仿真机器人的质量、惯量等动力学变量,扩展仿真动力学范围,

提高控制器泛化能力。实验结果表明,学习的控制器能够几乎无损失的零样本迁移部署

在真实机器人上,稳定的跟踪速度和方向指令,并具有更好的运动稳定性和能量效率。

3

()针对显式状态估计模块可靠性差,四足机器人抗干扰能力不足的问题,提出一

种基于特权学习的隐式特征识别算法。基于特权学习引入了教师学生架构的两段式训练

方法,使用本体感知观测扩展历史的一维卷积模型,学习从本体感知观测历史到接触、

速度等状态信息的隐式推理。针对机器人在极端工况下可能会出现功率、电流过高损坏

机器人物理硬件的问题,实现了网络输出动作的功率和电流保护两种约束,确保控制器

输出的电机指令不会造成机器人硬件损坏。实验结果表明,所提出的方法可以在不依赖

显式状态估计模块的情况下,识别机器人和环境关键特征,提高机器人对外部冲击的抵

抗能力和响应速度,并具有更强的摔倒后自主恢复能力。

4

()针对现有四足机器人运动敏捷性不足,以及大范围指令跟踪任务奖励稀疏导

致的强化学习训练难的问题,提出一种能提高运动敏捷性的后验自动课程学习算法。采

用多种指令综合指标开展控制策略的性能表现定期评价,自动调整网格化的奖励系数和

环境域随机化参数分布,逐步提高任务难度,从而使控制策略逐渐适应更难的运动任务

并提高运动技能。改进后验经验回放以适配四足机器人运动任务,将特定指令的策略所

生成的样本在相邻策略中共享并重新计算奖励,实现训练的样本的无偏扩充。仿真和真

实机器人的实验结果表明,提出的课程学习算法相比与同类基准算法在指令跟踪精度和

运动敏捷性上具有明显优势。

通过研究基于强化学习的四足机器人运动控制方法,提高了机器人在不可预知复杂

外界环境下的多目标跟踪能力、抗干扰能力和机动能力,能够为基于强化学习的四足

文档评论(0)

n1u1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档