- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
哈尔滨理工大学电子信息硕士学位论文
基于深度强化学习的机械臂控制方法研究
摘要
机械臂控制在工业自动化和人机交互等领域具有广泛的应用前景。然而,
由于机械臂具有高度非线性和复杂的动力学特性,同时复杂环境会引入噪声和
不确定性等因素,致使传统的控制方法往往难以满足在执行操作任务时对精确
性和鲁棒性的要求。近年来,深度强化学习作为一种新兴的控制方法,通过结
合神经网络和强化学习算法,为机械臂控制提供了一种新的解决方案。但对于
较长的控制序列,强化学习算法还存在训练时间长、收敛困难和学习效果差等
问题。因此,本文以机械臂抓取控制任务为应用背景,对深度确定性策略梯度
(DeepDeterministicPolicyGradient,DDPG)强化学习方法进行改进,提升策
略模型的学习效果和最终性能。
首先,本文针对深度强化学习以高维图像信息作为状态输入信息直接学习
导致学习效率低、训练效果差的问题,设计非对称Actor-Critic网络结构。充
分利用在仿真环境中准确的低维状态信息,用来训练Critic网络,有利于加速
价值函数的学习,减少策略梯度的方差,从而稳定和加快策略网络的学习。添
加状态预测辅助任务,以促进从图像观测中学习有效的状态表示,在UR5机
械臂仿真平台上进行实验验证。
其次,考虑环境因素对获取准确的图像信息造成较大的影响,将触觉信息
相融合。对于稀疏奖励设置问题,引入内在奖励机制,在状态空间中添加力传
感器反馈信息,提出了触觉优先经验重放算法,优先采样对抓取任务有意义的
信息,提高样本利用率,并通过仿真实验进行分析。
最后,针对复杂任务中奖励函数设计困难,且没有先验知识的帮助从零开
始学习难度大,容易使策略模型陷入局部最优无法推进搜索的问题,引入模仿
学习,提出了确定性生成对抗模仿学习方法。将DDPG和GAN网络相结合,
使用判别器从专家演示数据中学习奖励函数,DDPG作为学习动作策略的生成
器,并对该方法的有效性、稳定性进行了仿真实验验证。
关键词机械臂;深度强化学习;非对称Actor-Critic;内在奖励;模仿学习
-I-
哈尔滨理工大学电子信息硕士学位论文
ResearchonManipulatorControlMethodBasedon
DeepReinforcementLearning
Abstract
Manipulatorcontrolhasawiderangeofapplicationsinindustrialautomation
andhuman-computerinteraction.However,duetothehighlynonlinearandcomplex
dynamicsofmanipulators,andtheintroductionofnoiseanduncertaintyincomplex
environments,thetraditionalcontrolmethodsareoftendifficulttomeetthe
requirementsofaccuracyandrobustnessinperformingmanipulationtasks.Inrecent
years,asanemergingcontrolmethod,deepreinforcementlearningprovidesanew
solutionformanipulatorcontrolbycombiningneuralnetworksandreinforcement
learningalgorithms.Howeve
文档评论(0)