神经元级别的元强化学习算法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

神经元级别的元强化学习算法研究

摘要

深度学习神经网络在学习率高时由于权值改变量过大而跳过局部最优解或全局最优

解,造成训练不稳定,要求具有低学习率。如何提高深度强化学习的收敛效率且保持训

练稳定是需要解决的重要问题之一。元强化学习可以根据历史数据提高强化学习的收敛

效率、奖励值等性能,不会跳过局部或全局最优解,可以实现较高学习率。本文提出了

一种基于神经元级别的元强化学习方法,使用元强化学习模型替代神经元节点,通过时

间序列模型改变强化学习神经元的权值,替代传统强化学习模型梯度下降的学习方法,

加速强化学习权值更新速度,用更少的训练次数实现在相同计算资源下更快的模型收敛。

具体内容如下:

首先,利用时间序列模型学习元强化学习的神经元权值改变量,改变时序模型的中

间状态,进而实现最大化加权奖励值和。这种两阶段方法的特点是先用时间序列模型学

习神经元的反向传播过程,再使用时间序列模型改变主模型参数,以提升模型收敛速度。

为解决两阶段训练法存在的参数更新的不稳定问题,另提出一个统一的元强化学习框架,

该算法不考虑外部模型的权值改变量,仅以外部奖励值作为信号引导智能体更新参数。

实现了元强化学习层面的更稳定的训练和强化学习层面的更高奖励值。

其次,使用决策Transformer模型实现强化学习,并利用时间序列模型学习元强化学

习的神经元权值改变量。决策Transformer模型在元强化学习层面具有奖励值和更高的特

点,可以让强化学习过程收敛更快。

最后,本文在OpenAI的Gym平台的MuJoCo环境中进行实验,两阶段神经元级别的

元强化学习最终实现了收敛速度比传统模型提高了7.3%,单阶段神经元级别的元强化学

习最终实现了收敛速度比传统模型提6.2%,基于决策Transformer的神经元级别的元强化

学习最终实现了收敛速度比传统模型提高11.7%。实验结果证明神经元级别的元强化学习

实现了更快的收敛效果。

关键词:元强化学习;时间序列模型;决策Transformer;神经元;

哈尔滨工程大学专业学位硕士学位论文

Abstract

Whenthelearningrateishigh,thedeeplearningneuralnetworkskipsthelocaloptimal

solutionortheglobaloptimalsolutionduetoexcessivechangesinweights,resultinginunstable

trainingandrequiringalowlearningrate.Howtoimprovetheconvergenceefficiencyofdeep

reinforcementlearningandmaintaintrainingstabilityisoneoftheimportantissuesthatneed

tobesolved.Meta-reinforcementlearningcanimprovetheconvergenceefficiency,reward

valueandotherperformancesofreinforcementlearningbasedonhistoricaldata.Itwillnotskip

thelocalorglobaloptimalsolutionandcanachieveahigherlearningrate.Thispaperproposes

ameta-reinforcementlearningmethodbasedontheneuronlevel,usingthemeta-reinforcement

learningmodeltoreplaceneuronnodes,changingtheweightsofreinforcementlearning

neuronsthroughthetimese

文档评论(0)

拥有快乐的你 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档