- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
神经元级别的元强化学习算法研究
摘要
深度学习神经网络在学习率高时由于权值改变量过大而跳过局部最优解或全局最优
解,造成训练不稳定,要求具有低学习率。如何提高深度强化学习的收敛效率且保持训
练稳定是需要解决的重要问题之一。元强化学习可以根据历史数据提高强化学习的收敛
效率、奖励值等性能,不会跳过局部或全局最优解,可以实现较高学习率。本文提出了
一种基于神经元级别的元强化学习方法,使用元强化学习模型替代神经元节点,通过时
间序列模型改变强化学习神经元的权值,替代传统强化学习模型梯度下降的学习方法,
加速强化学习权值更新速度,用更少的训练次数实现在相同计算资源下更快的模型收敛。
具体内容如下:
首先,利用时间序列模型学习元强化学习的神经元权值改变量,改变时序模型的中
间状态,进而实现最大化加权奖励值和。这种两阶段方法的特点是先用时间序列模型学
习神经元的反向传播过程,再使用时间序列模型改变主模型参数,以提升模型收敛速度。
为解决两阶段训练法存在的参数更新的不稳定问题,另提出一个统一的元强化学习框架,
该算法不考虑外部模型的权值改变量,仅以外部奖励值作为信号引导智能体更新参数。
实现了元强化学习层面的更稳定的训练和强化学习层面的更高奖励值。
其次,使用决策Transformer模型实现强化学习,并利用时间序列模型学习元强化学
习的神经元权值改变量。决策Transformer模型在元强化学习层面具有奖励值和更高的特
点,可以让强化学习过程收敛更快。
最后,本文在OpenAI的Gym平台的MuJoCo环境中进行实验,两阶段神经元级别的
元强化学习最终实现了收敛速度比传统模型提高了7.3%,单阶段神经元级别的元强化学
习最终实现了收敛速度比传统模型提6.2%,基于决策Transformer的神经元级别的元强化
学习最终实现了收敛速度比传统模型提高11.7%。实验结果证明神经元级别的元强化学习
实现了更快的收敛效果。
关键词:元强化学习;时间序列模型;决策Transformer;神经元;
哈尔滨工程大学专业学位硕士学位论文
Abstract
Whenthelearningrateishigh,thedeeplearningneuralnetworkskipsthelocaloptimal
solutionortheglobaloptimalsolutionduetoexcessivechangesinweights,resultinginunstable
trainingandrequiringalowlearningrate.Howtoimprovetheconvergenceefficiencyofdeep
reinforcementlearningandmaintaintrainingstabilityisoneoftheimportantissuesthatneed
tobesolved.Meta-reinforcementlearningcanimprovetheconvergenceefficiency,reward
valueandotherperformancesofreinforcementlearningbasedonhistoricaldata.Itwillnotskip
thelocalorglobaloptimalsolutionandcanachieveahigherlearningrate.Thispaperproposes
ameta-reinforcementlearningmethodbasedontheneuronlevel,usingthemeta-reinforcement
learningmodeltoreplaceneuronnodes,changingtheweightsofreinforcementlearning
neuronsthroughthetimese
您可能关注的文档
最近下载
- 人工智能教学课件.ppt VIP
- 公司与员工签订车辆使用协议(2024两篇) .pdf VIP
- 小森LS-40印刷机保养操作指导07.pdf VIP
- 2024-2025学年深圳市育才三中小升初入学分班考试语文试卷附答案解析.pdf VIP
- 咖啡瑞幸咖啡美国上市招股说明书中文全译版本.pdf
- 2023年深圳市南山区育才三中小升初分班考试数学模拟试卷及答案解析.pdf VIP
- 涵管埋设施工技术方案.docx VIP
- 2018-2019、2021-2022年重庆邮电大学《808数字电路与逻辑设计》历年硕士真题汇总.pdf VIP
- 初中化学装置气密性的检验.pptx VIP
- 原理1-经济学概述.ppt VIP
文档评论(0)