- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
深度强化学习是目前机器学习研究中的热点领域,结合了深度学习的强大特征提
取能力和强化学习的决策能力,在理论研究和实际应用中取得了巨大的成功。无模型
强化学习是深度强化学习领域中的一个灵活的框架,不需要对环境建模而是直接学习
决策策略。策略梯度算法是深度强化学习领域中的一类广泛使用的无模型强化学习方
法,它在解决具有挑战性的强化学习问题方面取得了显著的成功。然而,策略梯度算
法一直受到梯度估计方差大的困扰,这导致训练过程中的样本效率较差,策略梯度更
新不稳定。最优基线技术是减小梯度估计方差的有效方法,它保证在无偏估计的情况
下,最大程度地减小了策略梯度估计的方差。
然而,现有的最优基线技术只使用标量值作为基线,忽略了策略梯度各维度之间
的差异,策略梯度估计是一个随机向量而不是随机变量这一事实在很大程度上被忽略
了。针对此,本文提出一种向量基线概念并将其引入到基于参数探索的策略梯度算法
(PGPE)中,推导得到PGPE算法对应的最优向量基线表示。在理论上证明了引入最
优向量基线的策略梯度算法具有更小的梯度估计方差。此外,本文在Pendulum-v0实
验下分别以具体参数下梯度估计的方差和偏差、参数更新过程中方差变化以及所学策
略的性能三个方面验证所提算法的有效性。实验结果表明,与最优标量基线相比,引
入最优向量基线的策略梯度算法具有更小的策略梯度估计方差,梯度更新更加稳定。
最后,将本文所提方法在智能控制领域进行应用,选取MuJoCo平台下的Ant-v3、
HalfCheetah-v2和Walker2D等机器人控制任务进行仿真实验。实验结果表明,引入最
优向量基线的PGPE算法在高维空间任务中都取得了很好的效果,智能体能够很好的
完成行走等任务,进一步验证了所提方法的有效性。
关键词:深度强化学习;策略梯度;梯度估计;控制变量;方差
ABSTRACT
Deepreinforcementlearningisahottopicinmachinelearningresearch.Itcombinesthe
powerfulfeatureextractionabilityofdeeplearningwiththedecision-makingabilityof
reinforcementlearningandhasachievedgreatsuccessintheoreticalresearchandpractical
applications.Model-freereinforcementlearningisaflexibleframeworkinthefieldofdeep
reinforcementlearning,whichdirectlylearnsdecision-makingstrategieswithoutmodeling
theenvironment.Amongthem,policygradientmethodsisakindofmodel-free
reinforcementlearningmethodwidelyusedinthefieldofdeepreinforcementlearning,and
ithasachievedremarkablesuccessinsolvingchallengingreinforcementlearningproblems.
However,thepolicygradientmethodhasbeenplaguedbylargevarianceofgradient
estimation,whichleadstopoorsampleefficiencyandunstableupdatingofpolicygradient
inthetrainingprocess.Theoptimalbaselinetechniqueisaneffectivemethodtoreducethe
varianc
您可能关注的文档
- “新型元宇宙”中电子化身的版权化研究.pdf
- A县农信社个人线上贷款营销策略研究.pdf
- A制造公司员工创新行为提升策略研究.pdf
- BIM技术在建筑工程造价全过程管理中的应用研究.pdf
- BM公司组织绩效管理优化研究.pdf
- CuS基多响应形状记忆聚合物复合材料的制备及性能研究.pdf
- DMFC用多元过渡金属_GN_PANI复合催化剂的制备及性能研究.pdf
- Fe-Co_碳基复合材料的微结构调控及吸波性能研究.pdf
- GQDs_TiO2纳米纤维异质结的构建及其光降解性能研究.pdf
- G银行Z分行客户经理绩效考核体系优化研究.pdf
- 11篇教师参加2022版新《义务教育英语课程标准》专家教授解读培训学习心得体会研读收获教研交流发言9 .pdf
- 我国“互联网+农业”的发展现状、趋势及发展对策研究13000字【论文】 .pdf
- 全国职业院校技能大赛高职组(区块链技术应用赛项)备赛试题库(含答案) .docx
- 双语新闻阅读与练习 (含答案)--高考英语备考专题复习 .pdf
- 集团公司采购预算变更控制管理制度 .docx
- 浙江S电气股份有限公司绩效管理探究【数据论文】6300字 .docx
- 2024年市管理局所属事业单位公开商调工作人员考试题及答案 .pdf
- 执业助理医师(临床)考试备考重点题及答案 .pdf
- Unit5SchoolthingsLet’sstart!Let’sread!(课件)新交际英语(级上册.pptx
- 中考英语考点复习七年级(下)Units1~3(教材知识梳理课件练习)《三步冲刺中考英语》之第1步重课本理考点(人教版).pptx
文档评论(0)