策略梯度算法中最优基线技术的研究.pdf

下载文档

0
0
约9.18万字
约 52页
2025-02-08 发布于江西
举报
版权申诉
保障服务

策略梯度算法中最优基线技术的研究.pdf

1、本文档共52页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要

深度强化学习是目前机器学习研究中的热点领域，结合了深度学习的强大特征提

取能力和强化学习的决策能力，在理论研究和实际应用中取得了巨大的成功。无模型

强化学习是深度强化学习领域中的一个灵活的框架，不需要对环境建模而是直接学习

决策策略。策略梯度算法是深度强化学习领域中的一类广泛使用的无模型强化学习方

法，它在解决具有挑战性的强化学习问题方面取得了显著的成功。然而，策略梯度算

法一直受到梯度估计方差大的困扰，这导致训练过程中的样本效率较差，策略梯度更

新不稳定。最优基线技术是减小梯度估计方差的有效方法，它保证在无偏估计的情况

下，最大程度地减小了策略梯度估计的方差。

然而，现有的最优基线技术只使用标量值作为基线，忽略了策略梯度各维度之间

的差异，策略梯度估计是一个随机向量而不是随机变量这一事实在很大程度上被忽略

了。针对此，本文提出一种向量基线概念并将其引入到基于参数探索的策略梯度算法

（PGPE）中，推导得到PGPE算法对应的最优向量基线表示。在理论上证明了引入最

优向量基线的策略梯度算法具有更小的梯度估计方差。此外，本文在Pendulum-v0实

验下分别以具体参数下梯度估计的方差和偏差、参数更新过程中方差变化以及所学策

略的性能三个方面验证所提算法的有效性。实验结果表明，与最优标量基线相比，引

入最优向量基线的策略梯度算法具有更小的策略梯度估计方差，梯度更新更加稳定。

最后，将本文所提方法在智能控制领域进行应用，选取MuJoCo平台下的Ant-v3、

HalfCheetah-v2和Walker2D等机器人控制任务进行仿真实验。实验结果表明，引入最

优向量基线的PGPE算法在高维空间任务中都取得了很好的效果，智能体能够很好的

完成行走等任务，进一步验证了所提方法的有效性。

关键词：深度强化学习；策略梯度；梯度估计；控制变量；方差

ABSTRACT

Deepreinforcementlearningisahottopicinmachinelearningresearch.Itcombinesthe

powerfulfeatureextractionabilityofdeeplearningwiththedecision-makingabilityof

reinforcementlearningandhasachievedgreatsuccessintheoreticalresearchandpractical

applications.Model-freereinforcementlearningisaflexibleframeworkinthefieldofdeep

reinforcementlearning,whichdirectlylearnsdecision-makingstrategieswithoutmodeling

theenvironment.Amongthem,policygradientmethodsisakindofmodel-free

reinforcementlearningmethodwidelyusedinthefieldofdeepreinforcementlearning,and

ithasachievedremarkablesuccessinsolvingchallengingreinforcementlearningproblems.

However,thepolicygradientmethodhasbeenplaguedbylargevarianceofgradient

estimation,whichleadstopoorsampleefficiencyandunstableupdatingofpolicygradient

inthetrainingprocess.Theoptimalbaselinetechniqueisaneffectivemethodtoreducethe

varianc

您可能关注的文档

文档评论（0）

论文资源 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

策略梯度算法中最优基线技术的研究.pdf