基于样本效率优化的策略梯度算法研究.pdf

基于样本效率优化的策略梯度算法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于样本效率优化的策略梯度算法研究

摘要

随着计算机硬件的发展以及算力的提升,深度强化学习算法目前在虚拟环境比如游

戏、推荐系统等都得到了广泛应用,但较低的样本效率制约着该算法在现实任务中的落

地。针对深度强化学习算法样本效率偏低的问题,从提升环境探索能力以及样本利用效

率入手,通过引入混合策略熵及Kumaraswamy策略分布函数,提出了一种混合策略熵

且不存在边界效应问题的策略梯度算法。

首先,针对探索环境能力不足的问题,提出了基于混合策略熵的策略梯度算法。强

化学习算法获得高样本效率的前提是需要智能体能够充分的探索环境,因此将体现算法

对环境探索能力的策略熵作为目标函数的一部分。为了进一步增强策略的不确定性,本

研究选择的策略熵是下一时刻状态的策略熵及该时刻策略熵的混合策略熵。通过将两个

状态的策略熵结合可以确保既能提高算法对环境的探索能力,又能避免算法对环境探索

出现偏差导致策略优化方向出现问题。

其次,针对边界效应影响算法效率的问题,提出了以有界的Kuma分布作为策略分

布的Kuma策略,并用其替换高斯策略的策略梯度算法。目前常用的策略梯度算法的策

略分布基本都是高斯分布,在解决有界的任务会产生边界效应进而产生偏差,这种偏差

会影响到样本利用效率。Kuma策略有着区间有界、易于计算的特点,更能满足实际动

作的分布需要。该种策略是在策略梯度算法的策略分布上进行的调整,因此可以将其应

用于所有的策略梯度算法。

最后,为了验证提出的两种对策略梯度算法改进后的算法效果,分别在OpenAI的

公开环境Gym以及MuJoCo对其进行了验证。以Gym环境中的MontainCar任务为例,

本文改进版的策略梯度算法和作为基线算法的PPO算法对比,不仅能够在实验进行的

初期得到上升速度较快的奖励值,而且完成该任务中花费的时间仅为基线算法的60%,

且算法稳定性更好,可以验证对策略梯度算法的改进提高了算法的样本效率。

关键词:深度强化学习;策略梯度算法;样本效率;策略熵;Kumaraswamy分布

基于样本效率优化的策略梯度算法研究

ABSTRACT

Ascomputerhardwarecontinuestodevelopandcomputationalpowerincreases,deep

reinforcementlearning(DRL)algorithmshaveseenwidespreadapplicationinvirtual

environmentssuchasgamesandrecommendationsystems.However,therelativelylowsample

efficiencyofthesealgorithmslimitstheirdeploymentinreal-worldtasks.Toaddresstheissue

oflowsampleefficiencyinDRLalgorithms,thisresearchfocusesonenhancingenvironmental

explorationcapabilitiesandsampleutilizationefficiency.Byintroducingamixturepolicy

entropyandtheKumaraswamypolicydistributionfunction,anewpolicygradientalgorithm

withoutboundaryeffectissuesisproposed.

Firstly,tosolvetheproblemofinsufficientabilitytoexploretheenvironment,thepolicy

gradientalgorithmbasedonmixedpolicyentropyispresented.

文档评论(0)

拥有快乐的你 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档