网站大量收购独家精品文档,联系QQ:2885784924

针对固定温度SAC算法的改进研究.pdf

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

针对固定温度SAC算法的改进研究

modelfreeDRLDeepReinforcement

当今,无模型(-)深度强化学习算法(:

Learning)已经被成功应用到了具有挑战性的顺序决策和控制任务中。在这些

SAC[1]fixedtemperatureSoftActorCritic

算法中,本文认为固定温度算法(

algorithm)在实验效果上拥有着和其他强化学习算法相比巨大的提升。然而,

SACQ

本文发现固定温度算法中存在优化偏移问题和函数高估问题,这些问

题源于固定温度SAC算法中存在由信息熵函数和传统强化学习目标函数结合

形成的最大熵目标函数。尽管信息熵函数结合传统强化学习目标函数所形成的

最大熵目标函数可以使最大熵强化学习相比传统强化学习具有鼓励探索的效

Q

果,但该方法也会为最大熵强化学习理论带来优化偏移问题以及函数高估问

Q

题。所以本文将深入研究优化偏移问题以及函数高估问题,并且针对这些问

题形成它们的修改方案,从而引出本文的第一个算法,受限制的SAC算法

(CSAC:ConstrainedSoftActorCriticalgorithm)。该算法可以完美解决优

QSAC

化偏移问题以及函数高估问题,同时保持和固定温度算法中最大熵目

标函数相同的鼓励探索效果。然而由于该算法在实验中表现出了测试曲线波动

大的特性,也就是该算法在测试过程中表现出来的稳定性不佳,本文发现稳定

性不佳的原因是出现了利用瓶颈(exploitationbottleneck)问题,因此本文还

会在受限制的SAC算法的基础上改进并提出本文的第二个算法,稳定且受限

的SAC算法(SCSAC:StableConstrainedSoftActorCriticalgorithm)来修

复利用瓶颈问题,也就是提高该算法的稳定性。同时本文还发现在稳定且受限

的SAC算法中的策略改进部分的理论存在最优策略寻找困难的问题,所以本

文将通过第三个算法,进一步改进的稳定且受限的SAC算法(FRSCSAC:

FurtherRevisedStableConstrainedSoftActorCriticalgorithm)来修复在稳定

且受限的SAC算法中存在的最优策略寻找困难的问题。本文提出的3种算法

SACQ

均可以解决固定温度算法中存在的优化偏移问题和函数高估问题并且

SAC3

保持和固定温度算法相同的鼓励探索效果。除此之外,本文提出的种

算法都有大量的理论推导和理论证明来支撑这些算法的提出,所以这些算法在

I

3

理论上具有完备性。最后本文还对上述种算法进行了细致的实验,从算法的

Q

训练效果,测试效果

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档