平均DQN算法.docxVIP

下载本文档

148
0
约8.08千字
约 10页
2017-07-27 发布于湖北
举报
版权申诉

平均DQN算法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

平均DQN算法

平均DQN算法：降低和稳定方差对于深度增强学习深度增强学习（DRL）算法的不稳定性和可变性往往会对其性能产生不利影响。平均DQN是DQN算法的简单扩展，基于平均先前学习的Q值估计，其导致更稳定的训练过程并且通过减少目标值中的近似误差方差来提高性能。为了理解算法的效果，我们进行了研究，价值函数估计误差的来源，并在简化模型中提供分析比较。我们进一步展示Arcade Learning Environment基准测试的实验结果，显示出由于提出的扩展而显着提高了稳定性和性能。 PS:（DQN算法面向的是相对简单的离散输出，输出动作有限）深度Q网络输出Q值，通过随机梯度下降法更新深度Q网络，需要知道损失函数（偏差量的平方），损失函数可以由目标Q值通过均方差的方式求得。（减少目标值与当前值的相关性）在增强学习（RL）中，代理人寻求一个顺序决策问题的最优策略（Sutton＆Barto，1998）。它通过学习哪个动作来实现对于每个环境状态都是最佳的。随着时间的推移，已经引入了许多算法来解决包括Q-学习在内的RL问题（Watkins＆Dayan， 1992），SARSA（Rummery＆Niranjan，1994; Sutton＆Barto，1998）和政策梯度Sutton等，1999）。这些方法经常在设置中进行分析线性函数近似，其中在温和假设下保证收敛（Tsitsiklis，1994; Jaakkolaet al。，1994; Tsitsiklis＆Van Roy，1997; Even-Dar＆Mansour，2003）。在实践中，现实世界的问题通常涉及高维输入，强制线性函数近似方法，而不是手工工程特征针对问题特定状态表示。这些问题的具体特征降低了代理的灵活性，因此出现了一种表现力和灵活的非线性函数近似的需求。除了少数成功的尝试（例如，TD-gammon，Tesauro（1995）），考虑了非线性函数近似和RL的组合不稳定，即使在简单的领域也表现出分歧（Boyan＆Moore，1995）。最近的深度Q网络（DQN）算法（Mnih等，2013），是第一个成功结合电力 - 已知的非线性函数近似技术作为深层神经网络（DNN）（LeCun等，1998;Krizhevsky等人，2012）以及Q-学习。 DQN提出了非常灵活和稳定的算法，在大多数游戏中显示成功街机学习环境（ALE）（Bellemare et al。，2013）。 DQN通过打破提高训练稳定性将RL问题转化为顺序监督学习任务。为此，DQN引入了目标网络的概念并使用经验池（ER）（Lin，1993）。在DQN工作之后，对基本算法的额外修改和扩展进一步提高了培训的稳定性。 Schaul等人（2015）建议复杂的ER抽样策略。许多作品扩展了标准的RL探索技术来处理高维输入（Bellemare et al。，2016; Tang et al。，2016; Osband et al。2016）。 Mnih等人（2016年）表明，ER的抽样可以用来自并行环境的异步更新替代（这使得可以使用政策方法）。 Wang等（2015）提出了基于优势函数分解的网络架构（Baird III，1993）。在这项工作中，我们解决了由Q学习和函数近似组合引起的问题。 Thrun＆Schwartz（1993）首先调查了这些被称为过高估计现象的这些问题之一。Q学习中的最大运算符可能导致在存在噪声的情况下高估状态值。范哈斯泰特（2015）提出使用双重Q学习估计器（Van Hasselt，2010）的双DQN方法作为解决问题的方法。另外，Van Hasselt等（2015）表明，Q学习过高估计确实发生在实践中（至少在ALE中）。基于平均先前学习的Q值估计，这项工作提出了高估估计现象的不同解决方案，称为平均DQN（第3节）。平均值降低目标近似误差方差（第4和5节），这导致稳定性和改进的结果。另外，我们提供实验结果Arcade Learning Environment的精选游戏。 DQN算法的一个新颖的延伸，使训练稳定，并提高了获得的性能，通过对先前学习的Q值进行平均。在本节中，我们详细介绍了相关的RL背景，具体来说就是Q学习算法。 2.1我们考虑通常的RL学习框架（Sutton＆Barto，1998）。一个代理人面临一个顺序的决定，与环境相互作用的问题，在离散的时间步长（t = 0,1，...）发生。在时间t代理观察状态s∈S，选择一个动作一个t∈A，导致标量回报r t∈R，a 转换到下一个状态s t + 1∈S。我们认为是无限的平价问题与折扣累计奖励ob- 目标R t =P∞t 0 = tγt 0 -t r t 0，其中γ∈[0,1]是dis-计数因子代理人的目标是找到最优的政策π