基于值函数的强化学习方法及应用研究.docVIP

下载本文档

83
0
约5.68千字
约 10页
2021-01-15 发布于北京
举报
版权申诉

基于值函数的强化学习方法及应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于值函数的强化学习方法及应用研究摘要：Q-learning是一种流行的无模型的强化学习方法。学习者通过不断地与环境互动获得新知识，并反过来改进自己的行动策略，最终得到在马尔科夫决策过程中以最佳方式行事的能力。然而，Q-learning对动作值函数的估计会有一个正偏差，这使得Q-learning在一些随机环境中的表现不及预期中的那么好。为了解决这种偏差，在此基础上提出了Double Q-learning方法。Double Q-learning方法的革新之处在于使用了双估计器方法，这种方法有时会低估而不是高估最大期望值。已有的工作表明，在许多顺序决策场景中，Double Q-learning方法在性能上优于Q-learning，但仍无法避免绝对偏差。于是，本文接着介绍了Weighted Q-learning，它基于样本均值的加权平均来估计最大期望值，可以有效避免估计的偏差。本文研究分析了Q-learning以及其变种Double Q-learning在估计最大期望值时产生误差的内在原因，并证明了Weighted Q-learning的确能有效避免这种误差。在理论分析的基础上，设计了格子世界的仿真实验以观察集几种算法在生产环境中的表现情况，并将实验结果和理论结果相互验证。为了观察几种算法Q值在迭代过程中的变化，本文可视化了格子世界的实验结果，以颜色深浅来表示每个格子Q值的大小，更加直观易懂。本文最后对于强化学习未来的发展前景提出了自己的设想和展望。关键词：马尔科夫决策过程;最大期望值估计;基于值函数的强化学习方法;Q-learning 第一章绪论 1.1 研究背景及意义对人类来说，学习的本质是什么呢?当我们思考这个问题的时候，我们首先应该想到的是我们是通过与环境的不断互动来进行学习的。一个婴儿天生便会挥舞手臂，自己玩耍，正因为我们生来便处于与环境的不断互动与联系中。随着婴儿渐渐长大，一些联系便会在脑海中逐渐根深蒂固，比如好好学习就会有糖吃，上课迟到就会被罚站等，于是我们便学会了。在我们的生活中，这种与环境的交互无疑是我们的主要知识来源。无论我们是学习驾驶汽车还是举行对话，我们都非常清楚我们的环境如何回应我们的行为，并且我们试图通过改变自我的行为来影响环境的反馈。从与环境交互的过程中学习是几乎所有的机器学习方法理论的基础。根据与环境交互的不同，机器学习可以分为监督学习(Supervised Learning)、非监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning)3类[1]。在监督学习和非监督学习中，数据是静态的不需要与环境进行交互，比如图像识别，只要给足够的差异样本，将数据输入到深度网络中进行训练即可。而强化学习主要的工作是如何在与环境不断地交互中建立一个状态到动作的映射，从而达到最大化回报的目的。强化学习的学习过程是个动态的，不断交互的过程，所需要的数据也是通过与环境不断地交互产生的。所以，与监督学习和非监督学习相比，强化学习涉及到的对象更多，比如动作，环境，状态转移概率和回报函数等。另外，深度学习如图像识别和语音识别解决的是感知的问题，强化学习解决的是决策的问题。人工智能的终极目的是通过感知进行智能决策。所以，将近年发展起来的深度学习技术与强化学习算法结合而产生的深度强化学习算法是人类实现人工智能终极目的的一个很有前景的方法。在许多机器学习问题中，收集到每个随机变量的样本值后，我们常常需要估计这些变量的最大期望值(MEV)[2]。例如，在强化学习中，我们可以通过在每个状态下都采取达到最大预期累积奖励的行动来找到最佳策略。在一个状态中，动作的最优值依赖于其所能达到的最大期望值。由于学习过程中的误差是通过状态-行为对来传播的，所以在估计最大期望值时，所采用的估计器的表现将会影响学习速度[3]。最常见的估计器是最大估计量(Maximum Estimator, ME)，它涉及到使用最大样本均值来估计最大期望值。在使用单一估计器时，令是一组无偏估计量，使得对于所有本文探究的重点基于值函数的强化学习方法已被证明能找到全局最优策略，它在一些诸如扫地机器人寻路，格子游戏等小规模强化学习问题中有着非常好的性能，但仍存在如上述对最大期望值估计不准确的问题，本文将一一探究这些方法，并做仿真实验模拟算法效果。 1.2 研究现状早期的强化学习的发展主要包括两条主线，一个是涉及动物心理学的试错学习，另一个设计最优控制问题以及使用值函数和动态规划的解决方案。20世纪50年代后期，理查德贝尔曼等人提出了最优控制理论，使用动态系统状态和值函数的概念来定义一个函数方程，现在我们常称之