- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于用户黏性视角的档案信息资源开发路径探索
摘要 2017年5月,一个举世瞩目的标志着人工智能进入一个全新阶段的事件发生了,AlphaGo战胜了世界围棋第一人柯洁。AlphaGo作为目前最先进的人工智能,采用了深度强化学习作为核心算法,这也使得深度强化学习走进了人们的视线,受到了广泛的关注。与已经研究开发许久的深度学习相比,深度强化学习的应用领域更为广阔,游戏、智能机器人、图像处理、视频处理、自然语言处理等均是深度强化学习可应用的领域。本文探讨的深度Q学习方法,即DQN,就是一种深度强化学习算法。深度强化学习是将深度神经网络和强化学习算法互相结合而最终形成的。而基于优先级的深度Q学习方法,又是在深度Q学习方法应用层次上又进一步的优化,因为它充分地结合了优先经验回放这一概念。结果表明,基于优先级的深度Q学习方法在实际的运用中比Q-learning方法效率更高,能更好地满足用户的需求。 关键词:深度强化学习;深度学习;深度Q学习方法;优先经验回放 前言 强化学习是人工智能最为重要的一项技术,为大家所熟知的AlphaGo、AlphaGo Zero正是应用了这项先进的技术。随着时代与技术的进步,大数据、高性能计算和深度学习技术取得了飞快的进步,发展的情势也是蓬勃向上,强化学习算法以及它的一些应用引起的关注越来越多,进步的速度也越来越快。在工业界和学术界,这些学习技术被越来越多地应用与研究,特别是将强化学习与深度学习相互结合而发展起来的深度强化学习技术。在计算机领域强化学习的应用最为频繁,这也说明了强化学习在计算机方面赢得了巨大的胜利,同时强化学习在很多领域也被认作是实现人工智能最有发展前景的方法,如汽车智能驾驶、机器人控制、人机对话、过程优化决策与控制等。强化学习有强化学习的长处,深度学习也有着深度学习的优点,深度强化学习正是将两者相互联结发展的,是在强化学习的基础上的更上一层楼。本文完成的主要工作及创新点: (1)介绍深度强化学习的基本概念。 (2)剖析深度Q学习方法的基本原理以及主要技术。 (3)将优先经验回放应用到深度Q学习方法之中。 (4)通过模型分析比较深度Q学习方法和基于优先级的深度Q学习方法。 (5)通过实验总结深度Q学习方法的优缺点。 第一章 绪论 1.1研究背景及其意义 1.1.1研究背景 在我们人类在思考应当如何学习或者说真正的学习状态应该是什么样时,首当其冲我们会想到的就是我们的行为对周围环境造成一定影响,环境也对我们的行为作出反馈,我们从中学习进步。在日常生活中,无论我们是在交流谈话还是学习驾驶车辆,我们都能清楚地意识到环境对于我们行为的种种回应,我们都是试图通过自己的行为来影响接下来发生的事情。我们所知道的几乎所有的智能系统的理论基础都是从互动中学习,这些理论基础同时也是强化学习的基础。那么强化学习的思想是何时被提出来的呢,这个我们可以追溯到20世纪初了,接下来近一个世纪的蓬勃发展,强化学习与运筹学、心理学、认知科学、计算智能、智能控制、优化理论等等学科形成了密切的联系,是一个典型的多学科交叉领域。 强化学习是机器学习里面的一个重要部分,能够控制个体在某种场景下自主地执行一些动作是强化学习所善长的,通过不断地与环境进行交互,不断地改进智能体地行为。强化学习所要解决的主要问题是让agent学习如何做,如何将从环境中收集的信息转变为行动,并以此获得最大的回报。在强化学习的过程中,通常被我们称作学习器的就是来确定策略的智能体,在当前状态下接下来应执行什么动作学习器是不会被告知的,而是通过不断的反复尝试运行,来寻找得到最大奖赏的行为。一般的情况下,当前的行为不仅会改变到当前的奖赏,而且会改变到下个时间点的环境,因此后续所有的奖赏都会受到影响。从根本上来说,强化学习是一个闭环控制问题,因为学习系统的行为会改变环境,环境对后续的行为又会产生一定的改变。这就是我们常说的闭环学习,数据是动态的,加上一些标签,通过一定的联结方式,模型的优化与数据的产生就会相互关联,并将动态的反馈信号引入学习过程的一种学习范式[1]。强化学习是闭环学习范式的典型代表。 1.1.2意义 强化学习所要解决的问题是序贯决策问题[2]。下面我们来解释一下序贯决策问题的概念。为了能够实现最终的目的,我们必须连续不断的作出决策来解决的问题就是序贯决策问题。强化学习是不在乎输入的内容到底是什么的,重点在于为了实现最终目标当前输入下应该采取什么样的动作。所要强调的是,当前采取什么动作与最终的目标是有关的。换句话说,要使整个任务序列达到最优,当前应该采取的动作应当将之考虑进去。由于起步阶段智能体处于的状态也不清楚要采取何种动作对
原创力文档


文档评论(0)