6 强化学习DeepMind综述深度强化学习中的快与慢,智能体应该像人一样学习.docxVIP

6 强化学习DeepMind综述深度强化学习中的快与慢,智能体应该像人一样学习.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【强化学习】DeepMind综述深度强化学习中的快与慢,智能体该当像人一样学习 2020-04-16 原文 选自Trends In Cognitive Sciences 作者:Matthew Botvinick等 机器之心编译 机器之心编辑部 近年来,深度强化学习方法给人工智能领域带来了很大的进展,在很多领域都超越了人类表现,比如雅达利玩耍、围棋和无限制德扑。不过虽然它们很强大,但学习效率的低下让它们很难推广到更普遍的任务,或许结合「快」与「慢」的学习才是强化学习该当走的路。 DeepMind 争辩者近期在 Trends In Cognitive Sciences 期刊上发表文章,概览了深度强化学习中的一些新技术,这些技术旨在弥补强化学习智能体与人类之间的学习速度鸿沟。正如上个月打 TI 8 的 OpenAI Five,它相当于人类玩了「4 万 5 千年」的 Dota 2 玩耍,假如智能体能像人类那样「快学习」,或许它的学习能更高效。 其实很多人认为深度强化学习样本效率低下,学习过程过于缓慢,无法供应了解人类学习的牢靠模型。在本文中,DeepMind 争辩人员利用最近开发的技术反对了这一批判。这些技术允许深度强化学习更机警地进行操作,能够比之前的方法更快速地处理问题。 深度强化学习的快与慢 近期的 AI 争辩引出了强大的技术,如深度强化学习。深度强化学习将表示学习和嘉奖驱动的行为结合起来,好像与心理学和神经科学具备内在的相关性。然而深度强化学习需要大量训练数据,这表明深度强化学习算法与人类学习的底层机制存在根本区分。 当这一担忧被带到深度强化学习第一波浪潮时,后续的 AI 工作创建了一些方法,允许深度 RL 系统更快、更高效地学习。两种好玩且有前景的技术分别是 episodic memory 和元学习。 除了作为 AI 技术以外,利用 episodic memory 和元学习的深度 RL 方法还在心理学和神经科学上有直接且好玩的使用。这些技术揭示了一个微妙但格外重要的洞见,即学习的快与慢之间的基础联系。 深度强化学习的「慢」是指每一个任务都要极其浩大的试错过程,它不能像人类那样利用阅历或学问快速学习。但这种慢却也格外有优势,智能体能找到更好的处理方案、更具有创新性的观点等等。反观深度学习的「快」,我们期望借助决策阅历,挂念智能体快速学习新任务与新学问。 或许结合了「快」与「慢」的强化学习,才是以后真正抱负的强化学习。 强大但慢速:第一波深度强化学习 从这个角度来看,AI 争辩中一个极具吸引力的领域是深度强化学习。深度强化学习将神经网络建模和强化学习相结合。过去几十年来,深度强化学习一直可望而不行及。直到过去五年里,它强势进展为 AI 争辩中最激烈的领域之一,在多种任务(比如视频玩耍、扑克、多人玩耍和简单的棋盘玩耍)中超越人类表现。 原论文 BOX 1 图 1:深度强化学习的代表性示例。 除了 AI 领域以外,深度强化学习好像对心理学和神经科学也有着特殊的爱好。深度 RL 中驱动学习的机制最后是受动物条件作用争辩启发的,并被认为与基于嘉奖学习(以多巴胺为中心)的神经机制亲密相关。 同时,深度强化学习利用神经网络来学习支持泛化和迁移的强大表征,而这正是生物大脑的核心力量。鉴于这些联系,深度 RL 好像为对人类和动物学习感爱好的争辩者供应了丰富的想法和假设,无论是行为还是神经科学层面。而这些争辩者也的确开头将目光转向深度强化学习。 同时,对第一波深度强化学习争辩的评论也敲响了警钟。乍一看,深度强化学习系统的学习方式与人类截然不同。有人认为,这种差异在于二者的样本效率。样本效率是指学习系统达到任何选定的目标功能所需的数据量。 依据这一衡量标准,最后的深度 RL 系统的确与人类学习者有着很大区分。为了在雅达利视频玩耍等任务上达到媲美人类专家的水平,深度 RL 系统需要比人类专家多得多(多几个数量级)的训练数据 [22]。简而言之,最后的深度 RL 速度太慢,无法为人类学习供应可信的模型。 这一评论的确适用于自 2013 年消灭的第一波深度 RL。但,此后不久,深度 RL 开头发生重要转变,其样本效率急剧提升。这些方法降低了深度 RL 对大量训练数据的需求,使其速度大大加快。这些计算技术的消灭使得深度 RL 成为人类学习的候选模型,以及心理学和神经科学的见解来源。 本文中,DeepMind 争辩人员认为有两个关键的深度 RL 方法缓解了其样本效率问题:episodic deep RL 和元强化学习。他们探究了这两种方法是如何加快深度 RL 的,并考虑了深度 RL 对于心理学和神经科学的潜在影响。 Episodic 深度强化学习:通过 episodic memory 进行快速学习 假如增量参数调整是深度 RL 学习速度慢的一个缘由

您可能关注的文档

文档评论(0)

bob157641554 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档