6 强化学习DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习.docxVIP

下载本文档

19
0
约4.81千字
约 8页
2021-07-17 发布于湖南
举报
版权申诉

6 强化学习DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

【强化学习】DeepMind综述深度强化学习中的快与慢，智能体该当像人一样学习 2020-04-16 原文选自Trends In Cognitive Sciences 作者：Matthew Botvinick等机器之心编译机器之心编辑部近年来，深度强化学习方法给人工智能领域带来了很大的进展，在很多领域都超越了人类表现，比如雅达利玩耍、围棋和无限制德扑。不过虽然它们很强大，但学习效率的低下让它们很难推广到更普遍的任务，或许结合「快」与「慢」的学习才是强化学习该当走的路。 DeepMind 争辩者近期在 Trends In Cognitive Sciences 期刊上发表文章，概览了深度强化学习中的一些新技术，这些技术旨在弥补强化学习智能体与人类之间的学习速度鸿沟。正如上个月打 TI 8 的 OpenAI Five，它相当于人类玩了「4 万 5 千年」的 Dota 2 玩耍，假如智能体能像人类那样「快学习」，或许它的学习能更高效。其实很多人认为深度强化学习样本效率低下，学习过程过于缓慢，无法供应了解人类学习的牢靠模型。在本文中，DeepMind 争辩人员利用最近开发的技术反对了这一批判。这些技术允许深度强化学习更机警地进行操作，能够比之前的方法更快速地处理问题。深度强化学习的快与慢近期的 AI 争辩引出了强大的技术，如深度强化学习。深度强化学习将表示学习和嘉奖驱动的行为结合起来，好像与心理学和神经科学具备内在的相关性。然而深度强化学习需要大量训练数据，这表明深度强化学习算法与人类学习的底层机制存在根本区分。当这一担忧被带到深度强化学习第一波浪潮时，后续的 AI 工作创建了一些方法，允许深度 RL 系统更快、更高效地学习。两种好玩且有前景的技术分别是 episodic memory 和元学习。除了作为 AI 技术以外，利用 episodic memory 和元学习的深度 RL 方法还在心理学和神经科学上有直接且好玩的使用。这些技术揭示了一个微妙但格外重要的洞见，即学习的快与慢之间的基础联系。深度强化学习的「慢」是指每一个任务都要极其浩大的试错过程，它不能像人类那样利用阅历或学问快速学习。但这种慢却也格外有优势，智能体能找到更好的处理方案、更具有创新性的观点等等。反观深度学习的「快」，我们期望借助决策阅历，挂念智能体快速学习新任务与新学问。或许结合了「快」与「慢」的强化学习，才是以后真正抱负的强化学习。强大但慢速：第一波深度强化学习从这个角度来看，AI 争辩中一个极具吸引力的领域是深度强化学习。深度强化学习将神经网络建模和强化学习相结合。过去几十年来，深度强化学习一直可望而不行及。直到过去五年里，它强势进展为 AI 争辩中最激烈的领域之一，在多种任务（比如视频玩耍、扑克、多人玩耍和简单的棋盘玩耍）中超越人类表现。原论文 BOX 1 图 1：深度强化学习的代表性示例。除了 AI 领域以外，深度强化学习好像对心理学和神经科学也有着特殊的爱好。深度 RL 中驱动学习的机制最后是受动物条件作用争辩启发的，并被认为与基于嘉奖学习（以多巴胺为中心）的神经机制亲密相关。同时，深度强化学习利用神经网络来学习支持泛化和迁移的强大表征，而这正是生物大脑的核心力量。鉴于这些联系，深度 RL 好像为对人类和动物学习感爱好的争辩者供应了丰富的想法和假设，无论是行为还是神经科学层面。而这些争辩者也的确开头将目光转向深度强化学习。同时，对第一波深度强化学习争辩的评论也敲响了警钟。乍一看，深度强化学习系统的学习方式与人类截然不同。有人认为，这种差异在于二者的样本效率。样本效率是指学习系统达到任何选定的目标功能所需的数据量。依据这一衡量标准，最后的深度 RL 系统的确与人类学习者有着很大区分。为了在雅达利视频玩耍等任务上达到媲美人类专家的水平，深度 RL 系统需要比人类专家多得多（多几个数量级）的训练数据 [22]。简而言之，最后的深度 RL 速度太慢，无法为人类学习供应可信的模型。这一评论的确适用于自 2013 年消灭的第一波深度 RL。但，此后不久，深度 RL 开头发生重要转变，其样本效率急剧提升。这些方法降低了深度 RL 对大量训练数据的需求，使其速度大大加快。这些计算技术的消灭使得深度 RL 成为人类学习的候选模型，以及心理学和神经科学的见解来源。本文中，DeepMind 争辩人员认为有两个关键的深度 RL 方法缓解了其样本效率问题：episodic deep RL 和元强化学习。他们探究了这两种方法是如何加快深度 RL 的，并考虑了深度 RL 对于心理学和神经科学的潜在影响。 Episodic 深度强化学习：通过 episodic memory 进行快速学习假如增量参数调整是深度 RL 学习速度慢的一个缘由