- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【强化学习】DeepMind综述深度强化学习中的快与慢,智能体该当像人一样学习
2020-04-16 原文
选自Trends In Cognitive Sciences
作者:Matthew Botvinick等
机器之心编译
机器之心编辑部
近年来,深度强化学习方法给人工智能领域带来了很大的进展,在很多领域都超越了人类表现,比如雅达利玩耍、围棋和无限制德扑。不过虽然它们很强大,但学习效率的低下让它们很难推广到更普遍的任务,或许结合「快」与「慢」的学习才是强化学习该当走的路。
DeepMind 争辩者近期在 Trends In Cognitive Sciences 期刊上发表文章,概览了深度强化学习中的一些新技术,这些技术旨在弥补强化学习智能体与人类之间的学习速度鸿沟。正如上个月打 TI 8 的 OpenAI Five,它相当于人类玩了「4 万 5 千年」的 Dota 2 玩耍,假如智能体能像人类那样「快学习」,或许它的学习能更高效。
其实很多人认为深度强化学习样本效率低下,学习过程过于缓慢,无法供应了解人类学习的牢靠模型。在本文中,DeepMind 争辩人员利用最近开发的技术反对了这一批判。这些技术允许深度强化学习更机警地进行操作,能够比之前的方法更快速地处理问题。
深度强化学习的快与慢
近期的 AI 争辩引出了强大的技术,如深度强化学习。深度强化学习将表示学习和嘉奖驱动的行为结合起来,好像与心理学和神经科学具备内在的相关性。然而深度强化学习需要大量训练数据,这表明深度强化学习算法与人类学习的底层机制存在根本区分。
当这一担忧被带到深度强化学习第一波浪潮时,后续的 AI 工作创建了一些方法,允许深度 RL 系统更快、更高效地学习。两种好玩且有前景的技术分别是 episodic memory 和元学习。
除了作为 AI 技术以外,利用 episodic memory 和元学习的深度 RL 方法还在心理学和神经科学上有直接且好玩的使用。这些技术揭示了一个微妙但格外重要的洞见,即学习的快与慢之间的基础联系。
深度强化学习的「慢」是指每一个任务都要极其浩大的试错过程,它不能像人类那样利用阅历或学问快速学习。但这种慢却也格外有优势,智能体能找到更好的处理方案、更具有创新性的观点等等。反观深度学习的「快」,我们期望借助决策阅历,挂念智能体快速学习新任务与新学问。
或许结合了「快」与「慢」的强化学习,才是以后真正抱负的强化学习。
强大但慢速:第一波深度强化学习
从这个角度来看,AI 争辩中一个极具吸引力的领域是深度强化学习。深度强化学习将神经网络建模和强化学习相结合。过去几十年来,深度强化学习一直可望而不行及。直到过去五年里,它强势进展为 AI 争辩中最激烈的领域之一,在多种任务(比如视频玩耍、扑克、多人玩耍和简单的棋盘玩耍)中超越人类表现。
原论文 BOX 1 图 1:深度强化学习的代表性示例。
除了 AI 领域以外,深度强化学习好像对心理学和神经科学也有着特殊的爱好。深度 RL 中驱动学习的机制最后是受动物条件作用争辩启发的,并被认为与基于嘉奖学习(以多巴胺为中心)的神经机制亲密相关。
同时,深度强化学习利用神经网络来学习支持泛化和迁移的强大表征,而这正是生物大脑的核心力量。鉴于这些联系,深度 RL 好像为对人类和动物学习感爱好的争辩者供应了丰富的想法和假设,无论是行为还是神经科学层面。而这些争辩者也的确开头将目光转向深度强化学习。
同时,对第一波深度强化学习争辩的评论也敲响了警钟。乍一看,深度强化学习系统的学习方式与人类截然不同。有人认为,这种差异在于二者的样本效率。样本效率是指学习系统达到任何选定的目标功能所需的数据量。
依据这一衡量标准,最后的深度 RL 系统的确与人类学习者有着很大区分。为了在雅达利视频玩耍等任务上达到媲美人类专家的水平,深度 RL 系统需要比人类专家多得多(多几个数量级)的训练数据 [22]。简而言之,最后的深度 RL 速度太慢,无法为人类学习供应可信的模型。
这一评论的确适用于自 2013 年消灭的第一波深度 RL。但,此后不久,深度 RL 开头发生重要转变,其样本效率急剧提升。这些方法降低了深度 RL 对大量训练数据的需求,使其速度大大加快。这些计算技术的消灭使得深度 RL 成为人类学习的候选模型,以及心理学和神经科学的见解来源。
本文中,DeepMind 争辩人员认为有两个关键的深度 RL 方法缓解了其样本效率问题:episodic deep RL 和元强化学习。他们探究了这两种方法是如何加快深度 RL 的,并考虑了深度 RL 对于心理学和神经科学的潜在影响。
Episodic 深度强化学习:通过 episodic memory 进行快速学习
假如增量参数调整是深度 RL 学习速度慢的一个缘由
您可能关注的文档
- 5 5G5G时代,实时音视频技术如何改变未来?.docx
- 5 5G5G使能智能制造,到底是什么概念?.docx
- 5 D打印一张图看懂国际D打印产业链.docx
- 5 TSNTSN,西门子已经准备就绪.docx
- 5 边缘计算过去一年,边缘计算领域发生了什么?.docx
- 5 财富空间回顾褚时健一生,他的思想给产业家哪些启发?.docx
- 5 财富空间金蝶奉行怎样的哲学?.docx
- 5 仿真优化工厂全生命周期的新途径——数字化过程仿真.docx
- 5 机器人.0机器人.0时代来临!四大核心技术助推大规模商用部署.docx
- 5 机器人走出全球工业机器人低迷期竟靠它?.docx
- 4《猜字谜》课件(共30张PPT).pptx
- 统编版语文二年级上册第三单元复习课件(共50张PPT).pptx
- 2025-2026学年山西大学附中高三上学期10月月考数学试题及答案(总第四次).docx
- 第四单元《逻辑的力量》课件(共57张PPT)2025-2026学年统编版高中语文选择性必修上册.pptx
- 2025-2026学年山西大学附中高三上学期10月月考历史试题及答案(总第四次).docx
- 统编版语文四年级下册习作 游______课件(共27张PPT).pptx
- 统编版四年级语文下册第六单元习作:我学会了___课件(共31张PPT).pptx
- 16.1《赤壁赋》课件(共59张PPT)2025—2026学年统编版高中语文必修上册.pptx
- 统编版四年级语文下册口语交际:朋友相处的秘诀 课件(共20张PPT).pptx
- 统编版五年级下册语文园地四 课件(共30张PPT).pptx
最近下载
- 《2025年城镇排水管道注浆法修复工程技术规程》知识培训.pptx VIP
- 基本药物制度政策培训课件.docx VIP
- 中医医院中医护理工作指南.pdf VIP
- DB65T3843.7-2015 棉花生产全程机械化技术规程 第7部分:采收作业.pdf VIP
- 曲线的切线问题教学设计-2024-2025学年高二上学期数学苏教版(2019)选择性必修第一册.docx VIP
- 【TCP云架构】腾讯云架构高级工程师认证题(附答案).doc VIP
- 软件架构规划与设计.docx VIP
- 2006年考研英语二真题及解析.pdf VIP
- Intel82599ES芯片10G万兆以太网控制器E10G42BTDA归纳.pdf VIP
- 2024学年度人教版四年级数学上册期末测试卷(十四)(可打印,下载可编 完整版.pdf VIP
原创力文档


文档评论(0)