摘要强化学习是学习环境状态到动作的一种映射并且能够获得最大.PDFVIP

下载本文档

83
0
约15.27万字
约 28页
2018-04-01 发布于天津
举报
版权申诉

摘要强化学习是学习环境状态到动作的一种映射并且能够获得最大.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要强化学习是学习环境状态到动作的一种映射并且能够获得最大

第40 卷计算机学报 Vol. 40 2017 年论文在线出版号 No.1 CHINESE JOURNAL OF COMPUTERS Online Publishing No. 1 深度强化学习综述刘全+ 翟建伟章宗长钟珊周倩章鹏徐进 1)(苏州大学计算机科学与技术学院江苏苏州 215006) 2)(软件新技术与产业化协同创新中心南京 210000) 摘要深度强化学习是人工智能领域的一个新的研究热点．它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输出的直接控制．自提出以来，在许多需要感知高维度原始输入数据和决策控制的任务中，深度强化学习方法已经取得了实质性的突破．该文首先阐述了 3 类主要的深度强化学习方法，包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习；其次对深度强化学习领域的一些前沿研究方向进行了综述，包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等．最后总结了深度强化学习在若干领域的成功应用和未来发展趋势．关键词人工智能；深度学习；强化学习；深度强化学习中图法分类号 TP18 论文引用格式：刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进,深度强化学习综述,2017，Vol.40,在线出版号 No.1 LIU Quan, ZHAI Jian-Wei, ZHANG Zong-Zhang, ZHONG Shan, ZHOU Qian, ZHANG Peng, XU Jin, A Survey on Deep Reinforcement Learning, 2017,Vol.40,Online Publishing No.1 A Survey on Deep Reinforcement Learning LIU Quan ZHAI Jian-Wei ZHANG Zong-Zhang ZHONG Shan ZHOU Qian ZHANG Peng XU Jin 1)(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006) 2)(Collaborative Innovation Center of Novel Software Technology and Industrialization, Nanjing 210000) Abstract Deep reinforcement learning (DRL) is a new research hotspot in the artificial intelligence community. By using a general-purpose form, DRL integrates the advantages of the perception of deep learning (DL) and the decision making of reinforcement learning (RL), and gains the output control directly based on raw inputs by the end-to-end learning process. DRL has made substantial breakthroughs in a variety of tasks requiring both rich perceptio