(开题报告原稿.docVIP

下载本文档

2
0
约 6页
2016-12-06 发布于北京
举报

(开题报告原稿.doc

(开题报告原稿

摘要随着智能系统日新月益的发展和使用，其对未知环境的适应性就成为迫切需求。而使机器能够从未知环境学习是实现人工智能的一大突破。目前的机器学习技术主要分为监督学习、非监督学习和强化学习三大类。其中强化学习是一种以环境反馈作为输入的，特殊的、适应环境的学习。它将环境抽象成若干状态，通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知，因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢，因此如何能够优化的建立环境模型，如何提高算法效率就成为强化学习面临的主要问题。本次论文首先介绍强化学习的概念、建立系统模型，再介绍几种经典的强化学习算法，接着介绍目前解决若干问题而提出的POMDP模型，PSR 模型、HRL模型，最后就PSR模型提出一种新的算法。关键词：强化学习；蒙特卡诺法；TD算法；Q学习；Sasar学习；POMDP模型；PSR模型；HRL模型强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的，最早可追溯到巴普洛夫的条件反射实验。但直到20世纪80年代末90年代初，强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛的研究和应用，并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展以后，对强化学习的研究和应用日益开展起来，成为目前机器学习领域的研究热点之一。强化学

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

(开题报告原稿.docVIP