2014开题报告原稿.docVIP

  • 3
  • 0
  • 约6.31千字
  • 约 6页
  • 2016-12-12 发布于北京
  • 举报
摘要 随着智能系统日新月益的发展和使用,其对未知环境的适应性就成为迫切需求。而使机器能够从未知环境学习是实现人工智能的一大突破。目前的机器学习技术主要分为监督学习、非监督学习和强化学习三大类。其中强化学习是一种以环境反馈作为输入的,特殊的、适应环境的学习。它将环境抽象成若干状态,通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知,因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢,因此如何能够优化的建立环境模型,如何提高算法效率就成为强化学习面临的主要问题。本次论文首先介绍强化学习的概念、建立系统模型,再介绍几种经典的强化学习算法,接着介绍目前解决若干问题而提出的POMDP模型,PSR 模型、HRL模型,最后就PSR模型提出一种新的算法。 关键词:强化学习;蒙特卡诺法;TD算法;Q学习;Sasar学习;POMDP模型;PSR模型 ;HRL模型 强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的,最早可追溯到巴普洛夫的条件反射实验。但直到20世纪80年代末90年代初,强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛的研究和应用,并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展以后,对强化学习的研究和应用日益开展起来,成为目前机器学习领域的研究热点之一。 强化

文档评论(0)

1亿VIP精品文档

相关文档