强化学习教程详解.pptVIP

  • 385
  • 0
  • 约2.98千字
  • 约 20页
  • 2016-11-21 发布于湖北
  • 举报
强化学习 史忠植 机器学习 内容提要 简介 马尔科夫决策过程 值迭代和策略迭代法 MDP中的参数估计 简介 强化学习(reinforcement learning,又称再励学习,评价学习)是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。但在传统的机器学习分类中没有提到过强化学习,而在连接主义学习中,把学习算法分为三种类型,即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。强化学习是一种在线的、无导师机器学习方法。把环境的反馈作为输入、通过学习选择能到的目标的最优动作。主要集中在有限资源调度,机器人控制、棋类游戏等应用领域。 简介 人类通常从与外界环境的交互中学习。所谓强化(reinforcement)学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。在强化学习中,我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。 简介——基本原理 马尔科夫决策过程(MDP) 。 马尔科夫决策过程 。 马尔科夫决策过程 。 马尔科夫决策过程 。 马尔科夫决策过程

文档评论(0)

1亿VIP精品文档

相关文档