强化学习教程详解.pptVIP

下载本文档

385
0
约2.98千字
约 20页
2016-11-21 发布于湖北
举报

强化学习教程详解.ppt

强化学习史忠植机器学习内容提要简介马尔科夫决策过程值迭代和策略迭代法 MDP中的参数估计简介强化学习(reinforcement learning，又称再励学习，评价学习)是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。但在传统的机器学习分类中没有提到过强化学习，而在连接主义学习中，把学习算法分为三种类型，即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。强化学习是一种在线的、无导师机器学习方法。把环境的反馈作为输入、通过学习选择能到的目标的最优动作。主要集中在有限资源调度，机器人控制、棋类游戏等应用领域。简介人类通常从与外界环境的交互中学习。所谓强化（reinforcement）学习是指从环境状态到行为映射的学习，以使系统行为从环境中获得的累积奖励值最大。在强化学习中，我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励，而且还影响接下来的动作和最终的奖励。简介——基本原理马尔科夫决策过程(MDP) 。马尔科夫决策过程。马尔科夫决策过程。马尔科夫决策过程。马尔科夫决策过程

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

强化学习教程详解.pptVIP