- 385
- 0
- 约2.98千字
- 约 20页
- 2016-11-21 发布于湖北
- 举报
强化学习 史忠植 机器学习 内容提要 简介 马尔科夫决策过程 值迭代和策略迭代法 MDP中的参数估计 简介 强化学习(reinforcement learning,又称再励学习,评价学习)是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。但在传统的机器学习分类中没有提到过强化学习,而在连接主义学习中,把学习算法分为三种类型,即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。强化学习是一种在线的、无导师机器学习方法。把环境的反馈作为输入、通过学习选择能到的目标的最优动作。主要集中在有限资源调度,机器人控制、棋类游戏等应用领域。 简介 人类通常从与外界环境的交互中学习。所谓强化(reinforcement)学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。在强化学习中,我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。 简介——基本原理 马尔科夫决策过程(MDP) 。 马尔科夫决策过程 。 马尔科夫决策过程 。 马尔科夫决策过程 。 马尔科夫决策过程
您可能关注的文档
最近下载
- Micromeritics ASAP2020 全自动物理和化学吸附用户手册.pdf
- 甲醇精馏塔毕业设计(优.选).docx VIP
- 2026届高考必备名著阅读之《红楼梦》复习课件.pptx VIP
- 计算机应用基础 实训项目四 PowerPoint 综合应用.ppt VIP
- 施耐德培训讲义04开关的选择性、限流和级联技术介绍教学文稿.ppt VIP
- (辐射防护与核安全)辐射防护工程试题及答案.doc VIP
- 20S515 钢筋混凝土及砖砌排水检查井.docx VIP
- 新材料专题:微玻纤无边界成长.pdf
- 七年级历史期末考试卷.docx VIP
- GB30871-2022动火作业票填写模板.docx VIP
原创力文档

文档评论(0)