增强学习演示文件修改版.pptVIP

下载本文档

2
0
约 26页
2017-02-08 发布于江苏
举报

增强学习演示文件修改版.ppt

增强学习演示文件修改版

2003.12.18 机器学习-增强学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏机器学习第13章增强学习概述增强学习要解决的问题：一个能够感知环境的自治agent，怎样通过学习选择能达到其目标的最优动作当agent在其环境中做出每个动作，施教者提供奖励或惩罚信息，agent从这个非直接的回报中学习，以便后续动作产生最大的累积回报本章介绍一个称为Q学习的算法，它可从有延迟的回报中获取最优控制策略增强学习与动态规划算法有关，后者常被用于解决最优化问题简介考虑一个可学习的机器人，它可以观察环境的状态并能做出一组动作改变这些状态，学习的任务是获得一个控制策略，以选择能达到目的的行为本章关心的是：机器人怎样在环境中做实验并根据回报函数成功学习到控制策略图13-1，学习控制策略以使累积回报最大化这个问题很普遍，它是一个通过学习来控制序列过程的问题，比如生产优化问题：选择一系列生产动作，使生产出的货物减去其成本达到最大化出租车调度：选择出租车运载乘客，其中回报函数为乘客等待的时间和车队的整体油耗简介（2）在第11章，已经接触到了通过学习来控制序列过程的问题，用基于解释的方法学习规则，以控制问题求解中的搜索本章考虑的问题不同于第11章，因为考虑的问题中，行为可能有非确定性的输出，而且学习器缺少描述其行为输出的领域理论学习控制策略类似前面讨论过的函数

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

增强学习演示文件修改版.pptVIP