TOM的机器学习方法 ml-chap13.doc

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
TOM的机器学习方法 ml-chap13

 增强学习 增强学习要解决的是这样的问题:一个能够感知环境的自治agent,怎样学习选择能达到其目标的最优动作。这个很具有普遍性的问题应用于学习控制移动机器人、在工厂中学习进行最优操作工序、以及学习棋类对弈等。当agent在其环境中作出每个动作时,施教者会提供奖赏或惩罚信息,以表示结果状态的正确与否。例如,在训练agent 进行棋类对弈时,施教者可在游戏胜利时给出正回报,而在游戏失败时给出负回报,其他时候为零回报。Agent的任务就是从这个非直接的、有延迟的回报中学习,以便后续的动作产生最大的累积回报。本章着重介绍一个称为Q学习的算法,它可从有延迟的回报中获取最优控制策略,即使agent 没有有关其动作会对环境产生怎样的效果的先验知识。增强学习与动态规划(dynamic programming)算法有关,后者常被用于解决最优化问题。 介绍 考虑建造一个可学习机器人。该机器人(或agent)有一些传感器可以观察其环境的状态(state)并能做出一组动作(action)已改变这些状态。例如,移动机器人具有镜头和声纳等传感器,并可以做出“直走”和“转弯”等动作。学习的任务是获得一个控制策略(policy),以选择能达到目的的行为。例如,此机器人的任务是在其电池电量转低时找到充电器进行充电。 本章关心的就是:这样的agent 怎样在其环境中做实验并成功地学习到控制策略。这里假定agent的目标可被定义为一个回报(reward)函数,它对agent从不同的状态中选取不同的动作赋予一个数字值,即立即清算(immediate payoff)。例如:寻找电池充电器的目标可用这样的回报函数指定:对那些能够连接到充电器的状态-动作转换赋予正回报(如+100),对其他的状态动作转换赋予0回报。这个回报函数可内嵌在机器人中;或者只有一个外部施教者知道,由它对机器人的每个动作给出回报值。机器人的任务是执行一系列动作,观察其后果,再学习控制策略。我们希望的控制策略是能够从任何初始状态选择恰当的动作,使agent 随时间的累积的回报达到最大。这个机器人学习问题的一般框架在图13-1中概要列出。 368 Agent: Agent State: 状态 Reward: 回报 Action: 动作 Environment: 环境 Goal:Learn to choose actions that maximize: 目标:学习选择动作使下式最大化 where: 其中 图13-1一个与环境交互的agent 此agent生存的环境被描述为某可能的状态集合S。它可执行任意的可能动作集合A。每次在某状态st下执行一动作at,此agent会收到一个实值回报rt,它表示此状态-动作转换的立即值。如此产生了一系列的状态si,动作ai和立即回报ri的集合,如图所示。Agent的任务是学习一个控制策略π:S→A,它使这些回报的和的期望值最大化,其中后面的汇报值随着他们的延迟指数减小。 图13-1中可清楚地看到,学习控制策略以使累积回报最大化这个问题非常普遍,它覆盖了机器人学习任务以外的许多问题。一般地,此问题是一个通过学习来控制序列过程的问题。例如生产优化问题,其中要选择一系列的生产动作,而使生产出的货物减去其成本达到最大化。再如一些序列调度问题,像在一个大城市中选择出租车运载乘客,其中回报函数为乘客等待的时间和出租车队的整体油耗。一般来说,我们感兴趣的问题类型是:一个agent需要通过学习和选择动作来改变环境状态,而其中使用了一个累积回报函数来定义任意动作序列的质量。在此类问题中。我们考虑几种特殊的框架:包括动作是否具有确定性的输出;agent是否有其动作对环境的效果的先验知识。 在本书前面,我们已经接触到了通过学习来控制序列过程的问题。在第11.4节中。我们讨论了用基于解释的方法学习规则,以控制问题解决中的搜索。在其中 agent的目的是在搜索其目标状态时的每一步从可选动作中做出抉择。本章讨论的技术不同于11.4节,因为这里考虑的问题中行为可能有非确定性的输出,而且学习器缺少描述其行为输出的领域理论。在第1章,我们讨论了在西洋双陆棋对弈中的学习问题。其中概述的学习方法非常类似于本章的学习方法。实际上本章的增强学习算法的一个最成功的应用就是类似的博弈问题。Tesauro (1995)描述的 TD-Gammon 程序,它使用增强学习成为了世界级的西洋双陆棋选手。这个程序经过了150万个自生成的对弈训练后,已近似达到了人类最好选手的水平,并且在国际西洋双陆棋联赛中与顶尖棋手对弈取得了良好的成绩。 学习控制策略以选择动作的问题在某种程度上类似于其他章讨论过的函数逼近问题。这里待学习的目标函数为控制策略π:S→A。它在给定当前状态S 集合中的s时,从集合A中输出一个合适的动作a。然而,

文档评论(0)

cgtk187 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档