强化学习概述.pdf

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
精选文库 第四章 强化学习 4.1 强化学习概述 智能系统的一个主要特征是能够适应未知环境, 其中学习能力是智能系统的关键技术 之一。在机器学习范畴内,根据反馈的不同,学习技术可以分为监督学习( Supervised learning)、非监督学习( Unsupervised learning)和强化学习( Reinforcement learning)三 大类。其中强化学习是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法。 强化学习又称为增强学习、 加强学习、 再励学习或激励学习, 是一种从环境状态到行 为映射的学习, 目的是使动作从环境中获得的累积回报值最大。 强化学习的思想来源于动 物学习心理学。 观察生物 (特别是人 )为适应环境而进行的学习过程, 可以发现有两个特点 : 一是人从来不是静止地被动等待而是主动对环境做试探, 二是环境对试探动作产生的反馈 是评价性的, 人们会根据环境的评价来调整以后的行为。 强化学习正是通过这样的试探— —评价的迭代, 在与环境的交互中学习, 通过环境对不同行为的评价性反馈信号来改变强 化学习系统 (RLS 或者称为 Agent) 的行为选择策略以实现学习目标。来自环境的评价性反 馈信号通常称为奖赏值 (reward)或强化信号( reinforcement Signal),强化学习系统的目标 就是极大化 (或极小化 )期望奖赏值。 强化学习技术是从控制理论、 统计学、 心理学等相关学科发展而来, 最早可以追溯到 巴普洛夫的条件反射实验。 但直到上世纪八十年代末、 九十年代初强化学习技术才在人工 智能、机器学习和自动控制等领域中得到广泛研究和应用, 并被认为是设计智能系统的核 心技术之一。 特别是随着强化学习的数学基础研究取得突破性进展后, 对强化学习的研究 和应用日益开展起来,成为目前机器学习领域的研究热点之一。 强化学习围绕如何与环境交互学习的问题, 在行动——评价的环境中获得知识改进行 动方案以适应环境达到预想的目的。 学习者并不会被告知采取哪个动作, 而只能通过尝试 每一个动作自己做出判断。 它主要是依靠环境对所采取行为的反馈信息产生评价, 并根据 评价去指导以后的行动, 使优良行动得到加强, 通过试探得到较优的行动策略来适应环境。 试错搜索和延迟回报是强化学习的两个最显著的特征。 但强化学习系统还具有以下更一般 的特点: (1) 适应性,即 Agent 不断利用环境中的反馈信息来改善其性能; (2) 反应性,即 Agent 可以从经验中直接获取状态动作规则; (3) 对外部教师信号依赖较少。因为 Agent 只根据强化信号进行学习,而强化信号可 -- 精选文库 从 Agent 内置的强化机制中获得。 一个智能系统面临的环境往往是动态、 复杂的开放环境。 因此首先需要设计者对环境 加以细分。通常情况,我们可以从以下五个角度对环境(或问题)进行分析。 表 4.1 环境的描述 角度 1 离散状态 vs 连续状态 角度 2 状态完全可感知 vs 状态部分可感知 角度 3 插曲式 vs 非

文档评论(0)

171****9235 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档