强化学习概述.pdf

下载文档 降价啦

8
0
约4.17万字
约 23页
2020-09-24 发布于天津
举报
版权申诉
保障服务

强化学习概述.pdf

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

精选文库第四章强化学习 4.1 强化学习概述智能系统的一个主要特征是能够适应未知环境，其中学习能力是智能系统的关键技术之一。在机器学习范畴内，根据反馈的不同，学习技术可以分为监督学习（ Supervised learning）、非监督学习（ Unsupervised learning）和强化学习（ Reinforcement learning）三大类。其中强化学习是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法。强化学习又称为增强学习、加强学习、再励学习或激励学习，是一种从环境状态到行为映射的学习，目的是使动作从环境中获得的累积回报值最大。强化学习的思想来源于动物学习心理学。观察生物 (特别是人 )为适应环境而进行的学习过程，可以发现有两个特点 : 一是人从来不是静止地被动等待而是主动对环境做试探，二是环境对试探动作产生的反馈是评价性的，人们会根据环境的评价来调整以后的行为。强化学习正是通过这样的试探— —评价的迭代，在与环境的交互中学习，通过环境对不同行为的评价性反馈信号来改变强化学习系统 (RLS 或者称为 Agent) 的行为选择策略以实现学习目标。来自环境的评价性反馈信号通常称为奖赏值 (reward)或强化信号（ reinforcement Signal)，强化学习系统的目标就是极大化 (或极小化 )期望奖赏值。强化学习技术是从控制理论、统计学、心理学等相关学科发展而来，最早可以追溯到巴普洛夫的条件反射实验。但直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用，并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展后，对强化学习的研究和应用日益开展起来，成为目前机器学习领域的研究热点之一。强化学习围绕如何与环境交互学习的问题，在行动——评价的环境中获得知识改进行动方案以适应环境达到预想的目的。学习者并不会被告知采取哪个动作，而只能通过尝试每一个动作自己做出判断。它主要是依靠环境对所采取行为的反馈信息产生评价，并根据评价去指导以后的行动，使优良行动得到加强，通过试探得到较优的行动策略来适应环境。试错搜索和延迟回报是强化学习的两个最显著的特征。但强化学习系统还具有以下更一般的特点： (1) 适应性，即 Agent 不断利用环境中的反馈信息来改善其性能； (2) 反应性，即 Agent 可以从经验中直接获取状态动作规则； (3) 对外部教师信号依赖较少。因为 Agent 只根据强化信号进行学习，而强化信号可 -- 精选文库从 Agent 内置的强化机制中获得。一个智能系统面临的环境往往是动态、复杂的开放环境。因此首先需要设计者对环境加以细分。通常情况，我们可以从以下五个角度对环境（或问题）进行分析。表 4.1 环境的描述角度 1 离散状态 vs 连续状态角度 2 状态完全可感知 vs 状态部分可感知角度 3 插曲式 vs 非