最新版强化学习概述.docxVIP

下载本文档

4
0
约1.92万字
约 24页
2021-02-15 发布于天津
举报
版权申诉

最新版强化学习概述.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

可编辑可编辑第四章强化学习强化学习概述智能系统的一个主要特征是能够适应未知环境，其中学习能力是智能系统的关键技术之一。在机器学习范畴内，根据反馈的不同，学习技术可以分为监督学习( Supervised learning )、非监督学习( Unsupervised learning )和强化学习( Reinforcement learning )三大类。其中强化学习是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法。强化学习又称为增强学习、加强学习、再励学习或激励学习，是一种从环境状态到行为映射的学习，目的是使动作从环境中获得的累积回报值最大。强化学习的思想来源于动物学习心理学。观察生物(特别是人 )为适应环境而进行的学习过程，可以发现有两个特点 : 一是人从来不是静止地被动等待而是主动对环境做试探，二是环境对试探动作产生的反馈是评价性的，人们会根据环境的评价来调整以后的行为。强化学习正是通过这样的试探 ——评价的迭代，在与环境的交互中学习，通过环境对不同行为的评价性反馈信号来改变强化学习系统 (RLS 或者称为 Agent) 的行为选择策略以实现学习目标。来自环境的评价性反馈信号通常称为奖赏值 (reward) 或强化信号( reinforcement Signal) ，强化学习系统的目标就是极大化 (或极小化 ) 期望奖赏值。强化学习技术是从控制理论、统计学、心理学等相关学科发展而来，最早可以追溯到巴普洛夫的条件反射实验。但直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用，并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展后，对强化学习的研究和应用日益开展起来，成为目前机器学习领域的研究热点之一。强化学习围绕如何与环境交互学习的问题，在行动——评价的环境中获得知识改进行动方案以适应环境达到预想的目的。学习者并不会被告知采取哪个动作，而只能通过尝试每一个动作自己做出判断。它主要是依靠环境对所采取行为的反馈信息产生评价，并根据评价去指导以后的行动，使优良行动得到加强，通过试探得到较优的行动策略来适应环境。试错搜索和延迟回报是强化学习的两个最显著的特征。但强化学习系统还具有以下更一般的特点：适应性，即 Agent 不断利用环境中的反馈信息来改善其性能；反应性，即 Agent 可以从经验中直接获取状态动作规则；对外部教师信号依赖较少。因为Age nt只根据强化信号进行学习，而强化信号可从Age nt内置的强化机制中获得。一个智能系统面临的环境往往是动态、复杂的开放环境。因此首先需要设计者对环境加以细分。通常情况，我们可以从以下五个角度对环境(或问题)进行分析。表4.1环境的描述角度1 离散状态vs连续状态角度2 状态完全可感知vs状态部分可感知角度3 插曲式VS非插曲式角度4 确定性vs不确定性角度5 静态vs动态表4.1中，所谓插曲式(episodic )是指智能系统在每个场景中学习的知识对下一个场景中的学习是有用的。如一个棋类程序对同一个对手时，在每一棋局中学习的策略对下一棋局都是有帮助的。相反非插曲式(non-episodic )环境是指智能系统在不同场景中学习的知识是无关的。角度 4是指智能系统所处的环境中，如果状态的迁移是确定的，则可以唯一确定下一状态。否则在不确定性环境中，下一状态是依赖于某种概率分布。进一步，如果状态迁移的概率模型是稳定、不变的，则称之为静态环境；否则为动态环境。显然，最复杂的一类环境(或问题)是连续状态、部分可感知、非插曲式、不确定的动态环境。 4.2强化学习原理一个强化学习系统的基本框架主要由两部分组成，即环境和智能体( Age nt )。智能体可以通过传感器(Sensor)感知所处环境，并通过执行器(Actuator )对环境施加影响。从广义上讲，除该智能体之外，凡是与该智能体交互的物体，都可以被称为环境。强化学习是智能体在与动态环境的交互过程中，通过反复试错来学习适当的行为。它介于监督式学习(supervised learning ) 和无监督式(unsupervised learning ) 学习之间，是一种策略相关学习，通过与环境的即时交互来获得环境的状态信息，并通过反馈强化信号对所采取的行动进行评价，通过不断的试错和选择，从而学习到最优的策略。强化学习的基本原理是：如果智能体(Age nt )的某个行为策略导致环境对智能体正的奖赏(Reward )，则智能体以后采取这个行为策略的趋势会加强。反之，若某个行为策略导致了负的奖赏，那么