强化学习的方法及应用的研究.docxVIP

下载本文档

36
0
约2.8千字
约 6页
2017-07-17 发布于河北
举报
版权申诉

强化学习的方法及应用的研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

强化学习的方法及应用的研究

在人工智能研究领域，Agent 是指驻留在某一环境下，能持续自主地发挥作用，具备驻留性、反应性、社会性、主动性等特征的计算实体。机器学习的分类方法有很多种，根据学习过程的反馈情况，学习方法的研究可以分为监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、强化学习(Reinforcement Learning)三大类。大家应该还记得马尔科夫链(Markov Chain)，了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可夫决策过程(Markov Decision Process,?MDP)也具有马尔可夫性，与上面不同的是MDP考虑了动作，即系统下个状态不仅和当前的状态有关，也和当前采取的动作有关。还是举下棋的例子，当我们在某个局面（状态s）走了一步(动作a)，这时对手的选择（导致下个状态s’）我们是不能确定的，但是他的选择只和s和a有关，而不用考虑更早之前的状态和动作，即s’是根据s和a随机生成的。马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的决策过程，其分五个部分：1. \(S\) 表示状态集 (states)；2. \(A\) 表示动作集 (Action)；3. \(P_{s,a}^{s}\) 表示状态 s 下采取动作 a 之后转移到 s 状态的概率；4. \(R_{s,a}\) 表示状态 s 下采取动作 a 获得的奖励；5. \(\gamma\) 是衰减因子。强化学习的主要研究内容包括三个方面：强化学习的理论研究、算法研究及其应用研究。一个完整的强化学习系统除了Agent 和环境，还有四个关键的组成要素：策略(Policy)、奖赏函数(Reward Function)、值函数(Value Function)以及环境模型(Environment Model)。(1)策略策略也称决策函数，是强化学习的核心部分，规定了在每个可能状态，Agent应该采取的动作集合。描述针对状态集S中的每一个状态s，Agent应完成动作集A中的一个动作a，策略: S-A 是一个从状态到动作的映射。关于任意状态所能选择的策略组成的集合? ，称为允许策略集合，π∈在允许策略集合中找出使问题具有最优效果的策略，称为最优策略。(2)奖赏函数奖赏函数决定了Agent在与环境交互的过程中将要获取的奖励信号，它通常作为Agent修改策略的基础。奖赏信号是对Agent 产生的动作的好坏所作的一种评价，通常用一个标量来表示，数值越大表示奖的越多，数值越小表示奖的越少。强化学习的目的就是使Agent在与环境交互过程中最终得到的总的奖赏值达到最大。(3)值函数奖赏函数是对Agent采用动作的即时评价，而值函数则是从长远的角度来考虑一个状态(或状态-动作对)的好坏，故值函数又称评价函数。在时刻t 一个状态 ()的值，是指 Agent在状态执行动作（）及后续策略π所得到的总的奖赏的期望，记为。 Q函数是另一种值函数，它记录“状态-动作对”的值。(4)环境模型环境模型是对外界环境状态的抽象表示，Agent在给定状态下决策出要执行的某个动作，模型将会给出转移后的环境状态和奖励信号。利用环境模型Agent在作决策的同时将考虑未来可能的状态进行规划。图 2.2 给出了强化学习四个关键要素之间的关系，四要素关系自底向上呈金字塔结构。系统所处的环境由环境模型来定义，由于模型中P 函数和 R 函数未知，所以系统是依赖于每次试错学习所获得的瞬时奖赏来选择策略。考虑到环境模型的不确定性和目标的长远性，在策略和瞬时奖赏之间需要构造一个值函数用于策略的选择。采用马尔可夫决策过程建模的强化学习分为：1.值函数估计法；2.策略空间直接搜索法，如模拟退火法、遗传算法以及一些其他的进化方法。强化学习算法的目的就是为了找到一个策略，使得Agent 在每个状态s 的值Vπ(s)都达到最大。根据不同的报酬准则Vπ(s)有不同的形式。瞬时差分学习算法TD方法在不需要系统模型情况下可以直接从Agent 经验中学习，同时和动态规划一样，利用值函数进行迭代。最简单的TD 算法为一步 TD 算法，即 TD(0)算法。所谓一步 TD 算法，是指 Agent 获得的瞬时奖赏值仅向后回退一步，也就是只迭代修改了相邻状态的估计值．TD(0)算法的值函数迭代公式为：其中参数为学习率(或学习步长)；为折扣率；为 Agent 在环境状态时估计的状态值函数；指 Agent 在下一个时刻访问环境状态时估计的状态值函数；r 指环境状态从转到时反馈给Agent的瞬时奖赏值。一次完整的学习是指从起始状