强化学习技术有着相当长的历史.docxVIP

下载本文档

4
0
约4.28千字
约 5页
2019-10-17 发布于广东
举报
版权申诉

强化学习技术有着相当长的历史.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

强化学习技术有着相当长的历史，但直到80年代末90年代初，强化学习技术才在人工智能, 机器学习中得到广泛应用山，强化学习是一种从环境状态到行为映射的学习技术. 强化学习的思想来自于条件反射理论和动物学习理论.它是受到动物学习过程启发而得到的一种仿生算法，是一种重要的机器学习方法⑵.Agent通过对感知到的环境状态采取各种试探动作，获得环境状态的适合度评价值（通常是一个奖励或惩罚信号），从而修改自身的动作策略以获得较大的奖励或较小的惩罚，强化学习就是这样一种赋予Agent学习自适应性能力的方法. 本文全面介绍了强化学习的基本原理，学习算法及其应用情况，最后讨论了多机器人系统中强化学习的研究热点问题. 1强化学习的基本原理 1.1强化学习的原理和结构强化学习把学习看作试探过程，基本模型如图1所示.在强化学习中，Agent选择一个动作作用于环境，环境接收该动作后发生变化，同时产生一个强化信号（奖或罚）反馈给Agent, Agent再根据强化信号和环境的当前状态再选择下一个动作，选择的原则是使受到正的报酬的概率增大.选择的动作不仅影响立即强化值而且还影响下一时刻的状态及最终强化值.强化学习的目的就是寻找一个最优策收稿 F1 期：2006-08-05 作者简介：黄炳强（1975-）,男（汉族），博士生. DOI:10.1408 l/j.cnki.hgdxb.2006.06.007 第6期黄炳强，等：强化学习原理、算法及应用35 略，使得Agent在运行中所获得的累计报酬值最大⑶. 1.2马尔可夫决策过程（MDP）很多强化学习问题基于的一个关键假设就是Agent与环境之间的交互可以被看成一个马尔可夫决策过程（MDP）,因此强化学习的研究主要集中于对Markov的问题处理. Markov决策过程的模型可以用一个四元组（,, ,）表示：为可能的状态集合，为可能的动作集合，：x是状态转移函数；：x是奖赏函数.在每一个时间步，环境处于状态集合中的某一状态，Agent选择动作集合中的一个动作，收到即时奖赏，并转移至下一状态.状态转移函数 ,，表示在状态执行动作转移到状态的概率，可以用.表示.状态转移函数和奖赏函数都是随机的.Agent目标就是寻求一个最优控制策略，使值函数最大. 1.3搜索策略 Agent对动作的搜索策略主要有贪婪策略和随机策略.贪婪策略总是选择佔计报酬为最大的动作.当报酬函数收敛到局部最优时，贪焚策略无法脱离局部最优点. 为此，可釆用■贪婪策略(-greedy)；随机策略是用一个随机分布來根据各动作的评价值确定其被选择的概率，其原则是保证学习开始时动作选择的随机性较大，随着学习次数的增大，评价值最大的动作被选择的相对概率也随之增大，一种常用的分布是Boltzmann分布⑷. 所有的强化学习算法的机制都是基于值函数和策略之间的相互作用，如图2所示.利用值函数可以改善策略，而利用对策略的评价又可以改进值函数.强化学习在这种交互过程中，逐渐得到最优的值函数和最优策略. 2强化学习的算法到目前为止，研究者们提出了很多强化学习算法，近年来对强化学习算法的研究己由算法本身逐渐转向研究经典算法在各种复杂环境中的应用，较有影响的强化学习算法有TD算法，Q学习算法，Sarsa 算法，Dynn算法，R学习算法，H学习等，还有一些改进算法，如滞后更新多步Q-学习算法等. 2.1 瞬时差分算法 TD (Temporal Difference Algorithm) 这是Sutton在1988年提出的用于解决时间信度分配问题的著名方法皿TD方法能够有效的解决强化学习问题中的暂态信用分配问题，可被用于评价值函数的预测.儿乎所有强化学习算法屮评价值的预测法均可看作TD方法的特例，以至于通常所指的强化学习实际上就是TD类强化学习. 一步TD算法，即TD (0)算法，是一种自适应的策略迭代算法，又名自适应启发评价算法 (Adaptive Heuristic Critic, AHC).所谓一步TD算法，是指Agent获得的瞬时报酬值仅回退一步，也就是说只是修改了相邻状态的估计值.TD (0)算法如式(I). = + + (1) 其中：为步长；指在环境状态下获得报酬和；是指环境状态转移到时获得的报酬折扣和. 图I强化学习的基本模型 Fig. 1 The reinforcement learning framework 图2值函数与策略间的相互作用图 Fig. 2 Conclation between value function and policy Agent 状态奖赏动 TD算法可扩充到TD ()隽法，即Agent获得的瞬时报酬值可回退任意步.TD ()算法的收敛速