智能控制第6章学习控制-增强学习.ppt

下载文档

0
0
约3.61千字
约 51页
2017-05-29 发布于四川
举报
版权申诉
保障服务

智能控制第6章学习控制-增强学习.ppt

1、本文档共51页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

遍历性条件的策略选择隐含了贪婪原则的选择策略，无法同时保证遍历性，需要寻找其它选择策略在下面的迭代过程中 ?-贪婪方法其中|A(st)|为决策集合的大小，?为探索概率，一般随时间的增长而递减。 Boltzman分布法模仿热力学中的Boltzman分布，得到了一种新的策略选取方法，可以使价值函数值大的行为获得更大的被选概率。 ?的取值一般也随时间的增长而减小。 2. Sarsa算法 Rummery和Niranjan于1994年提出由于算法中只用到了st、at、r、st＋1和at＋1五个量，所以Sutton在其书中将其命名为Sarsa。一种策略有关（on-policy）的学习算法 Sarsa学习算法的收敛性定理6-8：有限MDP下，如果Sarsa学习算法的策略选择满足GLIE（Greedy in the Limit with Infinite Exploration）条件或RRR（Restricted Rank-based Randomized）条件，且Var{r(s, a)}有界，0??n1，满足则当n??，收敛于最优值Q*(s, a)。策略选择条件 GLIE(Greedy in the Limit with Infinite Exploration)条件每一个(s, a)会被无限访问； Q函数的策略选择随着迭代次数的增长，以概率1收敛于贪婪方法 RRR条件是另一类常见的策略选择思想，这一条件要求对某一行为的选择概率应与该行为的价值函数值呈非减关系，即：存在问题收敛速度慢（状态空间、决策空间规模）因为在一步学习中，获得的即时回报只能影响相邻状态的价值函数值预测。 Markov条件 3. 多步学习算法学习公式改为： en(s)资格迹(eligibility trace) （时间信度） 0??1为衰减因子，dn(st,at,st+1)为TD误差，例如： 6.2.1 增强学习的基本思想 6.2.2 增强学习的主要算法 6.2.3 增强学习在控制中的应用 6.2 增强学习 6.2.3 在控制中的应用西洋跳棋倒立摆控制任务调度机器人动作学习与神经网络结合 1. pH值控制连续搅拌釜CSTR（Continuous Stirred Tank Reactor）控制系统，该控制系统的目的是保持搅拌釜中溶液的pH值保持在一个给定的水平。pH值y(t)可由pH计读出。pH值的控制由一个滴定系统完成，控制信号u(t)由计算机给出。状态设计 High if y(t)SP+1 High： if SP+0.2 y(t)?? SP+1 Goal： if SP-0.2? y(t)?? SP+0.2 Low： if SP-1? y(t) SP-0.2 Lower： if y(t)SP-1 行为设计滴定系统采用增量式控制＃a为行为编号，具体有：大减、减、小减、等待、小增、增、大增 7种，依次编号。例如等待的行为编号为4。状态转移图即时回报设计除了在Goal区域，其余区域的回报均是惩罚学习策略单步Q-学习控制行为选择采用?贪婪算法，具体参数如下：折扣因子?＝0.98，学习率?＝0.3，探索概率?＝0.3。控制效果假设机器人欲前往目的地G，不同行为的即时回报r如下图所示。 G 100 100 0 0 0 0 0 0 0 0 0 0 0 2. 移动机器人路径规划 G 100 100 0 0 0 0 0 0 0 0 0 0 0 一步迭代 G 100 100 0 0 90 90 90 0 0 0 0 0 0 第2步迭代 G 100 100 0 81 90 90 90 81 81 81 81 0 0 第3步迭代 G 100 100 0 81 90 90 90 81 81 81 81 72.9 72.9 第4步迭代 * * 需要所有的模型信息 * 需要所有的模型信息 * 需要所有的模型信息 * V(S)和策略同时迭代 * 当?=0时，即为普通的贪婪方法。第6章学习控制－增强学习智能控制基础 6.2.1 增强学习的基本思想 6.2.2 增强学习的主要算法 6.2.3 增强学习在控制中的应用 6.2 增强学习 6.2.1增强学习的基本思想强化学习是介于监督学习和无监督学习之间的一种学习方法，它不需要训练样本，但需要对行为结果进行评价，通过这些评价来间接指导行为的改进，直至满足目标。心理学基础 19世纪末，俄国生理学家巴甫洛夫（Pavlov）建立经典条件反射（classica