智能控制第6章节 学习控制-增强学习.ppt

智能控制第6章节 学习控制-增强学习

遍历性条件的策略选择 隐含了贪婪原则的选择策略, 无法同时保证遍历性,需要寻找其它选择策略 在下面的迭代过程中 ?-贪婪方法 其中|A(st)|为决策集合的大小,?为探索概率,一般随时间的增长而递减。 Boltzman分布法 模仿热力学中的Boltzman分布,得到了一种新的策略选取方法,可以使价值函数值大的行为获得更大的被选概率。 ?的取值一般也随时间的增长而减小。 2. Sarsa算法 Rummery和Niranjan于1994年提出 由于算法中只用到了st、at、r、st+1和at+1五个量,所以Sutton在其书中将其命名为Sarsa。 一种策略有关(on-policy)的学习算法 Sarsa学习算法的收敛性 定理6-8:有限MDP下,如果Sarsa学习算法的策略选择满足GLIE(Greedy in the Limit with Infinite Exploration)条件或RRR(Restricted Rank-based Randomized)条件,且Var{r(s, a)}有界,0??n1,满足 则当n??,收敛于最优值Q*(s, a)。 策略选择条件 GLIE(Greedy in the Limit with Infinite Exploration)条件 每一个(s, a)会被无限访问; Q函数的策略

文档评论(0)

1亿VIP精品文档

相关文档