智能控制第6章节学习控制-增强学习.ppt

下载文档 降价啦

1
0
约3.61千字
约 51页
2017-09-15 发布于浙江
举报
保障服务

智能控制第6章节学习控制-增强学习.ppt

智能控制第6章节学习控制-增强学习

遍历性条件的策略选择隐含了贪婪原则的选择策略，无法同时保证遍历性，需要寻找其它选择策略在下面的迭代过程中 ?-贪婪方法其中|A(st)|为决策集合的大小，?为探索概率，一般随时间的增长而递减。 Boltzman分布法模仿热力学中的Boltzman分布，得到了一种新的策略选取方法，可以使价值函数值大的行为获得更大的被选概率。 ?的取值一般也随时间的增长而减小。 2. Sarsa算法 Rummery和Niranjan于1994年提出由于算法中只用到了st、at、r、st＋1和at＋1五个量，所以Sutton在其书中将其命名为Sarsa。一种策略有关（on-policy）的学习算法 Sarsa学习算法的收敛性定理6-8：有限MDP下，如果Sarsa学习算法的策略选择满足GLIE（Greedy in the Limit with Infinite Exploration）条件或RRR（Restricted Rank-based Randomized）条件，且Var{r(s, a)}有界，0??n1，满足则当n??，收敛于最优值Q*(s, a)。策略选择条件 GLIE(Greedy in the Limit with Infinite Exploration)条件每一个(s, a)会被无限访问； Q函数的策略

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

智能控制第6章节学习控制-增强学习.ppt