智能控制第6章节 学习控制-增强学习
遍历性条件的策略选择 隐含了贪婪原则的选择策略, 无法同时保证遍历性,需要寻找其它选择策略 在下面的迭代过程中 ?-贪婪方法 其中|A(st)|为决策集合的大小,?为探索概率,一般随时间的增长而递减。 Boltzman分布法 模仿热力学中的Boltzman分布,得到了一种新的策略选取方法,可以使价值函数值大的行为获得更大的被选概率。 ?的取值一般也随时间的增长而减小。 2. Sarsa算法 Rummery和Niranjan于1994年提出 由于算法中只用到了st、at、r、st+1和at+1五个量,所以Sutton在其书中将其命名为Sarsa。 一种策略有关(on-policy)的学习算法 Sarsa学习算法的收敛性 定理6-8:有限MDP下,如果Sarsa学习算法的策略选择满足GLIE(Greedy in the Limit with Infinite Exploration)条件或RRR(Restricted Rank-based Randomized)条件,且Var{r(s, a)}有界,0??n1,满足 则当n??,收敛于最优值Q*(s, a)。 策略选择条件 GLIE(Greedy in the Limit with Infinite Exploration)条件 每一个(s, a)会被无限访问; Q函数的策略
您可能关注的文档
- 新课标人教版化学选修4第一章节演示课件.ppt
- 施工企业会计4章节.ppt
- 新财务管理第三章节.ppt
- 新课标理科数学第八章节第六节双曲线.ppt
- 无线局域网第一章节.ppt
- 无机材料科学第十章节烧结.ppt
- 无机材料工程基础第二章节.ppt
- 无线网络导论 第2章节 无线传输技术基础.ppt
- 无线网络导论 第4章节 无线个域网.ppt
- 无机及分析化学第2章节.ppt
- 安全生产管理员能力培训.pptx
- 咽异感症与心理健康促进.pptx
- 咽异感症与扁桃体炎的鉴别.pptx
- 咽异感症与抑郁症的关系.pptx
- 咽异感症与环境污染的关系.pptx
- 《生动的数据》课件-2025-2026学年沪教版(新教材)小学美术三年级下册.pptx
- 《校园微电影宣传策划》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
- 《 春华秋实绘花鸟》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
- 管理层安全培训策略.pptx
- 《把“大自然”穿在身上》教学课件-2025-2026学年人美版(北京)(2024)初中美术七年级下册.pptx
原创力文档

文档评论(0)