- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
遍历性条件的策略选择 隐含了贪婪原则的选择策略, 无法同时保证遍历性,需要寻找其它选择策略 在下面的迭代过程中 ?-贪婪方法 其中|A(st)|为决策集合的大小,?为探索概率,一般随时间的增长而递减。 Boltzman分布法 模仿热力学中的Boltzman分布,得到了一种新的策略选取方法,可以使价值函数值大的行为获得更大的被选概率。 ?的取值一般也随时间的增长而减小。 2. Sarsa算法 Rummery和Niranjan于1994年提出 由于算法中只用到了st、at、r、st+1和at+1五个量,所以Sutton在其书中将其命名为Sarsa。 一种策略有关(on-policy)的学习算法 Sarsa学习算法的收敛性 定理6-8:有限MDP下,如果Sarsa学习算法的策略选择满足GLIE(Greedy in the Limit with Infinite Exploration)条件或RRR(Restricted Rank-based Randomized)条件,且Var{r(s, a)}有界,0??n1,满足 则当n??,收敛于最优值Q*(s, a)。 策略选择条件 GLIE(Greedy in the Limit with Infinite Exploration)条件 每一个(s, a)会被无限访问; Q函数的策略选择随着迭代次数的增长,以概率1收敛于贪婪方法 RRR条件是另一类常见的策略选择思想,这一条件要求对某一行为的选择概率应与该行为的价值函数值呈非减关系,即: 存在问题 收敛速度慢(状态空间、决策空间规模) 因为在一步学习中,获得的即时回报只能影响相邻状态的价值函数值预测。 Markov条件 3. 多步学习算法 学习公式改为: en(s)资格迹(eligibility trace) (时间信度) 0??1为衰减因子,dn(st,at,st+1)为TD误差,例如: 6.2.1 增强学习的基本思想 6.2.2 增强学习的主要算法 6.2.3 增强学习在控制中的应用 6.2 增强学习 6.2.3 在控制中的应用 西洋跳棋 倒立摆控制 任务调度 机器人动作学习 与神经网络结合 1. pH值控制 连续搅拌釜CSTR(Continuous Stirred Tank Reactor)控制系统,该控制系统的目的是保持搅拌釜中溶液的pH值保持在一个给定的水平。pH值y(t)可由pH计读出。pH值的控制由一个滴定系统完成,控制信号u(t)由计算机给出。 状态设计 High if y(t)SP+1 High: if SP+0.2 y(t)?? SP+1 Goal: if SP-0.2? y(t)?? SP+0.2 Low: if SP-1? y(t) SP-0.2 Lower: if y(t)SP-1 行为设计 滴定系统采用增量式控制 #a为行为编号,具体有: 大减、减、小减、等待、小增、增、大增 7种,依次编号。例如等待的行为编号为4。 状态转移图 即时回报设计 除了在Goal区域,其余区域的回报均是惩罚 学习策略 单步Q-学习控制 行为选择采用?贪婪算法,具体参数如下: 折扣因子?=0.98, 学习率?=0.3, 探索概率?=0.3。 控制效果 假设机器人欲前往目的地G,不同行为的即时回报r如下图所示。 G 100 100 0 0 0 0 0 0 0 0 0 0 0 2. 移动机器人路径规划 G 100 100 0 0 0 0 0 0 0 0 0 0 0 一步迭代 G 100 100 0 0 90 90 90 0 0 0 0 0 0 第2步迭代 G 100 100 0 81 90 90 90 81 81 81 81 0 0 第3步迭代 G 100 100 0 81 90 90 90 81 81 81 81 72.9 72.9 第4步迭代 * * 需要所有的模型信息 * 需要所有的模型信息 * 需要所有的模型信息 * V(S)和策略同时迭代 * 当?=0时,即为普通的贪婪方法。 第6章 学习控制-增强学习 智能控制基础 6.2.1 增强学习的基本思想 6.2.2 增强学习的主要算法 6.2.3 增强学习在控制中的应用 6.2 增强学习 6.2.1增强学习的基本思想 强化学习是介于监督学习和无监督学习之间的一种学习方法,它不需要训练样本,但需要对行为结果进行评价,通过这些评价来间接指导行为的改进,直至满足目标。 心理学基础 19世纪末,俄国生理学家巴甫洛夫(Pavlov)建立经典条件反射(classica
您可能关注的文档
- 弓网系统(标准与规范).ppt
- 引教材之水成美丽篇章.ppt
- 引水隧道圆形断面与城门洞型方案比较.ppt
- 星巴克创新与体验营销.ppt
- 星星变奏曲3.ppt
- 弟子规-余力学文的故事 (2).ppt
- 弟子规第二十八讲-见未真勿轻言知未的勿轻传事非宜勿轻诺苟轻诺进退错凡道字重且舒勿急疾勿模糊 (2).ppt
- 星河湾:营销策略及执行方案.ppt
- 春夜宴从弟桃花园序(使用).ppt
- 张婷婷《主动沟通健康成长》.ppt
- 2023-2024学年广东省深圳市龙岗区高二(上)期末物理试卷(含答案).pdf
- 2023-2024学年贵州省贵阳市普通中学高一(下)期末物理试卷(含答案).pdf
- 21.《大自然的声音》课件(共45张PPT).pptx
- 2023年江西省吉安市吉安县小升初数学试卷(含答案).pdf
- 2024-2025学年广东省清远市九校联考高一(上)期中物理试卷(含答案).pdf
- 广东省珠海市六校联考2024-2025学年高二上学期11月期中考试语文试题.pdf
- 2024-2025学年语文六年级上册第4单元-单元素养测试(含答案).pdf
- 2024-2025学年重庆八中高三(上)月考物理试卷(10月份)(含答案).pdf
- 安徽省安庆市潜山市北片学校联考2024-2025学年七年级上学期期中生物学试题(含答案).pdf
- 贵州省部分校2024-2025学年九年级上学期期中联考数学试题(含答案).pdf
最近下载
- 基于Android开发的购物商城App的设计与实现-毕业设计.pdf VIP
- 测绘中级工程师职称答辩题库.pdf
- 办公大楼供电设备管理维护方案.docx VIP
- 学习小组组织与管理小组组织与管理实施计划.docx
- 2024年中考物理二轮题型(全国通用)压轴题:含压强、浮力、杠杆、滑轮的机械效率的综合计算(解析版).pdf VIP
- 高校学生工作案例分析的方法与技巧.pdf VIP
- 基于Android的网上商店商城购物系统app的设计与实现毕业论文.docx
- 地理学概论地理科学研究的基本方法.ppt
- 八年级上册英语完形填空、阅读理解专题100题(含参考答案).pdf VIP
- 2023年肺癌脑转移中国治疗指南.docx
文档评论(0)