强化学习-课件第3章 最优控制.pptx

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第三章最优控制

目录价值的定义动态规划算法LQR控制案例:利用策略迭代和值迭代求解迷宫寻宝问题

价值的定义

最优控制问题?AgentEnvironment

三连棋游戏井字形棋盘一方在棋盘上画○,一方在棋盘上画×,交替进行某一时刻,棋盘上同一直线出现三个○或三个×,即为获胜棋盘被填满还未分出胜负,则记为平局

游戏规则由人类玩家和电脑进行对战:人类玩家画○,电脑画×,每次游戏都从人类玩家开始当棋盘某一直线上有两个○,且剩下位置是空的,电脑会在这个位置画×,阻止人类获胜如果人类玩家不能在一步之内取胜,电脑会等概率随机选择一个空位置画×

定义MDP?

求解最优策略:第一步走中间?

求解最优策略:第一步走中间?

求解最优策略:第一步走中间??????平局胜利胜利平局平局平局?????????????v????

求解最优策略:第一步走中间?

求解最优策略:第一步走角落?????????????

求解最优策略:第一步走角落?

求解最优策略:第一步走角落○×○×○○×○○×○○×○????????

求解最优策略:第一步走角落??

求解最优策略:第一步走角落?

三连棋游戏最优策略?

“价值”的思想???

?中间状态的“价值”

中间状态的“价值”初始状态也属于中间状态“中间状态”?????“中间状态”?????

状态-价值-最佳动作表状态价值最佳动作0.9160.66610.33走角落走对角走中间(必胜)走对角

策略下状态的价值?

状态的价值?

价值的计算?

动态规划的思想将大的问题拆分成若干个比较小的问题,分别求解这些小问题,再用这些小问题的结果来解决大问题这种拆分是在时间维度上的,称为时间差分(TemporalDifference,TD),即利用下一时刻状态的价值计算当前时刻状态的价值,直到计算出所有状态的价值

动态规划算法

?通过策略求解状态价值

策略评估??

策略评估?

雅克比迭代法??

策略提升?

策略迭代法??

值迭代法??

策略迭代与值迭代???????????误差很大的价值误差一般的价值误差很小的价值殊途同归策略迭代值迭代?

Bellman方程?

Bellman方程?

LQR控制

连续状态动作的MDP?

基本的LQR问题?

基本的LQR问题???

问题的解(T=1)????

问题的解?

LQR控制器?

LQR控制器?

LQR控制器?

LQR控制器???

LQR控制器?

LQR控制器?

LQR控制器??????????????????向前迭代向前迭代向前迭代向前迭代

LQR控制器?

总结最优控制可以解决环境完全已知的MDP问题状态-动作离散且环境已知的MDP问题:策略迭代:通过不断进行策略评估和策略改进,直至策略收敛,从而得到最佳策略,由于迭代速度快,适合状态空间较小的情况值迭代:通过迭代计算最佳状态价值,从最佳状态价值中提取出最佳策略,由于计算量少,适合状态空间较大的情况状态-动作连续且环境已知的MDP问题:LQR:解决状态转移关系为线性且有时间限制的MDP问题iLQR:解决状态转移关系为非线性且有时间限制的MDP问题

案例:利用策略迭代和值迭代求解迷宫寻宝问题

案例介绍迷宫寻宝问题:在一个5×5的棋盘中,超级玛丽位于棋盘左上角的方格内,可以向上、下、左、右四个方向移动,每回合移动一次记为1步宝藏位于棋盘最下层中间的方格内,超级玛丽找到宝藏则游戏结束目标是让超级玛丽以最少的步数找到宝藏利用策略迭代和值迭代求解迷宫寻宝问题的最佳策略

扫描二维码发现更多《强化学习》官方公众号

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档