强化学习入门第二讲基于模型强化学习.ppt

下载文档 降价啦

13
0
约小于1千字
约 17页
2020-07-04 发布于福建
举报
版权申诉
保障服务

强化学习入门第二讲基于模型强化学习.ppt

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

强化学习入门第二讲郭宪尺机器人与信息自动化研究所有大粤 ankai University 一周工作损告南开大学机人与信息自动化研完所强化学习的形式化机器人〈观新策略:π:S→u。常采用随机策略:π(uls) 的状累积回报:R()=r(x)+)r(x,a) 折扣回报值函数环境状态转移概率P(S+1s.a) 强化学习目标:max‖r(r)pn(r)d 最优策略:r:s→u 马尔科夫决策问题(p:四元组(SAPr)s 序贯决策问题 Nankai University 强化学习方法分类序贯决策问题马尔科夫决策过程MDP(APRy) (S, A, P,R,y) (S, A, P? R? Y?) 基于模型的动态规划方法无模型的强化学习方法策略迭代略搜索策略迭代本节讲基于模型的策略迭代算法和值迭代算法 Nankai University 动态规划动态规划是一类算法:包括离散和连续。马尔科夫决策过程(mP),贝尔曼最动态:蕴含着序列决策优性原理,得到贝尔曼最优化方程规划:蕴含着优化,如线性优化,二次优化或者非线性优化。 (s)=maxg+y)pgu、尺动态规划可以解决的问题 a'(S, a)=Rg+r) Pe, maxa'q'(s', a'? 1.整个优化问题可以分解成多个子优化问题动态规划可以解决MP的问题 2.子优化问题的解可以被存储和重复利用核心:动态规划通过值函数来迭代构造最优解 Nankai University 策略评估( policy evaluation 给定策略π构造值函数 r(als)gr(s, a) Ur(S) 4(s, a)=Rg+y)Psg, "n(s") 尺 n(s)←s10 模型已知,方程组中只有值函数是未知数,方程组是线性方程组。未知数的数目等于状态的数目采用数值迭代算法 Nankai University Institute of Robotics and Automatic Information

您可能关注的文档

文档评论（0）

3471161553 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

强化学习入门第二讲基于模型强化学习.ppt