强化学习入门 第二讲 基于模型强化学习.ppt

强化学习入门 第二讲 基于模型强化学习.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
强化学习入门第二讲 郭宪 尺 机器人与信息自动化研究所 有大粤 ankai University 一周工作损告 南开大学机人与信息自动化研完所 强化学习的形式化 机器人〈观新 策略:π:S→u。常采用随机策略:π(uls) 的状 累积回报:R()=r(x)+)r(x,a) 折扣回报 值函数 环境 状态转移概率P(S+1s.a) 强化学习目标:max‖r(r)pn(r)d 最优策略:r:s→u 马尔科夫决策问题(p:四元组(SAPr)s 序贯决策问题 Nankai University 强化学习方法分类 序贯决策问题 马尔科夫决策过程MDP(APRy) (S, A, P,R,y) (S, A, P? R? Y?) 基于模型的动态规划方法 无模型的强化学习方法 策略迭代 略搜索 策略迭代 本节讲基于模型的策略迭代算法和值迭代算法 Nankai University 动态规划 动态规划是一类算法:包括离散和连续。马尔科夫决策过程(mP),贝尔曼最 动态:蕴含着序列决策 优性原理,得到贝尔曼最优化方程 规划:蕴含着优化,如线性优化,二次优化 或者非线性优化。 (s)=maxg+y)pgu、 尺 动态规划可以解决的问题 a'(S, a)=Rg+r) Pe, maxa'q'(s', a'? 1.整个优化问题可以分解成多个子优化问题 动态规划可以解决MP的问题 2.子优化问题的解可以被存储和重复利用 核心:动态规划通过值函数来迭代 构造最优解 Nankai University 策略评估( policy evaluation 给定策略π构造值函数 r(als)gr(s, a) Ur(S) 4(s, a)=Rg+y)Psg, "n(s") 尺 n(s)←s10 模型已知,方程组中只有值函数是未知数,方程 组是线性方程组。未知数的数目等于状态的数目 采用数值迭代算法 Nankai University Institute of Robotics and Automatic Information

文档评论(0)

3471161553 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档