第06章强化学习.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第06章强化学习

;1 介绍;前言(1);;;1.1 动态规划与强化学习问题(1);1.1 动态规划与强化学习问题(2);1.1 动态规划与强化学习问题(3);1.1 动态规划与强化学习问题(4);1.1 动态规划与强化学习问题(5);1.2 动态规划与强化学习中的逼近(1);1.2 动态规划与强化学习中的逼近(2);对于每个状态x,通过公式 ,计算出相对应的ψ1,… ψN 。 “forward”对应的θ向量为: 线性方法,状态动作对(x,forward)对应的近似Q值为:;DP/RL算法只需要保存4N个参数,当N不太大时,这一点能很容易做到。 这种函数的表示方法能泛化到任意DP/RL问题。 即使对具有有限数目的离散状态和动作的问题,压缩表示可以减少值的数目,使其更容易存储。 并非所有的DP和RL算法都使用Q函数,它们通常也需要压缩表示,因此可以扩展到一般情况。;为了得到一个近似的最优策略,采取动作,使得Q函数最大化。 在大的或连续的状态空间中,这种优化问题潜在地存在很大的困难,通常只能被近似地解决。 使用离散动作函数时,足以计算所有的离散动作的近似Q值,通过枚举即可以找到这些Q值中的最大值。 ;如果算法是迭代的,使用逼近算法能否收敛?或如果算法是迭代的,它能得到一个有意义的解吗? 如果得到有意义的解,它接近最优吗?更确切地说,它距离最优解有多远? 算法是否具有一致性,即随着逼近呈指数的增长,算法是否逐渐收敛到最优解?;对给定的问题,选择一个适当的函数逼近器,是一个非常常见的任务。 由于函数逼近器的复杂性直接影响到DP和RL算法的存储和计算代价,因此必须对它进行有效控制。 由于越复杂的逼近器需要的数据量越大,因此在近似RL中,对得到的数据量的限制也同样重要。 如果能得到关于激励函数的先验知识,可以提前设计一个低复杂度、但仍然精确的逼近器。 本书中我们特别关注的是自动寻找适合某一问题的低复杂度的逼近器,而不是依靠手工设计。;

文档评论(0)

kakaxi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档