网站大量收购独家精品文档,联系QQ:2885784924

《强化学习理论与应用》数学建模.pptx

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目录;马尔可夫决策过程(MDP): 强化学习的数学理论基础; 以概率形式对强化学习任务进行建模; 对强化学习过程中出现的状态、动作、状态转移概率和奖赏等概念进行抽象表达。;3.1 马尔可夫决策过程(1);3.1 马尔可夫决策过程(2);3.1 马尔可夫决策过程(3);3.1 马尔可夫决策过程(4);确定环境: 随机环境:;3.1 马尔可夫决策过程(6);3.1 马尔可夫决策过程(7);3.1 马尔可夫决策过程(8);状态空间: 离散化为24个不同的状态(除去[3,3]),用集合表示为:;状态转移函数:;奖赏函数:;3.1 马尔可夫决策过程(12);3.1 马尔可夫决策过程(13);3.1 马尔可夫决策过程(14); 目 录;3.2 基于模型和无模型(1);3.2 基于模型和无模型(2);3.2 基于模型和无模型(3); 目 录; ; ; ; ; ;3.3.2 奖赏与回报; ;例3.4 扫地机器人任务;3.3.3 值函数与贝尔曼方程; 动作值函数是在状态值函数的基础上考虑了执行动作a所产生的影响。于是可以构建值函数的递归关系:; 根据状态值函数贝尔曼方程,可以构建状态值函数更新图,空心圆表示状态,实心圆表示动作。由图可知,状态值函数与动作值函数满足如下关系式:; 与状态值函数的贝尔曼方程推导方式类似,同理可以得到动作值函数的贝尔曼方程:; 根据动作值函数的贝尔曼方程,可以构建动作值函数更新图:;例3.5 已知 、 、 、 的状态值,利用状态值函数的贝尔曼方程,表示 的状态值。;确定情况下扫地机器人任务中,采用的随机策略为:;首先,列出贝尔曼方程:;求解方程组,得到各个状态的状态值:;3.3.4 最优策略与最优值函数;最优状态值函数定义为:最优策略可能不止一个,它们共享相同的状态值函数。;贝尔曼最优方程 基于状态值的贝尔曼最优方程:;3.3 求解强化学习任务(21);3.3 求解强化学习任务(22);?;例3.7 求解确定环境下扫地机器人任务的最优状态值函数,并给出最优策略。设折扣率 。 ; 利用第4章的值迭代算法,可以求得最优状态值和最优策略:; 目 录;强化学习的一大矛盾:探索与利用的平衡 Agent秉持利用机制(exploitation),为了得到最大回报,需要始终采用最优动作,即根据当前的值函数选择最优动作,最大限度地提升回报。 Agent需要探索机制(exploration),摒弃基于值函数的贪心策略,找到更多可能的动作来获得更好的策略,探索更多的可能性。;行为策略(behavior policy):用于产生采样数据的策略,具备探索性,能够覆盖所有情况,通常采用 -柔性策略; 目标策略(target policy):强化学习任务中待求解的策略,也就是待评估和改进的策略,一般不具备探索性,通常采用确定性贪心策略。 ;同策略(on-policy):行为策略和目标策略相同。通过 贪心策略平衡探索和利用,在保证初始状态-动作对 不变的前提下,确保每一组(s,a)都有可能被遍历到。常用算法为Sarsa和Sarsa(??)算法。 异策略(off-policy):行为策略和目标策略不同。将探索与利用分开,在行为策略中贯彻探索原则:采样数据,得到状态-动作序列;在目标策略中贯彻利用原则:更新值函数并改进目标策略,以得到最优目标策略。常用算法为Q-learning和DQN算法。; 目 录;本章主要介绍了强化学习的基础数学理论,以马尔可夫决策过程描述了Agent与环境的交互。状态是Agent选择动作的基础,通过动作的选择,完成状态的转移,并以奖赏评判Agent动作选择的优劣。 有限的状态、动作和收益共同构成了有限马尔可夫决策过程,回报刻画了Agent能获得的全部未来奖赏,对于不同的任务,未来状态的奖赏会有不同的折扣,而Agent的任务就是最大化回报。动作的选择依赖于Agent所采取的策略,而强化学习的目的就是获得最优策略。 ;引入状态值和动作状态值来描述回报,通过贝尔曼最优方程将马尔可夫决策过程表达抽象化,从而可以相对容易地求解得到最优价值函数。在强化学习问题中,定义环境模型和明确最优值函数是计算最优策略的基础,在后续章节中,将进一步讨论如何求解最优策略。;的变化:(1)图3.12中障碍物、充电桩及垃圾位置不同;(2)在任何状态下都有上、下、左、右4个不同的动作,当采取冲出边界的动作时,机器人保持原地不同。其他参数等设置与例3.1、3.2相同。;3.6 习题(2);

文档评论(0)

151****0181 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档