《强化学习理论与应用》数学建模.pptx

下载文档

43
0
约1.95千字
约 56页
2023-08-20 发布于湖北
举报
版权申诉
保障服务

《强化学习理论与应用》数学建模.pptx

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

目录;马尔可夫决策过程（MDP）：强化学习的数学理论基础；以概率形式对强化学习任务进行建模；对强化学习过程中出现的状态、动作、状态转移概率和奖赏等概念进行抽象表达。;3.1 马尔可夫决策过程（1）;3.1 马尔可夫决策过程（2）;3.1 马尔可夫决策过程（3）;3.1 马尔可夫决策过程（4）;确定环境：随机环境：;3.1 马尔可夫决策过程（6）;3.1 马尔可夫决策过程（7）;3.1 马尔可夫决策过程（8）;状态空间：离散化为24个不同的状态（除去[3,3]），用集合表示为：;状态转移函数：;奖赏函数：;3.1 马尔可夫决策过程（12）;3.1 马尔可夫决策过程（13）;3.1 马尔可夫决策过程（14）; 目录;3.2 基于模型和无模型（1）;3.2 基于模型和无模型（2）;3.2 基于模型和无模型（3）; 目录; ; ; ; ; ;3.3.2 奖赏与回报; ;例3.4 扫地机器人任务;3.3.3 值函数与贝尔曼方程; 动作值函数是在状态值函数的基础上考虑了执行动作a所产生的影响。于是可以构建值函数的递归关系：; 根据状态值函数贝尔曼方程，可以构建状态值函数更新图，空心圆表示状态，实心圆表示动作。由图可知，状态值函数与动作值函数满足如下关系式：; 与状态值函数的贝尔曼方程推导方式类似，同理可以得到动作值函数的贝尔曼方程：; 根据动作值函数的贝尔曼方程，可以构建动作值函数更新图：;例3.5 已知、、、的状态值，利用状态值函数的贝尔曼方程，表示的状态值。;确定情况下扫地机器人任务中，采用的随机策略为:;首先，列出贝尔曼方程：;求解方程组，得到各个状态的状态值：;3.3.4 最优策略与最优值函数;最优状态值函数定义为：最优策略可能不止一个，它们共享相同的状态值函数。;贝尔曼最优方程基于状态值的贝尔曼最优方程：;3.3 求解强化学习任务（21）;3.3 求解强化学习任务（22）;?;例3.7 求解确定环境下扫地机器人任务的最优状态值函数，并给出最优策略。设折扣率。 ; 利用第4章的值迭代算法，可以求得最优状态值和最优策略：; 目录;强化学习的一大矛盾：探索与利用的平衡 Agent秉持利用机制（exploitation），为了得到最大回报，需要始终采用最优动作，即根据当前的值函数选择最优动作，最大限度地提升回报。 Agent需要探索机制（exploration），摒弃基于值函数的贪心策略，找到更多可能的动作来获得更好的策略，探索更多的可能性。;行为策略（behavior policy）：用于产生采样数据的策略，具备探索性，能够覆盖所有情况，通常采用 -柔性策略；目标策略（target policy）：强化学习任务中待求解的策略，也就是待评估和改进的策略，一般不具备探索性，通常采用确定性贪心策略。 ;同策略（on-policy）：行为策略和目标策略相同。通过贪心策略平衡探索和利用，在保证初始状态-动作对不变的前提下，确保每一组(s,a)都有可能被遍历到。常用算法为Sarsa和Sarsa(??)算法。异策略（off-policy）：行为策略和目标策略不同。将探索与利用分开，在行为策略中贯彻探索原则：采样数据，得到状态-动作序列；在目标策略中贯彻利用原则：更新值函数并改进目标策略，以得到最优目标策略。常用算法为Q-learning和DQN算法。; 目录;本章主要介绍了强化学习的基础数学理论，以马尔可夫决策过程描述了Agent与环境的交互。状态是Agent选择动作的基础，通过动作的选择，完成状态的转移，并以奖赏评判Agent动作选择的优劣。有限的状态、动作和收益共同构成了有限马尔可夫决策过程，回报刻画了Agent能获得的全部未来奖赏，对于不同的任务，未来状态的奖赏会有不同的折扣，而Agent的任务就是最大化回报。动作的选择依赖于Agent所采取的策略，而强化学习的目的就是获得最优策略。 ;引入状态值和动作状态值来描述回报，通过贝尔曼最优方程将马尔可夫决策过程表达抽象化，从而可以相对容易地求解得到最优价值函数。在强化学习问题中，定义环境模型和明确最优值函数是计算最优策略的基础，在后续章节中，将进一步讨论如何求解最优策略。;的变化：（1）图3.12中障碍物、充电桩及垃圾位置不同；（2）在任何状态下都有上、下、左、右4个不同的动作，当采取冲出边界的动作时，机器人保持原地不同。其他参数等设置与例3.1、3.2相同。;3.6 习题（2）;