强化学习基本知识.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
强化学习基础知识 作为人工智能领域、机器学习(Machine Learnig)热点研究内容之一的强化学习 (Reinforcement Learning,RL),旨在通过在无外界“教师”参与的情况下,智能体(Agent)自 身通过不断地与环境交互、试错,根据反馈评价信号调整动作,得到最优的策略以适应环 境。 一、Markov?决策过程(MDP) 强化学习的来源是马尔科夫决策过程:M=S,A,P,R Markov?性的意思是?x?取?x(1),x(2),x(3)...x(n)所得到?x(n+m)的分布与?x?只取?x(n)所得到的 x(n+m)的分布相同,既是说未来状态的分布只与当前状态有关,而与过去状态无关。(无 后效性) 若转移概率函数?P(s,a,s’)和回报函数?r(s,a,s’)与决策时间?t?无关,即不随时间?t?的变 化而变化,则?MDP?称为平稳?MDP。 当前状态?s?所选取的动作是由策略?h?决定:S*A???[0,1] A=???(s)在状态?s?下用策略 ??所选取的动作。 动作后的结果是由值函数以评估,它是由?Bellman?公式得到。(折扣因子?????(0,1)?) Q?? Q??(s,?a)???R(s,?a)???????P(s,?a,?s?)???Q???(s,?a?) 动作—状态值函数 V???(s)?????h(s,?a)[R(s,?a)???????P(s,?a,?s?)V???(s?)] u?U?s??S ? s??S?a? 对于确定性策略? ,有 对于确定性策略? ,有V??(s)???Q??(s,????(s))?;——一个状态转移概率 对于不确定性策略? 对于不确定性策略? ,有V??(s)?? ???(s,?a)Q??(s,?a)?——多个状态转移概率 a?A 强化学习的最终目的是找到最优策略,选择值函数最大的动作。 最优值函数 或者 V???(s)???max[R(s,?a)???????P(s,?a,?s?)V?*?(s?)] s??S 最优动作— 最优动作—状态值函数??Q?(s,?a)???R(s,?a)??? ??P(s,?a,?s?){max?Q??(s,?a?)} s??S 或者 兼而有之 为了避免局部最优需要进行随机探索,为了逼近既定目标需要抽取最优策略,所以算 法中存在一个探索与利用的平衡。 ?max?V?(s)?s.t.V?(s) ?max?V?(s) ?s.t.V?(s)???R(s,?a)???????P(s,?a,?s?)V?(s?),??s???S,??a???A 策略迭代分为策略评估和策略改进两部分:在评估部分,对于一个给定的策略? ,根 对于电磁微阀控制 s——当前四个微阀状态 a——操作四个微阀的动作,0?为关闭,1?为开启 s’——动作后微阀的新状态 P(s,a,s’)——状态?s?调控微阀使其达到新状态?s’的概率 V???(s)?——在调控后这个状态的累计奖赏值 R(s,?a)?——本次动作的立即奖赏值,根据各点温度及标准差的计算评估得到 ??(s,a)——调节微阀的各种策略 二、基于模型的动态规划算法 动态规划是一个多阶段的决策问题,在最优决策问题中,常规动态规划算法主要分为下 面四类: 第一类是线性规划法,根据?Bellman?方程将值函数的求取转化为一个线性规划问题; 线性规划方程包含|S|个变量,|S|*|A|个不等式约束,其计算复杂度为多项式时间。 ? s?S ? ? s??S 第二类是策略迭代,仍然是基于?Bellman?最优方程的算法,通过策略评估与策略迭代 的交替进行来求取最优策略; k 据?Bellman?公式求解V ??k?1 ?k (s)?和?Q?k?(s,?a)?。对于评估部分,用贪婪策略得到改进的策略 第三类是值函数迭代法,其本质为有限时段的动态规划算法在无限时段上的推广,是 一种逐次逼近算法; 将?Bellman? 将?Bellman?公式改写为Vt?1(s)????max ??P(s,?a,?s?)(R(s,?a,?s?)????Vt?(s?)),??s???S?,就 s??S 可跳过策略改进步骤,直接用迭代法逼近最优值函数?V*,从而求取最优策略???* 第四类是广义策略迭代法,综合了策略迭代和值迭代方法特点。 广义策略评估是策略评估与策略改进相结合的学习过程。策略评估总是试图让策略和 相应的值函数一致,而策略改进总是破坏策略评估得到的一致性。最终策略和值函数都不 再变化是迭代结束。下图在两个维度上(两条线表示)描述了广义策略迭代的逼近过程, 学习的最终目的是获得最优策略,具体的学习过程可以在值函数唯独和策略策略维度上灵 活的变化。值函数迭代方法只在值函数维度上工作,而策略迭

文档评论(0)

lihuamei118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档