强化学习基本知识.docxVIP

下载本文档

2
0
约5.82千字
约 7页
2019-12-11 发布于江西
举报
版权申诉

强化学习基本知识.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

强化学习基础知识作为人工智能领域、机器学习(Machine Learnig)热点研究内容之一的强化学习 (Reinforcement Learning,RL)，旨在通过在无外界“教师”参与的情况下，智能体(Agent)自身通过不断地与环境交互、试错，根据反馈评价信号调整动作，得到最优的策略以适应环境。一、Markov?决策过程（MDP）强化学习的来源是马尔科夫决策过程：M=S,A,P,R Markov?性的意思是?x?取?x(1),x(2),x(3)...x(n)所得到?x(n+m)的分布与?x?只取?x(n)所得到的 x(n+m)的分布相同，既是说未来状态的分布只与当前状态有关，而与过去状态无关。（无后效性）若转移概率函数?P（s,a,s’）和回报函数?r(s,a,s’)与决策时间?t?无关，即不随时间?t?的变化而变化，则?MDP?称为平稳?MDP。当前状态?s?所选取的动作是由策略?h?决定：S*A???[0,1] A=???(s)在状态?s?下用策略 ??所选取的动作。动作后的结果是由值函数以评估，它是由?Bellman?公式得到。（折扣因子?????(0,1)?） Q?? Q??(s,?a)???R(s,?a)???????P(s,?a,?s?)???Q???(s,?a?) 动作—状态值函数 V???(s)?????h(s,?a)[R(s,?a)???????P(s,?a,?s?)V???(s?)] u?U?s??S ? s??S?a? 对于确定性策略? ，有对于确定性策略? ，有V??(s)???Q??(s,????(s))?；——一个状态转移概率对于不确定性策略? 对于不确定性策略? ，有V??(s)?? ???(s,?a)Q??(s,?a)?——多个状态转移概率 a?A 强化学习的最终目的是找到最优策略，选择值函数最大的动作。最优值函数或者 V???(s)???max[R(s,?a)???????P(s,?a,?s?)V?*?(s?)] s??S 最优动作— 最优动作—状态值函数??Q?(s,?a)???R(s,?a)??? ??P(s,?a,?s?){max?Q??(s,?a?)} s??S 或者兼而有之为了避免局部最优需要进行随机探索，为了逼近既定目标需要抽取最优策略，所以算法中存在一个探索与利用的平衡。 ?max?V?(s)?s.t.V?(s) ?max?V?(s) ?s.t.V?(s)???R(s,?a)???????P(s,?a,?s?)V?(s?),??s???S,??a???A 策略迭代分为策略评估和策略改进两部分：在评估部分，对于一个给定的策略? ，根对于电磁微阀控制 s——当前四个微阀状态 a——操作四个微阀的动作，0?为关闭，1?为开启 s’——动作后微阀的新状态 P(s,a,s’)——状态?s?调控微阀使其达到新状态?s’的概率 V???(s)?——在调控后这个状态的累计奖赏值 R(s,?a)?——本次动作的立即奖赏值，根据各点温度及标准差的计算评估得到 ??(s,a)——调节微阀的各种策略二、基于模型的动态规划算法动态规划是一个多阶段的决策问题,在最优决策问题中，常规动态规划算法主要分为下面四类：第一类是线性规划法，根据?Bellman?方程将值函数的求取转化为一个线性规划问题；线性规划方程包含|S|个变量，|S|*|A|个不等式约束，其计算复杂度为多项式时间。 ? s?S ? ? s??S 第二类是策略迭代，仍然是基于?Bellman?最优方程的算法，通过策略评估与策略迭代的交替进行来求取最优策略； k 据?Bellman?公式求解V ??k?1 ?k (s)?和?Q?k?(s,?a)?。对于评估部分，用贪婪策略得到改进的策略第三类是值函数迭代法，其本质为有限时段的动态规划算法在无限时段上的推广，是一种逐次逼近算法；将?Bellman? 将?Bellman?公式改写为Vt?1(s)????max ??P(s,?a,?s?)(R(s,?a,?s?)????Vt?(s?)),??s???S?,就 s??S 可跳过策略改进步骤，直接用迭代法逼近最优值函数?V*,从而求取最优策略???* 第四类是广义策略迭代法，综合了策略迭代和值迭代方法特点。广义策略评估是策略评估与策略改进相结合的学习过程。策略评估总是试图让策略和相应的值函数一致，而策略改进总是破坏策略评估得到的一致性。最终策略和值函数都不再变化是迭代结束。下图在两个维度上（两条线表示）描述了广义策略迭代的逼近过程，学习的最终目的是获得最优策略，具体的学习过程可以在值函数唯独和策略策略维度上灵活的变化。值函数迭代方法只在值函数维度上工作，而策略迭