- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
强化学习基础知识
作为人工智能领域、机器学习(Machine Learnig)热点研究内容之一的强化学习
(Reinforcement Learning,RL),旨在通过在无外界“教师”参与的情况下,智能体(Agent)自
身通过不断地与环境交互、试错,根据反馈评价信号调整动作,得到最优的策略以适应环
境。
一、Markov?决策过程(MDP)
强化学习的来源是马尔科夫决策过程:M=S,A,P,R
Markov?性的意思是?x?取?x(1),x(2),x(3)...x(n)所得到?x(n+m)的分布与?x?只取?x(n)所得到的
x(n+m)的分布相同,既是说未来状态的分布只与当前状态有关,而与过去状态无关。(无
后效性)
若转移概率函数?P(s,a,s’)和回报函数?r(s,a,s’)与决策时间?t?无关,即不随时间?t?的变
化而变化,则?MDP?称为平稳?MDP。
当前状态?s?所选取的动作是由策略?h?决定:S*A???[0,1] A=???(s)在状态?s?下用策略
??所选取的动作。
动作后的结果是由值函数以评估,它是由?Bellman?公式得到。(折扣因子?????(0,1)?)
Q??
Q??(s,?a)???R(s,?a)???????P(s,?a,?s?)???Q???(s,?a?)
动作—状态值函数
V???(s)?????h(s,?a)[R(s,?a)???????P(s,?a,?s?)V???(s?)]
u?U?s??S
?
s??S?a?
对于确定性策略? ,有
对于确定性策略? ,有V??(s)???Q??(s,????(s))?;——一个状态转移概率
对于不确定性策略?
对于不确定性策略? ,有V??(s)??
???(s,?a)Q??(s,?a)?——多个状态转移概率
a?A
强化学习的最终目的是找到最优策略,选择值函数最大的动作。
最优值函数
或者
V???(s)???max[R(s,?a)???????P(s,?a,?s?)V?*?(s?)]
s??S
最优动作—
最优动作—状态值函数??Q?(s,?a)???R(s,?a)???
??P(s,?a,?s?){max?Q??(s,?a?)}
s??S
或者
兼而有之
为了避免局部最优需要进行随机探索,为了逼近既定目标需要抽取最优策略,所以算
法中存在一个探索与利用的平衡。
?max?V?(s)?s.t.V?(s)
?max?V?(s)
?s.t.V?(s)???R(s,?a)???????P(s,?a,?s?)V?(s?),??s???S,??a???A
策略迭代分为策略评估和策略改进两部分:在评估部分,对于一个给定的策略? ,根
对于电磁微阀控制
s——当前四个微阀状态
a——操作四个微阀的动作,0?为关闭,1?为开启
s’——动作后微阀的新状态
P(s,a,s’)——状态?s?调控微阀使其达到新状态?s’的概率
V???(s)?——在调控后这个状态的累计奖赏值
R(s,?a)?——本次动作的立即奖赏值,根据各点温度及标准差的计算评估得到
??(s,a)——调节微阀的各种策略
二、基于模型的动态规划算法
动态规划是一个多阶段的决策问题,在最优决策问题中,常规动态规划算法主要分为下
面四类:
第一类是线性规划法,根据?Bellman?方程将值函数的求取转化为一个线性规划问题;
线性规划方程包含|S|个变量,|S|*|A|个不等式约束,其计算复杂度为多项式时间。
? s?S
?
? s??S
第二类是策略迭代,仍然是基于?Bellman?最优方程的算法,通过策略评估与策略迭代
的交替进行来求取最优策略;
k
据?Bellman?公式求解V
??k?1
?k
(s)?和?Q?k?(s,?a)?。对于评估部分,用贪婪策略得到改进的策略
第三类是值函数迭代法,其本质为有限时段的动态规划算法在无限时段上的推广,是
一种逐次逼近算法;
将?Bellman?
将?Bellman?公式改写为Vt?1(s)????max
??P(s,?a,?s?)(R(s,?a,?s?)????Vt?(s?)),??s???S?,就
s??S
可跳过策略改进步骤,直接用迭代法逼近最优值函数?V*,从而求取最优策略???*
第四类是广义策略迭代法,综合了策略迭代和值迭代方法特点。
广义策略评估是策略评估与策略改进相结合的学习过程。策略评估总是试图让策略和
相应的值函数一致,而策略改进总是破坏策略评估得到的一致性。最终策略和值函数都不
再变化是迭代结束。下图在两个维度上(两条线表示)描述了广义策略迭代的逼近过程,
学习的最终目的是获得最优策略,具体的学习过程可以在值函数唯独和策略策略维度上灵
活的变化。值函数迭代方法只在值函数维度上工作,而策略迭
您可能关注的文档
最近下载
- MSA测量系统分析-二次元.pdf VIP
- 视频处理软件:Final Cut Pro二次开发_(1).FinalCutPro二次开发概述.docx VIP
- 公司气象灾害防御方案气象灾害防御条例.doc VIP
- 《学前教育研究方法》期末考试复习题库(含答案).docx VIP
- 特种设备安全监察条例.pptx VIP
- 2023年《教育研究方法》期末考试复习题库(含答案).docx VIP
- 生产安全事故报告和调查处理条例2020.docx VIP
- 专题13 《红岩》中考真题及典型习题训练 (解析版)-2021年中考语文常考名著之阅读指导及真题训练.docx VIP
- TCECS 618-2019 压接式碳钢管道工程技术规程.pdf VIP
- 《中华人民共和国防汛条例》知识培训.pptx VIP
文档评论(0)