- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
强化学习基本知识汇编
强化学习基础知识
作为人工智能领域、机器学习(Machine Learnig)热点研究内容之一的强化学习,’)和回报函数r(s,a,s’)与决策时间t无关,即不随时间t的变化而变化,则MDP称为平稳MDP。
当前状态s所选取的动作是由策略h决定:S*A[0,1] A=(s)在状态s下用策略所选取的动作。
动作后的结果是由值函数以评估,它是由Bellman公式得到。(折扣因子)
值函数
动作—状态值函数
对于确定性策略,有;——一个状态转移概率
对于不确定性策略,有——多个状态转移概率
强化学习的最终目的是找到最优策略,选择值函数最大的动作。
最优值函数
或者
最优动作—状态值函数
或者
兼而有之
为了避免局部最优需要进行随机探索,为了逼近既定目标需要抽取最优策略,所以算法中存在一个探索与利用的平衡。
达到平衡有两种方法:策略和Boltzmann分布方法(平衡离散域)
对于电磁微阀控制
s——当前四个微阀状态
a——操作四个微阀的动作,0为关闭,1为开启
s’——动作后微阀的新状态
P(s,a,s’)——状态s调控微阀使其达到新状态s’的概率
——在调控后这个状态的累计奖赏值
——本次动作的立即奖赏值,根据各点温度及标准差的计算评估得到
(s,a)——调节微阀的各种策略
二、基于模型的动态规划算法
动态规划是一个多阶段的决策问题,在最优决策问题中,常规动态规划算法主要分为下面四类:
第一类是线性规划法,根据Bellman方程将值函数的求取转化为一个线性规划问题;
线性规划方程包含|S|个变量,|S|*|A|个不等式约束,其计算复杂度为多项式时间。
第二类是策略迭代,仍然是基于Bellman最优方程的算法,通过策略评估与策略迭代的交替进行来求取最优策略;
策略迭代分为策略评估和策略改进两部分:在评估部分,对于一个给定的策略,根据Bellman公式求解和。对于评估部分,用贪婪策略得到改进的策略
第三类是值函数迭代法,其本质为有限时段的动态规划算法在无限时段上的推广,是一种逐次逼近算法;
将Bellman公式改写为,就可跳过策略改进步骤,直接用迭代法逼近最优值函数V*,从而求取最优策略*
第四类是广义策略迭代法,综合了策略迭代和值迭代方法特点。
广义策略评估是策略评估与策略改进相结合的学习过程。策略评估总是试图让策略和相应的值函数一致,而策略改进总是破坏策略评估得到的一致性。最终策略和值函数都不再变化是迭代结束。下图在两个维度上(两条线表示)描述了广义策略迭代的逼近过程,学习的最终目的是获得最优策略,具体的学习过程可以在值函数唯独和策略策略维度上灵活的变化。值函数迭代方法只在值函数维度上工作,而策略迭代方法在值函数维度和策略维度上交叉进行。许多动态规划与强化学习算法的思想都来源于广义策略迭代。
初始状态——|决策1|——|决策2|——.....——|决策n|——结束状态
三、模型未知的强化学习
对于求解模型未知的MDP问题,通常有如下3类解决思路:第一类是学习MDP的相关模型,然后用动态规划算法予以求解,此类方法称为间接强化学习;第二类方法不需要估计MDP的模型,直接利用采样对值函数或策略函数进行评估,此类方法成为直接强化学习算法;第三类是前两类方法的混合。
1.蒙特卡罗方法
蒙特卡洛方法是一种以部分估计整体,利用随机数来解决问题的方法,其通过统计模拟或抽样以获得问题的近似解。该方法只是用于场景中存在终止状态的任务。MC策略评估主要是利用大数定律,以各个状态的回报值的样本平均来估计值函数,最终发现最优策略。
得到的回报金额已赋给第一次访问的s,也可以将每次访问到终止状态的回报平均后赋予给s的值函数。
鉴于MC策略评估只有在只有在无穷次迭代时才能精确计算,因此有人提出了改进策略,在一幕赋值完成后将用贪婪算法来更新以得到改进策略,这样有利于维持探索与利用的平衡,也提高了的精确度。
但是面对着以上方法只利用不探索的缺陷将贪婪策略进行的改进,引入了基于ε-贪婪策略的在线MC控制策略,主要做了两个改动:第一个是将初始策略用ε-贪婪策略来选择;第二个是利用ε-贪婪策略来进行策略更新。
即对于每一个,
在线策略MC控制算法中,产生样本的行为策略核和进行Q值估计的评估策略是同一策略,而在离线策略学习中两者是独立的,评估策略用ε-贪婪策略进行改进。而行为策略可以根据具体情况灵活设计。
蒙特卡罗学习方法优点是不必依赖于马尔科夫决策过程,在模型未知时也能选择出感兴趣的状态以求其值函数,而不必遍历所有值函数。
时间差分TD算法
时间差分指
您可能关注的文档
- 开发研究:三四线城市操盘经验总结17p汇编.doc
- 建设银行签约流程汇编.pptx
- 开完工报告汇编.doc
- 开发培训Day1L1背景介绍汇编.pptx
- 开国大典2汇编.pptx
- 开拓与准备复习提纲汇编.doc
- 开封市中心医院门诊自助叫号系统汇编.doc
- 开工加热炉产品说明及操作手册汇编.doc
- 开式齿轮传动机构自动润滑系统研究与应用汇编.doc
- 开洞封堵方案修订汇编.docx
- 2025年中山市沙溪镇人民政府所属事业单位招聘11人笔试备考题库及参考答案详解一套.docx
- 2025年中山市横栏镇人民政府所属事业单位第二期招聘笔试高频难、易错点备考题库及参考答案详解一套.docx
- 2025年中山市横栏镇人民政府所属事业单位第二期招聘笔试高频难、易错点备考题库含答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试高频难、易错点备考题库及完整答案详解1套.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试高频难、易错点备考题库参考答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试备考题库附答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试高频难、易错点备考题库附答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试备考题库附答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试备考题库及答案详解一套.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试备考题库及完整答案详解1套.docx
文档评论(0)