- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
马尔可夫决策过程分析综述
强化学习的原理可用图2.1表示,智能体(Agent)在执行一项工作时,首先通过动作A与周围环境(Environment)进行交互,智能体会依据当前的状态选择一种动作,从而产生新的状态,同时环境会依据智能体所采取的动作给出智能体一个回报(Reward)。智能体与环境不断的进行交互产生很多组数据。强化学习利用这些数据不断地修改自身的策略(Policy),智能体最终可以得到问题的最优解。
强化学习历经数十年的探索,已经有了一套可以解决绝大部分强化学习问题的框架,这个框架是马尔可夫决策过程(MarkovDecisionProcess,MDP)在了解马尔可夫决策过程之前需要先了解马尔可夫性,马尔可夫过程。
图2.1强化学习原理
1.1马尔可夫性
马尔可夫性质(MarkovProperty),指一个随机事件的未来状态仅依赖于当前的状态,而与过去的状态无关,马尔可夫性质的数学定义见式(2-1)。
Pst+1st=P[st+1
从定义可知,当前状态是包含了所有相关的历史信息,一旦当前状态已知,历史信息将会被抛弃。在数学中,若一个随机过程中的每一个状态都满足马尔可夫性质,则称这一个随机过程为马尔可夫随机过程。
在强化学习中,智能体所需完成的任务并不一定完全满足马尔可夫性质,因此,为了简化问题的求解过程,一般假设任务满足马尔可夫性质,并通过约束条件使得问题满足马尔可夫性质。
1.2马尔可夫过程
马尔可夫过程(MarkovProcess)是一个无记忆的随机过程。数学上通过一个二元组S,P来描述,其中需满足:S是有限状态集合,P是状态转移概率。
状态转移概率通常使用状态转移矩阵来描述,状态转移矩阵见式(2-2):
P=P11…P1n…P
状态转移矩阵是马尔可夫过程中状态之间的转移概率所组成的矩阵,因此矩阵的大小是状态数n的平方,这反映了当前状态以及后续状态的映射。
上述状态转移矩阵表示了由状态st转移到st+1的概率分布,由此可以看出在一个马尔可夫过程中存在多种状态转移的序列,这种状态转移序列被称作马尔可夫链(Markov
1.3马尔可夫决策过程
马尔可夫决策过程(MarkovDecisionProcess,MDP),一个MDP由一个五元组构成S,A,P,R,γ。其中S为一个有限的状态空间集,A为动作空间集,P为状态转移矩阵,表示当前状态在执行一个动作后,转移到下一个状态的概率分布。R是奖励函数,表示当前状态在执行某一动作后进入下一个状态时所获得的奖励。γ是折扣因子,代表了在执行序列决策时,更加侧重于即时奖励或长远奖励。
其中MDP的状态转移概率的定义是不同于马尔可夫过程的,MDP的状态转移概率是包括动作的,其定义见式(2-3):
Pssa=[St+1=
基于以上定义可知MDP是一种序贯决策的数学模型用于在系统的状态满足马尔可夫性质的环境中模拟智能体可以实现的随机性策略与回报。MDP基于智能体与环境进行构建,包括state,action,policy,reward。在MDP模拟中,智能体会感知当前所处的状态,依据策略执行动作,从而改变所处环境同时获得奖励,奖励随着时间的积累最终称为回报。在强化学习中智能体试图使从环境中获得的回报最大化,而不是即时奖励,因此智能体所获得的奖励总额(回报)可按照公式(2-4)计算:
Rt=rt+1+rt+2
公式中,rt+1是智能体在在时间t执行动作a
在MDP中,智能体的目标是使的最终回报最大化。如果马尔可夫决策过程最终可以一直执行永不结束,那么奖励值之和是无穷大的,无法实现最大化。因此引入了折扣因子,利用折扣因子可以重新定义回报函数,见公式(2-5):
Rt=rt+1+γrt+2
折扣因子决定了对于未来奖励与即时奖励的重要性。折扣因子的设定值在0-1之间。当折扣因子为0时,代表即时奖励更加重要,这会导致智能体执行贪心算法。若折扣因子为1则代表未来奖励比即时奖励更重要但折扣因子设置为1时会可能导致回报无穷大。因此折扣因数通常设置为0.2-0.8。
您可能关注的文档
- 【企业数据资产确认问题研究的理论基础综述2100字】.docx
- 【类比教学设计的优点和原则分析综述2300字】.docx
- 【企业社会责任披露的理论基础及影响因素分析综述1500字】.docx
- 【财务共享中心建设研究的国内外文献综述2200字】.docx
- 【商业银行经营效率研究的概念界定和理论基础综述1400字】.doc
- 【绿色建筑成本控制理论基础综述2400字】.docx
- 【类比在中学数学教学中的形式分析综述2200字】.docx
- 【海澜之家营销策略的对策综述2400字】.docx
- 【建筑施工人因失误的特点及其影响因素分析综述3000字】.docx
- 【民营企业三鼎集团债券违约事件对我国债券市场的启示综述2800字】.docx
- 【保定长城汽车公司人事助理的社会实践报告2700字】.doc
- 【劳务派遣用工制度研究的国内外文献综述1500字】.docx
- 【唐山市唐山钢铁集团公司基层员工激励问题研究开题报告(含提纲)】.doc
- 【目的地旅游安全评价研究的国内外文献综述3300字】.doc
- 【石家庄市石家庄制药集团乳业公司质量管理体系中存在的问题与对策开题报告】.doc
- 【海外并购方式研究的理论基础综述4100字】.docx
- 【邯郸新兴铸管公司发展思考与对策开题报告文献综述3000字】.doc
- 【促进二手车市场发展的建议分析综述3500字】.doc
- 【建筑节能研究的国内外文献综述3600字】.docx
- 【变电站断路器的选择计算案例综述1900字】.docx
最近下载
- 植树造林监理工程质量评估报告范文.docx
- 火力发电厂660MW机组新建工程主体工程精细化管理及控制措施.pptx VIP
- 猪肉加工介绍.ppt VIP
- 2023年贵州贵州高速公路集团有限公司招聘笔试真题.docx VIP
- 2024年江苏省苏州市中考语文模拟试卷.pdf VIP
- 调色师:达芬奇视频剪辑调色从入门到精通(下篇,共上中下3篇).pptx VIP
- 电池箱设计及安规要求.pdf VIP
- DG_TJ08-2062-2025 住宅工程套内质量验收标准.pdf VIP
- 安徽六校教育研究会2025届高三年级入学素质测试 物理试题(含答案详解).docx
- 在线网课《管理思想史》单元考核测试答案.docx VIP
文档评论(0)