【马尔可夫决策过程分析综述1500字】.docxVIP

【马尔可夫决策过程分析综述1500字】.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

马尔可夫决策过程分析综述

强化学习的原理可用图2.1表示,智能体(Agent)在执行一项工作时,首先通过动作A与周围环境(Environment)进行交互,智能体会依据当前的状态选择一种动作,从而产生新的状态,同时环境会依据智能体所采取的动作给出智能体一个回报(Reward)。智能体与环境不断的进行交互产生很多组数据。强化学习利用这些数据不断地修改自身的策略(Policy),智能体最终可以得到问题的最优解。

强化学习历经数十年的探索,已经有了一套可以解决绝大部分强化学习问题的框架,这个框架是马尔可夫决策过程(MarkovDecisionProcess,MDP)在了解马尔可夫决策过程之前需要先了解马尔可夫性,马尔可夫过程。

图2.1强化学习原理

1.1马尔可夫性

马尔可夫性质(MarkovProperty),指一个随机事件的未来状态仅依赖于当前的状态,而与过去的状态无关,马尔可夫性质的数学定义见式(2-1)。

Pst+1st=P[st+1

从定义可知,当前状态是包含了所有相关的历史信息,一旦当前状态已知,历史信息将会被抛弃。在数学中,若一个随机过程中的每一个状态都满足马尔可夫性质,则称这一个随机过程为马尔可夫随机过程。

在强化学习中,智能体所需完成的任务并不一定完全满足马尔可夫性质,因此,为了简化问题的求解过程,一般假设任务满足马尔可夫性质,并通过约束条件使得问题满足马尔可夫性质。

1.2马尔可夫过程

马尔可夫过程(MarkovProcess)是一个无记忆的随机过程。数学上通过一个二元组S,P来描述,其中需满足:S是有限状态集合,P是状态转移概率。

状态转移概率通常使用状态转移矩阵来描述,状态转移矩阵见式(2-2):

P=P11…P1n…P

状态转移矩阵是马尔可夫过程中状态之间的转移概率所组成的矩阵,因此矩阵的大小是状态数n的平方,这反映了当前状态以及后续状态的映射。

上述状态转移矩阵表示了由状态st转移到st+1的概率分布,由此可以看出在一个马尔可夫过程中存在多种状态转移的序列,这种状态转移序列被称作马尔可夫链(Markov

1.3马尔可夫决策过程

马尔可夫决策过程(MarkovDecisionProcess,MDP),一个MDP由一个五元组构成S,A,P,R,γ。其中S为一个有限的状态空间集,A为动作空间集,P为状态转移矩阵,表示当前状态在执行一个动作后,转移到下一个状态的概率分布。R是奖励函数,表示当前状态在执行某一动作后进入下一个状态时所获得的奖励。γ是折扣因子,代表了在执行序列决策时,更加侧重于即时奖励或长远奖励。

其中MDP的状态转移概率的定义是不同于马尔可夫过程的,MDP的状态转移概率是包括动作的,其定义见式(2-3):

Pssa=[St+1=

基于以上定义可知MDP是一种序贯决策的数学模型用于在系统的状态满足马尔可夫性质的环境中模拟智能体可以实现的随机性策略与回报。MDP基于智能体与环境进行构建,包括state,action,policy,reward。在MDP模拟中,智能体会感知当前所处的状态,依据策略执行动作,从而改变所处环境同时获得奖励,奖励随着时间的积累最终称为回报。在强化学习中智能体试图使从环境中获得的回报最大化,而不是即时奖励,因此智能体所获得的奖励总额(回报)可按照公式(2-4)计算:

Rt=rt+1+rt+2

公式中,rt+1是智能体在在时间t执行动作a

在MDP中,智能体的目标是使的最终回报最大化。如果马尔可夫决策过程最终可以一直执行永不结束,那么奖励值之和是无穷大的,无法实现最大化。因此引入了折扣因子,利用折扣因子可以重新定义回报函数,见公式(2-5):

Rt=rt+1+γrt+2

折扣因子决定了对于未来奖励与即时奖励的重要性。折扣因子的设定值在0-1之间。当折扣因子为0时,代表即时奖励更加重要,这会导致智能体执行贪心算法。若折扣因子为1则代表未来奖励比即时奖励更重要但折扣因子设置为1时会可能导致回报无穷大。因此折扣因数通常设置为0.2-0.8。

您可能关注的文档

文档评论(0)

02127123006 + 关注
实名认证
文档贡献者

关注原创力文档

1亿VIP精品文档

相关文档