马尔可夫决策基础理论.pdfVIP

  • 157
  • 0
  • 约6.63万字
  • 约 36页
  • 2017-02-28 发布于河北
  • 举报
马尔可夫决策基础理论

马尔可夫决策基础理论 内容提要 本章介绍与研究背景相关的几类决策模型及算法。模型部分,首先是最基本 的马尔可夫决策模型,然后是在此基础上加入观察不确定性的部分可观察马尔可 夫决策模型,以及进一步加入多智能体的分布式部分可观察马尔可夫决策模型和 部分可观察的随机博弈模型。算法部分,针对上述几类模型,我们均按照后向迭 代和前向搜索两大类进行对比分析。最后,我们介绍了半马尔可夫决策模型及 Option 理论,这一理论为我们后面设计分等级的大规模多智能体系统的决策模型 及规划框架提供了重要基础。 2.1 MDP 基本模型及概念 马尔可夫决策过程适用的系统有三大特点:一是状态转移的无后效性;二是 状态转移可以有不确定性;三是智能体所处的每步状态完全可以观察。下面我们 将介绍 MDP 基本数学模型,并对模型本身的一些概念,及在 MDP 模型下进行 问题求解所引入的相关概念做进一步解释。 2.1.1 基本模型 马尔科夫决策过程最基本的模型是一个四元组 S,A,T,R (Puterman M, 1994): ? 状态集合 S :问题所有可能世界状态的集合; ? 行动集合A :问题所有可能行动的集合; ?

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档