马尔可夫决策基础理论.pdfVIP

下载本文档

157
0
约6.63万字
约 36页
2017-02-28 发布于河北
举报

马尔可夫决策基础理论.pdf

马尔可夫决策基础理论

马尔可夫决策基础理论内容提要本章介绍与研究背景相关的几类决策模型及算法。模型部分，首先是最基本的马尔可夫决策模型，然后是在此基础上加入观察不确定性的部分可观察马尔可夫决策模型，以及进一步加入多智能体的分布式部分可观察马尔可夫决策模型和部分可观察的随机博弈模型。算法部分，针对上述几类模型，我们均按照后向迭代和前向搜索两大类进行对比分析。最后，我们介绍了半马尔可夫决策模型及 Option 理论，这一理论为我们后面设计分等级的大规模多智能体系统的决策模型及规划框架提供了重要基础。 2.1 MDP 基本模型及概念马尔可夫决策过程适用的系统有三大特点：一是状态转移的无后效性；二是状态转移可以有不确定性；三是智能体所处的每步状态完全可以观察。下面我们将介绍 MDP 基本数学模型，并对模型本身的一些概念，及在 MDP 模型下进行问题求解所引入的相关概念做进一步解释。 2.1.1 基本模型马尔科夫决策过程最基本的模型是一个四元组 S,A,T,R (Puterman M, 1994)： ? 状态集合 S ：问题所有可能世界状态的集合； ? 行动集合A ：问题所有可能行动的集合； ?

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

马尔可夫决策基础理论.pdfVIP