工程管理-唐博.pptVIP

  • 0
  • 0
  • 约2.52千字
  • 约 19页
  • 2018-12-19 发布于北京
  • 举报
工程管理-唐博.ppt

马尔可夫决策 马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最有决策过程 马尔可夫决策过程是序贯决策的主要研究领域 马尔可夫决策时马尔可夫过程与确定性的动态规划相结合的产物,故又称马尔可夫随机动态规划,属于运筹学中数学规划的一个分支 马尔可夫决策 马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统,序贯地作出决策。即根据每个时刻观察到的状态,从可用的行动集合中选用一个行动作出决策,系统下一步(未来)的状态是随机的,并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态,再作新的决策,依此反复地进行。马尔可夫性是指一个随机过程未来发展的概率规律与观察之前的历史无关的性质。马尔可夫性又可简单叙述为状态转移概率的无后效性。状态转移概率具有马尔可夫性的随机过程即为马尔可夫过程。马尔可夫决策过程又可看作随机对策的特殊情形,在这种随机对策中对策的一方是无意志的。马尔可夫决策过程还可作为马尔可夫型随机最优控制,其决策变量就是控制变量。 马尔可夫决策 无后效性 系统在每一时刻的状态仅仅取决于前一时刻的状态,而与其过去的历史无关。 马尔可夫决策研究一类可周期地或连续地进行观察的随机动态系统的最优化问题。 在各个时刻根据观察到的状态,从它的允许决策集合中选用一个决策而决定了系统下次的转移规律与相应的运行效果。并假设这两者都不依赖于系统过去的历史。 在各个时刻选取决策的目的,是使系统运行的全过程达到某种最优运行效果,即选取控制系统发展的最优策略 马尔可夫决策过程是指决策者周期地或连续的观察具有马尔可夫性的随机动态系统,序贯地作出决策。即根据每个时刻观察到的状态,从可用的行动集合中选用一个行动作出决策,系统下一步的状态是随机的,并且其状态转移率具有马尔可夫性。 决策者根据新观察到的状态,再做新的决策,依次反复的进行 马尔科夫链与转移概率矩阵 所谓马尔科夫链,就是一种随机的时间系列,它在将来取什么值只与它现在的取值有关,而与它过去取什么值的历史情况无关,即无后效性 具备这个性质的离散性随机过程,称为马尔科夫链 相关概念 马尔科夫链 设随机时间系列 满足条件 每个随机变量 只取非负整数值 对任意的非负整数 … m m+k 及 , ,… ;对 当 则称随机时间序列 为马尔可夫链 状态转移概率矩阵 将考察对象从一个状态转移到另一个状态的转移概率按行组成一个矩阵,称此矩阵为状态转移概率矩阵。其中称 一步转移概率矩阵具有的性质 K步转移概率矩阵的性质 状态转移矩阵 定义: 设 为有限状态齐次马尔可夫链,对所有的I,j=1,2,…,N,存在与i无关的极限 定义:设 为有限状态齐次马尔可夫链,p为其一步转移概率矩阵,若存在正整数s 0,使对所有的i,j=1,2,3…,N,有 上式说明 例题 某房地产开发商准备对A、B、C、三个在建项目进行扩大投资,三个项目都有一定的客户群,客户群在三个项目转移的概率经调查为 * * 安德烈·马尔可夫,俄罗斯人 ,物理-数学博士,主要代表作有《概率演算》等 草丛里有三支花朵,编号1,2,3,假设一只蜜蜂随机地在花朵上飞来飞去,在初始时刻,它在1号花朵上。在下一时刻,它有可能飞到2号或者3号花朵上,也可能原地不动。把蜜蜂某个时刻所在的花朵称为蜜蜂所处的状态,这样蜜蜂未来处于什么状态只与它现在所处的状态有关,与它之前所处的状态无关。这种性质就是“无后效性”,即马尔可夫性 所可能取到的每一个值 称为状态。 状态转移概率 马尔可夫链的概率特性取决于条件概率 在概率论中,条件概率 表达了由状态B向A转移的概率,简称为状态转移概率。 的含义是,某系统在时刻m 处于状态 的条件下,时刻m+k处于状态 的状态 K步转移概率: 特别地,当K=1时,一步转移概率 齐次马尔可夫链 若对任意非负整数n,马尔可夫链 的一步转移概率 与m无关(即与时刻t无关),则称 为齐次马尔可夫链,齐次马尔可夫链的一步转移概率记为 为一步转移矩阵 K步转移概率矩阵 从状态转移概率矩阵的性质可知,2步状态转移概率矩阵可由一步转移概率矩阵求出,因为 即系统从状态 出发,经过2步转移到状态

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档