- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
马尔柯夫决策模型探讨
马尔柯夫决策模型探讨
李骥昭(a) 刘义山(b)
(平顶山工业职业技术学院, 河南 467001)
摘要:讨论了随机性决策问题,在此类问题中,系统的状态概率是不断变化的。马尔可夫过程的基本思想是根据当前状态的概率分布来推断未来状态的分布,并以此做出判断和决策;讨论了遍历马尔柯夫链的瞬态行为,要完成瞬态行为需要求出其基本方程组,为此必须用到z变换分析方法。Z变换可将差分方程转化为对应的普遍方程,一个非负离散的时间函数变换为,函数变换是一一对应的,同时,原函数与其变换间可以相互转化。
关键词:马尔柯夫链,决策问题,策略问题,随机过程,状态概率,转移概率
中图分类:O226 文献标识:A
0 引言
在非确定型决策问题中,其不确定因素有时会服从某种统计特性,利用这种统计特性来进行决策,称其为随机性决策问题。在此类问题中,系统的状态概率是不断变化的。马尔可夫过程的基本思想是根据当前状态的概率分布来推断未来状态的分布,并以此做出判断和决策。
1 马尔柯夫决策模型
用表示系统的状态,状态序列为一随机过程,如果系统当前的转移概率只与当前的运行状态有关,而与以前的状态无关,即:对随机过程,若对任意的及关于的条件概率恰好等于关于的条件概率,用数学符号表示为
=
则称具有马尔柯夫性[1]。
具有马尔柯夫性的随机过程就称为马尔柯夫过程,所可能取的全体值称为过程的状态空间,最简单的马尔柯夫过程是马尔柯夫链。其时间为离散的同,如果状态空间也是有限的,则此链为有限的马尔柯夫链。
对于有限的马尔柯夫链,如果过程还是平稳的,即状态概率与时间t无关,则此马尔柯夫链是齐次的。
求解具有离散的马尔柯夫过程的决策问题,就是求出每一时间的最优策略,使马尔柯夫方程的值达到最大(或最小)。
具有离散的马尔柯夫过程的决策问题称为马尔柯夫决策问题,求解这类决策问题,必须找出一段时间的值函数,而最优解就是给出每个时期策略,使此值函数达到最大(或最小)。
首先必须要确定的是转移概率和转移概率矩阵,记为状态的一步转移概率,即
设表示系统在第n个时期处于状态,转移到过程终结时的总期望费用;表示从状态转移到下一个状态相应的费用,则有
(1)
表示从第n个时期到过程终结的决策规则的序列。,其中为第n个时期的决策规则。
若令表示由状态i做一次转移的期望报酬,即状态的即时期望报酬,则式(1)可改写成
(2)
此即为马尔可夫决策问题的基本方程。
若和已给定,记、为和,则式(2)可写为
若记数从末端开始,上式的逆序写法为
(3)
令
则式(3)的矩阵形式为 (4)
接下来推导多步转移概率公式。记表示从初始状态,经过步后转移到状态的转移概率,即。当一个状态转移过程经过步从状态转移,假设此过程经过步到达某一状态,最后一步从转移到,这一步的转移概率为,则此过程的转移概率即为
显然,且。令为步转移矩阵,为一步转移概率矩阵,则有
因此可得
其中r为一正整数,且满足。
记随机过程的状态概率为它表示当系统在时的状态为已知,经过n次转移之后,系统处于状态i的概率[2],即
若定义一个状态概率行向量,其分量为由上式可得
因此,只要知道初始状态和转移概率矩阵,就可以求出n步以后系统所处的状态。
遍历性:如果一个齐次的马尔柯夫链的n步转移概率为,对于一切状态 i, j,存在着不依赖于初始状态i的常数,使得
成立,则称此马尔柯夫链具有遍历性。也就是说,一个具有遍历性的马尔柯夫链,当转移的次数n极大时,此系统转移到状态j的概率为一个常数,而与初始状态无关。
2应用举例
引理 对于状态空间有限的马尔柯夫链,若存在正整数n。使得对于一切的,有,则此马尔柯夫链是遍历的,且此常数概率值是方程组在满足条件和 时的惟一解[3]。
例如1,设某公司有两种状态:1和2,1为盈利,2为亏损。当其处于1时,下一年仍为1的概率是1/2,因此下一年转为2的概率也是1/2。当公司处于状态2时,下一年经过努力回到状态1的概率为2/5,仍处于亏损状态的概率为3/5。若公司现处于状态1,问经过n年后该公司处于状态1和2的概率各是多少?
解:显然,系统有两个状态,设S为状态空间,则:。此处,。因此
因为此公司在开始处于1状态,所以 ,即初始状态概率向量,故可得:
这说明此公司在一年后处于两种状态的概率是相等的,而两年后的概率为
依此类推,此公司各年状态概率如下表所示。
n 0 1 2 3 4 5 … 1
0 0.5
0.5 0.45
0.55 0.445
0.555 0.4445
0.5
您可能关注的文档
- 適用於無線隨意式網路之逐節點TCP 傳輸協定.doc
- 酸刺激前后唾液淀粉酶活性, 流率和pH 值的性别差异.doc
- 重庆市鱼胡路中学中考数学模拟试题.doc
- 镇江赋.doc
- 阿萨希毛孢子菌氟康唑体外诱导耐药的方法优化.doc
- 降低4 号烧结机环冷机出矿温度生产实践.doc
- 除夜作.doc
- 顽固性血精患者MRI 影像特征研究.doc
- 预测风机喘振边界的新方法.doc
- 饒瑞佶.doc
- 人教版英语5年级下册全册教学课件.pptx
- 部编人教版2年级上册语文全册教学课件含单元及专项复习.pptx
- 人教版8年级上册英语全册教学课件(2021年8月修订).pptx
- 教科版(2017版)6年级上册科学全册课件+课时练.pptx
- 人教版PEP版6年级英语下册全册教学课件(2022年12月修订).pptx
- 部编人教版2年级下册语文全册课件(2021年春修订).pptx
- 人教版数学6年级下册全册教学课件(2023年教材).pptx
- 湘少版5年级下册英语全册教学课件(2021年春修订).pptx
- 人教PEP4年级下册英语全册教学课件 [2}.pptx
- 人教版6年级上册英语全册教学课件.pptx
文档评论(0)