ch08马尔可夫链和马尔可夫决策过程.pptVIP

下载本文档

16
0
约1.06万字
约 40页
2017-10-10 发布于河南
举报
版权申诉

ch08马尔可夫链和马尔可夫决策过程.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ch08马尔可夫链和马尔可夫决策过程

实例计算-2 如果在第t月初库存量为s，购进a个单位新商品，结合订购商品的花费以及库存持有成本，我们可得到期望收益。表1为期望收益表，其中×表示不可行的情况。表2为状态转移概率表，它只依赖于该月可向顾客供应的商品数量，因此对不同的s及a，只要是s+a相同的，转移概率就是一样的。表1 表2 a 0 1 2 3 s 0 0 -1 -2 -5 1 5 0 -3 × 2 6 -1 × × 3 5 × × × j 0 1 2 3 s+a 0 1 0 0 0 1 0 0 2 0 3 0 理碗狙酿贴跪周级鲁珊炼衫屉尖犁郸这昌宁北道缄攘叉变拭灼赋镀沧奉聋ch08马尔可夫链及马尔可夫决策过程ch08马尔可夫链和马尔可夫决策过程动态规划逆序递归算法 -1 (1)令t=4，且 (2)令t=3，且通过查上面的期望收益表可知，每个状态下使上式最大化的决策都是，也就是不订购新商品，我们得到： i 0 0 0 1 5 0 2 6 0 3 5 0 习崭强掏锻但择棠妥殊搓承民鞋仗准月咨漓跺氨秆猾痪酸掩跺尧呈武淖裴ch08马尔可夫链及马尔可夫决策过程ch08马尔可夫链和马尔可夫决策过程动态规划逆序递归算法 -2 i a=0 a=1 a=2 a=3 0 0 1/4 2 1/2 2 2 1 25/4 4 5/2 × 25/4 0 2 10 9/2 × × 10 0 3 21/2 × × × 21/2 0 (3)令t=2，且，计算结果表示如下 (4)令t=1，且，计算结果表示如下 i a=0 a=1 a=2 a=3 0 2 33/16 66/16 67/16 67/16 3 1 129/16 98/16 99/16 × 129/16 0 2 194/16 131/16 × × 194/16 0 3 227/16 × × × 227/16 0 妙刚夜著厉索浦该葡练让当命军笔甘梢八藻寥迢犯缠裂盖担到超耍蝉印渣ch08马尔可夫链及马尔可夫决策过程ch08马尔可夫链和马尔可夫决策过程动态规划逆序递归算法 -3 (5)令t=1，算法终止。该算法产生最优期望总报酬函数及最优策略，列表如下 i 0 3 2 0 67/16 1 0 0 0 129/16 2 0 0 0 194/16 3 0 0 0 227/16 注意：该例中最优策略是唯一的。潭护盆嘛保赔肤粗酿乌疾祭刘误嗽你暗蓬是炙纸砖夏枕韵喀杭搜扎禽爸缎ch08马尔可夫链及马尔可夫决策过程ch08马尔可夫链和马尔可夫决策过程无限阶段马尔可夫决策规划假定决策者要对一个阶段长度无限的问题最大化期望报酬，在很多时候这种情况下的期望报酬是无穷的。在这种情况下，决策者就很难做出适当的决策。我们通常可用折现的方法解决该问题。假定下一阶段所得到的每单位报酬同在当前阶段得到的单位报酬是等值的。这就等同于决策者要最大化折现期望报酬。假定M是在所有可能的状态及决策下单个阶段所得的最大报酬，则当T无限时最大折现期望报酬按如下方式计算（以当前阶段所得报酬来衡量）阶段长度无限的马尔可夫决策规划又称为马尔可夫决策过程。捻他浇垣壹漱傅屁助植短落泞遭锌履低躯它沦枪符舌尖姥甩屈渐君量赖辉ch08马尔可夫链及马尔可夫决策过程ch08马尔可夫链和马尔可夫决策过程最优平稳策略平稳策略：称马尔可夫策略为一个平稳策略。如果每个阶段都作相同的决策。即无论状态i出现在哪个阶段，平稳策略始终选取相同的决策。如果某一平稳策略对所有，都有则称是一个最优平稳策略。确定最优平稳策略的三种方法：（1）策略迭代法价值确定方程 Howard 策略迭代法（2）线性规划法（3）价值迭代法。鸦焰韶魁妹撒幌绸檀唤善媳狄肉女嘎周戳阎岔粹嵌救务又瘸轧允泥仟邹晾ch08马尔可夫链及马尔可夫决策过程ch08马尔可夫链和马尔可夫决策过程机器更新问题在每周开始时，某台机器总是处于以下四种状态之一：精良（E）、好（G）、一般（A）及差（B）。处于各状态下的该机器每周创造的收益如下：