三、马氏决策规划.ppt

下载文档 降价啦

43
0
约2.33千字
约 20页
2017-08-11 发布于天津
举报
版权申诉
保障服务

三、马氏决策规划.ppt

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

三、马氏决策规划

马氏决策规划简介　马尔可夫过程　马尔可夫过程是一类特殊的随机过程，它因伟大的俄国数学家马尔可夫而得名。这种过程的特点是存在着确定的转移概率，与系统先前的历史无关，有一个很形象的比喻来形容这个过程：池塘里的青蛙在荷叶上跳来跳去，如果将它在某一时刻所在的荷叶称为状态，则青蛙未来处于什么状态只有它现在所在的状态有关，与它以前所处的状态无关。这种性质就是所谓的“一阶Markov性”或“无后效性” 一：基本概念? 假定市场调查数据显示，在随后的一周内，上周去A购物的顾客有90％仍然在A购物，有10％的顾客则流向了B，去B购物的顾客有80％继续在B购物，而20％则流向了A，这些状态转移概率可用如下矩阵表示二　　马尔可夫过程的预测三：赋值马氏过程有一个工厂为市场生产某种产品，每月月初对产品产品的销售情况进行了一次检查，其结果有二：销路好（记为状态1），也可能销路差（状态2）。若处于状态1，由于各种随机因素的干扰，下月初仍处于销路好的概率为0.5，转为销路差的概率也为0.5；若处于状态2，则下月初转为销路好的概率为0.4，仍处于销路差的概率为0.6。则他的状态转移过程为　其中　　表示有状态ｉ转移到状态ｊ的概率，　表示由状态ｉ转移到状态ｊ的相应报酬。称　　　　为ｎ次转移的总期望报酬向量。　对　　　　定义乘法　　　　则有由于 * * ★ ★ ★ ★ ★ 1.状态转移概率假定系统有n个可能的状态，处于这些状态的概率分别为 p1,p2…pi ,…pn，例如，有1000名顾客在每周只到A和B购物，设定时间阶段为一周，在某一周，有900名顾客到A购物，我们称为状态1，有100名顾客到B，成为状态2，因此，系统的两个状态和概率分别为　状态1：顾客到A购物，0.9 状态2：顾客到B购物，0.1 2.状态转移概率矩阵该矩阵成为超市的一步转移矩阵。对于k步（周期）的，表示在给定周期内处于状态i 的系统在经过k步后转移到状态j的概率，p(k) 表示系统的k步转移概率矩阵，则有　状态转移概率矩阵描述了研究对象的变化过程，它有如下特征：　3.一步平稳转移概率如果对于每个i和j，均成立的话　则称一步转移概率是平稳的，也就是说，从状态i转移到状态j的概率与现在的步数无关，这说明在研究的时间范围内，一步平稳转移概率保持为常数。系统的转移概率矩阵表示为　　　　　　　　　　　　　　　　　　　　　　　　　　　若在上面所述的马氏过程中，当它在任意时刻从状态i 转移到状态j时可以获得相应的收益记为　　,　这种马氏过程随着状态转移可得到一系列的报酬（效益），我们称其为赋值马氏过程，称R=　　　　为报酬矩阵。上述工厂若某月初销路好，下月初仍销路好可获利9千元，下月初转为销路差可获利3千元，若某月初销路差，下月初转为销路好课获利3千元，下月初仍为销路差要亏本7千元。则报酬矩阵为　下面考虑系统经过一定阶段的运行后的总期望报酬。记q(i)为状态i 做出一次转移的期望报酬，则有　　称　　　为一次转移的期望报酬向量。记　　为系统由状态ｉ经过n次转移之后的总期望报酬，则有　仍以上述工厂为例，根据以上公式得即如果当前销路好，则下月获利6000元，否则下月亏损3000元在利用上面的公式，可以得出该工厂在不同的初始状态下，经过若干月后的总期望获利情况。　　　　三、马氏决策规划在赋值马氏过程中，如果在某状态选用不同的决策能够改变相应的状态转移矩阵及报酬矩阵，就产生了动态随机系统求值最优策略的问题。马氏决策规划就是研究这类问题的。下面我们通过实例来介绍马氏决策规划中有限阶段的一种求解方法——值迭代法。设系统目标为总期望报酬最大化。仍以上述工厂为例，设该工厂在每个状态可选的决策是不登广告（记作方式1）或登广告（记作方式2）。若不登广告，自然无广告费；若登广告，要花额外的广告费，但下月初为销路好的概率可增加。决策方式1的状态转移矩阵及报酬矩阵为：选决策方式2的状态转移矩阵及报酬矩阵为：问题是在若干月内采取什么决策才能使其总期望报酬最大。用n表示系统的阶段数。　表示系统当前处于状态i，下一步以d种决策方式转移到状态j的概率。　　表示系统初始状态为i，采取最优策略时的期望报酬最大值。则有如下方程：因而　　为第n阶段处于i状态时的决策。这表明，该厂不论处于状态1还是2，如果再继续生产1个月，都应采取决策1，即不论销路好还是销路差都不登广告。如果继