运筹学第3版教学课件作者熊伟ch11决策论课件幻灯片.pptVIP

下载本文档

34
0
约1.73万字
约 96页
2018-03-26 发布于广东
举报
版权申诉

运筹学第3版教学课件作者熊伟ch11决策论课件幻灯片.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

对状态2，有：仍取策略因此得到：这与前一次迭代结果完全一样，因而求得了最优策略即为：运转时的决策是进行维护，故障时进行大修，工厂未来每年期望报酬为37.96万元． 11.5马尔可夫决策 Markov Decision 作业：教材习题 11.9， 11.10，11.11 The End of Chapter 11 11.5马尔可夫决策 Markov Decision 常用的效用函数： 11.4 效用理论 Utility Theory 11.4.4 效用值的应用【例11-8】若某决策问题的决策树如下图所示，其决策者的效用期望值同时附在效益期望值后，请做出决策． E(2)=0.5×300＋0.5×(－200)=50 E(3)＝0.5×200＋0.5×(－100)=50 根据最大效益期望值准则，无法判断优劣． y2=0.5×1＋0.5×0＝0.5， y3=0.5×0.9+0.5×0.3=0.6 【解】：(1）计算效益期望值分别为 11.4 效用理论 Utility Theory A2方案效用值＞A1方案效用值，因此取A2方案为决策方案．绘制效用曲线图见下图，可知，该决策者偏向于保守型，不求大利，谨慎小心． 11.4 效用理论 Utility Theory -200 300 1 0 100 200 -100 y x 作业：教材习题 11.7， 11.8 下一节：马尔可夫决策 11.4 效用理论 Utility Theory 11.5 马尔可夫决策 Markov Decision 11.5马尔可夫决策 Markov Decision 11.5.1 马尔可夫链用X(t)表示随机系统在时刻t 的状态，状态序列为一随机过程，如果系统当前的转移概率只与当前的运行状态有关，而与以前的状态无关，即：对随机过程若对任意的0t1t2…tntn+1及ti∈T，X（tn+1）关于X（t1）,…, X（tn）的条件概率恰好等于X（tn+1）关于X（tn）的条件概率，用数学符号表示为：则称具有马尔可夫性．随机过程称为马尔可夫过程。所有可能的全体取值称为过程的状态空间。若马氏过程的状态空间为非负整数集E＝{0，1，2，…}，称为马氏链。例如，今天下雨这一状态用“ 0”表示，不下雨用“ 1”表示，则状态空间为 E＝{0，1}。天气变化过程符合Markov性。 11.5.2 转移概率记Pij为从状态X(n)=i转移到下一个状态X（n+1）=j 的概率，一步转移概率矩阵为 11.5马尔可夫决策 Markov Decision 【例11-9】有3家电器公司分别生产三种不同牌子的空调。各自开展广告攻势促销本公司产品。各公司所占的市场比例是随时间变化的。 X＝{Xn，n≥0}构成一个以E＝{1,2,3}为状态空间的Markov链。假设在任一时刻，公司1能留住它的1/2的老顾客，其余的则对半购买另两个公司的产品；公司2的一半顾客能留下， 30％转向公司1，20％转向公司3;公司3有3/4能留下，其余流向公司2。Markov链的转移概率矩阵和转移图： ① ② ③ 1/2 1/4 1/4 3/10 1/2 1/4 3/4 11.5马尔可夫决策 Markov Decision 1/5 求n期后公司i的市场占有率，n→∞时的市场占有率。记Pj(n)=P(Xn=j)为Markov链X时刻n处于状态j的概率，P为初始分布。【定理】 X＝{Xn，n≥0}为一个Markov链，则有对任意m，n≥0，有对任意i，j∈E，有此方程称为Champan-Kolmogorov方程，简称C－K方程 11.5.3 转移状态 11.5马尔可夫决策 Markov Decision 遍历性：如果一个齐次的马尔可夫链{X(n), n=1,2,…}的n步转移概率为Pij(n)，对于一切状态i,j，存在着不依赖于初始状态i的常数Pj，使得成立，则称此马尔可夫链具有遍历性．也就是说，一个具有遍历性的马尔可夫链，当转移的次数n极大时，此系统转移到状态j的概率为一个常数Pj，而与初始状态无关．求【引理】设m 阶矩阵P具有m个线性无关的特征向量 B＝(b1,b2, …,bm) 对应的特征值为λ1， λ2，…，λm，则B可逆且有P＝BΛB－1， Pn= BΛnB－1.其中Λ＝diag(λ1， λ2，…，λm) 11.5马尔可夫决策 Markov Decision 11.5马尔可夫决策 Markov Decision 对于具有遍历性的