第四章决策理论与方法-罗党-动态决策(下).pptVIP

第四章决策理论与方法-罗党-动态决策(下).ppt

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《决策理论与方法》 第 * 页 第 * 页 决策理论与方法 (Decision Making Theory and Methods) 《决策理论与方法》编写组 教育部高等学校管理科学与工程类学科专业教学指导委员会推荐教材 第四章 动态决策分析 学习目的 了解多阶段决策、序贯决策的概念及特点; 掌握动态规划与决策树方法及其在多阶段决策、序贯决策中的应用。 本讲内容 4.3序贯决策 4.3.1序贯决策的基本概念 4.3.2序贯决策的决策方法 4.3 序贯决策 4.3.1 序贯决策的基本概念 上面的多阶段决策,阶段数是确定的。除这种决策外,还有一些决策的阶段数不是事先确定的,它依赖于执行决策过程中出现的情况。这种决策问题称为序贯决策(sequential decision problem)。 序列决策在进行决策后又产生一些新的情况,需要进行新的决策,接着又有一些新的情况,又需要进行新的决策。这样决策、情况、决策……,这就构成一个序列。 4.3 序贯决策 4.3.1 序贯决策的基本概念 序贯决策是用于随机性或不确态定性动态系统最优化的决策方法。它的特点是:   1)所研究的系统是动态的,即系统所处的状态与时间有关,可周期(或连续)地对它观察;   2)决策是序贯地进行的,即每个时刻根据所观察到的状态和以前状态的记录,从一组可行方案中选用一个最优方案(即作最优决策),使取决于状态的某个目标函数取最优值(极大或极小值); 3)系统下一步(或未来)可能出现的状态是随机的或不确定的。 4.3 序贯决策 4.3.1 序贯决策的基本概念 系统在每次作出决策后下一步可能出现的状态是不能确切预知的,存在两种情况:   1)系统下一步可能出现的状态的概率分布是已知的,可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系统,相应的序贯决策称为马尔可夫决策过程,它是将马尔可夫过程理论与决定性动态规划相结合的产物。 2)系统下一步可能出现的状态的概率分布不知道,只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容。 4.3 序贯决策 4.3.2 序贯决策的决策方法 序贯决策的过程是:从初始状态开始,每个时刻做出最优决策后,接着观察下一步实际出现的状态,即收集新的信息,然后再做出新的最优决策,反复进行直至最后。 解决序贯决策问题的有效办法仍然是决策树,解决序贯决策的关键是确定一个决策序列终止的原则。在下例中,这个原则就是:不管到决策的哪个阶段,只要有一个非经抽样的后悔期望值小于进行一次抽样的费用,决策序列便可终止。 4.3 序贯决策 4.3.2 序贯决策的决策方法 例4-3-1 某工厂的产品每1000件装成一箱出售。每箱中产品的次品率有0.01,0.40,0.90三种可能,其概率分别为0.2,0.6,0.2。现在的问题是:出厂前是否要对产品进行严格检验,将次品挑出。可以选择的行动有两个:① 整箱检验,检验费 为每箱100元;②整箱不检验,但如果顾客在使用中发现次品,每件次品除条换为合格品外还要赔偿0.25元损失费。为了更好地做出决定可以先从一箱中随机抽取1件作为样本检验它,然后根据这件产品是都次品再决定该箱是否要检验,抽样成本为4.2元。进行第一次抽样后,除选择检验还是不检验外,还可以根据前面抽样的结果,考虑再进行一次抽样检验如此形成一个决策序列。该厂应该如何决策。 4.3 序贯决策 4.3.2 序贯决策的决策方法 解 (1) 假设 为整箱检验; 为整箱不检验; 而 表示次品率分别0.01,0.40,0.90的三种自然状态; 表示抽取一件样品的行动, 表示抽取第二件样品的行动 ; , 为抽样时次品和合格品的两个结果。 4.3 序贯决策 4.3.2 序贯决策的决策方法 (2)计算益损值和后悔值矩阵。 产品检验问题的收益矩阵见表4-3-1。由表4-3-1的收益矩阵可得到各行动方案的后悔值矩阵,见表4-3-2。 表4-3-1 :收益矩阵表 表4-3-2:后悔矩阵表 (0.2) (0. 6) (0.2) -100 -100 -100 -100 -2.5 -100

文档评论(0)

502992 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档