第四章决策理论与方法-罗党-动态决策(下)介绍.pptVIP

  • 5
  • 0
  • 约3.19千字
  • 约 17页
  • 2017-07-05 发布于湖北
  • 举报

第四章决策理论与方法-罗党-动态决策(下)介绍.ppt

* * * * 《决策理论与方法》 第 * 页 第 * 页 《决策理论与方法》 第 * 页 第 * 页 《决策理论与方法》 第 * 页 第 * 页 决策理论与方法 (Decision Making Theory and Methods) 《决策理论与方法》编写组 教育部高等学校管理科学与工程类学科专业教学指导委员会推荐教材 第四章 动态决策分析 学习目的 了解多阶段决策、序贯决策的概念及特点; 掌握动态规划与决策树方法及其在多阶段决策、序贯决策中的应用。 本讲内容 4.3序贯决策 4.3.1序贯决策的基本概念 4.3.2序贯决策的决策方法 4.3 序贯决策 4.3.1 序贯决策的基本概念 上面的多阶段决策,阶段数是确定的。除这种决策外,还有一些决策的阶段数不是事先确定的,它依赖于执行决策过程中出现的情况。这种决策问题称为序贯决策(sequential decision problem)。 序列决策在进行决策后又产生一些新的情况,需要进行新的决策,接着又有一些新的情况,又需要进行新的决策。这样决策、情况、决策……,这就构成一个序列。 4.3 序贯决策 4.3.1 序贯决策的基本概念 序贯决策是用于随机性或不确态定性动态系统最优化的决策方法。它的特点是:   1)所研究的系统是动态的,即系统所处的状态与时间有关,可周期(或连续)地对它观察;   2)决策是序贯地进行的,即每个时刻根据所观察到的状态和以前状态的记录,从一组可行方案中选用一个最优方案(即作最优决策),使取决于状态的某个目标函数取最优值(极大或极小值); 3)系统下一步(或未来)可能出现的状态是随机的或不确定的。 4.3 序贯决策 4.3.1 序贯决策的基本概念 系统在每次作出决策后下一步可能出现的状态是不能确切预知的,存在两种情况:   1)系统下一步可能出现的状态的概率分布是已知的,可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系统,相应的序贯决策称为马尔可夫决策过程,它是将马尔可夫过程理论与决定性动态规划相结合的产物。 2)系统下一步可能出现的状态的概率分布不知道,只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容。 4.3 序贯决策 4.3.2 序贯决策的决策方法 序贯决策的过程是:从初始状态开始,每个时刻做出最优决策后,接着观察下一步实际出现的状态,即收集新的信息,然后再做出新的最优决策,反复进行直至最后。 解决序贯决策问题的有效办法仍然是决策树,解决序贯决策的关键是确定一个决策序列终止的原则。在下例中,这个原则就是:不管到决策的哪个阶段,只要有一个非经抽样的后悔期望值小于进行一次抽样的费用,决策序列便可终止。 4.3 序贯决策 4.3.2 序贯决策的决策方法 例4-3-1 某工厂的产品每1000件装成一箱出售。每箱中产品的次品率有0.01,0.40,0.90三种可能,其概率分别为0.2,0.6,0.2。现在的问题是:出厂前是否要对产品进行严格检验,将次品挑出。可以选择的行动有两个:① 整箱检验,检验费 为每箱100元;②整箱不检验,但如果顾客在使用中发现次品,每件次品除条换为合格品外还要赔偿0.25元损失费。为了更好地做出决定可以先从一箱中随机抽取1件作为样本检验它,然后根据这件产品是都次品再决定该箱是否要检验,抽样成本为4.2元。进行第一次抽样后,除选择检验还是不检验外,还可以根据前面抽样的结果,考虑再进行一次抽样检验如此形成一个决策序列。该厂应该如何决策。 4.3 序贯决策 4.3.2 序贯决策的决策方法 解 (1) 假设 为整箱检验; 为整箱不检验; 而 表示次品率分别0.01,0.40,0.90的三种自然状态; 表示抽取一件样品的行动, 表示抽取第二件样品的行动 ; , 为抽样时次品和合格品的两个结果。 4.3 序贯决策 4.3.2 序贯决策的决策方法 (2)计算益损值和后悔值矩阵。 产品检验问题的收益矩阵见表4-3-1。由表4-3-1的收益矩阵可得到各行动方案的后悔值矩阵,见表4-3-2。 表4-3-1 :收益矩阵表 表4-3-2:后悔矩阵表

文档评论(0)

1亿VIP精品文档

相关文档