Chapter 7 动态规划.ppt

下载文档 降价啦

32
0
约1.95万字
约 103页
2016-04-05 发布于安徽
举报
版权申诉
保障服务

Chapter 7 动态规划.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Chapter 7 动态规划.ppt

第七章动态规划第一节多阶段决策过程的最优化第二节动态规划的基本概念和基本原理第三节动态规划模型的建立与求解第四节动态规划在经济管理中的应用第五节马氏决策规划简介引言动态规划是解决多阶段决策过程最优化问题的一种方法，该方法是美国数学家贝尔曼等人在20世纪50年代初提出来的。它是现代企业管理中的一种重要决策方法，可以用于解决最优路径问题、资源分配问题、生产计划与库存、投资、装载、排序等问题及生产过程的最优控制等。动态规划模型的分类：1、离散确定型；2、离散随机型；3、连续确定型；4、连续随机型。其中离散确定型是动态规划最基本的模型，本章主要针对这种类型的问题，介绍动态规划的基本思想、原理和方法。 §7-1 多阶段决策过程的最优化多阶段决策过程，是指一类特殊的活动过程，它们可以按时间顺序分解成若干相互联系的阶段，称为“时段”，在每个时段都要做出决策，全部过程的决策是一个决策序列，所以多阶段决策问题属序贯决策问题。多阶段决策过程最优化的目标是要达到整个活动的总体效果最优。动态规划方法与“时间”关系很密切，随着时间过程的发展而决定各时段的决策，产生一个决策序列，这就是“动态”的含义。例1 生产与存储问题例2 投资决策问题某公司现有资金Q万元，在今后5年内考虑给A，B，C，D四个项目投资，这些项目投资的回收期限、回报率均不同，问该公司应如何确定这些项目的投资额，使到第五年末拥有资金的本利总额最大。显然，这是一个5阶段决策问题例3 设备更新问题 §7-2 动态规划的基本概念和基本原理一、动态规划的基本概念使用动态规划方法解决多阶段决策问题，首先要将实际问题写成动态规划模型，要用到以下概念：（1）阶段；（2）状态；（3）决策；（4）策略；（5）状态转移；（6）指标函数（1）阶段为了便于求解和表示决策及过程的发展顺序，而把所给问题按时间或空间特征恰当地划分为若干个相互联系又有区别的子问题，称之为多段决策问题的阶段。一个阶段，就是需要作出一个决策的子问题。用以描述阶段的变量叫作阶段变量，一般以k表示阶段变量．阶段数等于多段决策过程从开始到结束所需作出决策的数目。（2）状态用以描述事物(或系统)在某特定的时间与空间域中所处位置及运动特征的量，称为状态。反映状态变化的量叫做状态变量。状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息。按照过程进行的先后，每个阶段的状态可分为初始状态和终止状态，或称输入状态和输出状态，阶段k的初始状态记作sk，终止状态记为sk+1。但为了清楚起见，通常定义阶段的状态即指其初始状态。各阶段开始时的客观条件叫状态。一般状态变量的取值有一定的范围或允许集合，称为可能状态集，或可达状态集。可能状态集实际上是关于状态的约束条件。通常可能状态集用相应阶段状态sk的大写字母Sk表示，sk?Sk，可能状态集可以是一离散取值的集合，也可以为一连续的取值区间，视具体问题而定。（3）决策决策的实质是关于状态的选择，是决策者从给定阶段状态出发对下一阶段状态作出的选择。用以描述决策变化的量称之决策变量。决策变量的值可以用数，向量、其它量，也可以是状态变量的函数，记为uk＝uk(sk)，表示在阶段k状态sk时的决策变量。决策变量的取值往往也有一定的允许范围，称之允许决策集合。决策变量uk(sk)的允许决策集用Dk(sk)表示, uk(sk)∈Dk(sk)，允许决策集合实际是决策的约束条件。（4）策略策略(Policy)也叫决策序列．策略有全过程策略和k部子策略之分，全过程策略是指由依次进行的n个阶段决策构成的决策序列，简称策略，表示为p1,n{u1,u2,…,un}。从k阶段到第n阶段，依次进行的阶段决策构成的决策序列称为k部子策略,表示为pk,n{uk,uk+1,…,un} ，显然当k=1时的k部子策略就是全过程策略。在实际问题中，由于在各个阶段可供选择的决策有许多个，因此，它们的不同组合就构成了许多可供选择的决策序列（策略），由它们组成的集合，称之允许策略集合，记作P1,n，从允许策略集中，找出具有最优效果的策略称为最优策略。（5）状态转移方程系统在阶段k处于状态sk，执行决策uk(sk)的结果是系统状态的转移，即系统由阶段k的初始状态sk转移到终止状态sk+1 。对于具有无后效性的多阶段决策过程,系统由阶段k到阶段k+1的状态转移完全由阶段k的状态sk和决策uk(sk)所确定，与系统过去的状态s1,s2,… ,sk-1及其决策u1(s1), u2(s2)…uk-1(sk-1)无关。系统状态的这种转移，用数学公式描述即有： Sk+1＝Tk(sk,uk(sk)) 通常称上式为多阶段决策过程的状态转移方