第八章动态规划1.pptVIP

下载本文档

1
0
约4.78千字
约 41页
2018-05-22 发布于河南
举报
版权申诉

第八章动态规划1.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第八章动态规划1

动态规划（Dynamic Programming) 多阶段决策过程的最优化（简介）动态规划的基本概念和基本原理动态规划模型的建立与求解动态规划的应用一、动态规划简介动态规划是研究决策过程最优化的一种理论和方法，是解决多阶段决策过程最优化的一种数学方法。。 “动态”——随着“时间”过程的发展而决定各时段的决策，产生一个决策序列。 1951年，美国数学家R.Bellman《动态规划》提出：“最优化原理”------ 把多阶段过程转化为一系列相互联系的单阶段问题，逐个求解。并成功地解决了生产管理、工程技术等方面的许多实际问题. 多阶段决策过程是指这样一类特殊的活动过程，他们可以按时间顺序分解成若干相互联系的阶段，在每个阶段都要做出决策，全部过程的决策是一个决策序列，所以多阶段决策问题也称为序贯决策问题。动态规划模型的分类：以“时间”角度可分成：离散型和连续型。从信息确定与否可分成：确定型和随机型。组合： 1、离散确定型； 2、离散随机型； 3、连续确定型； 4、连续随机型；多阶段决策过程最优化问题举例 2、机器负荷分配问题：某种机器，可以在高、低两种负荷下生产。高负荷下生产的产量多，但每生产一个阶段后机器的完好率低；低负荷下生产时的情况则相反。现在需要安排该种机器在多个阶段内（如制定一个五年计划）的生产，问应该如何决定各阶段中机器的使用，使整个计划期内的总产量最大。(按时间分阶段) 3、资源（人力、物力等）分配问题：设某种资源总量为a,用于生产n种产品。若分配数量xi用于生产第i种产品，其收益为gi(xi)。问应如何分配，才能使生产n种产品的总收入最大？(将每一种活动作为一个阶段) 4、生产与存储问题企业在生产和经营管理过程中，经常遇到合理安排生产与库存的问题.由于需求是随着时间变化的因素，因此企业为了获得全年最佳经济效益，就要在整个生产过程中逐月或逐季的根据库存和需求决定生产计划,并使总的生产成本费用和库存费用之和最小 5、设备更新问题：某台设备，例如汽车，刚买来时故障少，耗油低，出车时间长，处理价值和经济效益高。随着使用时间的增加则变为故障多，耗油高，维修费用增加，经济效益差。使用时间愈长，处理价值也愈低。另外，每次更新都要付出更新费用。因此，应当如何决定设备的使用年限，使总的效益最佳。二、动态规划的基本概念和基本原理以书中例1最短路线问题为例，说明动态规划的基本概念。 1.阶段（stage)k 阶段指作出决策的若干轮次。将所给问题的过程，按时间或空间特征分解成若干个相互联系的阶段，以便按次序去求每阶段的解，常用k表示阶段变量。如上例中我们把从A到G看成一个六阶段问题，k（阶段变量）分别等于1，2，3，4，5，6 2.状态（state)Sk 状态表示每个阶段开始所处的自然状况或客观条件，也就是阶段的起点． S1= A ,S2= B1,B2 ,S3= C1,C2,C3,C4 S4= D1,D2,D3 ,S5= E1,E2,E3 S6= F1,F2 ３.决策（Decision) uk(sk) 决策指从一个阶段的某个状态演变到下一个阶段的某个状态的选择。 uk(sk)表示第k阶段当状态处于sk时的决策变量。Ｄk(sk)表示决策集合。Ｄ1(s1)= u1(A) = B1,B2 ; D2(S2)= u2(B1),u2(B2) = C1,C2,C3;C2,C3,C4 …… D5(S5)= u5(E1),u5(E2),u5(E3) = F1,F2; F1,F2; F1,F2 = F1,F2 D6(S6)= u6(F1),u6(F2) = G,G = G 4.策略(policy)和子策略（sub-policy) 策略是指全过程中按顺序排列的各阶段决策组成的集合。记为：p1,n(s1) （如ＡＢ2　C3 D3 E2 F1 G）子策略是指由第k个阶段开始到终止状态为止，其中的每段的决策按顺序排列组成决策函数序列　uk(sk),…,un(sn) 称为k子过程策略，简称子策略。（如：C3 D3 E2 F1 G）记为：pk,n(sk) 则： 5.状态转移方程状态转移方程表示从阶段k到阶段k+1的状态转移规律的表达式。多阶段过程的发展就是用阶段状态的相继演变来描述的。对具有无后效性的多段决策过程，如果给定第k阶段状态变量sk的值,且确定该段的决策变量uk,则第k+1阶段的状态变量sk+1值也随之确定。即sk+1的值是由sk和uk的值来确定的。系统由从阶段k到阶段k+1的状态转移方程表示为：sk+1=Tk(sk,uk) Tk称为状态转移函数。该例中的