运筹学第05章动态规划.pptVIP

下载本文档

9
0
约8.65千字
约 65页
2018-03-05 发布于河南
举报
版权申诉

运筹学第05章动态规划.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

运筹学第05章动态规划

运筹学第五章动态规划本章重点动态规划的四大要素、一个方程动态规划问题的建模与求解动态规划概念(1) 前面介绍的线性规划研究的是一次性的决策线性规划决策过程可以总结为在给定资源和环境的情况下，决定变量的取值，使某个目标达到最大或最小值这个决策过程可以表示如下图动态规划概念(2) 例如，前面讲过的生产计划问题就是一次决策某工厂用三种原料生产三种产品，已知的条件如下表所示，试制订总利润最大的日生产计划动态规划概念(3) 在这个模型中模型中的A、b和C就是x1 模型中的X就是u 模型中的f(X)=CX就是Z A、C和剩余的原料为x2 动态规划概念(4) 如果上例中的生产计划不是只在一天里进行，而是连续一周，每天投入一定量的原料，剩余的原料后面可以继续使用，每天只允许生产一种产品并获得相应的利润。问怎样决策才能使一周的总利润最大？解决这样的问题需要将决策过程分为多个阶段，本问题需要分为如下的7个阶段。动态规划概念(5) uk（k=1,2,3,4,5,6,7）表示第k天生产三种产品中的哪一种以及生产多少 x1=技术环境A、市场环境C和原料b xk+1=技术环境A、市场环境C和原料b +第k天剩余的原料（k=1,2,3,4,5,6,7） rk=第k天生产产品获得的利润总利润=r1+ r2+ r3+ r4+ r5+ r6+ r7 多阶段决策过程(1) 其中包含n个决策子问题，每个子问题称为一个阶段，用变量k表示，称为阶段变量 xk描述k 阶段初系统的状况，称为状态变量每个阶段有一个输入状态和一个输出状态一般把输入状态称为该阶段的阶段状态多阶段决策过程(2) uk 代表k 阶段对第k 子问题进行的决策，称uk为k阶段的决策变量，uk的一组确定的取值称为一个决策 rk 表示k 阶段从状态xk 出发做决策uk 之后产生的后果，称为k 阶段的阶段效应若在上述的多阶段决策过程中，系统 k 阶段以后的决策只与 k 阶段系统的状态 xk 有关，而与系统以前的决策无关，则称该多阶段决策过程具有无后效性注：动态规划的建模和求解都是针对具有无后效性的多阶段决策过程多阶段决策过程(3) 在具有无后效性的多阶段决策过程中，uk由xk 决定，rk 和xk+1 由xk 和uk 决定，因此决策可以写为 uk(xk ) 阶段效应可以写为 rk(xk , uk ) 状态xk+1=Tk(xk , uk ) 称为状态转移方程，其中Tk 是已知函数多阶段决策过程中，从第k阶段到最终阶段的过程称为k-后部子过程，简称k-子过程动态规划模型动态规划模型如下动态规划建模确定阶段根据实际情况进行阶段划分明确状态变量xk和状态可能集合Xk 确定决策变量uk(xk )和决策允许集合Uk 确定状态转移方程xk+1=Tk(xk , uk ) 明确阶段效应rk(xk , uk )和目标R 示例(5.1-1) 前面讲过的生产计划问题某工厂用三种原料生产三种产品，已知的条件如下表所示，如连续生产一周，每天投入一定量的原料，剩余的原料后面可以继续使用，每天只允许生产一种产品并获得相应的利润。试制订总利润最大的周生产计划(只建模，不求解) 示例(5.1-2) 示例(5.1-3) 动态规划解的概念(1) 最优目标值在多阶段决策过程中，从起始状态x1开始，进行一系列的决策，使得目标R达到最优，我们把这种目标的值称为最优目标值，记为R* 最优策略把使目标达到最优的决策序列称为最优策略，记为 {u1*, u2*,…, un*} 最优路线在采用最优策略时，系统从x1开始所经过的状态序列称为最优路线，记为{x1*, x2*,…, xn+1*} 动态规划解的概念(2) 求解动态规划问题就是要找到最优策略、最优路线和最优目标值动态规划最优性原理(1) 一个多阶段决策过程的最优策略具有这样的性质无论其初始状态及其初始决策如何，对于前面决策所形成的某一状态而言，下余的决策序列必定构成最优策略最优性原理的含义是最优策略的任何一个k-后部子策略(uk*, uk+1*,…, un*) ，是以xk*为初始状态的k-后部子过程的最优策略动态规划最优性原理(2) 如上图 A到B之间的蓝线是由状态A到状态B的最优策略在线上任取一点M，M到B之间的蓝线就是由状态M到状态B的最优策略贝尔曼函数(1) 在k阶段从初始状态xk 出发，执行最优决策序列，到达过程终点时，整个k-后部子过程中的目标函数取值，称为条件最优目标函数，也称为贝尔曼函数，记为fk(xk )，则贝尔曼函数(2) 构成条件最优策略的决策称为条件最优决策将k阶段状态xk的条件最优决策表示为uk’(xk )，简记为uk’，相应的条件最优策略表示为 {uk’, uk+1’,…, un’