- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 动态规划;第七章 动态规划;3/151;动态规划模型的分类:
①离散确定型;
②离散随机型;
③连续确定型;
④连续随机型。
本章主要介绍离散确定型,思想、原理和方法,为解决其他类型问题打基础。;第一节 多阶段决策过程最优化; 动态规划就是随着时间的推移逐段做出决策。
如果研究对象可分离为若干部分,分别考虑,就可视这若干部分为若干时段,用动态规划方法处理之。
现举例如次。;例1 生产与存贮问题
某厂每月需供应市场一定量产品,余者存入仓库。一般说来,各月适当增加产量可降低生产成本,但存入仓库会增加库存费用。如何安排各月产量,才能既满足市场需求,又减少全年生产与存储费用总和呢?
可逐月考虑,但要顾及全年生产与存储费用总和。;例2 投资决策问题
某公司有资金Q万元,今后5年要投入A、B、C和D四个项目??各项目投资回收期和收益率不同,问:如何安排各年投资额,才能使第5年末的资金总额最大。
该问题可按5阶段决策问题处理。;例3 设备更新问题
设备越到后来,维修费越多。但买新设备一次性支出较多。企业要制订一台设备未来8年的更新计划。经预测,第j年的买价为Kj,设Gj为用过j年后的残值,Cj为连续用j-1年后第j年的维修费(j=1,2,…,8),问:哪一年更新总费用最小?
可视为8阶段决策问题,每年年初要做出决定,是继续用,还是购买新的。;第二节 动态规划基本概念和原理;11/151;例4 最短路线问题
要从A向F铺输油管道,问管线如何走,总长度才最短?线上的数字表示距离。
(1)阶段
将过程或整体,按时间或空间分解成若干互相联系的时段或部分,以便逐一求解,用k表示阶段(k=1, 2, …, 5)。从A到F可分5阶段,每一阶段之初都有多个选择。
请注意,并不是所有的问题都能分解。;13/151;(2)状态
用sk表示各阶段开始状态,称为状态变量。 sk取值全体称为状态集合,用Sk表示。
当某阶段sk给定后,以后过程的发展不受该阶段以前各阶段状态的影响。当前状态是过去历史的一个完整总结,过程的历史只能通过当前状态影响未来的发展,该性质称为无后效性。不具备后效性的变量不能充当状态变量。;在例4中,
S1={A},
S2={B1,B2}
S3={C1, C2, C3, C4}
S4={D1, D2, D3}
S5={E1, E2}
当某段初始状态已选定时,从这个点以后的铺管路线只与该点有关,不受以前的铺管路线影响,所以满足状态的无后效性。;?;整个决策序列构成策略,用p1, n{u1(s1), u2(s2), …, un(sn)}表示。可选策略全体称为允许策略集合,记作P1, n,使整体效果最优的策略是最优策略。
(4)状态转移方程
本阶段状态是上阶段状态和决策的结果。若已知第k段状态sk和uk(sk),则第k+1段状态sk+1也就确定,可表示为:
sk+1=Tk(sk, uk) (7-1)
,称为状态转移方程。
例4中,状态转移方程为:sk+1=uk(sk);(5)指标函数
衡量策略优劣的数值称为指标函数。
阶段指标函数指第k段从状态sk出发,决策为uk时的效果,用d(sk, uk)表示。
从1到n叫做原过程,从第k(1≤k≤n)段到第n段的过程称为原过程后部子过程。
V1, n(s1, p1, n)表示初始状态为s1,用策略p1, n时,原过程指标函数值,Vk, n(sk, pk, n)表示k阶段状态为sk,用策略pk, n时,后部子过程指标函数值。;?;二、动态规划基本思想与原理
求最短路线,可求从A至F的所有可能铺设的长度,然后比较。当段数和各段状态都很多时,穷举法效率低。
动态规划方法,从过程最后一段开始,逆序递推,逐步求出各段、各点到终点F的最短路线,最后求得A到F的最短路线。
第1步,从k=5开始,s5可取E1和E2,到F点的距离分别为4,3。即:
f5(E1)=4, f5(E2)=3
;第2步,k=4,s4可取D1,D2和D3,从D1到F点有两条路线,取最短者:
f4(D1)=min d(D1, E1)+f5(E1) = 3+4 =7
d(D1, E2)+f5(E2) 5+3
相应决策为u*4(D1)=E1。
f4(D2)=mi
文档评论(0)