动态规划培训教案.pptVIP

下载本文档

2
0
约1.21万字
约 76页
2017-02-08 发布于江苏
举报
版权申诉

动态规划培训教案.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

动态规划培训教案

第七章动态规划本章内容多阶段决策过程的最优化动态规划的基本概念和基本原理动态规划模型的建立与求解动态规划在经济管理中的应用是运筹学的一个主要分支是解决多阶段决策过程的最优化的一种方法多阶段决策过程：动态规划模型分类 §1多阶段决策过程的最优化 1.多阶段决策过程的最优化动态规划方法与“时间”关系很密切，随着时间过程的发展而决定各时段的决策，产生一个决策序列，这就是“动态”的意思。然而它也可以处理与时间无关的静态问题，只要在问题中人为地引入“时段”因素，就可以将其转化为一个多阶段决策问题。在本章中将介绍这种处理方法。一、动态规划的基本概念使用动态规划方法解决多阶段决策问题，首先要将实际问题写成动态规划模型，同时也为了今后叙述和讨论方便，这里需要对动态规划的下述一些基本术语进一步加以说明和定义： (一) 阶段和阶段变量为了便于求解和表示决策及过程的发展顺序，而把所给问题恰当地划分为若干个相互联系又有区别的子问题，称之为多段决策问题的阶段。一个阶段，就是需要作出一个决策的子问题，通常，阶段是按决策进行的时间或空间上先后顺序划分的。用以描述阶段的变量叫作阶段变量，一般以k表示阶段变量．阶段数等于多段决策过程从开始到结束所需作出决策的数目，图7—1所示的最短路问题就是一个四阶段决策过程。（二）状态、状态变量和可能状态集 1.状态与状态变量。用以描述事物(或系统)在某特定的时间与空间域中所处位置及运动特征的量，称为状态。反映状态变化的量叫做状态变量。状态变量必须包含在给定的阶段上，确定全部允许决策所需要的信息。按照过程进行的先后，每个阶段的状态可分为初始状态和终止状态，或称输入状态和输出状态，阶段k的初始状态记作sk，终止状态记为sk+1。通常定义阶段的状态即指其初始状态。 2．可能状态集一般状态变量的取值有一定的范围或允许集合，称为可能状态集，或可达状态集。可能状态集实际上是关于状态的约束条件。通常可能状态集用相应阶段状态sk的大写字母Sk表示，sk∈Sk，可能状态集可以是离散的，也可以为连续的取值区间，视具体问题而定．在图7—1所示的最短路问题中，第一阶段状态为A，状态变量s1的状态集合S1={A}；第二阶段则有两个状态：B1 ,B2, 状态变量s2的状态集合S2={B1 ,B2} ；第三阶段有四个状态:C1 ,C2 ,C3 ,C4状态变量s3的状态集合S3={C1 ,C2 ,C3 ,C4} ；第四阶段则有三个状态： D1 ,D ,D3 , 状态变量s4的状态集合S4={C1 ,C2 ,C3 } ；第五阶段则有两个状态E1 ,E2状态变量s5的状态集合S5={E1 ,E2}, （三）决策、决策变量和允许决策集合所谓决策，就是确定系统过程发展的方案。决策的实质是关于状态的选择，是决策者从给定阶段状态出发对下一阶段状态作出的选择。用以描述决策变化的量称之决策变量和状态变量一样，决策变量可以用一个数，一组数或一向量来描述，也可以是状态变量的函数，记以uk= uk(sk)，表示于阶段k状态sk时的决策变量。决策变量的取值往往也有一定的允许范围，称之允许决策集合。决策变量uk(sk)的允许决策集用Uk(sk)表示, uk(sk)∈ Uk(sk)允许决策集合实际是决策的约束条件。（四）策略和允许策略集合策略(Policy)也叫决策序列．策略有全过程策略和k部子策略之分。全过程策略是指具有n个阶段的全部过程，由依次进行的n个阶段决策构成的决策序列，简称策略，表示为p1,n{u1,u2,…,un}。从k阶段到第n阶段，依次进行的阶段决策构成的决策序列称为k部子策略,表示为pk,n{uk,uk+1,…,un} ，显然当k=1时的k部子策略就是全过程策略。在实际问题中，由于在各个阶段可供选择的决策有许多个，因此，它们的不同组合就构成了许多可供选择的决策序列(策略)，由它们组成的集合，称之允许策略集合，记作P1,n ，从允许策略集中，找出具有最优效果的策略称为最优策略。（五）状态转移方程系统在阶段k处于状态sk，执行决策uk(sk)的结果是系统状态的转移，即系统由阶段k的初始状态sk转移到终止状态sk+1 ，或者说，系统由k阶段的状态sk转移到了阶段k+1的状态sk+1。多阶段决策过程的发展就是用阶段状态的相继演变来描述的。对于具有无后效性的多阶段决策过程,系统由阶段k到阶段k+1的状