- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章 动态规划
§1 多阶段决策过程及实例 在实际中,有一类问题可以看作是一活动的 过程,由于它的特殊性,可将过程分为若干个相 互联系阶段,在每个阶段都要依据该阶段所处的 状态作出相应的决策,该决策又引起该阶段状态 的转移,决定了下一阶段的状态,当每个阶段的 决策确定后,由这些决策组成一个决策序列,即 整个过程的一条活动路线。这类活动过程称为多 阶段决策过程。这类问题称为多阶段决策问题。 例1 最短路线问题 如下图,是一线路网络,两点之间连线上的数字表示两点之间的距离(或费用)试求一条由A到G的铺管线路,使总距离为最短(或总费用最小)。 例2 机器负荷分配问题 某种机器可以在高低两种不同负荷下进行生产。 在高负荷下进行生产时,产品的年产量g和投入生产的机器数u的关系为 §2 动态规划的基本概念和基本方程 2.1 动态规划的基本概念 1. 阶段 把过程依据一定的时间和空间特征恰当地划分为若干个相互联系的阶段,以便利用动态规划的方法求解。 描述阶段的变量称为阶段变量,用k表示。k=1,2,…,n 2. 状态 每个阶段开始所处的自然状况或客观条件,称为状态。状态是不可控的,是客观存在的。 描述状态的变量称为状态变量,用sk表示。状态变量可以是一个数或一个向量。状态变量sk的取值范围称为可达状态集合,用Sk表示。例1中,S3={C1,C2,C3,C4}。 状态变量的性质(无后效性) 如果某阶段的状态给定后,则该阶段以后的过程的发展不受该阶段以前各阶段状态的影响。即过程的过去历史只能通过当前的状态去影响未来的发展,当前的状态是以往历史的总结,以后发展的依据。这个性质称为无后效性(即马尔科夫性)。 无后效性的特征:在每个阶段所作的决策只依据当前的状态,和以往的状态无关。 在选取状态变量时,一定要保证状态变量具有无后效性,否则不能利用动态规划的方法求解。 3. 决策 在每个阶段所作的决定或选择称为决策或控制。决策依据与当前状态,又决定下一阶段的状态。 描述决策的变量称为决策变量,用uk(sk)表示。他是状态变量sk的函数。决策变量的取值范围称为容许决策集合,用Dk(sk)表示。 在例1中 D1(A)={B1,B2} D2(B1)={C1,C2,C3},D2(B2)={C2,C3 ,C4} D4(D1)={E2,E3} 在例2中 D1(s1)={u1(s1) | 0≤{u1(s1)≤s1} D2(s2)={u2(s2) | 0≤{u2(s2)≤ s2} Dk(sk)={uk(sk) | 0≤{uk(sk)≤ sk} 4. 策略 按一定顺序排列的决策序列集合称为策略。 由过程的第k阶段开始到终止状态为止的过程,称为问题的后部子过程(或称为k子过程)。 由k子过程的每个阶段的决策函数组成的决策函数序列集合{uk(sk), uk+1(sk+1),…, un(sn)}称为k子过程策略,简称为子策略,记为pk,n(sk),即 pk,n(sk)= {uk(sk), uk+1(sk+1),…, un(sn)} 当k=1时,此决策函数序列称为全过程的一个策略, 简称为策略,记为p1,n(s1)。即 p1,n(sk)= {u1(s1), u2(s2),…, un(sn)} 策略的取值范围称为容许策略集合,用P表示。 在P中,使指标函数达到最优的策略称为最优策略。 例1中,每一条线路就是一个策略,容许策略集合中有48个策略。A到G的最短线路就是最优策略。 5. 状态转移方程 若给定第k个阶段状态变量sk的值,该阶段的决策变量uk的值一经确定,第k+1个阶段的状态变量sk+1的值也就完全确定了,即sk+1是sk和 uk的函数,记为
文档评论(0)