DP基本概念与最优化原理.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
执行条件最优策略时的阶段状态序列称为条件最优路线,表示为 条件最优目标函数值亦称执行条件最优策略时的目标函数值,因此 其中, 2. 最优化原理 最优策略具有的基本性质是:无论初始状态和初始决策如何,对于前面决策所造成的某一状态而言,其余的决策序列必定构成最优策略。 (1)最优策略的任何子 策略也是相应初始状态的最优策略; (2)每个最优策略只能由最优子策略构成; 3. DP基本方程 包括主体部分和边界条件两个部分。特别,当目标函数为阶段效应求和形式时,基本方程为 四、动态规划的分类 动态规划的表现形式随多段决策过程的特点不同而不同,据此可将动态规划作以下分类: 1、按决策的特性分 a、时间多段决策过程 b、空间多段决策过程 2、按允许决策集合的连续或不连续分 a?、连续多段决策过程 b、离散多段决策过程 3.按构成决策序列的决策数目有限或无限分 a、?有限多段决策过程 b、?无限多段决策过程 ?按状态变化的确定或随机性分 a、 确定型多段决策过程 b、??随机性多段决策过程 按决策序列与时间起点的关系分 a、定常(与时间起点无关)多段决策过程 b、非定常多段决策过程 实际的多段决策问题,常常归结为它们的各种复合情况。 今后只限于定常的,确定性的、有限的多段决策过程的讨论。 * * * * 4-2 动态规划的 基本概念和模型 一、基本概念 DP中描述多段决策过程的基本概念主要有: ?阶段和阶段变量; ?状态和状态变量; ?决策、决策变量和决策序列; ?状态转移方程; ?阶段效应和目标函数等。 1. 阶段和阶段变量 把所研究的多段决策过程恰当地划分为若干个相互独立又相互联系的部分,每一个部分就称为一个阶段。事实上一个阶段也就是需要作出一个决策的子问题部分。 通常阶段是按照过程进行的时间和空间上的先后顺序划分的,并用阶段变量k表示。 阶段数等于多段决策过程中从开始到结束所需要作出决策的数目,划分阶段的目的是便于求解。 一次性决策与多阶段决策 一次性决策 多阶段决策 2. 状态和状态变量 状态是描述系统状况所必须的信息。一般定义为某一个阶段的初始点、初始位置或初始情况。 状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息,阶段k的状态表示为xk。比如:在最短路问题中,状态就是网络中的各个节点。 状态变量的取值有一定的允许范围,称为状态可能集。状态可能集可以是一个离散取值的集合,也可以是一个连续的区间,视所给问题而定。 状态可能集是关于状态的约束条件。状态可能集用相应阶段状态xk的大写字母Xk表示,其中xk?Xk 3. 决策、决策变量和决策序列 决策就是决策者从本阶段出发对下一阶段状态的选择。 多段决策过程的发展是用各个阶段的状态演变来描述的。因为用状态描述的过程具有无后效性,因此在进行阶段决策时,只须根据当前的状态而无须考虑过去的历史。在阶段k如果给出了决策变量uk随状态变量 xk变化的函数,称为决策函数,表示为uk(xk)。 决策变量的允许取值范围,称为允许决策集合。允许决策集合是决策的约束条件。 uk的允许决策集合表示为Uk,uk?Uk 。 Uk要根据相应的状态可能集Xk并结合具体问题来确定。 决策序列又叫策略。策略有全过程策略和k-子策略之分。全过程策略是整个n段决策过程中依次进行的n个阶段决策构成的决策序列,简称策略,表示为: 从阶段k到阶段n依次进行的阶段决策构成的决策序列称为k-子策略,表示为: 当k=1时,k-子策略就是全过程策略。 在n段决策问题中,各阶段的状态可能集和决策允许集确定了决策的允许范围。 特别地,过程的初始状态不同,决策和策略也就不同,即策略是初始状态的函数。 4. 状态转移方程 状态转移方程表示从阶段k到阶段k+1的状态转移规律的表达式。 多阶段过程的发展就是用阶段状态的相继演变来描述的。对具有无后效性的多段决策过程,系统由从阶段k到阶段k+1的状态转移方程表示为: 即 阶段的状态完全由k 阶段的状态和决策uk 确定,与系统过去的状态 x1,x2,…,xk-1及其决策u1(x1),u2(x2),…,uk-1(xk-1)无关。如 , Tk( xk,uk)称为变换函数或变换算子。变换函数可以分为确定型和随机型两种类型,据此形成确

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档