- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4-2 动态规划的 基本概念和模型 一、基本概念 DP中描述多段决策过程的基本概念主要有: ?阶段和阶段变量; ?状态和状态变量; ?决策、决策变量和决策序列; ?状态转移方程; ?阶段效应和目标函数等。 1. 阶段和阶段变量 2. 状态和状态变量 状态是描述系统状况所必须的信息。一般定义为某一个阶段的初始点、初始位置或初始情况。状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息,阶段k的状态表示为xk。比如:在最短路问题中,状态就是网络中的各个节点。 3. 决策、决策变量和决策序列 决策就是决策者从本阶段出发对下一阶段状态的选择。 多段决策过程的发展是用各个阶段的状态演变来描述的。因为用状态描述的过程具有无后效性,因此在进行阶段决策时,只须根据当前的状态而无须考虑过去的历史。在阶段k如果给出了决策变量uk随状态变量 xk变化的函数,称为决策函数,表示为uk(xk)。 决策变量的允许取值范围,称为允许决策集合。允许决策集合是决策的约束条件。 uk的允许决策集合表示为Uk,uk?Uk 。 Uk要根据相应的状态可能集Xk并结合具体问题来确定。 从阶段k到阶段n依次进行的阶段决策构成的决策序列称为k-子策略,表示为: 4. 状态转移方程 状态转移方程表示从阶段k到阶段k+1的状态转移规律的表达式。 多阶段过程的发展就是用阶段状态的相继演变来描述的。对具有无后效性的多段决策过程,系统由从阶段k到阶段k+1的状态转移方程表示为: 5. 阶段效应和目标函数 多段决策过程中,在阶段k的状态xk执行决策uk ,不仅带来系统状态的转移,而且也必然带来对目标函数的影响。阶段效应就是执行阶段决策时所带来的目标函数的增量。 在具有无后效性的多段决策过程中,阶段效应完全由阶段k的状态xk和决策uk决定,与阶段以前的状态和决策无关,表示为 二、多阶段决策过程的数学模型(DP的建模) 1.? 构模条件: 一个大前提:恰当地划分问题的阶段, 把问题化为多阶段决策过程; 四个条件 (详见下页) 一个方程——动态规划基本方程 (DP基本方程) 四 个 条 件 (1)正确地选择状态变量: 能描述过程的演变特征; -满足无后效性——指系统从某个阶段往后的发展,完全由本阶段所处的状态及其往后的决策决定,与系统以前的状态和决策无关。即过程过去的历史只能通过当前的状态去影响未来的发展,当前状态是未来过程的初始状态。 在明确四个条件(或称四个要素)的基础上,写出动态规划基本方程。DP模型的数学表达式一般形式: 式中opt指最优化,根据具体问题要求取max或min。 求解要求: 三、DP基本方程 为了将关于多段决策过程的任一阶段状态 的最优策略和最终的最优策略相区别,称前者为条件最优策略,意即相对于状态 时的最优策略。构成条件最优策略的决策称为条件最优决策。阶段k处于状态 的条件最优决策表示为 ,简记为 ,相应的条件最优策略表示为: 2. 最优化原理 最优策略具有的基本性质是:无论初始状态和初始决策如何,对于前面决策所造成的某一状态而言,下余的决策序列必构成最优策略。 3. DP基本方程 包括主体部分和边界条件两个部分。特别,当目标函数为阶段效应求和形式时,基本方程为 四、动态规划的分类 3.按构成决策序列的决策数目有限或无限分 a、?有限多段决策过程 b、?无限多段决策过程 ?按状态变化的确定或随机性分 a、 确定型多段决策过程 b、??随机性多段决策过程 按决策序列与时间起点的关系分 a、定常(与时间起点无关)多段决策过程 b、非定常多段决策过程 以最短路问题为例熟悉有关的五组概念 * 把所研究的多段决策过程恰当地划分为若干个相互独立又相互联系的部分,每一个部分就称为一个阶段。事实上一个阶段也就是需要作出一个决策的子问题部分。通常阶段是按照过程进行的时间和空间上的先后顺序划分的,并用阶段变量k表示。阶段数等于多段决策过程中从开始到结束所需要作出决策的数目,划分阶段的目的是便于求解。 状态变量的取值有一定的允许范围,称为状态可能集。状态可能集可以是一个离散取值的集合,也可以是一个连续的区间,视所给问题而定。 状态可能集是关于状态的约束条件。状态
文档评论(0)