4-2 动态规划的基本概念和模型.pdf

下载文档 降价啦

12
0
约1.03万字
约 29页
2019-01-31 发布于山东
举报
版权申诉
保障服务

4-2 动态规划的基本概念和模型.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

4-2 动态规划的基本概念和模型一、基本概念一、基本概念 DP 中描述多段决策过程的基本概念主要 DP 中描述多段决策过程的基本概念主要有：有： 阶段和阶段变量； 状态和状态变量； 决策、决策变量和决策序列； 状态转移方程； 阶段效应和目标函数等 1. 阶段和阶段变量把所研究的多段决策过程恰当地划分为若干个相互独立又相互联系的部分，每一个部分就称为一个阶段。事实上一个阶段也就是需要作出一个决策的子问题部分。通常阶段是按照过程进行的时间和空间上的先后顺序划分的，并用阶段变量k表示。阶段数等于多段决策过程中从开始到结束所需要作出决策的数目，划分阶段的目的是便于求解。 2. 状态和状态变量状态是描述系统状况所必须的信息。一般定义为某一个阶段的初始点、初始位置或初始情况。状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息，阶段k的状态表示为xk 。比如：在最短路问题中，状态就是网络中的各个节点。状态变量的取值有一定的允许范围，称为状态可能集。状态可能集可以是一个离散取值的集合，也可以是一个连续的区间，视所给问题而定。状态可能集是关于状态的约束条件。状态可能集用相应阶段状态xk的大写字母X 表示，其中x X k k k 3. 决策、决策变量和决策序列决策就是决策者从本阶段出发对下一阶段状态的选择。多段决策过程的发展是用各个阶段的状态演变来描述的。因为用状态描述的过程具有无后效性，因此在进行阶段决策时，只须根据当前的状态而无须考虑过去的历史。在阶段k如果给出了决策变量uk随状态变量 xk 变化的函数，称为决策函数，表示为 u (x)。 k k 决策变量的允许取值范围，称为允许决策集合。允许决策集合是决策的约束条件。 uk 的允许决策集合表示为U ，u U U 要根据 k k k 。 k 相应的状态可能集Xk并结合具体问题来确定。决策序列就叫策略。策略有全过程策略全过程策略和k-子策略之分。全过程策略是整个n段决 k-子策略策过程中依次进行的n个阶段决策构成的决策序列，简称策略，表示为：   u 1 , u 2 , , u n 从阶段k到阶段n依次进行的阶段决策构成的决策序列称为k-子策略，表示为：   u k ,u k 1 , ,u n 当k=1时，k-子策略就是全过程策略。在n段决策问题中，各阶段的状态可能集和决策允许集确定了决策的允许范围。特别，过程的初始状态不同，决策和策略也就不同，即策略是初始状态的函数。 4. 状态转移方程 4. 状态转移方程状态转移方程表示从阶段k到阶段k+1 状态转移方程表示从阶段k到阶段k+1 的状态转移规律的表达式。的状态转移规律的表达式。多阶段过程的发展就是用阶段状态的相继演变来描述的。对具有无后效性的多段决策过程，系统由从阶段k到阶段k+1的状态转移方程表示为： x T (x ,u (x )) k1 k k k k 意即阶段的状态完全由阶段的状态和决策确定，与系统