- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4-2 动态规划的
基本概念和模型
一、基本概念
一、基本概念
DP 中描述多段决策过程的基本概念主要
DP 中描述多段决策过程的基本概念主要
有:
有:
阶段和阶段变量;
状态和状态变量;
决策、决策变量和决策序列;
状态转移方程;
阶段效应和目标函数等
1. 阶段和阶段变量
把所研究的多段决策过程恰当地划分为若干
个相互独立又相互联系的部分,每一个部分
就称为一个阶段。事实上一个阶段也就是需
要作出一个决策的子问题部分。通常阶段是
按照过程进行的时间和空间上的先后顺序划
分的,并用阶段变量k表示。阶段数等于多段
决策过程中从开始到结束所需要作出决策的
数目,划分阶段的目的是便于求解。
2. 状态和状态变量
状态是描述系统状况所必须的信息。一般
定义为某一个阶段的初始点、初始位置或
初始情况。状态变量必须包含在给定的阶
段上确定全部允许决策所需要的信息,阶
段k的状态表示为xk 。比如:在最短路问题
中,状态就是网络中的各个节点。
状态变量的取值有一定的允许范
围,称为状态可能集。状态可能集可
以是一个离散取值的集合,也可以是
一个连续的区间,视所给问题而定。
状态可能集是关于状态的约束条
件。状态可能集用相应阶段状态xk的
大写字母X 表示,其中x X
k k k
3. 决策、决策变量和决策序列
决策就是决策者从本阶段出发对下一阶
段状态的选择。
多段决策过程的发展是用各个阶段的状
态演变来描述的。因为用状态描述的过程具
有无后效性,因此在进行阶段决策时,只须
根据当前的状态而无须考虑过去的历史。在
阶段k如果给出了决策变量uk随状态变量 xk
变化的函数,称为决策函数,表示为
u (x)。
k k
决策变量的允许取值范围,称为允许决策
集合。允许决策集合是决策的约束条件。 uk
的允许决策集合表示为U ,u U U 要根据
k k k 。 k
相应的状态可能集Xk并结合具体问题来确
定。
决策序列就叫策略。策略有全过程策略
全过程策略
和k-子策略之分。全过程策略是整个n段决
k-子策略
策过程中依次进行的n个阶段决策构成的决
策序列,简称策略,表示为:
u 1 , u 2 , , u n
从阶段k到阶段n依次进行的阶段决策构
成的决策序列称为k-子策略,表示为:
u k ,u k 1 , ,u n
当k=1时,k-子策略就是全过程策略。
在n段决策问题中,各阶段的状态可能集
和决策允许集确定了决策的允许范围。
特别,过程的初始状态不同,决策和策略
也就不同,即策略是初始状态的函数。
4. 状态转移方程
4. 状态转移方程
状态转移方程表示从阶段k到阶段k+1
状态转移方程表示从阶段k到阶段k+1
的状态转移规律的表达式。
的状态转移规律的表达式。
多阶段过程的发展就是用阶段状态的
相继演变来描述的。对具有无后效性的多
段决策过程,系统由从阶段k到阶段k+1的
状态转移方程表示为:
x T (x ,u (x ))
k1 k k k k
意即阶段的状态完全由阶段的状态和决
策确定,与系统
文档评论(0)