4-2 动态规划的基本概念和模型.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4-2 动态规划的 基本概念和模型 一、基本概念 一、基本概念 DP 中描述多段决策过程的基本概念主要 DP 中描述多段决策过程的基本概念主要 有: 有: 阶段和阶段变量; 状态和状态变量; 决策、决策变量和决策序列; 状态转移方程; 阶段效应和目标函数等 1. 阶段和阶段变量 把所研究的多段决策过程恰当地划分为若干 个相互独立又相互联系的部分,每一个部分 就称为一个阶段。事实上一个阶段也就是需 要作出一个决策的子问题部分。通常阶段是 按照过程进行的时间和空间上的先后顺序划 分的,并用阶段变量k表示。阶段数等于多段 决策过程中从开始到结束所需要作出决策的 数目,划分阶段的目的是便于求解。 2. 状态和状态变量 状态是描述系统状况所必须的信息。一般 定义为某一个阶段的初始点、初始位置或 初始情况。状态变量必须包含在给定的阶 段上确定全部允许决策所需要的信息,阶 段k的状态表示为xk 。比如:在最短路问题 中,状态就是网络中的各个节点。 状态变量的取值有一定的允许范 围,称为状态可能集。状态可能集可 以是一个离散取值的集合,也可以是 一个连续的区间,视所给问题而定。 状态可能集是关于状态的约束条 件。状态可能集用相应阶段状态xk的 大写字母X 表示,其中x X k k k 3. 决策、决策变量和决策序列 决策就是决策者从本阶段出发对下一阶 段状态的选择。 多段决策过程的发展是用各个阶段的状 态演变来描述的。因为用状态描述的过程具 有无后效性,因此在进行阶段决策时,只须 根据当前的状态而无须考虑过去的历史。在 阶段k如果给出了决策变量uk随状态变量 xk 变化的函数,称为决策函数,表示为 u (x)。 k k 决策变量的允许取值范围,称为允许决策 集合。允许决策集合是决策的约束条件。 uk 的允许决策集合表示为U ,u U U 要根据 k k k 。 k 相应的状态可能集Xk并结合具体问题来确 定。 决策序列就叫策略。策略有全过程策略 全过程策略 和k-子策略之分。全过程策略是整个n段决 k-子策略 策过程中依次进行的n个阶段决策构成的决 策序列,简称策略,表示为:   u 1 , u 2 , , u n 从阶段k到阶段n依次进行的阶段决策构 成的决策序列称为k-子策略,表示为:   u k ,u k 1 , ,u n 当k=1时,k-子策略就是全过程策略。 在n段决策问题中,各阶段的状态可能集 和决策允许集确定了决策的允许范围。 特别,过程的初始状态不同,决策和策略 也就不同,即策略是初始状态的函数。 4. 状态转移方程 4. 状态转移方程 状态转移方程表示从阶段k到阶段k+1 状态转移方程表示从阶段k到阶段k+1 的状态转移规律的表达式。 的状态转移规律的表达式。 多阶段过程的发展就是用阶段状态的 相继演变来描述的。对具有无后效性的多 段决策过程,系统由从阶段k到阶段k+1的 状态转移方程表示为: x T (x ,u (x )) k1 k k k k 意即阶段的状态完全由阶段的状态和决 策确定,与系统

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档