第五篇动态规划.pdfVIP

下载本文档

6
0
约7.23万字
约 24页
2017-06-18 发布于湖北
举报

第五篇动态规划.pdf

第五章动态规划动态规划是上个世纪 50 年代初由美国数学家 R ．Bellman 提出的。动态规划所研究的对象是一类过程最优化问题。其方法特点在于把决策过程的时间以及当时的状态作为参量，化为一簇形式相同的最优化子问题，即动态规划模型，然后按次序逐一求解这些子问题，就可得出问题的解．根据决策过程的时间参数是连续的还是离散的，状态转移是确定的还是随机的。动态规划可分为四种情形：连续确定型；连续随机型；离散确定型和离散随机型。本书只讨论离散确定型的动态规划，并且设过程的时间参数只取有限个值，即过程的阶段数是有限的。请注意这儿的时间参数是虚拟的，它不一定是真正的时间，而是为建立动态规划模型而引入的。动态规划的核心是如何把一个具体的问题转化为动态规划模型。问题不同，其动态规划的模型不同，其解法也不完全相同。所以，用动态规划解决实际问题需要技巧和智慧。首先要判断能否化为动态规划模型，即前言中指出具有适宜子结构和重叠子集。然后列出动态规划的具体模型，最后要设计出适合该模型的具体算法．本章我们列举了若干动态规划模型，希望读者能从这些具体的例子中学习和掌握动态规划这一方法． 5 ．0 离散确定性动态规划的基本概念离散确定性决策过程也称之为多阶段决策过程。有如下几个概念：阶段 (stage) ：我们假定决策过程分n 个阶段，n 可能有限，也可能无限。本文 n 为有限值，第k 阶段就用 k 表示，k ＝0，1，2 ，…，n 。状态 (state) ：它描述决策过程中各个阶段所处的状况。在不同状态下采取不同决策．我们用 xk 表示阶段 k 的状态变量，它的取值可能是一个集合中的元素。决策 (decision) ：在决策过程中每一个阶段k 每一种状态 xk 下要作一个决策 u，u 的取值是有限制的，显然它与所处的状态 x 有关。我们用 U(x )表示在阶段 k 状态下 u 的可行决 k k 策等．所谓决策，就是 U(x ) 中选取 u 的一个值 u ．当 u 决定后，就转移到 k ＋1 阶段某一 k k k 状态 xk ＋1 ．这就是所谓的状态转移方程： x ＋＝φ(u ) k 1 k k 策略：假设第 i 阶段处于状态xi 下，选取的可行决策为u ∈U(x ) ，那么由状态转移方 i i 程得到 i ＋1 阶段的状态 xi＋1，而在状态xi＋1 下选取的可行决策为ui+1 ∈U(xi+1) ，当 i ＝m ， m ＋1，…，k －1 时得将决策序列 u ，u ＋，…，u ．则称u ，…，u 为子策略．当 m ＝0， m m 1 k m k k ＝n 时，u ，u ，…，u 称之为策略(Policy) ． 0 1 n 指标函数：能用动态规划求解的最优化问题，其指标函数一般有三种形式：连和，连积和极大极小．这样便于构造其子问题的指标函数．指标函数是用来衡量策略优劣的数量函数．使指标函数达到最优的策略，称之为最优策略．动态规划的核心是最优性原理：最优策略具有这样的性质：无论过去的状态和决策如何，对前面的决策所导致的现在状态而言，余下的诸决策必须构成最优的决策．由此可见，最优策略的子策略必须是最优的．用动态规划解最优化问题，可以分四步： 1．首先刻画最优解的结构．包括如何划分阶段，每个阶段有哪些状态；每种状态下的可行决策集是什么，以及状态如何转移等． 2 ．根据最优性原理列出递归方程(可以是逆序的也可以是顺序的，根据问题不同进行选择) ．这一步是解决问题的关键． 3 ．利用递归方程，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第五篇动态规划.pdfVIP