- 6
- 0
- 约7.23万字
- 约 24页
- 2017-06-18 发布于湖北
- 举报
第五章 动态规划
动态规划是上个世纪 50 年代初由美国数学家 R .Bellman 提出的。动态规划所研究的
对象是一类过程最优化问题。其方法特点在于把决策过程的时间以及当时的状态作为参量,
化为一簇形式相同的最优化子问题,即动态规划模型,然后按次序逐一求解这些子问题,就
可得出问题的解.
根据决策过程的时间参数是连续的还是离散的,状态转移是确定的还是随机的。动态规
划可分为四种情形:连续确定型;连续随机型;离散确定型和离散随机型。本书只讨论离散
确定型的动态规划,并且设过程的时间参数只取有限个值,即过程的阶段数是有限的。请注
意这儿的时间参数是虚拟的,它不一定是真正的时间,而是为建立动态规划模型而引入的。
动态规划的核心是如何把一个具体的问题转化为动态规划模型。问题不同,其动态规划
的模型不同,其解法也不完全相同。所以,用动态规划解决实际问题需要技巧和智慧。首先
要判断能否化为动态规划模型,即前言中指出具有适宜子结构和重叠子集。然后列出动态规
划的具体模型,最后要设计出适合该模型的具体算法.
本章我们列举了若干动态规划模型,希望读者能从这些具体的例子中学习和掌握动态规
划这一方法.
5 .0 离散确定性动态规划的基本概念
离散确定性决策过程也称之为多阶段决策过程。有如下几个概念:
阶段 (stage) :我们假定决策过程分n 个阶段,n 可能有限,也可能无限。本文 n 为有
限值,第k 阶段就用 k 表示,k =0,1,2 ,…,n 。
状态 (state) :它描述决策过程中各个阶段所处的状况。在不同状态下采取不同决策.我
们用 xk 表示阶段 k 的状态变量,它的取值可能是一个集合中的元素。
决策 (decision) :在决策过程中每一个阶段k 每一种状态 xk 下要作一个决策 u,u 的取
值是有限制的,显然它与所处的状态 x 有关。我们用 U(x )表示在阶段 k 状态下 u 的可行决
k k
策等.所谓决策,就是 U(x ) 中选取 u 的一个值 u .当 u 决定后,就转移到 k +1 阶段某一
k k k
状态 xk +1 .这就是所谓的状态转移方程:
x + =φ(u )
k 1 k k
策略:假设第 i 阶段处于状态xi 下,选取的可行决策为u ∈U(x ) ,那么由状态转移方
i i
程得到 i +1 阶段的状态 xi+1,而在状态xi+1 下选取的可行决策为ui+1 ∈U(xi+1) ,当 i =m ,
m +1,…,k -1 时得将决策序列 u ,u + ,…,u .则称u ,…,u 为子策略.当 m =0,
m m 1 k m k
k =n 时,u ,u ,…,u 称之为策略(Policy) .
0 1 n
指标函数:能用动态规划求解的最优化问题,其指标函数一般有三种形式:连和,连积
和极大极小.这样便于构造其子问题的指标函数.指标函数是用来衡量策略优劣的数量函
数.使指标函数达到最优的策略,称之为最优策略.
动态规划的核心是最优性原理:
最优策略具有这样的性质:无论过去的状态和决策如何,对前面的决策所导致的现在状
态而言,余下的诸决策必须构成最优的决策.由此可见,最优策略的子策略必须是最优的.
用动态规划解最优化问题,可以分四步:
1.首先刻画最优解的结构.包括如何划分阶段,每个阶段有哪些状态;每种状态下的
可行决策集是什么,以及状态如何转移等.
2 .根据最优性原理列出递归方程(可以是逆序的也可以是顺序的,根据问题不同进行选
择) .这一步是解决问题的关键.
3 .利用递归方程,
原创力文档

文档评论(0)