- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
chapter6_动态规划
用动态规划求解的结果已在上节中得到,现在归纳一下:在动态规划中协态变量 满足 哈密顿—雅可比—贝尔曼方程(6-28)本身说明了哈密顿函数在最优控制上取极值的条件,故等同于上面极小值原理所得的条件5,不过(6-28)还多给出了一点信息,即 。 下面由动态规划法来推出协态方程。 由(6-27) 因假设对两次连续可微,因此上式成立,且可交换求导次序,得 即协态方程(6-32)(因都是最优解条件。故省去*号)。由(6-22)和(6-27)再来推横截条件 即横截条件(6-34)。其它条件如状态方程和初始条件都是给定的。故由动态规划推出了极小值原理的全部条件。应该强调,这不是说用动态规划可证明极小值原理。因为上面的推演要求 , 二次连续可微,而极小值原理的证明本身不需要这一条件。 6.7 小结 1. 动态规划是把多级决策问题化为多个单级决策问题来求解的,而单级问题比多级问题容易处理得多。这种把一个复杂的特定问题化为(又可称为嵌入)一系列性质相似的易于求解的问题的做法称为“不变嵌入”法。 2. 动态规划的基础是最优性原理。这个原理告诉我们:在多级最优决策中,不管初始状态是什么,余下的决策对此状态必定构成最优决策。根据这个原理,动态规划解决多级决策问题(包括离散系统最优控制)是从最后一级开始倒向计算的。 3. 连续系统的动态规划可导出哈密顿——雅可比——贝尔曼方程,这个方程一般只能有数值解。从它可推演出极小值原理,不过要假定 , 二次连续可微。 4. 动态规划比穷举法的计算量是少了不少,但对复杂问题(状态变量和控制变量的数目多,级数多),它的计算量和存储量仍旧非常大,有时用一般计算机也解决不了。这种情况称为“维数灾”。 (6-4) 取最大,其中满足约束 (6-5) (6-6) 写成数学形式,即要使 上面的问题可以用动态规划求解。为了说明问题简单起见,这里只考虑单资源分配问题,即如何将一种资源分配给 种产品,使总收益最大。设这种资源的总数为 ,分配给第 种产品的数量为 ,则性能指标为 (6-7) 取最大,约束条件是 (6-8) 为了用动态规划求解,引进一个函数 ,它表示将资源量 分配给第1至第 种产品时所能得到的最大收益。显然 表示将总资源 分配到所有 种产品上所得到的最大收益,即 (6-9) 容易看出,函数 有下列性质 即没有资源投入时收益为零。 这表明将资源量只用于生产一种产品时的总收益,就是这种产品本身收益。 即不生产产品时收益为零。 这些性质构成了以后解题的边界的条件。 现在来推导 所应满足的关系式。已知投入前 种产品的资源量为 。如果投入第 种产品的资源量为 ,则投入前( )种产品的资源量为 。 如果把 种产品的资源分配看成是 步决策,则 表示 步决策的指标最优值, 表示用决策量 时第 步的指标值, 表示余下 步决策的指标最优值,根据最优性原理(对照(6-2)式),则有 (6-10) 这表明若 在第1至 种产品上的最优分配为 ,则 一定是资源量 在前 -1种产品上的最优分配。 例1-1 假定某一种资源的量有四个单元(如重量单元千克,体积单元公升等),把它分配到三种产品的生产中,每种产品的收益函数 如下表所表示, 表示所分配的资源的单元数。问怎样分配资源才能使总收益最大? (投入资源单元数) 1 2 3 4 (第一种产品增益) 8 18 22 24 (第二种产品增益) 3 6 9 12 (第三种产品增益) 6 7 8 10 解 由边界条件知 。现在虑 , 它表示用1个单元资源分配到2个产品上的最大收益。 表示投入第2个产品的资源,则 可取值1或0,对应地将有下表。 第一产品收益 第二产品收益 1 0 0 1 根据(6-10)式可得 表示用2个单元的资源分配到2个产品上,显然 可取值2、1、0。类似地
文档评论(0)