chapter6_动态规划.ppt

下载文档 降价啦

27
0
约7.99千字
约 70页
2017-08-06 发布于浙江
举报
版权申诉
保障服务

chapter6_动态规划.ppt

1、本文档共70页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

chapter6_动态规划

用动态规划求解的结果已在上节中得到，现在归纳一下：在动态规划中协态变量满足哈密顿—雅可比—贝尔曼方程（6-28）本身说明了哈密顿函数在最优控制上取极值的条件，故等同于上面极小值原理所得的条件5，不过（6-28）还多给出了一点信息，即。下面由动态规划法来推出协态方程。由（6-27）因假设对两次连续可微，因此上式成立，且可交换求导次序，得即协态方程（6-32）（因都是最优解条件。故省去*号）。由（6-22）和（6-27）再来推横截条件即横截条件（6-34）。其它条件如状态方程和初始条件都是给定的。故由动态规划推出了极小值原理的全部条件。应该强调，这不是说用动态规划可证明极小值原理。因为上面的推演要求，二次连续可微，而极小值原理的证明本身不需要这一条件。 6.7 小结 1. 动态规划是把多级决策问题化为多个单级决策问题来求解的，而单级问题比多级问题容易处理得多。这种把一个复杂的特定问题化为（又可称为嵌入）一系列性质相似的易于求解的问题的做法称为“不变嵌入”法。 2. 动态规划的基础是最优性原理。这个原理告诉我们：在多级最优决策中，不管初始状态是什么，余下的决策对此状态必定构成最优决策。根据这个原理，动态规划解决多级决策问题（包括离散系统最优控制）是从最后一级开始倒向计算的。 3. 连续系统的动态规划可导出哈密顿——雅可比——贝尔曼方程，这个方程一般只能有数值解。从它可推演出极小值原理，不过要假定 , 二次连续可微。 4. 动态规划比穷举法的计算量是少了不少，但对复杂问题（状态变量和控制变量的数目多，级数多），它的计算量和存储量仍旧非常大，有时用一般计算机也解决不了。这种情况称为“维数灾”。（6-4）取最大，其中满足约束（6-5）（6-6）写成数学形式，即要使上面的问题可以用动态规划求解。为了说明问题简单起见，这里只考虑单资源分配问题，即如何将一种资源分配给种产品，使总收益最大。设这种资源的总数为，分配给第种产品的数量为，则性能指标为（6-7）取最大，约束条件是（6-8）为了用动态规划求解，引进一个函数，它表示将资源量分配给第1至第种产品时所能得到的最大收益。显然表示将总资源分配到所有种产品上所得到的最大收益，即（6-9）容易看出，函数有下列性质即没有资源投入时收益为零。这表明将资源量只用于生产一种产品时的总收益，就是这种产品本身收益。即不生产产品时收益为零。这些性质构成了以后解题的边界的条件。现在来推导所应满足的关系式。已知投入前种产品的资源量为。如果投入第种产品的资源量为，则投入前（）种产品的资源量为。如果把种产品的资源分配看成是步决策，则表示步决策的指标最优值，表示用决策量时第步的指标值，表示余下步决策的指标最优值，根据最优性原理（对照（6-2）式），则有（6-10）这表明若在第1至种产品上的最优分配为，则一定是资源量在前 -1种产品上的最优分配。例1-1 假定某一种资源的量有四个单元（如重量单元千克，体积单元公升等），把它分配到三种产品的生产中，每种产品的收益函数如下表所表示，表示所分配的资源的单元数。问怎样分配资源才能使总收益最大？（投入资源单元数） 1 2 3 4 （第一种产品增益） 8 18 22 24 （第二种产品增益） 3 6 9 12 （第三种产品增益） 6 7 8 10 解由边界条件知。现在虑，它表示用1个单元资源分配到2个产品上的最大收益。表示投入第2个产品的资源，则可取值1或0，对应地将有下表。第一产品收益第二产品收益 1 0 0 1 根据（6-10）式可得表示用2个单元的资源分配到2个产品上，显然可取值2、1、0。类似地