第11章-动态规划.doc免费

下载文档

0
0
约6.39千字
约 4页
2020-11-20 发布于云南
举报
版权申诉
保障服务

第11章-动态规划.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE / NUMPAGES 第11章动态规划一个随事件或阶段推移的系统叫做动态系统,动态规划是解决多阶段决策过程最优化的一种数学方法。一个系统依据某种方式分为许多个不同的阶段,这些阶段不仅有着次序推移性,而且相互间有着依赖和影响。这样,在多阶段决策过程中,每个阶段决策的选择,不仅要依据次序来考查某阶段的效果,而且要顾及此决策对以后各阶段决策的影响。一般情况下,为得到整个系统的最优选择,必须放弃对某个阶段来说最佳的决策。对各个阶段所做的决策形成确定整个系统的决策序列,称这样的决策序列为系统的一个策略。对应某一确定的策略,整个系统依据某种数量指标衡量其决策的优劣。多阶段决策过程就是在所有允许策略集合中。确定一个达到最有指标的最优策略。这种衡量系统的指标一般取最大值或最小值的策略。因此,多阶段决策过程也是一个可以构成多个变量的最优化问题。动态规划就是解决此类多阶段决策过程的最优化方法。虽然动态规划主要解决多阶段决策的动态系统,但是可分阶段的静态系统问题也能作为特例用它有效地求解。 §11.1 动态规划的基本原理本章通过构造数学模型,形成具有特殊的动态系统过程,将基于某种方式把整个过程分成若干个互相联系的阶段,在其每个阶段都需要作出决策,从而使整个过程达到最佳效果。同时,各个阶段决策的选择依赖于该阶段的状态以及前阶段或后阶段的变化。各个阶段决策确定后,组成一个决策序列,从而形成了整个过程具有前后关联的链状结构的多阶段决策过程,称为序贯决策过程。先用下面的最短路问题（问题可分成阶段性）来说明动态规划的基本思想。例 1,最短路问题。图11—1所示是一个路线网络图,连线上的数字表示两点之间的距离（或费用）,要求寻找一条由A到E的路线,使距离最短（或费用最省）。对于这样的一个比较简单的问题,可直接使用枚举法例举所有从A到E得路线,确定出所应走的路线是距离最短或费用最少,用动态规划的思想,如果已找到由A到E得最短路线是A—B1—C2—D2—E（记作L）,那么当寻求L中的任何一点（如C2）到E得最短路时,它必然是L子路线 C2—D2—E(记作L1)。否则,如D2到E的最短路是另一条路线L2,则把A—B1—C2与L2连接起来,就会得到一条不同于L的从A到E得最短路,根据最短路的这一特性,可以从最后一段开始,用逐步向前递推的方法,一次求出路段上各点到E的最短路,最后得到A到E得最短路。上述这种由系统的最后阶段逐段向初始阶段求最优的过程称为动态规划的解法。该过程揭示了动态规划的基础思想,为便于对动态规划的思想和方法进行数学描述,下面先引入动态规划的基本概念并建立最优目标函数。（1）分阶段：适当地依据具体情况将系统分成若干个相互联系的阶段,并将各个段按顺序或逆序加以编号（常用K）,描述阶段的变量称为阶段变量。如例1可分为5个阶段,k=1,2,3,4,5. （2）状态：状态表示系统在某一阶段所处的位置。描述过程状态的变量称为状态变量,第k阶段的状态变量常用sk表示,状态变量的集合用Sk表示。如在例1中,第一阶段有一个状态就是初始位置A,第三阶段有3个状态,即集合S3=. (3)决策：当系统处于某一阶段的某个状态时,可以作出不同的决定（或选择）,从而确定下一阶段的状态,这种决定称为决策。如在例1第二阶段中,从状态B2出发,其允许决策集合为D2（B2）= (4)策略：由系统各阶段确定的决策所形成的决策序列称为策略。从初始状态s1出发,由系统的所有n个阶段的决策所形成的策略成为全过程策略,从允许策略集合中找出达到最有效果的策略称为最优策略。（5）状态转移方程：状态转移方程是确定过程有一个状态到另一个状态的演变过程。若给定第k阶段状态的演变过程,并且若该阶段的决策变量dk一经确定,第k+1阶段的状态变量sk+1也就完全确定。如例1中,状态转移方程为 sk+1=dk(sk). （6）阶段收益：若确定某一阶段的系统状态,执行某一阶段决策所得的效益称为阶段效益,他是整个系统总收益的一部分。阶段效益是阶段状态和决策变量的函数。如在例1中阶段效益为走完一段路程所走过的距离。（7）指标函数和最优值函数：系统执行某策略所产生效果的优劣可用数学指标来衡量,它是各个阶段状态和决策的函数,称为指数函数。（8）边值条件：在系统决策的状态推移进程中最初的条件称为边值条件。由系统的最后阶段逐段向初始阶段求最优的过程称为速推解法,由系统的最前阶段逐段向终结阶段求最优的过程称为顺序推解法。如例1显然有边值条件： fn+1(sn+1)=0. 根据上述确定的阶段编号。状态变量、决策变量、状态转移方程、边值条件及指标函数。确定例1的最短路线,