第8章动态规划.ppt

下载文档

0
0
约4.35千字
约 40页
2024-10-09 发布于四川
举报
版权申诉
保障服务

第8章动态规划.ppt

1、本文档共40页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第8章动态规划多阶段决策问题动态规划的基本概念和最优化原理离散确定性动态规划问题的求解一般数学规划问题的动态规划解法1.多阶段决策问题所谓多阶段决策问题是指决策过程可以分为若干个互相联系的阶段，在每一阶段分别对应着一组可以选取的决策，当每个阶段的决策选定之后，过程也就随之确定。把各个阶段的决策综合起来，构成一个决策序列，称为策略。不同策略带来不同的效果。多阶段决策问题就是要在所有可能采取的策略中间选取一个最优策略，使在预定的标准下取得最好的效果。2.动态规划的基本概念阶段：通常按照所需决策的情况来进行阶段划分，需要做几次决策划分成几个阶段。描述阶段的变量称为阶段变量，常用k表示。状态：每个阶段开始都具有一些与该阶段有关的状态，它反映了前面各个阶段决策的结果，又是当前阶段决策的出发点。通常利用状态变量s来描述。第k阶段的状态变量包含了该阶段之前决策过程的全部信息，做到从该阶段后作出的决策同之前的状态和决策无关，即无后效性。决策：某阶段初从给定的状态出发，决策者需要从若干不同的方案中作出选择。决策变量表示第k阶段初状态为时所作决策。决策变量的取值往往受到某些限制，用表示第k阶段初状态为时决策的取值范围，显然有。策略：动态规划问题各阶段决策构成的序列称为策略。具有n个阶段的动态规划问题的策略可表示为：子策略：从中间阶段开始到过程结束的决策构成的序列称为子策略。从第k阶段起的子策略可表示为状态转移方程（状态转移律）：状态转移方程用于确定从上一阶段的某个状态到下一阶段某个状态的转移过程。若给定第k阶段状态变量的取值，以及该阶段决策变量的取值，那么第k+1阶段状态变量的值也就随之确定。利用函数关系来表示，记为指标函数：用来衡量某阶段或者策略优劣的数量指标，称为指标函数。可分为阶段指标函数和过程指标函数。阶段指标函数：用来度量从某阶段的状态出发采取的单阶段决策的优劣，可用表示。过程指标函数：用于度量策略或者子策略的优劣，常用表示，即从第k阶段状态出发的子策略的优劣度量值：过程指标函数可以表示成各阶段指标函数的函数。常见的形式如下：美国数学家RichardE.Bellman的最优化原理：作为整个过程的最优策略具有这样的性质，无论过去的状态和决策如何，对于先前决策所形成的状态而言，余下的诸决策必构成最优策略。根据这个原理给出求解动态规划问题的常用递推关系式称为动态规划的基本方程。*【例】最短路线问题。设有一个旅行者从A点出发，途中要经过B、C、D等处，最后达到终点E。从A到E有很多条路线可以选择，各点之间的距离如图中所示，问该旅行者应选择哪一条路线，使从A到达E的总路程为最短。AB1B2B3C1C2C3D1D2E25375632451514633334AB1B2B3C1C2C3D1D2E25375632451514633334（1）如果处在状态D1，则该阶段的最优决策必然为D1→E：距离；而。如果处在状态D2，则该阶段的最优决策必然为D2→E：距离；而。AB1B2B3C1C2C3D1D2E25375632451514633334（2）如果处在状态C1，需要在C1→D1和C1→D2两条路中选择：应该选择C1→D1，即从C1到E的最短路线为C1→D1→E。AB1B2B3C1C2C3D1D2E25375632451514633334（2）如果处在状态C2，需要在C2→D1和C2→D2两条路中选择：应该选择C2→D2，即从C2到E的最短路线为C2→D2→E。AB1B2B3C1C2C3D1D2E25375632451514633334（2）如果处在状态C3，需要在C3→D1和C3→D2两条路中选择：应该选择C3→D1，即从C3到E的最短路线为C3→D1→E。AB1B2B3C1C2C3D