第七章动态规划预案.ppt

下载文档 降价啦

0
0
约5.62千字
约 28页
2017-04-14 发布于湖北
举报
版权申诉
保障服务

第七章动态规划预案.ppt

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第七章动态规划动态规划是解决多阶段决策过程最优化问题的一种方法，它将多阶段决策问题转化成一系列比较简单的最优化问题．动态规划首先将复杂的问题分解才相互关联的若干阶段，每一个阶段都是一个最优化子问题，然后逐阶段的决策，当所有阶段决策都确定了，整个问题的决策也就确定了．动态规划中阶段可以用时间表示，这就是“动态”的含义．当然，对于与时间无关的一些静态问题也可以人为地引入“时间”转化成动态问题． §7.1 动态规划基本原理一、动态规划的基本概念动态规划中所涉及到的概念有阶段、状态、决策与策略、状态转移、指标函数． (1)阶段将所给问题的过程，按时间或空间特征分解成若干互相联系的阶段，以便按顺序去求每阶段的解，常用字母k表示阶段变量． (2)状态各阶段开始时的客观条件叫做状态．描述各阶段状态的变量称为状态变量，常用sk表示第k阶段的状态变量，状态变量sk的取值集合称为状态集合，用Sk表示．动态规划中的状态必须具有无后效性，即当某阶段状态给定以后，在这阶段以后过程的发展不受这段以前各段状态的影响．也就是说，当前的状态是过去历史的一个完整总结，过程的过去历史只能通过当前状态去影响它未来的发展． (3)决策和策略当各段的状态取定以后，就可以作出不同的决定(或选择)，从而确定下一阶段的状态，这种决定称为决策．表示决策的变量，称为决策变量，常用uk(sk)表示第k阶段当状态为sk时的决策变量．在实际问题中，决策变量的取值往往限制在一定范围内，称此范围为允许决策集合，常用Dk(sk)表示第k阶段从状态sk出发的允许决策集合，即uk(sk)∈Dk(sk)．一个按顺序排列的决策组成的集合称为策略．一个n阶段决策过程，从第k阶段到第n阶段的过程称为问题的一个后部子过程，或k子过程．由k子过程的每一阶段的决策按顺序排列组成的策略序列称为k子策略，记为pk，n(sk)，即 pk，n(sk)={ uk(sk)， uk+1(sk+1)， uk+2 (sk+2)，…，un(sn)}．当k=1时，p1，n(s1)就是全过程的一个策略．对每个实际问题，其k子过程可供选择的策略有一定范围，称为允许策略集合，记作Pk，n，使整个问题达到最优效果的策略就是最优策略． (4)状态转移方程动态规划中本阶段的状态往往是上一阶段状态和上一阶段的决策结果．如果给定了第k阶段的状态sk，本阶段决策为uk，则第k+l阶段的状态sk+1也就完全确定，它们的关系可用公式 sk+l＝Tk(sk，uk) 表示．该公式表示了由第k阶段到第k+l阶段的状态转移规律，所以称为状态转移方程． (5)指标函数用于衡量所选定策略优劣的数量指标称为指标函数，它是定义在全过程或则子过程上的数量函数，是各阶段的状态和决策变量的函数．它分为阶段指标函数和过程指标函数两种．阶段指标函数是指第k阶段状态sk采取决策uk时的效益，用dk (sk，uk)表示．过程指标函数指在第k阶段状态为sk采用策略pk，n时，后部子过程的收益，用Vk，n(sk，pk，n)表示．Vk，n(sk，pk，n)与dk(sk，uk)之间的关系常见的有求和型和乘积型两种：或．最优指标函数表示从第k阶段状态sk采用最优策略到过程终止时的最佳效益值，记为fk(sk)．fk(sk)与Vk，n(sk，pk，n)间的关系为式中opt表示最优化，根据具体问题表示为max或min．当k=1时，f1(s1)就是从初始状态s1到全过程结束的整体最优函数．二、动态规划的基本方程动态规划方法基于贝尔曼(R.Bellman)提出的最优化原理：一个过程的最优策略具有这种性质，即不管先前的状态和决策如何，余下的所有决策必构成的最优子策略．最优性原理是动态规划理论的核心．这个原理说明，最优策略的任一后部子策略也是最优的．根据这个原理，在求解多阶段决策问题时，前面的各状态和决策，对其后面的子问题来说，只不过相当于其初始条件而已，并不影响后面过程的最优决策．因此，可以把多阶段决策问题求解过程表示成一个连续的递推过程，由后向前逐步计算．这要利用第k阶段与第k+1阶段之间的关系，通常如下：