动态规划原理及应用.docVIP

下载本文档

124
0
约6.17千字
约 10页
2018-06-27 发布于福建
举报
版权申诉

动态规划原理及应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

动态规划原理及应用

动态规划的原理及应用动态规划是运筹学的一个分支，是求解多阶段决策过程的最优化数学方法。20世纪50年代初美国数学家R.E.Bellman等人在研究多阶段决策过程的优化问题时，提出了著名的最优化原理，把多阶段过程转化为一系列单阶段问题，逐个求解，创立了解决这类问题的新方法——动态规划。动态规划主要用于以时间划分阶段的动态过程优化问题，但一些与时间无关的静态规划如线性规划或非线性规划，人为引进时间因素后，把它们看成多阶段过程，也可用动态规划求解。动态规划的基本理论一．动态规划的术语在研究现实的系统时，我们必须将系统具体的术语抽象为数学统一的术语。在此先简要介绍动态规划中的常用术语。级：我们把系统顺序地向前发展划分为若干个阶段，称这些阶段为“级”。在离散动态规划中，“级”顺序的用自然整数编号，即1，2，…，n. 状态（λ）：用来描述、刻画级的特征。状态可以是单变量，也可以时向量。在此，我们假设研究的状态具有“无记忆性”，即当前与未来的收益仅决定于当前的状态，并不依赖于过去的状态和决策的历史。状态空间（Λ）：由全部系统可能存在的状态变量所组成。决策：在每一级，当状态给定后，往往可以做出不同的决定，从而确定下一级的状态，这种决定称为决策。描述决策的变量称为决策变量。对每个状态λ∈Λ，有一非空集X(λ)称为λ的决策集。决策变量x(λ)∈X（λ）。变换：若过程在状态λ，选择决策x(λ)，可确定一个状态集T（λ，x(λ)）,过程将从λ移动到其中某个状态.T(λ,x(λ))称为变换函数，它确定过程从一个状态到另一个状态的演变。T（λ,x(λ)）可分为两种类型，即确定型和不确定型。确定型的T（λ,x(λ)）只含有一个元。不确定型指我们不能确切知道决策的结果，但作为某已知概率分布支配的变换结果，在每级状态和决策是确定的。这时，集函数T（λ,x(λ)）将包含多个元素。当T（λ,x(λ)）=0 时，过程终止。策略：顺序排列的决策集，记为v。所有可能的策略集构成策略空间Γ。收益：评价给定策略的目标函数r(λ，v)，它依赖于状态和策略。总收益是集收益s(λ,v)的某个组合（通常为集收益之和）。若T（λ,x(λ)）=0，则r(λ1，v1)= s(λ1,v1)；若T（λ,x(λ)）= λ2，则r(λ1，v)= s(λ1,v1)+ r(λ1，v2)。二．序贯决策过程动态规划的寻优过程可以有正序、逆序两种方式。当初始状态给定时，用逆序方式比较好，当终止状态给定时，用正序方式较好。采用分级的序贯决策方法，把一个含有n个变量的问题转化为求解n个单变量问题。为了应用最优化原理，必须满足分级条件，即目标函数可分性和状态可分性。目标函数可分性： = （λj, vj ）状态可分性：即在n+1 级做决策x(n+1) 后，状态λ(n+1)仅取决于λ(n)和x(n+1) ，而与以前的状态无关。也就是系统的无记忆性。三．最优性定理和基本方程 Bellman的最优性原理指出：不管该最优策略上某状态以前的状态和决策如何，对该状态而言,余下的诸决策必构成最优子策略.由此得出最优性定理：策略v(1,n)=( λ1, λ2,…, λn)是最优子策略的充分必要条件是：对任一k(1kn),当初状态为x1时,有 r(λ1,v*(1,n))=min r(λ1,v(1,n)) =min [r(λ1,v(1,k-1))+v(λk,v(k,n))] 因此，在策略集V（1,n）上求最优解，就等价于先在子策略集V（k,n）上求最优解，然后再求这些子最优解在子策略空间V（1,k-1）上的最优解。逆序递推的基本方程： r*(λk) = min [r(λk,vk)+r*(λk+1)] 终端条件：r*(λn+1) = 0 式中： λk+1 = T(λk, vk) 顺序递推的基本方程： r*(λk+1) = min [r(λk+1,vk)+r*(λk)] 始端条件：r*(λ1) = 0 式中： λk+1 = T(λk, vk) 动态规划的应用举例用动态规划求解实际问题，首先要建立动态规划模型，需进行以下几方面工作：正确划分阶段及选择阶段变量k。正确选择状态变量λk，状态变量应满足以下两个条件：能正确描述受控过程的演变特征。无后效性正确选择决策变量及确定个级允许决策集合。写出状态转移方程（以逆序为例） λk+1 = T(λk, vk) 确定阶段目标函数的形式，目标函数必须具有可分性，并满足递推关系。写出基本方程即最优值函数满足的递推方程及端点条件（以逆序极小化为例）： r*(λk) = min [r(λk,vk)+r*(λk+1)] 终端条件：r*(λn+1) = 0 例最短路径问