- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
动态规划原理及应用
动态规划的原理及应用
动态规划是运筹学的一个分支,是求解多阶段决策过程的最优化数学方法。20世纪50年代初美国数学家R.E.Bellman等人在研究多阶段决策过程的优化问题时,提出了著名的最优化原理,把多阶段过程转化为一系列单阶段问题,逐个求解,创立了解决这类问题的新方法——动态规划。
动态规划主要用于以时间划分阶段的动态过程优化问题,但一些与时间无关的静态规划如线性规划或非线性规划,人为引进时间因素后,把它们看成多阶段过程,也可用动态规划求解。
动态规划的基本理论
一.动态规划的术语
在研究现实的系统时,我们必须将系统具体的术语抽象为数学统一的术语。在此先简要介绍动态规划中的常用术语。
级:我们把系统顺序地向前发展划分为若干个阶段,称这些阶段为“级”。在离散动态规划中,“级”顺序的用自然整数编号,即1,2,…,n.
状态(λ):用来描述、刻画级的特征。状态可以是单变量,也可以时向量。在此,我们假设研究的状态具有“无记忆性”,即当前与未来的收益仅决定于当前的状态,并不依赖于过去的状态和决策的历史。
状态空间(Λ):由全部系统可能存在的状态变量所组成。
决策:在每一级,当状态给定后,往往可以做出不同的决定,从而确定下一级的状态,这种决定称为决策。描述决策的变量称为决策变量。对每个状态λ∈Λ,有一非空集X(λ)称为λ的决策集。决策变量x(λ)∈X(λ)。
变换:若过程在状态λ,选择决策x(λ),可确定一个状态集T(λ,x(λ)),过程将从λ移动到其中某个状态.T(λ,x(λ))称为变换函数,它确定过程从一个状态到另一个状态的演变。T(λ,x(λ))可分为两种类型,即确定型和不确定型。确定型的T(λ,x(λ))只含有一个元。不确定型指我们不能确切知道决策的结果,但作为某已知概率分布支配的变换结果,在每级状态和决策是确定的。这时,集函数T(λ,x(λ))将包含多个元素。当T(λ,x(λ))=0 时,过程终止。
策略:顺序排列的决策集,记为v。所有可能的策略集构成策略空间Γ。
收益:评价给定策略的目标函数r(λ,v),它依赖于状态和策略。总收益是集收益s(λ,v)的某个组合(通常为集收益之和)。若T(λ,x(λ))=0,则r(λ1,v1)= s(λ1,v1);若T(λ,x(λ))= λ2,则r(λ1,v)= s(λ1,v1)+ r(λ1,v2)。
二.序贯决策过程
动态规划的寻优过程可以有正序、逆序两种方式。当初始状态给定时,用逆序方式比较好,当终止状态给定时,用正序方式较好。
采用分级的序贯决策方法,把一个含有n个变量的问题转化为求解n个单变量问题。为了应用最优化原理,必须满足分级条件,即目标函数可分性和状态可分性。
目标函数可分性:
= (λj, vj )
状态可分性:即在n+1 级做决策x(n+1) 后,状态λ(n+1)仅取决于λ(n)和x(n+1) ,而与以前的状态无关。也就是系统的无记忆性。
三.最优性定理和基本方程
Bellman的最优性原理指出:不管该最优策略上某状态以前的状态和决策如何,对该状态而言,余下的诸决策必构成最优子策略.由此得出最优性定理:
策略v(1,n)=( λ1, λ2,…, λn)是最优子策略的充分必要条件是:对任一k(1kn),当初状态为x1时,有
r(λ1,v*(1,n))=min r(λ1,v(1,n))
=min [r(λ1,v(1,k-1))+v(λk,v(k,n))]
因此,在策略集V(1,n)上求最优解,就等价于先在子策略集V(k,n)上求最优解,然后再求这些子最优解在子策略空间V(1,k-1)上的最优解。
逆序递推的基本方程:
r*(λk) = min [r(λk,vk)+r*(λk+1)] 终端条件:r*(λn+1) = 0
式中: λk+1 = T(λk, vk)
顺序递推的基本方程:
r*(λk+1) = min [r(λk+1,vk)+r*(λk)] 始端条件:r*(λ1) = 0
式中: λk+1 = T(λk, vk)
动态规划的应用举例
用动态规划求解实际问题,首先要建立动态规划模型,需进行以下几方面工作:
正确划分阶段及选择阶段变量k。
正确选择状态变量λk,状态变量应满足以下两个条件:
能正确描述受控过程的演变特征。
无后效性
正确选择决策变量及确定个级允许决策集合。
写出状态转移方程(以逆序为例)
λk+1 = T(λk, vk)
确定阶段目标函数的形式,目标函数必须具有可分性,并满足递推关系。
写出基本方程即最优值函数满足的递推方程及端点条件(以逆序极小化为例):
r*(λk) = min [r(λk,vk)+r*(λk+1)] 终端条件:r*(λn+1) = 0
例 最短路径问
您可能关注的文档
最近下载
- 清洁生产 教学课件 作者 曲向荣_ 清洁生产概述第2章.PPT VIP
- 中职教育一年级上学期英语《We Are Friends》课件.pptx
- 陕西师范大学-《幼儿园游戏》(高起专)考评作业-含答案.pdf VIP
- 佛光寺东大殿实测数据解读.pdf VIP
- 清洁生产 教学课件 作者 曲向荣清洁生产第3章.PPT VIP
- 物理校本课程《生活中的物理》教学计划.doc VIP
- 清洁生产 教学课件 作者 曲向荣清洁生产的法律法规和政策第5章.PPT VIP
- 学校关于成立教育事业统计工作领导小组的通知.docx VIP
- 清洁生产 教学课件 作者 曲向荣清洁生产第1章.pptx VIP
- 《模拟电路与数字电路》ch04放大电路中的反馈.pptx VIP
原创力文档


文档评论(0)